黃仁勛預言步入現實 谷歌展示即時遊戲生成AI模型GameNGen

2024-08-30科技

來源：財聯社

財聯社8月29日訊（編輯史正丞）由AI模型即時生成遊戲的時代，已經悄然來到了我們身邊。

本周來自谷歌公司和特拉維夫大學的研究人員發表了一篇名為【 Diffusion模型是即時遊戲引擎】的論文，介紹了電腦歷史上第一個完全由神經網絡模型支持的遊戲引擎GameNGen。

（來源：Github）

研究人員在論文中寫道：「今天，電子遊戲是由人類編程的，GameNGen是遊戲引擎新範式的部份概念驗證——遊戲將會變成神經模型的權重，而不是程式碼行。」

換一種更容易理解的說法，目前所有的電子遊戲都是預先設計好的，開發者需要編寫程式碼、準備遊戲文本和貼圖模型，然後放置在遊戲地圖上——遊戲畫面的渲染和狀態更新取決於手動編輯的規則。但GameNGen模型開啟了一個完全不同的思路：使用AI生成模型，根據玩家的動作和反應，即時演算和生成遊戲畫面。

在演示中，研究人員透過機器學習，讓GameNGen模型成功即時生成90時代的第一人稱射擊遊戲【淪陷戰士】。影片顯示，在AI生成的遊戲中，玩家可以在場景中轉彎、發射武器，同時能夠準確反映剩余的子彈數量、遭到攻擊後的剩余血量，以及是否滿足開啟下一個關卡所需的條件。

（來源：演示影片）

需要註意的是，上面看到的一系列畫面，完全是AI即時生成的影像。最新的進展也顯示，AI模型繼成功生成文字、影像、音訊和短影片後，可能存在生成遊戲場景的能力，這對邏輯性、連貫性和即時互動的要求明顯高出一大截。

他們是怎麽做到的？

研究團隊介紹稱，為了訓練這個能即時生成遊戲的AI，首先需要訓練一個強化學習（RL）代理來玩遊戲，然後使用錄制下來的片段來訓練生成擴散模型，根據過去的畫面和玩家動作來預測接下來的畫面，這也是為什麽AI生成的遊戲能夠展現生命值和彈藥的變化，以及敵人受到攻擊的動畫。

更大的挑戰在於讓AI生成的影像保持時間和邏輯上的連貫性。為了減輕推理過程中的自回歸漂移，研究人員在訓練期間透過向編碼幀添加高斯雜訊破壞上下文幀，允許AI更正前幾幀中采樣的資訊，從而長時間保持影像生成的穩定性。

（來源：研究論文）

研究人員披露，跑這個模型只需要單個TPU（谷歌自研AI處理器），就能實作每秒20幀的生成速度。

當然，上面這幾段話也展現出GameNGen的局限性：這個AI必須依靠輸入已有的遊戲（或文字、圖片等材料）來生成遊戲。

輝達高級研究經理&具身智能集團主管Jim Fan博士在社交媒體上評論稱， GameNGen更像是一個神經輻射場（NeRF），而不是一個影片生成模型。神經輻射場透過從不同角度拍攝場景的影像，從而生成場景的3D展示。但這也意味著模型不具備泛化能力，無法「想象」新的場景。這也是GameNGen與Sora的不同點：它無法生成新的場景或互動機制。