谷歌GameNGen：AI即時生成遊戲畫面，無需程式碼，深度變革遊戲行業

2024-08-30科技

近日，谷歌DeepMind推出GameNGen，是全球首個完全由神經網絡驅動的遊戲引擎，實作了AI即時生成遊戲畫面的突破。

研究人員展示了它即時生成經典射擊遊戲【淪陷戰士】中的套用，這一系統以每秒20幀的速度生成遊戲畫面，完全無需傳統遊戲引擎的支持。

射擊畫面：

撿新道具：

探索與任務提示：

根據操作調整血量與彈藥：

GameNGen的核心在於其使用的擴散模型，能夠即時預測並生成每一幀畫面。該系統在谷歌的單個張量處理單元（TPU）上執行，高效處理復雜的3D環境和快節奏的動作，畫質與原始遊戲相當。

這一成就代表著AI技術的飛躍，不僅能夠模擬復雜的影片遊戲，還能夠實作與環境的高質素長軌跡即時互動。實驗中，GameNGen生成的畫面質素達到峰值訊噪比29.4，媲美失真JPEG壓縮，人類評估者難以分辨模擬與真實遊戲畫面的差異。

此外，GameNGen的套用前景令人激動。利用它開發者將無需手動編程遊戲邏輯，開發時間和成本將大幅降低。AI將不僅僅是遊戲的玩家，還將成為遊戲的創造者和驅動者。谷歌研究者認為，未來所有遊戲的每一個像素都可能由AI生成，而非傳統渲染。

然而，盡管GameNGen獲得了廣泛贊譽，也有聲音質疑其實際套用性。有評論指出，這項研究雖令人驚嘆，但在目前階段仍難以直接套用於實際開發。這並未削弱GameNGen的重要性，反而凸顯了它作為構建虛擬世界基礎的潛力，未來可能會改變整個遊戲行業的開發方式。

隨著GameNGen的釋出，AI在遊戲領域的創新正在加速。全球遊戲產業或將迎來一場徹底的變革，AI生成的3A遊戲大作或許已不再遙遠。

GameNGen的研究方法

GameNGen的研發過程分為兩個階段：

首先，訓練一個強化學習智能體（Agent）玩遊戲，並記錄所有的遊戲動作和觀察數據；

其次，利用這些數據訓練生成式擴散模型，使其能夠即時生成下一幀遊戲畫面。

在第一階段，研究人員設計了一個基於環境的獎勵函數，透過捕捉玩家在【淪陷戰士】中的動作，如擊敗敵人、撿起物品或武器、生命值變化等，來指導智能體的學習。這些記錄的數據成為生成模型訓練的基礎。

第二階段，研究人員使用了Stable Diffusion v1.4作為基礎模型，並進行了關鍵修改。首先，他們移除了文本條件，將玩家的動作序列編碼為token，並透過交叉註意力機制與模型互動。歷史觀察數據則被編碼到潛在空間中，並與當前的雜訊化潛在表示結合。

為了應對自回歸生成過程中的誤差累積問題，GameNGen引入了雜訊增強技術。在訓練時，模型會向輸入的上下文幀添加不同程度的高斯雜訊，並將雜訊級別作為額外輸入提供給模型。這使模型學會糾正前一幀的錯誤，從而在長軌跡生成過程中維持高質素的影像輸出。

此外，為了提高生成畫面的細節質素，特別是在HUD（平視顯視器）部份，研究人員對Stable Diffusion的預訓練自動編碼器進行了微調。透過MSE損失函數最佳化目標幀像素，這一微調過程顯著改善了影像細節的表現，解決了在生成過程中出現的偽影問題。

GameNGen在推理階段使用了DDIM采樣方法，並采用了無分類器引導技術來提升生成速度和質素。研究表明，模型僅使用4步DDIM采樣就能產生高質素的畫面，這極大地提高了即時生成的效率。

在硬件方面，GameNGen在谷歌的TPU-v5上執行。每個去噪步驟和自動編碼器評估各需要10毫秒，結合4步采樣後，系統能夠實作每秒20幀的即時互動式遊戲體驗。這意味著玩家可以在無需傳統遊戲引擎的情況下，即時操作【淪陷戰士】，並體驗與原始遊戲相當的視覺質素。

GameNGen實驗結果

GameNGen的實驗結果顯示，該系統在長軌跡生成中，達到了與原始遊戲相當的影像質素。影像質素評估表明，模型生成的畫面與真實遊戲畫面非常接近。

在影片質素方面，實驗中模擬的軌跡在內容和視覺表現上與實際遊戲極為相似。研究者透過比較影像和影片，對GameNGen的生成能力進行了全面評估，結果顯示其輸出與原始遊戲的差異微乎其微。

在人類評估中，研究者向10位評分員展示了130個由GameNGen生成的短片，並將其與真實遊戲片段進行並列播放。盡管評估者辨識出真實遊戲的比例略高於模擬結果，但分別僅為58%和60%，表明模擬質素足以「以假亂真」。

此外，研究還報告了在不同自回歸步驟中的平均指標值，驗證了雜訊增強技術對影像質素的積極影響。透過這些實驗，GameNGen展示了其在生成逼真遊戲畫面上的卓越表現。

結語

GameNGen的問世，標誌著影片遊戲進入了一個全新的範式。在這個範式中，遊戲不再依賴傳統程式碼，而是由神經網絡的「權重」驅動生成。這一突破表明，每個像素都可能是即時生成的，而非渲染的。

這項技術不僅影響遊戲，還為其他領域帶來變革潛力。比如，自動駕駛汽車需要模擬無數駕駛場景，以確保安全駕駛；而GameNGen的高保真度和即時處理能力，正適合這些任務。此外，在虛擬現實和增強現實領域，AI引擎可以即時建立沈浸式世界，變革教育、醫療等行業。

然而，挑戰依然存在。雖然GameNGen成功模擬了【淪陷戰士】，但對於更高圖形密集度的遊戲，可能需要更大的算力。同時，要開發一個能執行多款遊戲的通用AI引擎，依然面臨艱巨任務。

盡管如此，GameNGen展示了未來遊戲開發的可能性——遊戲將從機器的創造力中誕生，而非程式碼行中。透過這一技術，人類創造力與機器智能之間的界限將越來越模糊，未來的虛擬體驗將僅受限於AI的想象力。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關註我，以獲取更多關於人工智能的最新資訊和見解！