近日,谷歌DeepMind推出GameNGen,是全球首個完全由神經網絡驅動的遊戲引擎,實作了AI即時生成遊戲畫面的突破。
研究人員展示了它即時生成經典射擊遊戲【淪陷戰士】中的套用,這一系統以每秒20幀的速度生成遊戲畫面,完全無需傳統遊戲引擎的支持。
射擊畫面:
撿新道具:
探索與任務提示:
根據操作調整血量與彈藥:
GameNGen的核心在於其使用的擴散模型,能夠即時預測並生成每一幀畫面。該系統在谷歌的單個張量處理單元(TPU)上執行,高效處理復雜的3D環境和快節奏的動作,畫質與原始遊戲相當。
這一成就代表著AI技術的飛躍,不僅能夠模擬復雜的影片遊戲,還能夠實作與環境的高質素長軌跡即時互動。實驗中,GameNGen生成的畫面質素達到峰值訊噪比29.4,媲美失真JPEG壓縮,人類評估者難以分辨模擬與真實遊戲畫面的差異。
此外,GameNGen的套用前景令人激動。利用它開發者將無需手動編程遊戲邏輯,開發時間和成本將大幅降低。AI將不僅僅是遊戲的玩家,還將成為遊戲的創造者和驅動者。谷歌研究者認為,未來所有遊戲的每一個像素都可能由AI生成,而非傳統渲染。
然而,盡管GameNGen獲得了廣泛贊譽,也有聲音質疑其實際套用性。有評論指出,這項研究雖令人驚嘆,但在目前階段仍難以直接套用於實際開發。這並未削弱GameNGen的重要性,反而凸顯了它作為構建虛擬世界基礎的潛力,未來可能會改變整個遊戲行業的開發方式。
隨著GameNGen的釋出,AI在遊戲領域的創新正在加速。全球遊戲產業或將迎來一場徹底的變革,AI生成的3A遊戲大作或許已不再遙遠。
GameNGen的研究方法
GameNGen的研發過程分為兩個階段:
首先,訓練一個強化學習智能體(Agent)玩遊戲,並記錄所有的遊戲動作和觀察數據;
其次,利用這些數據訓練生成式擴散模型,使其能夠即時生成下一幀遊戲畫面。
在第一階段,研究人員設計了一個基於環境的獎勵函數,透過捕捉玩家在【淪陷戰士】中的動作,如擊敗敵人、撿起物品或武器、生命值變化等,來指導智能體的學習。這些記錄的數據成為生成模型訓練的基礎。
第二階段,研究人員使用了Stable Diffusion v1.4作為基礎模型,並進行了關鍵修改。首先,他們移除了文本條件,將玩家的動作序列編碼為token,並透過交叉註意力機制與模型互動。歷史觀察數據則被編碼到潛在空間中,並與當前的雜訊化潛在表示結合。
為了應對自回歸生成過程中的誤差累積問題,GameNGen引入了雜訊增強技術。在訓練時,模型會向輸入的上下文幀添加不同程度的高斯雜訊,並將雜訊級別作為額外輸入提供給模型。這使模型學會糾正前一幀的錯誤,從而在長軌跡生成過程中維持高質素的影像輸出。
此外,為了提高生成畫面的細節質素,特別是在HUD(平視顯視器)部份,研究人員對Stable Diffusion的預訓練自動編碼器進行了微調。透過MSE損失函數最佳化目標幀像素,這一微調過程顯著改善了影像細節的表現,解決了在生成過程中出現的偽影問題。
GameNGen在推理階段使用了DDIM采樣方法,並采用了無分類器引導技術來提升生成速度和質素。研究表明,模型僅使用4步DDIM采樣就能產生高質素的畫面,這極大地提高了即時生成的效率。
在硬件方面,GameNGen在谷歌的TPU-v5上執行。每個去噪步驟和自動編碼器評估各需要10毫秒,結合4步采樣後,系統能夠實作每秒20幀的即時互動式遊戲體驗。這意味著玩家可以在無需傳統遊戲引擎的情況下,即時操作【淪陷戰士】,並體驗與原始遊戲相當的視覺質素。
GameNGen實驗結果
GameNGen的實驗結果顯示,該系統在長軌跡生成中,達到了與原始遊戲相當的影像質素。影像質素評估表明,模型生成的畫面與真實遊戲畫面非常接近。
在影片質素方面,實驗中模擬的軌跡在內容和視覺表現上與實際遊戲極為相似。研究者透過比較影像和影片,對GameNGen的生成能力進行了全面評估,結果顯示其輸出與原始遊戲的差異微乎其微。
在人類評估中,研究者向10位評分員展示了130個由GameNGen生成的短片,並將其與真實遊戲片段進行並列播放。盡管評估者辨識出真實遊戲的比例略高於模擬結果,但分別僅為58%和60%,表明模擬質素足以「以假亂真」。
此外,研究還報告了在不同自回歸步驟中的平均指標值,驗證了雜訊增強技術對影像質素的積極影響。透過這些實驗,GameNGen展示了其在生成逼真遊戲畫面上的卓越表現。
結語
GameNGen的問世,標誌著影片遊戲進入了一個全新的範式。在這個範式中,遊戲不再依賴傳統程式碼,而是由神經網絡的「權重」驅動生成。這一突破表明,每個像素都可能是即時生成的,而非渲染的。
這項技術不僅影響遊戲,還為其他領域帶來變革潛力。比如,自動駕駛汽車需要模擬無數駕駛場景,以確保安全駕駛;而GameNGen的高保真度和即時處理能力,正適合這些任務。此外,在虛擬現實和增強現實領域,AI引擎可以即時建立沈浸式世界,變革教育、醫療等行業。
然而,挑戰依然存在。雖然GameNGen成功模擬了【淪陷戰士】,但對於更高圖形密集度的遊戲,可能需要更大的算力。同時,要開發一個能執行多款遊戲的通用AI引擎,依然面臨艱巨任務。
盡管如此,GameNGen展示了未來遊戲開發的可能性——遊戲將從機器的創造力中誕生,而非程式碼行中。透過這一技術,人類創造力與機器智能之間的界限將越來越模糊,未來的虛擬體驗將僅受限於AI的想象力。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關註我,以獲取更多關於人工智能的最新資訊和見解!