近日,谷歌DeepMind推出GameNGen,是全球首个完全由神经网络驱动的游戏引擎,实现了AI实时生成游戏画面的突破。
研究人员展示了它实时生成经典射击游戏【毁灭战士】中的应用,这一系统以每秒20帧的速度生成游戏画面,完全无需传统游戏引擎的支持。
射击画面:
捡新道具:
探索与任务提示:
根据操作调整血量与弹药:
GameNGen的核心在于其使用的扩散模型,能够实时预测并生成每一帧画面。该系统在谷歌的单个张量处理单元(TPU)上运行,高效处理复杂的3D环境和快节奏的动作,画质与原始游戏相当。
这一成就代表着AI技术的飞跃,不仅能够模拟复杂的视频游戏,还能够实现与环境的高质量长轨迹实时交互。实验中,GameNGen生成的画面质量达到峰值信噪比29.4,媲美有损JPEG压缩,人类评估者难以分辨模拟与真实游戏画面的差异。
此外,GameNGen的应用前景令人激动。利用它开发者将无需手动编程游戏逻辑,开发时间和成本将大幅降低。AI将不仅仅是游戏的玩家,还将成为游戏的创造者和驱动者。谷歌研究者认为,未来所有游戏的每一个像素都可能由AI生成,而非传统渲染。
然而,尽管GameNGen获得了广泛赞誉,也有声音质疑其实际应用性。有评论指出,这项研究虽令人惊叹,但在目前阶段仍难以直接应用于实际开发。这并未削弱GameNGen的重要性,反而凸显了它作为构建虚拟世界基础的潜力,未来可能会改变整个游戏行业的开发方式。
随着GameNGen的发布,AI在游戏领域的创新正在加速。全球游戏产业或将迎来一场彻底的变革,AI生成的3A游戏大作或许已不再遥远。
GameNGen的研究方法
GameNGen的研发过程分为两个阶段:
首先,训练一个强化学习智能体(Agent)玩游戏,并记录所有的游戏动作和观察数据;
其次,利用这些数据训练生成式扩散模型,使其能够实时生成下一帧游戏画面。
在第一阶段,研究人员设计了一个基于环境的奖励函数,通过捕捉玩家在【毁灭战士】中的动作,如击败敌人、捡起物品或武器、生命值变化等,来指导智能体的学习。这些记录的数据成为生成模型训练的基础。
第二阶段,研究人员使用了Stable Diffusion v1.4作为基础模型,并进行了关键修改。首先,他们移除了文本条件,将玩家的动作序列编码为token,并通过交叉注意力机制与模型交互。历史观察数据则被编码到潜在空间中,并与当前的噪声化潜在表示结合。
为了应对自回归生成过程中的误差累积问题,GameNGen引入了噪声增强技术。在训练时,模型会向输入的上下文帧添加不同程度的高斯噪声,并将噪声级别作为额外输入提供给模型。这使模型学会纠正前一帧的错误,从而在长轨迹生成过程中维持高质量的图像输出。
此外,为了提高生成画面的细节质量,特别是在HUD(平视显示器)部分,研究人员对Stable Diffusion的预训练自动编码器进行了微调。通过MSE损失函数优化目标帧像素,这一微调过程显著改善了图像细节的表现,解决了在生成过程中出现的伪影问题。
GameNGen在推理阶段使用了DDIM采样方法,并采用了无分类器引导技术来提升生成速度和质量。研究表明,模型仅使用4步DDIM采样就能产生高质量的画面,这极大地提高了实时生成的效率。
在硬件方面,GameNGen在谷歌的TPU-v5上运行。每个去噪步骤和自动编码器评估各需要10毫秒,结合4步采样后,系统能够实现每秒20帧的实时交互式游戏体验。这意味着玩家可以在无需传统游戏引擎的情况下,实时操作【毁灭战士】,并体验与原始游戏相当的视觉质量。
GameNGen实验结果
GameNGen的实验结果显示,该系统在长轨迹生成中,达到了与原始游戏相当的图像质量。图像质量评估表明,模型生成的画面与真实游戏画面非常接近。
在视频质量方面,实验中模拟的轨迹在内容和视觉表现上与实际游戏极为相似。研究者通过比较图像和视频,对GameNGen的生成能力进行了全面评估,结果显示其输出与原始游戏的差异微乎其微。
在人类评估中,研究者向10位评分员展示了130个由GameNGen生成的短片,并将其与真实游戏片段进行并列播放。尽管评估者识别出真实游戏的比例略高于模拟结果,但分别仅为58%和60%,表明模拟质量足以「以假乱真」。
此外,研究还报告了在不同自回归步骤中的平均指标值,验证了噪声增强技术对图像质量的积极影响。通过这些实验,GameNGen展示了其在生成逼真游戏画面上的卓越表现。
结语
GameNGen的问世,标志着视频游戏进入了一个全新的范式。在这个范式中,游戏不再依赖传统代码,而是由神经网络的「权重」驱动生成。这一突破表明,每个像素都可能是实时生成的,而非渲染的。
这项技术不仅影响游戏,还为其他领域带来变革潜力。比如,自动驾驶汽车需要模拟无数驾驶场景,以确保安全驾驶;而GameNGen的高保真度和实时处理能力,正适合这些任务。此外,在虚拟现实和增强现实领域,AI引擎可以实时创建沉浸式世界,变革教育、医疗等行业。
然而,挑战依然存在。虽然GameNGen成功模拟了【毁灭战士】,但对于更高图形密集度的游戏,可能需要更大的算力。同时,要开发一个能运行多款游戏的通用AI引擎,依然面临艰巨任务。
尽管如此,GameNGen展示了未来游戏开发的可能性——游戏将从机器的创造力中诞生,而非代码行中。通过这一技术,人类创造力与机器智能之间的界限将越来越模糊,未来的虚拟体验将仅受限于AI的想象力。
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!