谷歌GameNGen：AI实时生成游戏画面，无需代码，深度变革游戏行业

2024-08-30科技

近日，谷歌DeepMind推出GameNGen，是全球首个完全由神经网络驱动的游戏引擎，实现了AI实时生成游戏画面的突破。

研究人员展示了它实时生成经典射击游戏【毁灭战士】中的应用，这一系统以每秒20帧的速度生成游戏画面，完全无需传统游戏引擎的支持。

射击画面：

捡新道具：

探索与任务提示：

根据操作调整血量与弹药：

GameNGen的核心在于其使用的扩散模型，能够实时预测并生成每一帧画面。该系统在谷歌的单个张量处理单元（TPU）上运行，高效处理复杂的3D环境和快节奏的动作，画质与原始游戏相当。

这一成就代表着AI技术的飞跃，不仅能够模拟复杂的视频游戏，还能够实现与环境的高质量长轨迹实时交互。实验中，GameNGen生成的画面质量达到峰值信噪比29.4，媲美有损JPEG压缩，人类评估者难以分辨模拟与真实游戏画面的差异。

此外，GameNGen的应用前景令人激动。利用它开发者将无需手动编程游戏逻辑，开发时间和成本将大幅降低。AI将不仅仅是游戏的玩家，还将成为游戏的创造者和驱动者。谷歌研究者认为，未来所有游戏的每一个像素都可能由AI生成，而非传统渲染。

然而，尽管GameNGen获得了广泛赞誉，也有声音质疑其实际应用性。有评论指出，这项研究虽令人惊叹，但在目前阶段仍难以直接应用于实际开发。这并未削弱GameNGen的重要性，反而凸显了它作为构建虚拟世界基础的潜力，未来可能会改变整个游戏行业的开发方式。

随着GameNGen的发布，AI在游戏领域的创新正在加速。全球游戏产业或将迎来一场彻底的变革，AI生成的3A游戏大作或许已不再遥远。

GameNGen的研究方法

GameNGen的研发过程分为两个阶段：

首先，训练一个强化学习智能体（Agent）玩游戏，并记录所有的游戏动作和观察数据；

其次，利用这些数据训练生成式扩散模型，使其能够实时生成下一帧游戏画面。

在第一阶段，研究人员设计了一个基于环境的奖励函数，通过捕捉玩家在【毁灭战士】中的动作，如击败敌人、捡起物品或武器、生命值变化等，来指导智能体的学习。这些记录的数据成为生成模型训练的基础。

第二阶段，研究人员使用了Stable Diffusion v1.4作为基础模型，并进行了关键修改。首先，他们移除了文本条件，将玩家的动作序列编码为token，并通过交叉注意力机制与模型交互。历史观察数据则被编码到潜在空间中，并与当前的噪声化潜在表示结合。

为了应对自回归生成过程中的误差累积问题，GameNGen引入了噪声增强技术。在训练时，模型会向输入的上下文帧添加不同程度的高斯噪声，并将噪声级别作为额外输入提供给模型。这使模型学会纠正前一帧的错误，从而在长轨迹生成过程中维持高质量的图像输出。

此外，为了提高生成画面的细节质量，特别是在HUD（平视显示器）部分，研究人员对Stable Diffusion的预训练自动编码器进行了微调。通过MSE损失函数优化目标帧像素，这一微调过程显著改善了图像细节的表现，解决了在生成过程中出现的伪影问题。

GameNGen在推理阶段使用了DDIM采样方法，并采用了无分类器引导技术来提升生成速度和质量。研究表明，模型仅使用4步DDIM采样就能产生高质量的画面，这极大地提高了实时生成的效率。

在硬件方面，GameNGen在谷歌的TPU-v5上运行。每个去噪步骤和自动编码器评估各需要10毫秒，结合4步采样后，系统能够实现每秒20帧的实时交互式游戏体验。这意味着玩家可以在无需传统游戏引擎的情况下，实时操作【毁灭战士】，并体验与原始游戏相当的视觉质量。

GameNGen实验结果

GameNGen的实验结果显示，该系统在长轨迹生成中，达到了与原始游戏相当的图像质量。图像质量评估表明，模型生成的画面与真实游戏画面非常接近。

在视频质量方面，实验中模拟的轨迹在内容和视觉表现上与实际游戏极为相似。研究者通过比较图像和视频，对GameNGen的生成能力进行了全面评估，结果显示其输出与原始游戏的差异微乎其微。

在人类评估中，研究者向10位评分员展示了130个由GameNGen生成的短片，并将其与真实游戏片段进行并列播放。尽管评估者识别出真实游戏的比例略高于模拟结果，但分别仅为58%和60%，表明模拟质量足以「以假乱真」。

此外，研究还报告了在不同自回归步骤中的平均指标值，验证了噪声增强技术对图像质量的积极影响。通过这些实验，GameNGen展示了其在生成逼真游戏画面上的卓越表现。

结语

GameNGen的问世，标志着视频游戏进入了一个全新的范式。在这个范式中，游戏不再依赖传统代码，而是由神经网络的「权重」驱动生成。这一突破表明，每个像素都可能是实时生成的，而非渲染的。

这项技术不仅影响游戏，还为其他领域带来变革潜力。比如，自动驾驶汽车需要模拟无数驾驶场景，以确保安全驾驶；而GameNGen的高保真度和实时处理能力，正适合这些任务。此外，在虚拟现实和增强现实领域，AI引擎可以实时创建沉浸式世界，变革教育、医疗等行业。

然而，挑战依然存在。虽然GameNGen成功模拟了【毁灭战士】，但对于更高图形密集度的游戏，可能需要更大的算力。同时，要开发一个能运行多款游戏的通用AI引擎，依然面临艰巨任务。

尽管如此，GameNGen展示了未来游戏开发的可能性——游戏将从机器的创造力中诞生，而非代码行中。通过这一技术，人类创造力与机器智能之间的界限将越来越模糊，未来的虚拟体验将仅受限于AI的想象力。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！