AI理解世界万物，Sora技术报告解析

2024-02-18科技

近日，一项名为Sora的前沿技术报告引发了全球科技界的广泛关注。该报告详述了一种具有革命性意义的视频数据生成模型，通过大规模联合训练和创新架构，实现了对可变时长、分辨率及宽高比视频与图像的高效创作。

这一突破标志着我们向构建一个能够模拟真实物理世界的通用模拟器迈出了坚实一步。

在最新发布的Sora技术报告中，研究团队探索了视频生成模型在处理大规模、多样性和高质量视频内容方面的边界拓展。

其核心技术是一种基于transformer架构的文本条件扩散模型，能够在统一表示下操作视觉数据的时空patch，并应用于不同类型的视频和图像生成。最引人注目的是，Sora最大模型成功生成了一分钟以上的高清视频，展现了前所未有的视频生成能力。

本次报告聚焦两大核心议题：如何将所有类型视觉数据转化为统一格式以实现大规模训练；对Sora模型的能力及其局限性进行了深入定性评估，为未来模型优化提供了方向。

图：随着训练计算的增加，样本质量显著提高

尽管先前已有多种方法应用于视频生成建模，如循环网络、生成对抗网络、自回归transformer以及扩散模型等，但这些研究大多局限于特定视觉数据类型、较短时长或固定尺寸的视频。而Sora则一改常态，以其广泛的适用性，成为了首个可以生成不同规格视频及图像的通用模型。

图：可生成不同尺寸视频

借鉴大型语言模型（LLMs）的成功范式，Sora将视觉patch作为其「token」，将视觉数据转换为一种高度可扩展且有效的表示形式。通过视频压缩网络，原始视频被降至低维潜在空间，随后分解成一系列时空patch，进而成为transformer的输入单元。这一设计使得Sora能够灵活应对各种分辨率、时长和宽高比的视频和图像生成任务。

图：视频改善取景

值得注意的是，Sora采用了先进的扩散transformer技术进行视频生成。在给定输入噪声patch及相关调节信息（如文本提示）的情况下，模型经过训练预测出「干净」的原始patch。如同在语言建模、计算机视觉和图像生成领域大放异彩的transformers一样，研究人员发现扩散transformer同样适用于视频场景并能有效提升至更大规模。

图：图像描述生成视频

Sora的关键特性之一在于它对视频的持续时间、分辨率和宽高比的灵活性。相较于传统方法需调整大小或裁剪视频到标准尺寸，直接在原始尺寸上训练模型带来了诸多优势，包括更丰富的采样灵活性、改进的取景构图以及更好的文本理解能力。

图：图像描述生成视频

借助重新字幕技术和GPT对用户简短提示的扩展，Sora不仅能依据文字生成视频，还能根据现有图像或视频进行创造性编辑，如制作循环视频、动画静态图像，甚至是无缝地向前或向后延伸视频内容。

图：扩展生成的视频

此外，Sora展示了令人瞩目的模拟功能，例如生成3D一致性的视频，保持对象持久性和远程相干性，甚至模拟与环境互动的动作，如在【Minecraft】游戏中的玩家行为。

图：模拟数字世界

虽然当前Sora在模拟复杂物理过程方面仍存在局限性，但其所展现的能力预示着持续发展的视频生成模型有望成为创建高性能物理和数字世界模拟器的强大工具。

总结来说，Sora技术报告揭示了一个崭新的AI研究领域，通过视频生成模型不仅拓宽了人类创造和编辑视频内容的可能性，更为理解和模拟现实与虚拟世界的交互打开了新窗口。

这项研究成果无疑为未来的智能技术发展注入了强大的动力，让我们有理由相信，在不远的将来，一个由AI驱动的世界模拟器将在科研、娱乐乃至更多领域发挥无可估量的作用。