Sora：用文本驱动的方式生成视频，展现对物理世界的「理解」

2024-02-17科技

视频是一种能够生动地展示物理世界的多媒体形式，它包含了丰富的空间、时间、动态和语义信息。然而，要让人工智能（AI）能够理解和生成视频，是一项极具挑战性的任务，它需要模型具备对视觉数据的高度压缩、编码、解码和生成能力，以及对物理规律和逻辑关系的深刻把握。近日，人工智能领域的领军机构OpenAI发布了一款名为Sora的视频生成模型，它可以根据文本指令或静态图像生成长达一分钟的高清视频，并且在视频中展现出对物理世界的「涌现」能力，即能够自发地学习和模拟物理世界中的一些基本规律和现象，如三维一致性、长程一致性、物体永久性、与世界互动等。这一模型的出现，不仅为视频内容的创作和编辑提供了新的可能性，也为AI的世界模型的发展提供了新的思路和方向。

Sora的设计灵感来自于大语言模型，如GPT-3等，它们能够通过大规模的文本数据的学习，实现对文本的理解和生成。Sora的核心思想是，将视频数据转化为类似于文本的序列表示，然后利用Transformer网络进行处理和生成。具体来说，Sora首先将视频帧分割成一系列的小块（patches），这些小块是模型处理和理解原始数据的基本单元。然后，Sora将这些小块压缩到一个低维的潜在空间，并将其分解为「时空块」（spacetime patches），即从视频帧序列中提取出的具有固定大小和形状的空间-时间区域。这些时空块可以被视为Transformer的token，它们不仅包含了局部的空间信息，还包含了时间维度上的连续变化信息。模型可以通过学习时空块之间的关系来捕捉运动、颜色变化等复杂视觉特征，并基于此重建出新的视频序列。这样的处理方式有助于模型理解和生成视频中的连贯动作和场景变化，从而实现高质量的视频内容生成。

Sora的另一个特点是，它可以接受不同类型的输入，比如文本、图像或视频，以达到不同的视频生成目的。例如，给定一个文本指令，如「一个人在雪地里堆雪人的视频」，Sora可以生成一个符合指令的视频，并且在视频中展现出对雪的物理属性、人的动作和表情等的理解。给定一个图像，如一张风景画，Sora可以生成一个以该图像为背景的视频，并且在视频中添加一些动态的元素，如飘动的云彩、飞翔的鸟类等，使得图像变得更加生动。给定一个视频，如一段舞蹈视频，Sora可以生成一个延续或变换该视频的新视频，并且在视频中保持舞者的姿态和节奏的一致性。这一特性使得Sora能够执行广泛的图像和视频编辑任务，比如制作完美循环播放的视频、为静态图像添加动画效果、向前或向后延展视频时间轴等。

Sora的最令人惊讶的能力是，它能够在长期的训练中，逐渐拥有了一些对物理世界的「涌现」能力，即能够自发地学习和模拟物理世界中的一些基本规律和现象，而不是通过人为的设定或约束来实现。这些能力表明，Sora不仅是一个视频生成模型，也是一个世界模拟器，它能够通过观察和学习来了解物理世界的一些方面，如三维空间、运动、重力、碰撞、摩擦、弹性等。这些能力在Sora的一些视频样本中得到了体现，比如：

Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中保持一致移动。这表明，Sora能够隐式地解决文本到三维的问题，即根据文本指令生成合适的三维对象和场景，并对其进行适当的渲染和动画。

Sora可以在视频生成过程中保持时间上的一致性和物体的永久性。对于视频生成系统来说，一个重要的挑战是在生成长视频时保持时间上的连贯性。Sora通常能够有效地建模短程和长程的依赖关系，尽管并非总是如此。例如，Sora可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样，它可以在一个样本中生成同一角色的多个镜头，并在整个视频中保持它们的外观。

Sora有时可以模拟对世界产生简单影响的动作。例如，画家可以在画布上留下持续存在的新笔触，或者一个人可以吃掉一个汉堡并留下咬痕。这表明，Sora能够理解一些物体的属性和状态，以及一些动作的结果和影响。

Sora还能够模拟人工过程，一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家，同时以高保真度渲染世界及其动态。这表明，Sora能够适应不同的世界，无论是真实的还是虚构的，以及不同的任务，无论是被动的还是主动的。

这些能力表明，继续扩展视频模型是发展高能力物理和数字世界以及其中的物体、动物和人类的模拟器的有希望的途径。Sora目前所展现的能力还远远不够，它还存在许多局限性和失效模式，比如在长时间采样中可能出现的不连贯现象，以及物体无端出现或消失等异常情况。