让世界变成「模拟器」，Sora何以「出道即王炸」？

2024-02-20科技

2024年伊始，OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora。它可以基于描述性文字指令，生成长达60秒的视频，并理解呈现用户想象中的情绪以及光影。

一如一年前的ChatGPT，Sora被认为是通往AGI（通用人工智能）的又一个里程碑时刻。

▲OpenAI官网发布的Sora生成视频截图。（图片来自OpenAI官网）

丨被拒收的论文何以成就AI界的新「王炸」？

2月16日，OpenAI发布了其AI视频模型Sora，立即引发轰动。Sora产生的视频不仅清晰度高，连贯性强，而且在持续时间上也大大超出预期，引发了网络上一片惊叹，人们纷纷发出「现实不存在了！」的感叹。

究其成功之因，不得不提Sora背后的两大技术革新：时空补丁（Spacetime Patch）技术和扩散型Transformer（Diffusion Transformer，简称DiT）架构。时空补丁技术最初由谷歌DeepMind的科学家们在2023年7月提出。而DiT架构的首要研究者是Sora团队的领军人物William Peebles，他的这项工作曾在2023年的一次计算机视觉会议上遭到拒绝，理由是「缺乏创新性」，然而仅一年后，这项技术却成为了Sora的核心。尽管这两种技术各自已相当成熟，但之前鲜有尝试将它们结合起来使用。

上海交通大学人工智能研究院的副教授王韫博评论说：「很震撼，却也在意料之中。」他认为，Sora就像是用已知的技术「零件」组装出了一辆性能卓越的「汽车」。从技术层面看，这些「零件」并非全新；但从成果来看，其影响却是革命性的。

如果说苹果Vision Pro是头号玩家的硬件外显，那么一个能自动构建仿真虚拟世界的AI系统，才是灵魂。从文字（ChatGPT）到图片（DALL·E）再到视频（Sora），对OpenAI来说，仿佛在搜集一张张的拼图，试图通过影像媒介形态彻底打破虚拟与现实的边界，成为科幻电影「头号玩家」一般的存在。

▲OpenAI官网发布的Sora生成视频截图。（图片来自OpenAI官网）

丨 Sora为何被称为世界模拟器？

OpenAI并未单纯将Sora视为视频模型，而是作为「世界模拟器」。它能像人一样，理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现「汽车撞毁坦克」这样的情况。这就是「世界模型」的强大之处。

按照「人工智能之父」艾伦·图灵提出的具身智能概念，想要理解物理世界的法则，就必须有像人一样的身体与世界交互。但据OpenAI科学家提姆·布鲁克斯透露，没通过人类预先设定，Sora就自己通过「观察」大量数据，自然而然地学会了关于3D几何形状和一致性的知识。这一点从OpenAI发布的48个演示视频中可见一斑，这些视频在很大程度上解决了过去AI视频生成的常见问题，展现了更清晰的图像、更逼真的效果和更流畅的逻辑。

然而，Sora在物理规则模拟方面仍存在不足。例如，一段展示老奶奶吹蜡烛的视频中，蜡烛并未随风熄灭；另一段视频中，玻璃杯从空中坠落却未破裂，水却已流出。这些现象表明，Sora在复杂场景下的物理原理模拟上还有待完善。

尽管如此，Sora的表现已证明，通过大量数据的分析，机器能够推断出一些物理世界的规则，这无疑是向现实世界模拟迈出的重要一步。AI电影【山海奇境】的制作人陈坤提到，Sora通过展示其视频能力，旨在收集用户反馈，进一步探索和预测人们期望生成的视频内容。这一过程类似于大规模模型训练，全球用户的互动不断丰富和优化了其世界模型，推动AI在模拟现实世界方面变得更加精准和智能。

▲OpenAI官网发布的Sora生成视频截图。（图片来自OpenAI官网）

丨重塑AGI的Sora如何影响世界？

360公司董事长周鸿祎的预言，即Sora的出现可能将实现通用人工智能（AGI）的时间从十年缩短至仅一年，体现了Sora在AI领域的潜在影响力。Sora之所以引起广泛关注，并不仅因为其生成的视频在时长和清晰度上的提升，而是因为OpenAI已经超越了之前所有AI生成内容（AIGC）的能力，创建了与真实物理世界密切相关的视频内容。

许多人认为，Sora横空出世，影视行业受到的影响将首当其冲。将来，影视剧制作的门槛会将会大大降低，只要心里有故事，就可借助强大的AI工具进行创作。

然而不同行业的巨头对Sora持有不同的看法：游戏公司育碧视其为一次巨大的飞跃；华大集团CEO尹烨将其比作开启了AI发展的「牛顿时代」；而Meta的首席人工智能科学家、图灵奖得主LeCun则批评Sora无法真正理解物理世界。

Sora的潜力虽然巨大，但也存在被滥用的风险。随着能够理解物理规则的视频生成时间的增长，人们所看到的内容可能不再能作为判断的依据，「眼见为实」的概念也将成为历史。对此，像马斯克这样的科技领袖也对人类的未来表达了担忧。

上海人工智能研究院的高级分析师方帅指出，尽管Sora能够快速将想法转化为视频，但其成本并不低廉。而且，与文字相比，广告、短视频、电影等内容具有更强的个人风格和更严格的版权保护，Sora生成内容的版权问题也需要被慎重考虑。

面对行业的担忧，美国联邦贸易委员会（FTC）2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示，它正在提议修改一项已经禁止冒充企业或政府机构的规则，将保护范围扩大到所有个人。OpenAI内部也在进行模型伦理方面的对抗性测试，包括拒绝处理错误信息、仇恨内容、偏见内容和色情暴力等。

随着AGI这一「潘多拉魔盒」的开启，人们或许应该尽快适应在虚拟与现实之间辨别的能力。（完）

综合文汇报、每日经济新闻、扬子晚报等

编辑：袁理