Sora的潘多拉魔盒里有什么？

2024-02-19科技

OpenAI的文生视频模型Sora的问世引发科技圈热议，传递了AI赛道「大力出奇迹」竞争升级的信号。

尽管Sora尚未对公众开放，但是OpenAI最新发布了由开发者通过Sora创作的视频合集，其中包括各种海洋生物在海面上骑自行车、网红祖母在托斯卡纳厨房教做菜、未来火星上的无人机比赛以及鸭嘴兽带着冒险仓鼠翱翔在天空的场景。

在Sora问世后，一些网友直呼这是对友商的「降维打击」。AI视频生成赛道此前的明星公司Runway和Pika等都已公开表示将加入这场竞赛。

奥尔特曼被称「巫师大人」

Sora最直观的技术突破不仅在于其生成视频的逼真性，而且在时长方面也甩开对手更大的距离。

Runway能够生成4秒长的视频，用户可以将其最多延长至16秒，这是AI生成视频在2023年所能达到的最长时长纪录；Stable Video和Pika也能分别提供4秒和3秒的视频。Sora可生成长达1分钟的视频，可以说是直接扔出「王炸」。

Runway有「AI视频界的MidJourney」之称。几个月前，Runway刚刚推出了第二代AI生成视频模型。今年1月，Runway宣布，用户将能够通过多头运动笔刷（MultiMotion Brush）功能，实现对AI生成视频中多个元素的运动控制。此外，Runway也因其提供了集合多种AI工具的视频制作解决方案而备受推崇。

Sora发布后，Runway的CEO克里斯托瓦尔·巴伦苏埃拉（Cristóbal Valenzuela）在社交媒体X上发布了两个字：「Game On（比赛开始了）。」

Pika是AI视频领域的新晋竞争者，它于去年11月推出了生成式AI视频工具Pika1.0，目前也已开放测试。Pika此前对标的公司也是Runway，不过在Sora发布后，Pika创始人郭文景回应媒体称，已在筹备「直接冲，对标Sora」。此外，郭文景还透露，目前已经在招人，具体计划暂时还不能对外透露。

AI图像生成领域的另一家领导者StabilityAI也于去年11月推出了生成视频模型Stable Video Diffusion，但表示它「专门用于研究」，现阶段尚未准备好用于「现实世界或商业应用」。

在OpenAICEO奥尔特曼（SamAltman）发布了一段由Sora生成的巫师主题视频后，Stability创始人兼CEO莫斯塔克（EmadMostaque）在X平台上回应称：「你是一位巫师大人。」

谷歌最近也发布了下一代人工智能模型Gemini1.5，并公布了Lumiere模型的研究和演示片段，不过目前还不清楚谷歌计划何时公开该工具；Meta在去年年底推出了一种新的文本转视频模型Emu Video，并称Emu将被整合到脸书（Facebook）和照片墙（Instagram）中。

「世界模型」提前实现了吗

本质上，Sora与AI视频生成公司Pika、Runway等采用了相似的底层模型，即Diffusion扩散模型（Diffusion Model）。但不同之处在于，Pika和Runway等公司都采用了「小模型」的思维，也就是基于上一帧预测下一帧的方法创建视频；Sora把其中的实现逻辑进行了变化，将U-Net架构替换成了Transformer架构，这种新型架构被称为DiT，它将视频和图像表示为视觉块编码（Patch）的较小数据单元的集合，然后将其解码来创建视频，并且根据AI「缩尺律」（Scaling Law），随着训练计算量的增加，样本质量将明显提高，实现大模型智能涌现的能力，这也帮助其在一定程度上理解真实世界的物理影响和因果关系。

OpenAI最新发布的Sora研究报告就以【视频生成模型成为世界模拟器】为题，彰显了其将大模型用于模拟物理世界的雄心。不过对于Sora是否真的理解物理世界，技术界还有不同的观点。

最直接的反对意见来自图灵奖得主，Meta公司首席科学家、AI团队负责人杨立昆（Yann LeCun）。在他看来，仅仅根据提示词（prompt）生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。他在X平台上亮出观点：「这里存在‘巨大’的误导。」

杨立昆是AI「世界模型」概念的主要倡导者，Runway和Pika等公司都在朝着「世界模型」的发展方向前行。所谓「世界模型」，就是对真实的物理世界进行建模，让机器像人类一样，对世界有全面准确的认知。尽管「世界模型」不是AI视频生成的必需要素，它却是该领域较为高端的一个研究方向，学术色彩更浓。

杨立昆分析称，模型生成逼真视频的空间非常大，视频生成系统只需要产生一个合理的示例就算成功。不过对于一个物理世界的真实视频而言，其合理的后续延续空间却非常小，生成这些延续的代表性片段，特别是在特定行动条件下，任务难度更大。此外生成视频的后续内容不仅成本高昂，实际上也毫无意义。基于这一理论，杨立昆认为，更理想的做法是生成视频后续内容的抽象表达，并消除无关场景中的细节。

在Sora发布同一天，Meta也推出了AI视频模型——联合嵌入预测架构（V-JEPA）。杨立昆解释道，JEPA创建的视频不是生成式的，而是在表示空间中进行预测。「联合嵌入击败了生成式。」他表示。

Meta研究员田渊栋也在X平台上表示：「在可学习的潜在空间而不是原始空间中进行规划/搜索有其独特的优势，沿着这个思路，我们做了一系列的工作，包括最近发布的扩散世界模型。」

Sora显然也是奔着「世界模型」而去。不同的是，依靠OpenAI强大的工程化能力以及背后的算力支撑，Sora的发展速度似乎超越了同行数个量级，它的横空出世无疑让Meta、Runway等巨头公司和初创竞争对手面临更大的压力。的压力。

站在「巨人的肩膀上」

从OpenAI发布的技术报告中可以发现，强大的Sora作者团队主要成员有十余人，其中核心成员包括研发负责人布鲁克斯（Tim Brooks）、皮布尔斯[William（Bill）Peebles]等，他们都毕业于加州大学伯克利分校（UC Berkley）。值得关注的是，核心名单中还有三名华人研究者。

而从Sora技术报告的参考文献来看，更多来自谷歌、Meta、MIT等业界和学界的技术人员也都作出了重要贡献，纽约大学助理教授谢赛宁就是其中的一位。尽管他公开表示自己与Sora团队没有关系，但他与皮布尔斯在扩散模型DiT方面的工作，为Sora大模型的实现提供了基础。

谢赛宁在X平台上表示：「Bill和我在DiT项目上工作时，我们没有创造新奇事物，而是优先考虑两个方面：简单性和可扩展性。这些优先事项提供的不仅仅是概念上的优势。」

他还推测，Sora模型可能拥有约30亿参数。谢赛宁表示，如果这一推测合理，可能表明训练Sora模型不需要像人们预期的使用那么多的GPU算力，而且预计未来大模型的迭代会非常快。

AGI何时到来

外界也十分关注Sora大模型横空出世后对于行业及消费者的影响，尤其是Sora的出现对于通用人工智能（AGI）的实现意味着什么。

目前来看，尽管业内都认为Sora模型的出现会具有颠覆性的意义，但这种影响力究竟会在何时呈现出爆发威力，似乎很难被预估。

360创始人周鸿祎发布微博称，Sora的诞生意味着AGI的实现可能从10年缩短至一两年。不过据猎豹移动董事长CEO傅盛在朋友圈的观点，他认为，Sora虽然很强大，但是更多的是「暴力美学」，还谈不上彻底理解物理世界，与AGI提前到来也没有太大的关系。

游戏行业资深投资人、丰厚资本创始合伙人谭群钊认为，Sora是大型语言模型的再次重要突破，有几个趋势值得关注：首先是文字写作能力会很重要，「文科生要崛起了」，其次是创意和品味很重要。

他对第一财经记者表示：「过去三十年程序员用软件定义世界，将来会回归到用文字描述世界。AI仍然是工具，需要专业背景，但创意和品味最重要。」在他看来，如果Sora能够实现目前已经公布出来的视频效果，那么可能会最先冲击短剧、短视频领域。

3D生成式AI初创公司影眸科技CTO张启煊告诉第一财经，OpenAI发布Sora的底层逻辑是通过一个「现实模拟器」来实现AGI，生成无穷无尽的现实数据。他认为，Sora这类大模型的工作往后发展，如果能够做到高度可控性，那么将会颠覆整个CGI（电脑特效技术）工业乃至游戏引擎行业。「到时候就是图形学不存在了。」他说道。

张启煊表示，Sora对消费者和行业都会产生一定的影响。「对普通人来说，如果OpenAI开放API或者有团队能够复现这种视频创建能力，相信很快就会在C端视频应用里看到这样的功能。」他说，「对行业来说，目前的影响不会有想象中那么大，可能更多是一些视频素材的收集工作可以得到极大的解放。」

不过Sora目前仍然没有对公众开放，而是仅对「红队」（Redteaming）开放，还有很多AI安全性相关的问题需要研究部署。在欧美对AI逐渐形成成熟监管体系的背景下，人工智能的任何进展都将受到法规的约束。

上海大邦律师事务所高级合伙人游云庭对记者表示：「Sora在正式向公众推出前，一定会面临来自现有行业的挑战。首先，训练素材获得授权的知识产权合规就是个大问题，目前不透明；此外，输出内容不侵权的合规也是个很大的问题。」