Sora：不只是视频颠覆者，更是虚拟世界模拟器的奇迹！

2024-02-17科技

今年的第一波炸裂

不止如此。

- 1 -

这几天，大家都在聊OpenAI的Sora，认为它不止会颠覆视频行业，甚至可能成为世界模拟器，让人类离真正进入真实的虚拟世界又近了一步。

没错，但很多人忽略了一个细节。

OpenAI的CEO 奥特曼写了一段文字，然后 S o ra就生成了这段60秒的视频，惊艳众人：

这段60秒一镜到底的视频，女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了神一般的稳定性。

跟以往大模型表现出来差强人意的效果完全不一样。

业内人士分析，这是技术路线的彻底改变：

以往大模型生成视频是先画图像，1秒钟24帧就画24张图拼接起来，60秒的视频需要画1440张图片，一千多张图片拼接在一起，很容易出现细节崩掉，或者闪烁的问题。

但是Sora应该是采用了游戏引擎的方式，换句话说，AI学会了使用工具，通过大量的数据训练，借助游戏引擎来建模和渲染，对真实世界和虚构世界进行模拟，这不止是避免了 AI绘画模型的弊端：

简直可以称为虚拟世界模拟器 。

颠覆视频行业太小儿科了，想象一下，配合VR或者AR设备，借助Sora大模型，打个比方，把Sora搭载到 Apple Vision 眼镜上，然后随便说一句话，马上身临其境，再配合一些穿戴式的感知传感器设备，这不就是美剧【西部世界】吗？

按照目前的技术发展，十年内实现商用应该不是难事，快的话可能5年就进入市场了。

- 2 -

说完了Sora和畅想，来说一下大家都忽略的细节。

游戏。

这次 OpenA I 的 Sora上分又是因为游戏，使用了游戏引擎，直接让文字生产视频的技术向前迈进了关键性的一大步。

但为什么说是又？

大家知道的是，游戏的发展推动了硬件的极大提升，不管是英伟达还是AMD都在图形处理上获得巨大成功。

但很多人不知道，其实游戏在软件上也极大推动了技术进步。

比如 ChatGPT 的诞生，就得到过游戏很大的助力。

当时OpenAI已经解决了AI的学习能力，但是 AI 的处理和互动能力还是很弱，于是就想到让当时世界上最流行的对战游戏Dota2来充当AI的训练场。

相较于之前的国际象棋和围棋，Dota2的规则更复杂、要素更众多、环境更多变。

当时OpenAI的大模型每天要打人类180年的Dota2，通过不断自我对战来提升处理复杂环境的能力，然后修正大模型参数。

最后，一共打了45000年人类时间的Dota2之后，OpenAI的大模型从1V1到5V5都战胜了人类最强的玩家，从而也训练出领先的神经网络技术，理解信息的能力越来越接近人类，而处理信息的效率显然远超人类。

这之后，GPT才横空出世，在众多的信息大模型之中一骑绝尘，游戏确实功不可没。

- 3 -

结语

为什么要提游戏呢？

因为在很多地方，是把游戏作为电子鸦片来看待的，不但谈之色变，动辄还锤子伺候。

但现实是，游戏在当今最领先的技术领域，其实发挥了关键性的作用。

这是要为游戏正名吗？不是电子鸦片，而是数字经济的支柱产业？

也不是。

其实想说的是：

技术的进步需要适当的引导，但这种引导主要还是在应用阶段，技术的萌发阶段其实是需要相对宽松的生态和环境来自我孕育的。

这也是从0-1和从1-N不同的地方。

目前看起来，从1-N我们是没有敌手，但是从0-1还有不小差距。

怎么缩短差距？

希望OpenAI和游戏的两个成功例子，可以提供一些思路和启示。

就这样。