今年的第一波炸裂
不止如此。
- 1 -
这几天,大家都在聊OpenAI的Sora,认为它不止会颠覆视频行业,甚至可能成为世界模拟器,让人类离真正进入 真实的 虚拟世界又近了一步。
没错,但很多人忽略了一个细节。
OpenAI的CEO 奥特曼写了一段文字,然后 S o ra就生成了这段60秒的视频,惊艳众人:
这段60秒一镜到底的视频,女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。
跟以往大模型表现出来差强人意的效果完全不一样。
业内人士分析,这是技术路线的彻底改变:
以往大模型生成视频是先画图像,1秒钟24帧就画24张图拼接起来,60秒的视频需要画1440张图片,一千多张图片拼接在一起,很容易出现细节崩掉,或者闪烁的问题。
但是Sora应该是采用了游戏引擎的方式,换句话说,AI学会了使用工具,通过大量的数据训练,借助
游戏
引擎来建模和渲染,
对真实世界和虚构世界进行模拟,这不止是避免了
AI绘画
模型的弊端:
简直可以称为虚拟世界模拟器 。
颠覆视频行业太小儿科了,想象一下,配合VR或者AR设备,借助Sora大模型,打个比方,把Sora搭载到 Apple Vision 眼镜上,然后随便说一句话,马上身临其境,再配合一些穿戴式的感知传感器设备,这不就是美剧【 西部世界 】吗?
按照目前的技术发展,十年内实现商用应该不是难事,快的话可能5年就进入市场了。
- 2 -
说完了Sora和畅想,来说一下大家都忽略的细节。
游戏。
这次
OpenA
I
的
Sora上分又是因为游戏,使用了游戏引擎,直接让文字生产视频的技术向前迈进了关键性的一大步。
但为什么说是又?
大家知道的是,游戏的发展推动了硬件的极大提升,不管是英伟达还是AMD都在图形处理上获得巨大成功。
但很多人不知道,其实游戏在软件上也极大推动了技术进步。
比如
ChatGPT
的诞生,就得到过游戏很大的助力。
当时OpenAI已经解决了AI的学习能力,但是 AI 的处理和互动能力还是很弱,于是就想到让当时世界上最流行的对战游戏Dota2来充当AI的训练场。
相较于之前的国际象棋和围棋,Dota2的规则更复杂、要素 更 众多、环境 更 多变。
当时OpenAI的大模型每天要打人类180年的Dota2,通过不断自我对战来提升处理复杂环境的能力,然后修正大模型参数。
最后,一共打了45000年人类时间的Dota2之后,OpenAI的大模型从1V1到5V5都战胜了人类最强的玩家,从而也训练出领先的神经网络技术,理解信息的能力越来越接近人类,而处理信息的效率显然远超人类。
这之后,GPT才 横空出世, 在众多的信息大模型之中一骑绝尘,游戏确实功不可没。
- 3 -
结语
为什么要提游戏呢?
因为在很多地方,是把游戏作为电子鸦片来看待的,不但谈之色变,动辄 还 锤子伺候。
但现实是,游戏在当今最领先的技术领域,其实发挥了关键性的作用。
这是要为游戏正名吗?不是电子鸦片,而是数字经济的支柱产业?
也不是。
其实想说的是:
技术的进步需要适当的引导,但这种引导主要还是在应用阶段,技术的萌发阶段其实是需要相对宽松的生态和环境来自我孕育的。
这也是从0-1和从1-N不同的地方。
目前看起来,从1-N我们是没有敌手,但是从0-1还有不小差距。
怎么缩短差距?
希望OpenAI和游戏的两个成功例子,可以提供一些思路和启示。
就这样。