Sora横空出世，马斯克称「人类输了」，人工智能进入快车道？

2024-02-18科技

人人皆导演的时代，来了？

近日，OpenAI发布了首个视频生成模型Sora，还展示了几段效果相当炸裂的视频。

比如有一段是一名女子在东京街头漫步，视频中霓虹灯光闪烁，女子身穿黑色皮衣，走路自信而随意。

无论是路面上小水洼反射的灯光，还是女子的神态、走路的动作，给人感觉都十分逼真，几乎与电影拍摄的真实场景无异。

有位网友在X平台上分享了这段视频，下面有人评论称「gg皮克斯」。

紧接着，「5G冲浪选手」马斯克也回应称「gg人类（gg humans）。」

而gg是网络游戏用语「goodgames」的缩写，主要是在一局游戏结束时，由失败者发出，表示自己认赌服输。

换句话说，马斯克的意思是「人类输了，AI太强大」。

那么，OpenAI究竟放出了怎样的一枚核弹？视频生成模型Sora到底强在哪？难道真如马斯克所说，人类要完蛋了吗？

Sora有多强？

根据OpenAI的介绍，用户只需要输入简单的描述性语句，Sora就可以创建一段相应的短视频，最高时长可以达到60秒。

且更重要的是，视频能够实现非常详细的场景布置、复杂且流畅的运镜、人物的角色也是惟妙惟肖，与真人无异。

这意味着什么？

哪怕是一名普通人，只要具备丰富的想象力，能够将脑海里的画面准确地描述出来，那么就能变成相应的画面，甚至是独立创作出一部电影。

毫不夸张地说，这次Sora是AI领域发展的又一里程碑，与当初ChatGPT横空出世，对大家造成的震撼是相同的。

要知道，作为Sora的竞争对手，Runway Gen 2、Pika等AI视频工具，现在还在朝着几秒内「视频片段」的连贯性努力突破，而OpenAI的Sora，已经能创作出一段60秒的「大片」了。

这就相当于， 别人家的小孩还在学着怎么走路，自家孩子已经能蹦蹦跳跳自己上学，而且半路上还能去商店，给老妈打瓶酱油回家了。

最关键的问题是，这还仅仅是OpenAI所公布出来的beta版本，未来Sora会进化成怎样的程度，或者说现在在实验室里是否已经有了更大的突破，都是未知数。

Sora强在哪？

既然Sora这么强，那么相较于其他对手，它到底强在哪呢？

OpenAI 在技术报告标题上说得很清楚： 视频生成模型是世界模拟器。

世界模拟器，什么意思？

简单来说，就是Sora不仅能够生成短视频，而且能够学会现实世界的物理规律，并由此进行一定的拓展，随着时间的推移，能够预测场景的下一刻会发生什么，场景中的物体会怎样运动、出现怎样的轨迹，形状如何变化。

举个例子，我们都知道物体掉到水里会出现波纹、杯子摔破之后里面的水会洒出来、灯光照在水面上会反射等等，但这些对于AI来说，都是需要学习的新知识。

所以我们可以看到，Sora的一众竞争对手，不仅生成的短视频时间仅有几秒，而且只有一个镜头，这正是因为其无法理解真实世界的物理规律，也就难以根据相应的描述生成视频，且哪怕是真的生成视频，也会出现各种各样的「诡异」，远不如Sora一样逼真。

当然了，受限于算力等因素，目前Sora在处理一些复杂的情景时，还是会出错。

比如Sora在生成一段水杯打破的视频时，是水先洒了出来之后水杯才被打破，这明显是不符合现实中物理规律的。还比如提示词「篮球穿过篮筐然后爆炸」中，篮球没有正确被篮筐阻挡。

下一个十年，是疯狂的十年

Sora发布后，360董事长周鸿祎也发表了自身的看法。

按照周鸿祎的畅想，有Sora这种强劲的大模型作为基底，那么加上其他方面的技术加持，完全可以成为各个领域颠覆性的工具。

比如生物医学、物理学、化学、数学这些基础性的学科，大模型都能发挥相应的作用。

尤其是在自动驾驶领域，以前我们给电动汽车装雷达、装摄像头，更多强调的是一些感知层面，而不是认知层面。

而如果无法对碰撞的严重性、是否会发生碰撞、对方的速度到底有多快，这些物理层面有一个基础的认知，实现真正的无人驾驶是很难的。

但AI技术的不断突破，很可能会使这种想象变为现实。

不过，这里可能有人会说，现在的Sora连一个杯子破碎的视频都做不好，说这些是不是太遥远了？短时间内根本不可能实现。

但别忘了， 如今距离ChatGPT发布其实仅仅有1年多的时间，AI发展速度已经超出了绝大多数人的想象。

我们完全可以说，下一个十年，一定是疯狂的十年。

尽管现在Sora已经带来了颠覆性的创新，但充其量只是一个起点，未来AI会发展到怎样的程度，为我们的生活带来怎样的改变，现在是很难下一个准确定义的。

写在最后：

从某种程度上来讲，其实科技发展与艺术是有一些相通的：

过去几百年时间里，艺术的形式一直在发生变化，所以只能是艺术家去适应新的艺术形式。

而科技同样如此，AI技术迅速发展，我们唯一需要做的，也是适应。#鲲鹏计划#