人人皆导演的时代,来了?
近日,OpenAI发布了首个视频生成模型Sora,还展示了几段效果相当炸裂的视频。
比如有一段是一名女子在东京街头漫步,视频中霓虹灯光闪烁,女子身穿黑色皮衣,走路自信而随意。
无论是路面上小水洼反射的灯光,还是女子的神态、走路的动作,给人感觉都十分逼真,几乎与电影拍摄的真实场景无异。
有位网友在X平台上分享了这段视频,下面有人评论称「gg皮克斯」。
紧接着,「5G冲浪选手」马斯克也回应称「gg人类(gg humans)。」
而gg是网络游戏用语「goodgames」的缩写,主要是在一局游戏结束时,由失败者发出,表示自己认赌服输。
换句话说,马斯克的意思是「人类输了,AI太强大」。
那么,OpenAI究竟放出了怎样的一枚核弹?视频生成模型Sora到底强在哪?难道真如马斯克所说,人类要完蛋了吗?
Sora有多强?
根据OpenAI的介绍,用户只需要输入简单的描述性语句,Sora就可以创建一段相应的短视频,最高时长可以达到60秒。
且更重要的是,视频能够实现非常详细的场景布置、复杂且流畅的运镜、人物的角色也是惟妙惟肖,与真人无异。
这意味着什么?
哪怕是一名普通人,只要具备丰富的想象力,能够将脑海里的画面准确地描述出来,那么就能变成相应的画面,甚至是独立创作出一部电影。
毫不夸张地说,这次Sora是AI领域发展的又一里程碑,与当初ChatGPT横空出世,对大家造成的震撼是相同的。
要知道,作为Sora的竞争对手,Runway Gen 2、Pika等AI视频工具,现在还在朝着几秒内「视频片段」的连贯性努力突破,而OpenAI的Sora,已经能创作出一段60秒的「大片」了。
这就相当于, 别人家的小孩还在学着怎么走路,自家孩子已经能蹦蹦跳跳自己上学,而且半路上还能去商店,给老妈打瓶酱油回家了。
最关键的问题是,这还仅仅是OpenAI所公布出来的beta版本,未来Sora会进化成怎样的程度,或者说现在在实验室里是否已经有了更大的突破,都是未知数。
Sora强在哪?
既然Sora这么强,那么相较于其他对手,它到底强在哪呢?
OpenAI 在技术报告标题上说得很清楚: 视频生成模型是世界模拟器。
世界模拟器,什么意思?
简单来说,就是Sora不仅能够生成短视频,而且能够学会现实世界的物理规律,并由此进行一定的拓展,随着时间的推移,能够预测场景的下一刻会发生什么,场景中的物体会怎样运动、出现怎样的轨迹,形状如何变化。
举个例子,我们都知道物体掉到水里会出现波纹、杯子摔破之后里面的水会洒出来、灯光照在水面上会反射等等,但这些对于AI来说,都是需要学习的新知识。
所以我们可以看到,Sora的一众竞争对手,不仅生成的短视频时间仅有几秒,而且只有一个镜头,这正是因为其无法理解真实世界的物理规律,也就难以根据相应的描述生成视频,且哪怕是真的生成视频,也会出现各种各样的「诡异」,远不如Sora一样逼真。
当然了,受限于算力等因素,目前Sora在处理一些复杂的情景时,还是会出错。
比如Sora在生成一段水杯打破的视频时,是水先洒了出来之后水杯才被打破,这明显是不符合现实中物理规律的。还比如提示词「篮球穿过篮筐然后爆炸」中,篮球没有正确被篮筐阻挡。
下一个十年,是疯狂的十年
Sora发布后,360董事长周鸿祎也发表了自身的看法。
按照周鸿祎的畅想,有Sora这种强劲的大模型作为基底,那么加上其他方面的技术加持,完全可以成为各个领域颠覆性的工具。
比如生物医学、物理学、化学、数学这些基础性的学科,大模型都能发挥相应的作用。
尤其是在自动驾驶领域,以前我们给电动汽车装雷达、装摄像头,更多强调的是一些感知层面,而不是认知层面。
而如果无法对碰撞的严重性、是否会发生碰撞、对方的速度到底有多快,这些物理层面有一个基础的认知,实现真正的无人驾驶是很难的。
但AI技术的不断突破,很可能会使这种想象变为现实。
不过,这里可能有人会说,现在的Sora连一个杯子破碎的视频都做不好,说这些是不是太遥远了?短时间内根本不可能实现。
但别忘了, 如今距离ChatGPT发布其实仅仅有1年多的时间,AI发展速度已经超出了绝大多数人的想象。
我们完全可以说,下一个十年,一定是疯狂的十年。
尽管现在Sora已经带来了颠覆性的创新,但充其量只是一个起点,未来AI会发展到怎样的程度,为我们的生活带来怎样的改变,现在是很难下一个准确定义的。
写在最后:
从某种程度上来讲,其实科技发展与艺术是有一些相通的:
过去几百年时间里,艺术的形式一直在发生变化,所以只能是艺术家去适应新的艺术形式。
而科技同样如此,AI技术迅速发展,我们唯一需要做的,也是适应。#鲲鹏计划#