来源丨创业邦(ID:ichuangyebang)
作者丨Juny
编辑丨海腰
题图丨Sora AI
多年以后,当我们再回看「AI视频生成」这件事时,或许都直接可以用「Sora前时代」和「Sora后时代」来描述它。
在Sora前时代,如Runway、Pika、Stable Video Diffusion等大量创业公司还在百家争鸣、平分秋色,而在Sora横空出世后,这些公司都瞬间黯然失色,遭到降维打击后不得不去重新审视未来的发展道路。毕竟,大家如今都可以随意生成60秒的高清大片了,谁还会为你那4秒的动图拍手称赞呢?
当所有人都在为Sora惊叹狂欢时,在无人在意的角落,是大量AI视频创业者和投资人的一夜无眠。
遥遥领先几个身位
首先,让我们简要回顾一下相比于此前行业内的同类型产品,此次OpenAI发布的Sora有哪些颠覆之处。
1.生成视频的时间长度。在昨天之前,受制于AI文本到视频生成的物理和时空推理局限,目前整个行业中所公布的单个连贯性视频的最大长度是16秒,行业的普遍水平是2-4秒之间。但此次Sora的最大支持长度是60秒,直接跨越式升级15倍。
2.镜头切换与画面流畅度。此前AI生成视频产品都是单镜头单生成,在效果层面更像是让一张图片动起来。但由Sora所生成的视频,能够在保持主体一致性的前提下实现多角度镜头无缝切换,整个画面干净流畅,从而实现真正的视频大片效果。
3.使用的基础模型架构。此前的AI生成视频大部分都是基于「大模型+大数据」架构,因此难以突破AI幻觉问题,Runway也在去年12月正式提出要打造通用世界模型。但此次Sora则已经具有了世界模型的雏形,其生成的视频是基于对真实物理世界的理解,因此内容更加符合逻辑也更加令人信服。
那么,关于这些突破性的进展,很多人可能也好奇,落实到产品效果层面,Sora真的有如此大的优势吗?
虽然目前Sora只仅对一小部分用户开放还未开启公测,但因为它们昨天所发布的视频都配有详细的Prompt文本,所以很多人也用这些同样的文本对其他工具进行了测试。下面,让我们来看看一些效果对比的例子。
Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.(提示词:美丽多雪的东京城热闹非凡。镜头穿过熙熙攘攘的城市街道,跟随几位正在享受美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣与雪花一起随风飞舞。)
图源:X 账号@Gabor Cselle
在该对比视频中我们可以看到,从时长来看,Pika大概3秒、Runway和Stable Video大概4秒,而Sora能长达几十秒。从内容来看,Pika和Runway生成都是类似于一幅动图的场景,Pika抓住了摊位、樱花、雪景等关键词,Runway则更侧重于提示词的最后一句,Stable video的镜头有一定的推伸但似乎少了关于樱花的描述。而Sora这边,镜头从一开始带有东京街道的全景开始再无缝推进到街道上的小摊和人物的特色,提示词内所有元素都没有缺失并且得到了很好的呈现。
再看一个例子。
Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.(提示词:两艘海盗船在一杯咖啡中航行时的逼真特写视频)
在Pika所生成的视频并没有体现「航行中逼真特写」的关键内容,而Runway则没能理解关于「在一杯咖啡中航行」的重点描述。从视觉效果来看,Sora也更加准确地展现了提示词中航行激荡的情形。
图源:X 账号@Syntho_elysium
再比如,那段惊艳众人的描绘一位时尚女性漫步在京东街头的视频。完全相同的一段提示词之下,Runway展现出来是这样的:
Pika展现出来是这样的:
而这是Sora的效果:
除了Runway、Pika等热门产品之外,还有网友结合使用了AnimateDiff + LCM + StableDiffusion等几个开源工具,使用了跟Sora相同提示词,来跟进行了多个视频画面的对比。从对比结果也能看到,几乎所有的生成视频内容都被Sora「吊打」。
总体来看,虽然目前Runway和Pika等行业内领先工具或许已经基本能实现对提示词的理解和还原,但从生成视频的效果来看,不仅时长上难以实现4秒突破,内容仍然缺少着真实性和连贯性。其中,特别是对真实物理世界的还原这一点上,从以下几个Sora和Runway的对比中就能看出,世界模型的应用确实让Sora已经到达了另一个层次。
Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach.
数百创业公司一夜崩塌
从以上这一些简单的对比中可以看出,Sora的出现对整个AI文本生成视频行业所产生的影响无疑是具有颠覆性的。这也导致了昨天Sora一经发布之后,大量的行业投资人拉响了警钟。
过去一年来,在AI领域几乎每个月都有AI生成视频类的公司获得融资,不仅这些创业公司的投资者都极具号召力,融资级别也几乎都在千万级美元以上。比如,去年6月,Runway宣布获得新一轮1.41亿美元的融资,投资者包括谷歌、英伟达、Salesforce等;去年8月,由A16Z A轮投资4000万美元的Irreverent Labs宣布获得三星的新一轮融资;去年 11月,Pika宣布获得5500万美元的融资,由Lightspeed Venture Partners领投,其他投资人还包括Quora的创始人Adam D‘Angelo、前GitHub首席执行官Nat Friedman等;今年2月,总部位于德国的Colossyan成功获得由欧洲风投公司Lakestar领投的2200万美元A轮融资……
2023年AI视频生成行业的参与者盘点 图源:A16Z
据不完全统计,过去一年来全球AI生成视频类赛道的融资已经超过数10亿美元,其中大部分的公司都以种子轮、A轮为主。就在今年1月底,A16Z还专门针对AI视频生成领域做了一个全面的回顾和展望,并盘点了市场上超过20个明星产品。
可以想象的是,这些创业公司以及其背后的投资人都因此次Sora的发布而经历了难熬的一天。有人表示,ChatGPT的出现终结了那些AI文本生成的创业公司,现在轮到Sora终结AI视频生成公司了,AI视频创业者看到Sora之后心情可以用心如死灰来形容。
不仅是创业者们的努力付诸东流,大量投资者们的钱也或将因此打了水漂。虽然创业公司的缩水情况我们还不得而知,但就在昨天Sora发布后,作为拥有直接竞争业务的Adobe今日股价就大跌超过了7%。
而关于Sora发布后的影响,一些圈内人士也陆续发表了他们的观点。
360创始人周鸿祎在微博长文中表示,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。同时,科技竞争本质上比拼还是人才的密度和深厚积累,Sora效果吊打Pika和Runway很正常,有人认为有了AI以后,创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。
此外,前阿里技术副总裁、目前正在从事AI架构创业的贾扬清也针对Sora在朋友圈发布了他最新的观点。他认为此次Sora确实非常厉害,而Sora将带来的影响包括以下几点:「1.对标OpenAI的公司有一波被其他大厂fomo收购的机会。2.长线闭源寡头,开源还需要一段时间才能追赶上。3. 从算法小厂的角度,要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就选择开源。4.基础设施的需求继续会猛增。」
Sora会带来革命性的影响吗?
虽然Sora公布的视频效果令人惊叹,但由于目前仅开放给了一小部分人进行实测,因此其真实的效果如何我们还不得而知。毕竟此前Runway和Pika等同类型平台都出现过Demo做得无比精良,实操却出现种种问题的情况。
此次,就连OpenAI自己也提前给大家打好了预防针。在关于Sora官方博客的最后,OpenAI明确表示目前Sora的模型还并不完美,仍然属于世界模型研究应用的初期。特别是在模拟复杂的物理环境下,还会出现明显的逻辑和因果关系推理错误,比如跑步时方向搞反、人吹蜡烛火光不灭、塑料椅子会变形飘起来、小狼仔变形等情况。
但目前大部分业内人士都认为,目前的Sora还只是最初版本,按照OpenAI目前的训练情况和模型迭代速度,推理准确性问题会很快被攻克。而届时,Sora将逐渐对一些行业产生的底层性的影响。
首当其冲的是影视制作行业。【三体】电视剧的特效导演陆贝珂在不久前的一期播客中曾聊到,过去一年来,AI技术对于影视行业的影响主要体现在概念设计和绘画等基础工种的效率提升上,更多使用的是AI生成图片技术,AI生成视频的不够准确和逻辑问题导致很多生成内容并不可用,当时他就提出世界模型是影视行业的发展方向。一旦视频的准确度、连贯性问题被解决,群演、布景、特效等大量内容则都可以用AI去帮助完成。
再比如广告和短视频行业。未来大量的广告和短视频将由AI生成,对设计师、摄影师、后期制作岗位的需求会大量减少,整个行业运行的模式将出现变革。视频创作的门槛和经费会大大降低,从岗位上来说会使用AI的内容创作者将成为行业核心。各类短视频将爆发涌现。
还可能影响的是游戏行业。在OpenAI 发布的最新Sora技术报告中提到,Sora能够模拟如视频游戏的数字化过程,Sora能在控制 Minecraft 游戏角色进行基本操作的同时,高质量动态渲染游戏世界。未来Sora将可能被应用于建模、生成游戏动画和场景等,游戏开发者的门槛将被大大降低。
图源:OpenAI官方技术文档
Sora的诞生,似乎再次印证了赢者通吃的道理。手握着绝对资源的OpenAI,又一次走自己的路让其他人都无路可走。而这可能也让一些AI创业者和投资者们也开始再次思考,在行业巨头的阴影和压力之下,自己能力施展的生存和机会空间究竟在哪里。