当前位置: 华文世界 > 科技

让世界变成「模拟器」,Sora何以「出道即王炸」?

2024-02-20科技

2024年伊始,OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora。它可以基于描述性文字指令,生成长达60秒的视频,并理解呈现用户想象中的情绪以及光影。

一如一年前的ChatGPT,Sora被认为是通往AGI(通用人工智能)的又一个里程碑时刻。

▲OpenAI官网发布的Sora生成视频截图。(图片来自OpenAI官网)

丨 被拒收的论文何以成就AI界的新「王炸」?

2月16日,OpenAI发布了其AI视频模型Sora,立即引发轰动。Sora产生的视频不仅清晰度高,连贯性强,而且在持续时间上也大大超出预期,引发了网络上一片惊叹,人们纷纷发出「现实不存在了!」的感叹。

究其成功之因,不得不提Sora背后的两大技术革新:时空补丁(Spacetime Patch)技术和扩散型Transformer(Diffusion Transformer,简称DiT)架构。时空补丁技术最初由谷歌DeepMind的科学家们在2023年7月提出。而DiT架构的首要研究者是Sora团队的领军人物William Peebles,他的这项工作曾在2023年的一次计算机视觉会议上遭到拒绝,理由是「缺乏创新性」,然而仅一年后,这项技术却成为了Sora的核心。尽管这两种技术各自已相当成熟,但之前鲜有尝试将它们结合起来使用。

上海交通大学人工智能研究院的副教授王韫博评论说:「很震撼,却也在意料之中。」他认为,Sora就像是用已知的技术「零件」组装出了一辆性能卓越的「汽车」。从技术层面看,这些「零件」并非全新;但从成果来看,其影响却是革命性的。

如果说苹果Vision Pro是头号玩家的硬件外显,那么一个能自动构建仿真虚拟世界的AI系统,才是灵魂。从文字(ChatGPT)到图片(DALL·E)再到视频(Sora),对OpenAI来说,仿佛在搜集一张张的拼图,试图通过影像媒介形态彻底打破虚拟与现实的边界,成为科幻电影「头号玩家」一般的存在。

▲OpenAI官网发布的Sora生成视频截图。(图片来自OpenAI官网)

丨 Sora为何被称为世界模拟器?

OpenAI并未单纯将Sora视为视频模型,而是作为「世界模拟器」。它能像人一样,理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现「汽车撞毁坦克」这样的情况。这就是「世界模型」的强大之处。

按照「人工智能之父」艾伦·图灵提出的具身智能概念,想要理解物理世界的法则,就必须有像人一样的身体与世界交互。但据OpenAI科学家提姆·布鲁克斯透露,没通过人类预先设定,Sora就自己通过「观察」大量数据,自然而然地学会了关于3D几何形状和一致性的知识。这一点从OpenAI发布的48个演示视频中可见一斑,这些视频在很大程度上解决了过去AI视频生成的常见问题,展现了更清晰的图像、更逼真的效果和更流畅的逻辑。

然而,Sora在物理规则模拟方面仍存在不足。例如,一段展示老奶奶吹蜡烛的视频中,蜡烛并未随风熄灭;另一段视频中,玻璃杯从空中坠落却未破裂,水却已流出。这些现象表明,Sora在复杂场景下的物理原理模拟上还有待完善。

尽管如此,Sora的表现已证明,通过大量数据的分析,机器能够推断出一些物理世界的规则,这无疑是向现实世界模拟迈出的重要一步。AI电影【山海奇境】的制作人陈坤提到,Sora通过展示其视频能力,旨在收集用户反馈,进一步探索和预测人们期望生成的视频内容。这一过程类似于大规模模型训练,全球用户的互动不断丰富和优化了其世界模型,推动AI在模拟现实世界方面变得更加精准和智能。

▲OpenAI官网发布的Sora生成视频截图。(图片来自OpenAI官网)

丨 重塑AGI的Sora如何影响世界?

360公司董事长周鸿祎的预言,即Sora的出现可能将实现通用人工智能(AGI)的时间从十年缩短至仅一年,体现了Sora在AI领域的潜在影响力。Sora之所以引起广泛关注,并不仅因为其生成的视频在时长和清晰度上的提升,而是因为OpenAI已经超越了之前所有AI生成内容(AIGC)的能力,创建了与真实物理世界密切相关的视频内容。

许多人认为,Sora横空出世,影视行业受到的影响将首当其冲。将来,影视剧制作的门槛会将会大大降低,只要心里有故事,就可借助强大的AI工具进行创作。

然而不同行业的巨头对Sora持有不同的看法:游戏公司育碧视其为一次巨大的飞跃;华大集团CEO尹烨将其比作开启了AI发展的「牛顿时代」;而Meta的首席人工智能科学家、图灵奖得主LeCun则批评Sora无法真正理解物理世界。

Sora的潜力虽然巨大,但也存在被滥用的风险。随着能够理解物理规则的视频生成时间的增长,人们所看到的内容可能不再能作为判断的依据,「眼见为实」的概念也将成为历史。对此,像马斯克这样的科技领袖也对人类的未来表达了担忧。

上海人工智能研究院的高级分析师方帅指出,尽管Sora能够快速将想法转化为视频,但其成本并不低廉。而且,与文字相比,广告、短视频、电影等内容具有更强的个人风格和更严格的版权保护,Sora生成内容的版权问题也需要被慎重考虑。

面对行业的担忧,美国联邦贸易委员会(FTC)2月15日提出了禁止使用AI工具冒充个人的规则。FTC表示,它正在提议修改一项已经禁止冒充企业或政府机构的规则,将保护范围扩大到所有个人。OpenAI内部也在进行模型伦理方面的对抗性测试,包括拒绝处理错误信息、仇恨内容、偏见内容和色情暴力等。

随着AGI这一「潘多拉魔盒」的开启,人们或许应该尽快适应在虚拟与现实之间辨别的能力。(完)

综合文汇报、每日经济新闻、扬子晚报等

编辑:袁理