关于 Sora 的另一些思考

2024-02-18科技

文生视频大模型Sora 是 Open AI 推出的，可以通过文字描述直接生成高度拟真的视频。

Sora能够根据用户的一句话生成长达一分钟的视频，且视频流畅度和稳定性皆在水准之上。

目前官网上已经更新了48个视频demo，在这些demo中， Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

看了这些 Demo 确实是非常惊艳，但是，现阶段还没有开放给公众用户，得在 X 上给奥特曼提一段 prompt，然后奥特曼选择发布相应的视频。

据说Sora的基础论文是由纽约大学助理教授谢赛宁撰写的扩散Transformer论文，背后生成的是不是Unreal 5 这样的虚拟现实引擎，还是机器学习创造的，视频内容有没有经过渲染？

我这几年也关注了高科技的一些分行业公司，多年前 Magic Leap 在体育馆中，群众围观鲸鱼从地板上跃出腾空再消失也是颇为惊艳，但最终被揭穿只是为了融资拍摄的宣传片。苹果从 2020 年就在传的 Apple glasses，最终在跳票多年后出的是这么个头罩式的 Vision Pro。

Bad blood 的霍尔姆斯宣称的一滴血检测疾病，最后发现是买了西门子的血液检测仪器在后面使用。在她十多年的未被揭穿的过程中可是被誉为女版乔布斯， Theranos 也是汇聚了众多大咖投资站台。
Sora的发布也赶在了OpenAI正在融资的节骨眼上。
高科技公司本身的技术门槛就很高，又是开创性的工作，颠覆现有社会的认知，验真和证伪都非常难，需要时间，还是让子弹再飞一会。据说 8 月份对外开放，等那个时候再来震惊，激动，焦虑，夜不能寐吧。