当前位置: 华文世界 > 科技

关于 Sora 的另一些思考

2024-02-18科技

文生视频大模型Sora 是 Open AI 推出的, 可以通过文字描述直接生成高度拟真的视频。

Sora能够根据用户的一句话生成长达一分钟的视频, 且视频流畅度和稳定性皆在水准之上。

目前官网上已经更新了48个视频demo, 在这些demo中, Sora不仅能准确呈现细节, 还能理解物体在物理世界中的存在, 并生成具有丰富情感的角色。 该模型还可以根据提示、 静止图像甚至填补现有视频中的缺失帧来生成视频。

看了这些 Demo 确实是非常惊艳, 但是, 现阶段还没有开放给公众用户, 得在 X 上给奥特曼提一段 prompt, 然后奥特曼选择发布相应的视频。

据说Sora的基础论文是由纽约大学助理教授谢赛宁撰写的扩散Transformer论文, 背后生成的是不是Unreal 5 这样的虚拟现实引擎, 还是机器学习创造的, 视频内容有没有经过渲染?

我这几年也关注了高科技的一些分行业公司, 多年前 Magic Leap 在体育馆中, 群众围观鲸鱼从地板上跃出腾空再消失也是颇为惊艳, 但最终被揭穿只是为了融资拍摄的宣传片。 苹果从 2020 年就在传的 Apple glasses, 最终在跳票多年后出的是这么个头罩式的 Vision Pro。

Bad blood 的霍尔姆斯宣称的一滴血检测疾病, 最后发现是买了西门子的血液检测仪器在后面使用。 在她十多年的未被揭穿的过程中可是被誉为女版乔布斯, Theranos 也是汇聚了众多大咖投资站台。
Sora的发布也赶在了OpenAI正在融资的节骨眼上。
高科技公司本身的技术门槛就很高, 又是开创性的工作, 颠覆现有社会的认知, 验真和证伪都非常难, 需要时间, 还是让子弹再飞一会。 据说 8 月份对外开放, 等那个时候再来震惊, 激动, 焦虑, 夜不能寐吧。