文生视频亮相，世界是真实的吗

2024-02-17科技

2月16日凌晨，OpenAI在其官网发布了首个文生视频模型——Sora，可生成最长1分钟的视频。视频呈现的景象足以让人以为这是真实存在的世界。但实质上，这是AI生成的虚拟世界。

Sora生成的视频从时长上达到了分钟级，人和动物行为流畅自然，人与自然场景协调一致，细节逼真惊艳，如眨眼和睫毛的细微，以及人脸上的雀斑、皱纹清晰可见，丝毫不亚于高清摄影机摄制的三D影片。

为配合中国的龙年春节，Sora 生成的一处人们庆贺龙年的场景，大街上挤满了舞龙灯的人和观赏者，人山人海。而且，人物的行为举止各有风貌，有舞龙者的轻松和喜悦，有追着舞龙观看的好奇儿童，还有两旁和后面摩肩擦踵的男女老幼，更有不少人掏出手机边跟边拍……这些场景几乎就是现实场景的翻拍。另一段视频是一位时尚女性走在雨后的东京街道上，城市的霓虹灯和动画城市标牌街景与其穿着黑色皮夹克、红色长裙和黑色靴子互相映照，特写画面不只突出了她戴着太阳镜，涂着猩艳的口红，更是凸显了她脸上的雀斑和作为岁月印记的皱纹。

其实，OpenAI公布的细节表明，Sora不只是根据文字提示（prompt）可以生成视频（文生视频）和图片，还可以图生视频，即用一张图片的提示生成视频，生成而准确地把一张平面图的内容和细节转变成动态视频，同时Sora还可以获取现有视频并对其进行扩展或填充缺失的帧，丰富和完善原有视频。因此，Sora是三栖产品。从这个意义上看，Sora的创新是里程碑式的。

现在，OpenAI的首席执行官奥特曼已经在线接单，也有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得了Sora访问权限。

Sora的出现表明，通用人工智能（AGI）不仅离现实应用更近了一步，而且可以在更多的领域实现突破。2023年年底，【自然】杂志的一篇文章预测2024年的10大科学进展，包知了人工智能和聊天生成预训练转换器（ChatGPT）的突破，具有代表性的是，GPT-5将会问世，而且可能会比其前身GPT-4展示出更先进的功能，同时，GPT-4的竞争对手Gemini（另一个生成式AI工具，也是大语言模型）和其他AI工具也会推出。还有深度思考（DeepMind）人工智能公司将在2024年发布人工智能工具阿尔法折叠（AlphaFold）的新版本，将以原子精度模拟蛋白质、核酸和其他分子之间的相互作用，将为药物设计和发现开辟新的可能性。

但是，意想不到的是，AI的创新者们转了一个方向，推出了文生视频，而且质量上乘。这意味着，生成式人工智能（AIGC）朝着通用人工智能的实用化和多样化在发展，而且速度惊人。

文生视频的效果逼真意味着，影视、多频道网络（MCN）、动画、美术、艺术等的从业人员的严冬来临了，因为文生视频的速度和效果可以迅速取代影视行业更多从业者的工作，创作的内容和产品更丰富多彩，产品和产值也会成倍增加。另一方面，行业的准入门槛将变得更低，让演艺行业更为内卷，很多人将面临失业。就连相关网站，如素材网站也将变得无关紧要，甚至会关门大吉。

文生视频当然并不完美，很多画面也与现实难以融入和衔接，如一些灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐，但突然间狼的数量变化了，一些凭空出现或消失。因此，影视行业、MCN要使用成熟和逼真的文生视频还可能有一定时间，但其对行业的颠覆已经是目力可见。

尽管文生视频有着广阔的前景，但是其出现也意味着人工智能对社会的威胁更近了一步。诸如Sora一类的生成式 AI产品会让更多的人认为其看到的图像、音频和视频是真实的，也因而让伪造和欺骗变得更简单更易行。例如，许多人工智能生成的与以色列-哈马斯冲突有关的「深度伪造」图像和音频在网络大行其道，美国一些公众也接到了「深度伪造」的美国总统拜登的电话，知名歌手泰勒·斯威夫特AI虚假「不雅照」更是在网上疯传。

这意味着，每当人工智能新产品出现，社会的监管就多一分责任。这其中，既要让人工智能研发公司遵守人工智能的伦理规范，也意味着需要监管技术的突破。前者，已经有联合国的【人工智能伦理问题建议书】和各国的人工智能规则，后者则需要同步的技术制衡。

一个最简单的原则是，如果是人工智能生成的产品，就应当在向全社会发布时注明是AI产品，让人们知晓这并非是现实和原创，而是人工智能的产物。另一方面，在研发AI产品并发布时，要求生成式 AI 研发人员在模型的输出中嵌入隐藏信号，从而生成水印，以便识别人工智能产品还是原创。

这些方式或许能让人们既享受人工智能生成产品带给人们的效率和便捷，以及提升经济价值，另一方面也尽量减少人工智能对人和社会的威胁。