OpenAI的视频生成器Sora：令人叹为观止的同时也引发担忧

2024-02-17科技

OpenAI近日发布了其首款AI文本到视频生成器「Sora」，成果既令人震撼也引发了深思。周四，OpenAI介绍了这款引领潮流的文本到视频生成器Sora，展示了AI模型令人难以置信的、逼真的视频能力。目前，Sora向少数研究人员和创意工作者开放，他们将在公众发布之前测试该模型，这可能对电影行业和我们共同面临的深度伪造问题带来灾难性的影响。

OpenAI在一篇博文中表示：「Sora能够生成包含多个角色、特定类型的动作以及主题和背景的准确细节的复杂场景。」OpenAI并未透露Sora何时向公众开放。

Sora是OpenAI首次涉足AI视频生成领域，为公司的AI驱动的文本和图像生成器——ChatGPT和Dall-E——新增了一项功能。Sora独特之处在于，它不仅仅是一个创意工具，更是一种「数据驱动的物理引擎」，正如Nvidia高级研究员Dr. Jim Fan所指出的那样，Sora不仅仅在生成图像，它还在确定物体在其环境中的物理特性，并基于这些计算渲染视频。

使用Sora生成视频，用户只需输入几句话作为提示，类似于AI图像生成器。你可以选择真实感或动画风格，几分钟内就能产生令人震惊的结果。

Sora是一种扩散模型，意味着它通过从一个模糊、充满静态的视频开始，逐渐将其平滑为你看到的精修版本来生成视频。Midjourney和Stable Diffusion的图像和视频生成器也是扩散模型。但是，OpenAI的Sora似乎要更胜一筹。Sora生成的视频更长、更具动态性，并且相互之间的流畅度更好。Sora仿佛在创造真实的视频，而竞争对手的模型感觉像是AI图像的定格动画。OpenAI再次以一款视频生成器领先于其他AI领域，使竞争对手相形见绌。

Sora生成的视频无疑令人难以置信。这些视频如果由真实的电影摄制组或动画师制作，将需要数小时。Sora很可能会像ChatGPT和AI图像生成器一样，对电影行业造成冲击，对编辑和设计世界产生震撼。这是一项既引人注目又在视频创作者的工作安全方面引发恐惧的技术。

OpenAI表示，还有一些细节需要调整，包括对因果关系的理解不足。例如，Sora可能会生成一个人咬了一口饼干的视频，但之后饼干可能不会有咬痕。OpenAI还表示，该模型缺乏空间意识，可能会混淆左右，不理解人或物体如何与场景互动。

安全也是主要关注点，特别是考虑到近几个月AI技术被滥用制作深度伪造的情况。OpenAI表示，它将构建工具帮助检测误导内容，并应用现有技术拒绝有害的文本提示。

Sora既令人印象深刻又引发恐惧，很明显，这款强大的AI视频生成器可能会颠覆电影行业，并创造有害的输出。想象一下，如果泰勒·斯威夫特的深度伪造变成了视频。或者，如果乔·拜登向新罕布什尔州选民的深度伪造电话变成了来自椭圆形办公室的逼真信息？Sora目前尚未向公众开放，但这项强大技术的影响已经超前发布。