该死的sora搞得我整晚失眠

2024-02-18科技

最近怎么样，朋友们？今天我来给大家介绍一个让我整夜失眠的东西——OpenAI刚刚发布的文生视频大模型，Sora。真的，这件事让我有种「现实，不存在了」的错觉。看到Sora的能力，我不由自主地想到了【三体】里的一句话：「物理学，不存在了」。不过在这里，我们得换一种说法：「现实，不存在了」。

Sora：现实与虚拟的交汇点

首先得承认，Sora不是简单的AI模型。它代表了OpenAI在将AI教会理解并模拟运动中的物理世界方面的一个巨大突破。目标是训练出可以帮助人们解决需要与现实世界互动的问题的模型。想象一下，这意味着什么？它意味着AI现在不仅能理解静态的图像，还能够理解和生成动态的视频内容。简直就像是给了AI一双能看见时间流动的眼睛。

Sora的强大之处

接下来，让我们来聊聊Sora的三个超级能力：「60秒超长长度」、「单视频多角度镜头」和「世界模型」。

首先，当大部分AI视频还在为了四秒连贯性挣扎时，Sora傲娇地宣布：60秒的视频？对我来说，小菜一碟！

然后，你以为视频制作中最困难的多角度镜头转换是问题？对Sora来说，也不过是左手的事情。

而最让我震撼的是，Sora的「世界模型」——它甚至能在视频中展现出对物理规律的理解！

技术背景解析

Sora的强大并非无中生有。它是一种扩散模型，能够通过从静态噪声出发，逐步移除噪声来生成视频。与GPT模型类似，Sora使用了变压器架构，提供了卓越的扩展性能。它通过将视频和图像表示为数据块（或称为「补丁」），这些补丁类似于GPT中的token，这种统一的数据表示方式使得Sora能够训练在更广泛的视觉数据上，涵盖不同的持续时间、分辨率和长宽比。简而言之，Sora就是将我们熟悉的GPT带入了视频的世界。

未来的可能

OpenAI表示，他们在让Sora投入使用前会采取一系列重要的安全措施。包括与专家合作，使用检测分类器帮助识别误导性内容，并在未来可能在OpenAI产品中部署模型时加入C2PA元数据。这意味着Sora不仅是技术上的一大步，也是在负责任地推进AI技术的同时，考虑到了安全性和伦理性的又一大步。

结语：未来已来，你准备好了吗？

最后，Sora不仅仅是一个技术产品，它也是对现实和虚拟界限的一次深刻探索。通过它，我们能够预见到一个在虚拟世界中自由创造和探索的未来。虽然我们无法预测人们将如何使用或滥用这项技术，但正如OpenAI所说，从真实世界中学习是创造和发布越来越安全的AI系统的关键组成部分。