Sora惊艳亮相，OpenAI首度推出AI视频模型，根据文本生成逼真场景

2024-02-16科技

美国人工智能研究机构OpenAI近日发布了其首个AI视频模型Sora，这是继GPT和DALL·E之后，OpenAI在2024年推出的又一重磅产品。Sora能够根据文本指令或静态图片，生成高保真度的视频，涵盖多个角色、动作和背景细节，最长可达一分钟。Sora的出现，不仅展示了OpenAI在视频生成领域的领先地位，也为实现通用人工智能（AGI）提供了一个重要的基础。

Sora是一个基于文本条件的扩散模型，它使用了一种名为扩散概率模型的技术，可以从一堆噪声中逐步生成清晰的视频。Sora也使用了变换器架构，这是一种在多个领域展现了强大扩展性的人工智能技术。Sora在一个压缩的潜在空间中接受训练和生成视频，这个空间由一系列空间时间补丁组成，类似于语言模型中的文本令牌。这种方式使得Sora能够在不同的分辨率、持续时间和长宽比的视频和图像上进行训练和生成。

Sora的效果令人惊叹，它不仅能够生成逼真的场景，还能够根据文本指令创造出既符合物理规律又充满想象力的场景，例如，一朵巨大的人形云在向大地发射闪电，或者一群毛茸茸的猛犸象在雪地上行走。Sora还能够在单个视频中创建多个镜头，保持角色和视觉风格的一致性。Sora还能够学习和模拟摄影师和导演的表达手法，生成具有美感和情感的视频。

Sora的发布引起了业界和网友的广泛关注和讨论，有人称赞Sora是视频生成领域的一个里程碑，有人担心Sora会对视频制作行业造成冲击，也有人好奇Sora是否能够理解和模拟真实世界的复杂性和多样性。OpenAI表示，Sora是一个实验性的产品，目前只对少数视觉艺术家、设计师和电影制作人开放，他们希望通过Sora探索视频生成模型的潜力和局限，以及如何负责任地使用和分享这种技术。

#2月图文动态激励计划#OpenAI还表示，Sora是构建能够泛化模拟物理世界的通用模拟器的一个有前途的途径，这是实现通用人工智能的一个重要目标。通用人工智能是指能够像人类一样在各种领域和任务中表现出智能的人工智能，这是人工智能领域的一个终极梦想，也是一个极具挑战和争议的话题。OpenAI认为，Sora是通向通用人工智能的一个重要的一步，也是一个值得探索和研究的方向。