OpenAI 推出文本到視訊人工智慧模型 Sora

2024-02-16科技

OpenAI 正在推出一種新的視訊生成模型，它的名字叫 Sora。這家人工智慧公司稱，Sora"可以根據文字說明建立逼真而富有想象力的場景"。文本到視訊模式允許使用者根據自己編寫的提示建立長達一分鐘的逼真視訊。

根據 OpenAI 的介紹博文，Sora 能夠建立"具有多個角色、特定運動型別以及主體和背景準確細節的復雜場景"。該公司還指出，該模型能夠理解物體"在物理世界中的存在方式"，還能"準確解釋道具並生成表達生動情感的引人註目的角色"。

該模型還能根據靜態影像生成視訊，以及在現有視訊中填充缺失的幀或擴充套件視訊。OpenAI 的博文中包含的 Sora 生成的演示包括淘金熱時期加利福尼亞州的空中場景、從東京火車內部拍攝的視訊等。許多演示都有人工智慧的痕跡--比如在一段博物館的視訊中，地板疑似在移動。OpenAI 表示，該模型"可能難以準確模擬復雜場景的物理現象"，但總體而言，演示結果令人印象深刻。

幾年前，像 Midjourney 這樣的文本到影像生成器在模型將文字轉化為影像的能力方面處於領先地位。但最近，視訊技術開始飛速進步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字轉視訊模型，而Google的 Lumiere 也將成為 OpenAI 在這一領域的主要競爭對手之一。與 Sora 類似，Lumiere 也為使用者提供了文字轉換視訊的工具，還能讓使用者透過靜態影像建立視訊。

Sora 目前只對"紅隊"人員開放，他們負責評估模型的潛在危害和風險。OpenAI 還向一些視覺藝術家、設計師和電影制片人提供存取許可權，以獲得反饋意見。它指出，現有模型可能無法準確模擬復雜場景的物理現象，也可能無法正確解釋某些因果關系。

本月早些時候，OpenAI 宣布將在其文本到影像工具 DALL-E 3 中添加浮水印，但指出這些浮水印"很容易去除"。與其他人工智慧產品一樣，OpenAI 將不得不面對人工智慧逼真視訊被誤認為是真實視訊的後果。