OpenAI推出影片生成模型Sora，一句文本描述即可生成17秒櫻花影片

2024-02-16科技

當地時間 2 月 15 日，OpenAI 釋出了一個名為 Sora 的新型影片生成模型。它可以根據簡短的文字提示（prompt），將其轉化為長達一分鐘的高畫質影片，鏡頭感堪比電影。

圖 | Sora 所生成影片的截圖（來源：Sora）

在新聞公布之前，OpenAI 給【麻省理工科技評論】發送了四份樣片。這家總部位於舊金山的公司已然再次定義了「文本到影片生成」的可能性：這是一個熱門的研究方向，【麻省理工科技評論】將其視為 2024 年值得關註的科技發展趨勢之一。

OpenAI 的科學家添·布魯克斯（Tim Brooks）說：「我們認為，建立能夠理解影片的模型，並理解我們世界中所有這些非常復雜的互動，對於未來所有的人工智能系統而言，是非常重要的一步。」

但 OpenAI 給我們分享的影片附加了嚴格的保密條件。如果我們想提前看到有關 Sora（日語蒼穹的意思）的資訊，就必須等到該模型的訊息公開發表之後，才能咨詢和征求外部專家的意見。

OpenAI 尚未釋出有關 Sora 的詳細技術報告，也未解釋或證明該模型如何有效。它還表示不會很快向公眾釋出 Sora。以下是我們收到的影片片段：

第一個可以從文本中生成影片的生成式人工智能模型出現在 2022 年末。但 Meta、谷歌和一家名為 Runway 的初創公司的早期成果充滿了各種小問題，看起來也比較粗糙。

自那以後，這項技術發展得很快。Runway 在 2023 年釋出的 Gen-2 模型可以制作質素接近大型工作室動畫的短片。但大多數成果仍然只有幾秒鐘長。

而 OpenAI Sora 的演示影片是高畫質的，充滿了豐富的細節。OpenAI 還表示，它可以生成長達一分鐘的影片。

一段東京街頭場景的影片顯示，Sora 已經學會了三維世界中的物體是如何組合在一起的：當一對夫婦路過一排商店時，攝影機會切入這個場景並跟隨他們。

OpenAI 還表示 Sora 能夠很好地處理遮擋。現有模型的一個問題是，當一些物體從視線中消失後，它們可能無法繼續跟蹤這些物體。例如，如果一輛卡車從路牌前面經過，路牌可能就徹底消失了。

在一段紙制水下場景的影片中，Sora 在不同鏡頭之間進行了無縫轉換，模型在它們之間保持了一致的風格。

當然，Sora 生成的影片還不完美。在東京的影片中，左邊的汽車看起來比旁邊的人還小。它們也會在樹枝之間進進出出。

布魯克斯說：「在長期一致性方面，肯定還有一些工作要做。例如，如果有人長時間離開視線，他們就不會再出現了。模型有點忘記了他們應該出現在那裏。」

盡管我們看到的影片片段很驚艷，但這些展示影片無疑是經過精心挑選的，以展示 Sora 的最佳表現。

如果沒有更多詳細資訊，我們很難知道它們在多大程度上代表了模型的平均水平。

我們可能還需要一段時間才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有關 Sora 的訊息，更像是一次科技圈的造勢。

該公司表示，目前沒有向公眾釋出 Sora 的計劃，但它將首次開始與第三方安全測試人員共享該模型。

該公司尤其擔心，這些看起來很逼真的影片可能被濫用。OpenAI 的科學家阿迪蒂亞·拉梅什（Aditya Ramesh）表示：「我們在這一點上非常謹慎，我們必須確保在將其交付給公眾之前已做好鋪墊。」此前他曾建立了該公司的文本到影像模型 DALL-E。

但 OpenAI 正計劃在未來某個時候進行一次產品釋出。除了安全測試人員，該公司還與一些影片制作者和藝術家分享了這款模型，希望搞清楚 Sora 如何更好地幫助專業創意人士，發揮更大的價值。

拉梅什說：「（此時公布新聞的）另一個目標是向每個人展示即將到來的東西，一窺這些模型的能力。」

為了構建 Sora，該團隊調整了 DALL-E 3 背後的技術，這是 OpenAI 最強文本到影像模型的最新版本。

像大多數文本到影像模型一樣，DALL-E 3 使用了所謂的擴散模型。經過訓練後，它們可以將隨機而模糊的像素變成圖片。

Sora 也采用了同樣的方法，只不過是將其套用於影片而非靜態圖片上。但研究人員也在其中加入了另一種技術。

與 DALL-E 或大多數其他影片生成模型不同，Sora 結合了擴散模型與 Transformer 神經網絡。

Transformer 非常擅長處理長序列的數據，比如單詞。這使它們成為 OpenAI GPT-4 和谷歌 Gemini 等大型語言模型中的靈魂。但影片不是由文字構成的。

因此，研究人員必須找到一種方法，將影片分割成塊，並讓 Transformer 將其視為文字一樣的東西。

他們想出的方法是，在空間和時間上對影片進行分割。布魯克斯說：「這就像你把所有的影片幀堆在一起，然後從中切下一個一個小方塊。」

Sora 使用的 Transformer 可以處理這些影片數據塊，其方式與大型語言模型中 Transformer 處理文本塊中的單詞的方式非常相似。

研究人員表示，這使他們用來訓練 Sora 的影片類別更加豐富，比其他文本到影片模型更多，包括不同的分辨率、持續時間、長寬比和方向。

布魯克斯說：「這真的對模型有幫助。這是我們在現有工作上還沒看到的事情。」

「從技術角度來看，這似乎是一個非常重大的飛躍。」專門研究影片技術使用和濫用的人權組織 Witness 的執行董事山姆·格雷戈裏（Sam Gregory）說，「但凡事都有兩面性，這種表達能力為更多人提供了使用影片講故事的潛力，但也存在潛在的濫用可能。」

OpenAI 非常清楚影片生成模型所帶來的風險。我們已經看到深度偽造影像的大規模濫用，逼真的（虛假）影片很可能將這一問題提升到另一個層次。

格雷戈裏指出，你可以使用這樣的技術來誤導人們關於沖突地區或抗議活動的資訊。他說，影片生成風格的種類範圍也很有趣。如果你能制作出不穩定的鏡頭，看起來像是用手機拍攝的，那麽它會顯得更真實。

我們的技術水平還沒發展到那裏，但人工智能影片生成技術在短短 18 個月內就從零發展到了 Sora。格雷戈裏說：「我們將進入一個宇宙，在這個宇宙裏，將有完全合成的內容、人類生成的內容以及兩者的混合。」

OpenAI 團隊計劃借鑒 2023 年為 DALL-E 3 進行的安全測試。Sora 已經內嵌一個過濾器，可以篩選發送給模型的所有提示，該過濾器將阻止對暴力、性、仇恨和已知人物影像的請求。

另一個過濾器將檢視生成的影片幀，並遮蔽違反 OpenAI 安全政策的內容。

OpenAI 表示，它還將把為 DALL-E 3 開發的虛假影像檢測器用到 Sora 上。該公司將把行業標準的 C2PA 標簽，即說明影像是如何生成的後設資料，嵌入到 Sora 輸出的所有內容中。

但這些措施遠非萬無一失。虛假影像檢測器可能會犯錯，後設資料也很容易刪除，因為大多數社交媒體網站預設會將其從上傳的影像中刪除。

拉梅什說：「在我們向公眾正式釋出這款模型之前，我們肯定需要獲得更多的反饋，了解更多與影片有關的風險類別。」

布魯克斯對此表示贊同。他說：「我們現在談論這項研究的部份原因是，我們可以開始獲得所需的投入，從而開展必要的工作，找出安全部署它的方式。」

作者簡介：威爾·道格拉斯·海文（Will Douglas Heaven）是【麻省理工科技評論】人工智能欄目的高級編輯，他在這裏報道新的研究、新興趨勢及其背後的人。此前，他是英國廣播公司（BBC）科技與地緣政治網站 Future Now 的創始編輯，也是 New Scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院電腦科學博士學位，深諳與機器人合作的體驗。

支持：Ren

營運/排版：何晨龍