當前位置: 華文世界 > 科技

OpenAI推出影片生成模型Sora,一句文本描述即可生成17秒櫻花影片

2024-02-16科技

當地時間 2 月 15 日,OpenAI 釋出了一個名為 Sora 的新型影片生成模型。它可以根據簡短的文字提示(prompt),將其轉化為長達一分鐘的高畫質影片,鏡頭感堪比電影。

圖 | Sora 所生成影片的截圖(來源:Sora)

在新聞公布之前,OpenAI 給【麻省理工科技評論】發送了四份樣片。這家總部位於舊金山的公司已然再次定義了「文本到影片生成」的可能性:這是一個熱門的研究方向,【麻省理工科技評論】將其視為 2024 年值得關註的科技發展趨勢之一。

OpenAI 的科學家添·布魯克斯(Tim Brooks)說:「我們認為,建立能夠理解影片的模型,並理解我們世界中所有這些非常復雜的互動,對於未來所有的人工智能系統而言,是非常重要的一步。」

但 OpenAI 給我們分享的影片附加了嚴格的保密條件。如果我們想提前看到有關 Sora(日語蒼穹的意思)的資訊,就必須等到該模型的訊息公開發表之後,才能咨詢和征求外部專家的意見。

OpenAI 尚未釋出有關 Sora 的詳細技術報告,也未解釋或證明該模型如何有效。它還表示不會很快向公眾釋出 Sora。以下是我們收到的影片片段:

第一個可以從文本中生成影片的生成式人工智能模型出現在 2022 年末。但 Meta、谷歌和一家名為 Runway 的初創公司的早期成果充滿了各種小問題,看起來也比較粗糙。

自那以後,這項技術發展得很快。Runway 在 2023 年釋出的 Gen-2 模型可以制作質素接近大型工作室動畫的短片。但大多數成果仍然只有幾秒鐘長。

而 OpenAI Sora 的演示影片是高畫質的,充滿了豐富的細節。OpenAI 還表示,它可以生成長達一分鐘的影片。

一段東京街頭場景的影片顯示,Sora 已經學會了三維世界中的物體是如何組合在一起的:當一對夫婦路過一排商店時,攝影機會切入這個場景並跟隨他們。

OpenAI 還表示 Sora 能夠很好地處理遮擋。現有模型的一個問題是,當一些物體從視線中消失後,它們可能無法繼續跟蹤這些物體。例如,如果一輛卡車從路牌前面經過,路牌可能就徹底消失了。

在一段紙制水下場景的影片中,Sora 在不同鏡頭之間進行了無縫轉換,模型在它們之間保持了一致的風格。

當然,Sora 生成的影片還不完美。在東京的影片中,左邊的汽車看起來比旁邊的人還小。它們也會在樹枝之間進進出出。

布魯克斯說:「在長期一致性方面,肯定還有一些工作要做。例如,如果有人長時間離開視線,他們就不會再出現了。模型有點忘記了他們應該出現在那裏。」

盡管我們看到的影片片段很驚艷,但這些展示影片無疑是經過精心挑選的,以展示 Sora 的最佳表現。

如果沒有更多詳細資訊,我們很難知道它們在多大程度上代表了模型的平均水平。

我們可能還需要一段時間才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有關 Sora 的訊息,更像是一次科技圈的造勢。

該公司表示,目前沒有向公眾釋出 Sora 的計劃,但它將首次開始與第三方安全測試人員共享該模型。

該公司尤其擔心,這些看起來很逼真的影片可能被濫用。OpenAI 的科學家阿迪蒂亞·拉梅什(Aditya Ramesh)表示:「我們在這一點上非常謹慎,我們必須確保在將其交付給公眾之前已做好鋪墊。」此前他曾建立了該公司的文本到影像模型 DALL-E。

但 OpenAI 正計劃在未來某個時候進行一次產品釋出。除了安全測試人員,該公司還與一些影片制作者和藝術家分享了這款模型,希望搞清楚 Sora 如何更好地幫助專業創意人士,發揮更大的價值。

拉梅什說:「(此時公布新聞的)另一個目標是向每個人展示即將到來的東西,一窺這些模型的能力。」

為了構建 Sora,該團隊調整了 DALL-E 3 背後的技術,這是 OpenAI 最強文本到影像模型的最新版本。

像大多數文本到影像模型一樣,DALL-E 3 使用了所謂的擴散模型。經過訓練後,它們可以將隨機而模糊的像素變成圖片。

Sora 也采用了同樣的方法,只不過是將其套用於影片而非靜態圖片上。但研究人員也在其中加入了另一種技術。

與 DALL-E 或大多數其他影片生成模型不同,Sora 結合了擴散模型與 Transformer 神經網絡。

Transformer 非常擅長處理長序列的數據,比如單詞。這使它們成為 OpenAI GPT-4 和谷歌 Gemini 等大型語言模型中的靈魂。但影片不是由文字構成的。

因此,研究人員必須找到一種方法,將影片分割成塊,並讓 Transformer 將其視為文字一樣的東西。

他們想出的方法是,在空間和時間上對影片進行分割。布魯克斯說:「這就像你把所有的影片幀堆在一起,然後從中切下一個一個小方塊。」

Sora 使用的 Transformer 可以處理這些影片數據塊,其方式與大型語言模型中 Transformer 處理文本塊中的單詞的方式非常相似。

研究人員表示,這使他們用來訓練 Sora 的影片類別更加豐富,比其他文本到影片模型更多,包括不同的分辨率、持續時間、長寬比和方向。

布魯克斯說:「這真的對模型有幫助。這是我們在現有工作上還沒看到的事情。」

「從技術角度來看,這似乎是一個非常重大的飛躍。」專門研究影片技術使用和濫用的人權組織 Witness 的執行董事山姆·格雷戈裏(Sam Gregory)說,「但凡事都有兩面性,這種表達能力為更多人提供了使用影片講故事的潛力,但也存在潛在的濫用可能。」

OpenAI 非常清楚影片生成模型所帶來的風險。我們已經看到深度偽造影像的大規模濫用,逼真的(虛假)影片很可能將這一問題提升到另一個層次。

格雷戈裏指出,你可以使用這樣的技術來誤導人們關於沖突地區或抗議活動的資訊。他說,影片生成風格的種類範圍也很有趣。如果你能制作出不穩定的鏡頭,看起來像是用手機拍攝的,那麽它會顯得更真實。

我們的技術水平還沒發展到那裏,但人工智能影片生成技術在短短 18 個月內就從零發展到了 Sora。格雷戈裏說:「我們將進入一個宇宙,在這個宇宙裏,將有完全合成的內容、人類生成的內容以及兩者的混合。」

OpenAI 團隊計劃借鑒 2023 年為 DALL-E 3 進行的安全測試。Sora 已經內嵌一個過濾器,可以篩選發送給模型的所有提示,該過濾器將阻止對暴力、性、仇恨和已知人物影像的請求。

另一個過濾器將檢視生成的影片幀,並遮蔽違反 OpenAI 安全政策的內容。

OpenAI 表示,它還將把為 DALL-E 3 開發的虛假影像檢測器用到 Sora 上。該公司將把行業標準的 C2PA 標簽,即說明影像是如何生成的後設資料,嵌入到 Sora 輸出的所有內容中。

但這些措施遠非萬無一失。虛假影像檢測器可能會犯錯,後設資料也很容易刪除,因為大多數社交媒體網站預設會將其從上傳的影像中刪除。

拉梅什說:「在我們向公眾正式釋出這款模型之前,我們肯定需要獲得更多的反饋,了解更多與影片有關的風險類別。」

布魯克斯對此表示贊同。他說:「我們現在談論這項研究的部份原因是,我們可以開始獲得所需的投入,從而開展必要的工作,找出安全部署它的方式。」

作者簡介:威爾·道格拉斯·海文(Will Douglas Heaven)是【麻省理工科技評論】人工智能欄目的高級編輯,他在這裏報道新的研究、新興趨勢及其背後的人。此前,他是英國廣播公司(BBC)科技與地緣政治網站 Future Now 的創始編輯,也是 New Scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院電腦科學博士學位,深諳與機器人合作的體驗。

支持:Ren

營運/排版:何晨龍