一場新的「革命」已經開始，揭秘OpenAI文生影片模型Sora技術報告

2024-02-18科技

2月16日，美國人工智能公司OpenAI發表了首個影片生成模型Sora。不同於此前許多AI大模型文生圖或影片時，會出現人物形象前後不一致等問題，此次OpenAI展示的Sora生成的影片中的主角、背景人物，都展現了極強的一致性，可以支持60秒一鏡到底，並包含高細致背景、多角度鏡頭，以及富有情感的多個角色，可謂是相當的「炸裂」。甚至有不少人疾呼，傳統影片制作行業將會被「革命」！

據OpenAI官網介紹，Sora「透過一次性為模型提供多幀的預測，我們解決了一個具有挑戰性的問題」。據了解，此次大模型完美繼承DALL·E 3的畫質和遵循指令能力，能生成長達1分鐘的高畫質影片。並且在隨後公布的多段AI生成的影片中，無論鏡頭如何切換，人物前後都保持了高度的穩定性。

總結來說，Sora大模型的強大之處主要有以下六點：

1、文本到影片生成能力：Sora能夠根據使用者提供的文本描述生成長達60S的影片，這些影片不僅保持了視覺品質，而且完整準確還原了使用者的提示語。

2、復雜場景和角色生成能力：Sora能夠生成包含多個角色、特定運動類別以及主題精確、背景細節復雜的場景。它能夠創造出生動的角色表情和復雜的運鏡，使得生成的影片具有高度的逼真性和敘事效果。

3、語言理解能力：Sora擁有深入的語言理解能力，能夠準確解釋提示並生成能表達豐富情感的角色。這使得模型能夠更好地理解使用者的文本指令，並在生成的影片內容中忠實地反映這些指令。

4、多鏡頭生成能力：Sora可以在單個生成的影片中建立多個鏡頭，同時保持角色和視覺風格的一致性。這種能力對於制作電影預告片、動畫或其他需要多視角展示的內容非常有用。

5、從靜態影像生成影片能力：Sora不僅能夠從文本生成影片，還能夠從現有的靜態影像開始，準確地動畫化影像內容，或者擴充套件現有影片，填補影片中的缺失幀。

6、物理世界模擬能力：Sora展示了人工智能在理解真實世界場景並與之互動的能力，這是朝著實作通用人工智能（AGI）的重要一步。它能夠模擬真實物理世界的運動，如物體的移動和相互作用。

可以說，Sora的出現，預示著一個全新的視覺敘事時代的到來，它能夠將人們的想象力轉化為生動的動態畫面，將文字的魔力轉化為視覺的盛宴。在這個由數據和演算法編織的未來，Sora正以其獨特的方式，或將重新定義我們與數碼世界的互動。

OpenAI在模型公布後的不久，就公布了相關的技術論文【Video generation models as world simulators】。以下為論文的主要內容：

Sora的技術特點

三維空間的連貫性：Sora可以生成帶有動態相機運動的影片。隨著相機移動和旋轉，人物和場景元素在三維空間中保持連貫的運動。

模擬數碼世界：Sora還能模擬人工過程，如影片遊戲。Sora能夠同時控制Minecraft中的玩家，並高保真地渲染遊戲世界及其動態。透過提及「Minecraft」的提示，可以零樣本地激發Sora的這些能力

長期連續性和物體永續性：對影片生成系統來說，Sora通常能夠有效地模擬短期和長期的依賴關系。同樣，它能在一個樣本中生成同一角色的多個鏡頭，確保其在整個影片中的外觀一致。

與世界互動：Sora有時能夠模擬對世界狀態產生簡單影響的行為。例如，畫家可以在畫布上留下隨時間持續的新筆觸，或者一個人吃漢堡時留下咬痕。

訓練過程

Sora 的訓練受到了大語言模型（Large Language Model）的啟發。這些模型透過在互聯網規模的數據上進行訓練，從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型（diffusion transformer）。首先將影片壓縮到一個低維潛在空間中，然後將這種表現形式分解成時空區塊，從而將影片轉換為區塊。它能夠接受帶有雜訊的patch（和條件資訊，如文本提示）作為輸入，隨後被訓練，來預測原始的「幹凈」patch。

訓練了一個用於降低視覺數據維度的網絡。這個網絡以原始影片為輸入，輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練，並在此空間中生成影片。還開發了一個對應的解碼器模型，它能將生成的潛在表示對映回到像素空間。

對於給定的壓縮輸入影片，提取一系列時空區塊，它們在變換器模型中充當標記（token）。這種方案同樣適用於影像，因為影像本質上是單幀的影片。基於區塊的表示方法使Sora能夠針對不同分辨率、持續時間和長寬比的影片和影像進行訓練。在推理過程中，可以透過在適當大小的網格中排列隨機初始化的區塊來控制生成影片的大小。

隨著 Sora 訓練計算量的增加，樣本質素有了顯著提升。

下圖展示了訓練過程中使用固定種子和輸入的影片樣本比較。可以看到，隨著訓練計算資源的增加，樣本質素顯著提升。

Sora訓練時沒有對素材進行裁切，使得Sora能夠直接為不同器材以其原生長寬比創造內容。針對影片的原生長寬比進行訓練，還可以提高構圖和取景的質素。

它還可以先以較低分辨率快速制作出影片原型，再用相同的模型制作出全分辨率的影片。

訓練文本到影片的生成系統需要大量配有相應文本提示的影片。套用了在DALL·E 3中引入的重新字幕技術到影片上。

與DALL·E 3相似，也利用了GPT技術，將使用者的簡短提示轉換成更詳細的提示，然後發送給影片模型。

論文關鍵點

OpenAI 的研究論文【Video generation models as world simulators】探討了在影片數據上進行大規模訓練生成模型的方法。這項研究特別關註於文本條件擴散模型，這些模型同時在影片和影像上進行訓練，處理不同時長、分辨率和寬高比的數據。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真影片。以下是論文的一些關鍵點：

統一的視覺數據表示：研究者們將所有類別的視覺數據轉換為統一的表示，以便進行大規模的生成模型訓練。Sora 使用視覺修補程式（patches）作為其表示方式，類似於大型語言模型（LLM）中的文本標記。

影片壓縮網絡：研究者們訓練了一個網絡，將原始影片壓縮到一個低維潛在空間，並將其表示分解為時空修補程式。Sora 在這個壓縮的潛在空間中進行訓練，並生成影片。

擴散模型：Sora 是一個擴散模型，它透過預測原始「幹凈」的修補程式來從輸入的雜訊修補程式中生成影片。擴散模型在語言建模、電腦視覺和影像生成等領域已經顯示出了顯著的擴充套件性。

影片生成的可延伸性：Sora 能夠生成不同分辨率、時長和寬高比的影片，包括全高畫質影片。這種靈活性使得 Sora 能夠直接為不同器材生成內容，或者在生成全分辨率影片之前快速原型化內容。

語言理解：為了訓練文本到影片生成系統，需要大量的影片和相應的文本標題。研究者們套用了在 DALL·E 3 中引入的重新描述技術，首先訓練一個高度描述性的標題生成器，然後為訓練集中的所有影片生成文本標題。

影像和影片編輯：Sora 不僅能夠基於文本提示生成影片，還可以基於現有影像或影片進行提示。這使得 Sora 能夠執行廣泛的影像和影片編輯任務，如建立完美迴圈的影片、動畫靜態影像、向前或向後擴充套件影片等。

模擬能力：當影片模型在大規模訓練時，它們展現出了一些有趣的新興能力，使得 Sora 能夠模擬物理世界中的某些方面，如動態相機運動、長期一致性和物件永續性等。

雖然存在不足之處，但這不是關鍵

盡管 Sora 展示了作為模擬器的潛力，但它仍然存在許多局限性，例如在模擬基本物理互動時的準確性不足。

比如下面這個由 Sora 生成的影片當中，動物的數量隨著時間的推移出現了明顯的錯亂，多個動物憑空出現又憑空消失了。此外，在一些生成的影片當中還會出現違反物理規則的現象。但是，對於新生的Sora來說，這些都不是關鍵，後續完全能夠透過技術叠代來進行完善和改進。

這也是為什麽，Sora雖然有一些不完美之處，但是外界仍一致認為它將會革命性地改變許多行業。

可以說，目前的Sora已經擁有了足以改變影片廣告行業的能力，如果持續叠代，並在保持穩定性和一致性的前提下，進一步支持更復雜的互動、更長的影片時長，並加入更為豐富的AI影片編輯功能，或將對於現有的影視制作產業帶來革命。

試想一下，如果將一部小說輸入Sora就能夠生成一部高質素的電影，這將會是多麽的激動人心！這將極大的降低影片創作的門檻，並提升影片的質素，這對於整個行業來說都將帶來更為積極的意義。當然，這也將會沖擊到現有的傳統影片制作產業鏈上的諸多從業者，恐怕很多演員、導演、攝影師，以及很多相關的服裝、化妝、道具人員都將要失業了。

編輯：芯智訊-浪客劍