Sora：用文本驅動的方式生成影片，展現對物理世界的「理解」

2024-02-17科技

影片是一種能夠生動地展示物理世界的多媒體形式，它包含了豐富的空間、時間、動態和語意資訊。然而，要讓人工智能（AI）能夠理解和生成影片，是一項極具挑戰性的任務，它需要模型具備對視覺數據的高度壓縮、編碼、解碼和生成能力，以及對物理規律和邏輯關系的深刻把握。近日，人工智能領域的領軍機構OpenAI釋出了一款名為Sora的影片生成模型，它可以根據文本指令或靜態影像生成長達一分鐘的高畫質影片，並且在影片中展現出對物理世界的「湧現」能力，即能夠自發地學習和模擬物理世界中的一些基本規律和現象，如三維一致性、長程一致性、物體永久性、與世界互動等。這一模型的出現，不僅為影片內容的創作和編輯提供了新的可能性，也為AI的世界模型的發展提供了新的思路和方向。

Sora的設計靈感來自於大語言模型，如GPT-3等，它們能夠透過大規模的文本數據的學習，實作對文本的理解和生成。Sora的核心思想是，將影片數據轉化為類似於文本的序列表示，然後利用Transformer網絡進行處理和生成。具體來說，Sora首先將影片幀分割成一系列的小塊（patches），這些小塊是模型處理和理解原始數據的基本單元。然後，Sora將這些小塊壓縮到一個低維的潛在空間，並將其分解為「時空塊」（spacetime patches），即從影片幀序列中提取出的具有固定大小和形狀的空間-時間區域。這些時空塊可以被視為Transformer的token，它們不僅包含了局部的空間資訊，還包含了時間維度上的連續變化資訊。模型可以透過學習時空塊之間的關系來捕捉運動、顏色變化等復雜視覺特征，並基於此重建出新的影片序列。這樣的處理方式有助於模型理解和生成影片中的連貫動作和場景變化，從而實作高質素的影片內容生成。

Sora的另一個特點是，它可以接受不同類別的輸入，比如文本、影像或影片，以達到不同的影片生成目的。例如，給定一個文本指令，如「一個人在雪地裏堆雪人的影片」，Sora可以生成一個符合指令的影片，並且在影片中展現出對雪的物理內容、人的動作和表情等的理解。給定一個影像，如一張風景畫，Sora可以生成一個以該影像為背景的影片，並且在影片中添加一些動態的元素，如飄動的雲彩、飛翔的鳥類等，使得影像變得更加生動。給定一個影片，如一段舞蹈影片，Sora可以生成一個延續或變換該影片的新影片，並且在影片中保持舞者的姿態和節奏的一致性。這一特性使得Sora能夠執行廣泛的影像和影片編輯任務，比如制作完美迴圈播放的影片、為靜態影像添加動畫效果、向前或向後延展影片時間軸等。

Sora的最令人驚訝的能力是，它能夠在長期的訓練中，逐漸擁有了一些對物理世界的「湧現」能力，即能夠自發地學習和模擬物理世界中的一些基本規律和現象，而不是透過人為的設定或約束來實作。這些能力表明，Sora不僅是一個影片生成模型，也是一個世界模擬器，它能夠透過觀察和學習來了解物理世界的一些方面，如三維空間、運動、重力、碰撞、摩擦、彈性等。這些能力在Sora的一些影片樣本中得到了體現，比如：

Sora可以生成具有動態攝影機運動的影片。隨著攝影機的移動和旋轉，人物和場景元素在三維空間中保持一致移動。這表明，Sora能夠隱式地解決文本到三維的問題，即根據文本指令生成合適的三維物件和場景，並對其進行適當的渲染和動畫。

Sora可以在影片生成過程中保持時間上的一致性和物體的永久性。對於影片生成系統來說，一個重要的挑戰是在生成長影片時保持時間上的連貫性。Sora通常能夠有效地建模短程和長程的依賴關系，盡管並非總是如此。例如，Sora可以在人、動物和物體被遮擋或離開畫面時仍然保持它們的存在。同樣，它可以在一個樣本中生成同一角色的多個鏡頭，並在整個影片中保持它們的外觀。

Sora有時可以模擬對世界產生簡單影響的動作。例如，畫家可以在畫布上留下持續存在的新筆觸，或者一個人可以吃掉一個漢堡並留下咬痕。這表明，Sora能夠理解一些物體的內容和狀態，以及一些動作的結果和影響。

Sora還能夠模擬人工過程，一個例子是影片遊戲。Sora可以同時使用基本策略控制Minecraft中的玩家，同時以高保真度渲染世界及其動態。這表明，Sora能夠適應不同的世界，無論是真實的還是虛構的，以及不同的任務，無論是被動的還是主動的。

這些能力表明，繼續擴充套件影片模型是發展高能力物理和數碼世界以及其中的物體、動物和人類的模擬器的有希望的途徑。Sora目前所展現的能力還遠遠不夠，它還存在許多局限性和失效模式，比如在長時間采樣中可能出現的不連貫現象，以及物體無端出現或消失等異常情況。