解讀OpenAI SORA技術報告及其影響

2024-02-20科技

字數統計：2919字預計閱讀時間：約6分鐘

日前Openai公布了視訊生成AI「sora」的概述和技術報告。獲得全世界的關註與驚嘆，我們一起解讀一下技術報告，來探討對行業的影響。

01 One

視訊生成模型

視訊生成模型是構建物理世界通用模擬器的一條有前途的途徑。與之前的研究（RNN、GAN、Transformer、Diffusion 模型）不同，sora 是視覺數據的通用模型，可以生成長達1分鐘的高分辨率視訊。它還可以生成各種長度、長寬比和分辨率的視訊和影像。

02 Two

將視訊數據轉化為簡單影像

就像大型語言模型（LLM）使用文本標記（即文字或字元）來處理和理解文本資訊一樣，Sora透過使用視覺元素，即影像塊來理解和處理視覺數據。過去的研究已經證明，這種將視覺資訊劃分成小塊的方法是一種有效的處理方式。

透過將視訊資料壓縮到一個較小的、包含更少數據的空間裏，我們可以將視訊轉換成一系列的小影像塊。這意味著視訊不再以傳統的連續幀方式存在，而是被轉化為一組可以表示視訊內容的影像塊。

03 Three

視訊壓縮網路

訓練一個網路，該網路接收原始視訊作為輸入並獲取時間和空間壓縮的潛在表示。

Sora 在這個壓縮的潛在空間上進行訓練，然後在這個壓縮的潛在空間中生成視訊。並且還透過將生成的潛在空間重新對映到像素空間來訓練解碼器模型。

04 Four

用於視訊生成的時空潛在修補程式/縮放變壓器

Sora 是一種擴散轉換器，可透過接收雜訊修補程式和文本提示等條件資訊來生成視訊。

隨著擴散變壓器的學習，品質得到了提高（下面的視訊）。

05 Five

可變的持續時間、分辨率、寬高比

在以前的方法中，影像和視訊是透過將其壓縮到諸如 256 x 2564之類的分辨率來進行訓練的，但 sora 使用相同的分辨率進行學習。

因此，可以生成寬屏（1920 1080px）、垂直視訊（1080 1920）以及介於兩者之間的所有視訊。

06 Six

改進的框架和構圖

以原始長寬比學習視訊可以改善構圖和取景。

下面左側的視訊是使用裁剪為正方形的視訊進行訓練的，右側的視訊是使用原始寬高比進行訓練的。

不過，即使是256*256的模型，鏡面反射也很自然了……

07 Seven

語言理解

訓練模型生成描述性字幕：我們首先訓練一個高級模型，使其能夠為視訊內容生成高度描述性的字幕。這意味著模型可以自動理解視訊中發生的事件，並以文字的形式詳細描述這些內容。

為所有視訊自動生成字幕：

一旦模型訓練完成，我們就使用它來處理訓練數據集中的所有視訊，為它們自動生成描述性字幕。這樣，每個視訊都會有一段精確的文字描述，幫助觀眾更好地理解視訊內容。

使用GPT轉換使用者提示為詳細指令：

在進行推理時，即模型根據新的輸入做出反應時，使用者可以提供簡短的提示。我們的系統會內部使用GPT這樣的先進技術，將這些簡短的提示轉化為更加詳細、解釋性的長提示。這樣做可以使模型更準確地理解使用者的意圖，並據此生成更為相關和精確的字幕。

透過這種方法，我們的技術不僅能夠提升視訊的可存取性和理解度，還能根據使用者的具體需求客製內容，提供更加豐富、個人化的觀看體驗。

08 Eight

透過影像和視訊進行提示

如下圖提示：在一座華麗的歷史大廳裏，巨大的海浪達到頂峰並開始沖擊。兩名沖浪者抓住時機，熟練地駕馭海浪。

sora可以向前或向後延長視訊時間。

可以擴充套件它以建立無限迴圈的視訊。

也可以進行視訊到視訊的轉換。

您還可以無縫連線兩個視訊。

09 Nine

新興的模擬功能

Sora可以模擬現實世界中的人、動物和環境的某些方面。這些內容的出現並沒有對 3D、物體等產生明確的偏差。這些純粹是透過擴充套件而出現的。

3D 一致性。Sora 可以生成帶有動態攝影機運動的視訊。當攝影機移動或旋轉時，人和場景元素在 3D 空間中一致移動。

保持視訊一致性。還支持遮擋。

透過考慮隨時間的變化，可以繪制一幅圖畫的延續。

還可以模擬數位世界。

10 Ten

考慮對AI領域未來研發的影響

1.對影像/視訊字幕領域的影響

Sora 在一個數據集上進行訓練，該數據集使用大量視訊的專有視訊字幕模型進行註釋。考慮到它能夠生成具有如此一致性的高品質視訊，它被認為是一個相當高品質的視訊捕獲模型。（技術報告中包含一些生成的範例。）。此外，由於它可以生成Minecraft模擬環境，因此虛擬空間的視訊字幕也被認為是相當出色的。

首先，作為sora一部份的視覺編碼器模型是一個比CLIP更好的編碼器模型，而且它似乎可以用於各種下遊任務，例如「物件檢測」和「行為預測」。

2.對遊戲和視訊制作領域的影響

關於使用 NeRF 使用 sora 生成的影像進行 3D 重建的貼文已成為熱門話題。

從這個例子中可以看出，sora 生成的影像似乎有可能以 3D 形式恢復。技術報告中也提到了這一點，並表明sora有能力建立如此一致的鏡頭。近年來， 3D高斯噴射技術因其能夠實作高品質、低成本的3D重建而成為熱門研究領域。隨著sora和3d-GS的發展，從文本即時生成3D場景的未來指日可待。另一方面，可編輯性也是一個問題。不過，考慮到 sora可以以影像為條件生成視訊，並且可以透過文字提示編輯視訊，編輯3D場景可能會變得更容易，因為sora本身的可編輯性很高，但我可以想象事實並非如此。影像本身已經可以輕松地從文本進行編輯。

而且，空似乎對於作曲也有著深厚的造詣。

預計透過用文本提示指導構圖，可以生成具有所需剪輯的視訊。

這對於電影制作的預視覺化制作似乎很有用。然而，除非你嘗試一下，否則你不會知道它的準確性或有用性。

看看sora的模型結構，你大概可以給出多個影像作為影像條件。透過輸入多個角色影像和地點影像作為條件，似乎可以生成類似戲劇的場景。

11 Eleven

總結

在sora的技術報告中，表示sora模擬物理世界的能力是透過縮放來實作的。
縮放法則和突現能力一直是LLM的熱門話題，但sora中的突現能力影響更大……隨著LLM的出現，各種與語言打交道的業務,sora 的出現將為處理視訊的業務帶來重大變化。話雖如此，相信更多的人還是願意享受科技的變化，充分利用新技術。