AI理解世界萬物，Sora技術報告解析

2024-02-18科技

近日，一項名為Sora的前沿技術報告引發了全球科技界的廣泛關註。該報告詳述了一種具有革命性意義的影片數據生成模型，透過大規模聯合訓練和創新架構，實作了對可變時長、分辨率及寬高比影片與影像的高效創作。

這一突破標誌著我們向構建一個能夠模擬真實物理世界的通用模擬器邁出了堅實一步。

在最新釋出的Sora技術報告中，研究團隊探索了影片生成模型在處理大規模、多樣性和高質素影片內容方面的邊界拓展。

其核心技術是一種基於transformer架構的文本條件擴散模型，能夠在統一表示下操作視覺數據的時空patch，並套用於不同類別的影片和影像生成。最引人註目的是，Sora最大模型成功生成了一分鐘以上的高畫質影片，展現了前所未有的影片生成能力。

本次報告聚焦兩大核心議題：如何將所有類別視覺數據轉化為統一格式以實作大規模訓練；對Sora模型的能力及其局限性進行了深入定性評估，為未來模型最佳化提供了方向。

圖：隨著訓練計算的增加，樣本質素顯著提高

盡管先前已有多種方法套用於影片生成建模，如迴圈網絡、生成對抗網絡、自回歸transformer以及擴散模型等，但這些研究大多局限於特定視覺數據類別、較短時長或固定尺寸的影片。而Sora則一改常態，以其廣泛的適用性，成為了首個可以生成不同規格影片及影像的通用模型。

圖：可生成不同尺寸影片

借鑒大型語言模型（LLMs）的成功範式，Sora將視覺patch作為其「token」，將視覺數據轉換為一種高度可延伸且有效的表示形式。透過影片壓縮網絡，原始影片被降至低維潛在空間，隨後分解成一系列時空patch，進而成為transformer的輸入單元。這一設計使得Sora能夠靈活應對各種分辨率、時長和寬高比的影片和影像生成任務。

圖：影片改善取景

值得註意的是，Sora采用了先進的擴散transformer技術進行影片生成。在給定輸入雜訊patch及相關調節資訊（如文本提示）的情況下，模型經過訓練預測出「幹凈」的原始patch。如同在語言建模、電腦視覺和影像生成領域大放異彩的transformers一樣，研究人員發現擴散transformer同樣適用於影片場景並能有效提升至更大規模。

圖：影像描述生成影片

Sora的關鍵特性之一在於它對影片的持續時間、分辨率和寬高比的靈活性。相較於傳統方法需調整大小或裁剪影片到標準尺寸，直接在原始尺寸上訓練模型帶來了諸多優勢，包括更豐富的采樣靈活性、改進的取景構圖以及更好的文本理解能力。

圖：影像描述生成影片

借助重新字幕技術和GPT對使用者簡短提示的擴充套件，Sora不僅能依據文字生成影片，還能根據現有影像或影片進行創造性編輯，如制作迴圈影片、動畫靜態影像，甚至是無縫地向前或向後延伸影片內容。

圖：擴充套件生成的影片

此外，Sora展示了令人矚目的模擬功能，例如生成3D一致性的影片，保持物件永續性和遠端相幹性，甚至模擬與環境互動的動作，如在【Minecraft】遊戲中的玩家行為。

圖：模擬數碼世界

雖然當前Sora在模擬復雜物理過程方面仍存在局限性，但其所展現的能力預示著持續發展的影片生成模型有望成為建立高效能物理和數碼世界模擬器的強大工具。

總結來說，Sora技術報告揭示了一個嶄新的AI研究領域，透過影片生成模型不僅拓寬了人類創造和編輯影片內容的可能性，更為理解和模擬現實與虛擬世界的互動開啟了新視窗。

這項研究成果無疑為未來的智能技術發展註入了強大的動力，讓我們有理由相信，在不遠的將來，一個由AI驅動的世界模擬器將在科研、娛樂乃至更多領域發揮無可估量的作用。