華泰電子：Sora - 生成式AI又一重要進展 - 科技

2024-02-19科技

台北時間2月16日，OpenAI釋出文生影片模型Sora，表示其正在教授AI理解和模擬運動中的物理世界，目標是訓練模型幫助人們解決需要現實世界互動的問題。

核心觀點

事件：OpenAI釋出文生影片模型Sora，AI影片進入大規模套用前夜

據OpenAI官網，台北時間2月16日，OpenAI釋出文生影片模型Sora，表示其正在教授AI理解和模擬運動中的物理世界，目標是訓練模型幫助人們解決需要現實世界互動的問題。Sora目前支持透過文字或者圖片生成長達60秒的影片，此外還支持在時間上向前或向後擴充套件影片，以及影片編輯。我們認為：1）Sora模型在影片生成時長、語意理解程度、以及影片效果和穩定性等方面超出此前競品，隨著Sora、Pika等套用的陸續出圈，後續AI影片套用競爭或更為激烈；2）雖Sora暫未公開使用許可權，但其後續潛在的商業化有望對短影片、電影、遊戲等下遊領域產生深遠影響；3）AI影片套用在算力消耗上遠超文本、音訊及影像，建議關註推理端算力需求提升，以及後續其商業化程度是否能形成收入和投資的正反饋。

Sora核心功能：長達60s的文或圖生影片、影片擴充套件、以及影片編輯

Sora目前可以透過文本或圖片生成長達60s的影片，遠超此前Runway（18秒）、Pika（起步3秒+增加4秒）、Stable Video Diffusion（4秒）等AI影片套用生成時長，在影片效果及穩定性等指標上表現也更加優異。Sora同時支持影片向前向後擴充套件、以及影片編輯。目前OpenAI官網上已經更新了48個由Sora生成的影片案例，整體色彩豐富，效果逼真。但與此同時，OpenAI表示Sora目前在影片模擬方面仍表現出許多局限性，Sora可能難以準確模擬復雜場景的物理特性，並且可能無法理解因果關系。

商業化：尚未公開使用許可權，未來有望深刻影響短影片、電影、遊戲等領域

商業化方面，OpenAI尚未公開Sora的使用許可權，但已經在和安全測試機構、視覺藝術家、設計師和電影制作人合作，以改進產品。Sora目前所具備的文生影片時長已達到短影片主流時長標準，能夠生成包含多個角色、特定類別動作以及主題和背景準確細節的復雜場景，我們認為Sora等AI文生影片產品有望在電影、短影片、遊戲等領域較大改變創作者的工作方式，降低創作成本，提升生產效率。

技術亮點：基於Diffusion Transformer，時空patches統一表現視覺數據

據OpenAI官網公布的Sora技術報告，Sora具有以下技術亮點：1）基於Diffusion Transformer，從一開始看似靜態雜訊的影片出發，經過多步驟的雜訊去除過程，逐漸生成影片，Transformer架構帶來優越的擴充套件效能；2）將不同類別的視覺數據轉化為統一的表現形式（時空patches），以便於在更廣泛的視覺數據上訓練並出現智能湧現，這同時帶來了跨越不同的持續時間、分辨率和長寬比的能力，即未來能夠針對各種器材制作適配的內容，而此前的影片生成技術往往調整為例如4秒鐘、分辨率256x256的標準尺寸；3）套用此前DALL·E和GPT模型的成果，采用了DALL·E 3中的 re-captioning技術以及GPT的延長提示詞技術，以生成更準確的影片。

風險提示：AI 及技術落地不及預期；本研報中涉及到未上市公司或未覆蓋個股內容，均系對其客觀公開資訊的整理，並不代表本研究團隊對該公司、該股票的推薦或覆蓋。