當前位置: 華文世界 > 科技

華泰電子:Sora - 生成式AI又一重要進展

2024-02-19科技

台北時間2月16日,OpenAI釋出文生影片模型Sora,表示其正在教授AI理解和模擬運動中的物理世界,目標是訓練模型幫助人們解決需要現實世界互動的問題。

核心觀點

事件:OpenAI釋出文生影片模型Sora,AI影片進入大規模套用前夜

據OpenAI官網,台北時間2月16日,OpenAI釋出文生影片模型Sora,表示其正在教授AI理解和模擬運動中的物理世界,目標是訓練模型幫助人們解決需要現實世界互動的問題。Sora目前支持透過文字或者圖片生成長達60秒的影片,此外還支持在時間上向前或向後擴充套件影片,以及影片編輯。我們認為:1)Sora模型在影片生成時長、語意理解程度、以及影片效果和穩定性等方面超出此前競品,隨著Sora、Pika等套用的陸續出圈,後續AI影片套用競爭或更為激烈;2)雖Sora暫未公開使用許可權,但其後續潛在的商業化有望對短影片、電影、遊戲等下遊領域產生深遠影響;3)AI影片套用在算力消耗上遠超文本、音訊及影像,建議關註推理端算力需求提升,以及後續其商業化程度是否能形成收入和投資的正反饋。

Sora核心功能:長達60s的文或圖生影片、影片擴充套件、以及影片編輯

Sora目前可以透過文本或圖片生成長達60s的影片,遠超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI影片套用生成時長,在影片效果及穩定性等指標上表現也更加優異。Sora同時支持影片向前向後擴充套件、以及影片編輯。目前OpenAI官網上已經更新了48個由Sora生成的影片案例,整體色彩豐富,效果逼真。但與此同時,OpenAI表示Sora目前在影片模擬方面仍表現出許多局限性,Sora可能難以準確模擬復雜場景的物理特性,並且可能無法理解因果關系。

商業化:尚未公開使用許可權,未來有望深刻影響短影片、電影、遊戲等領域

商業化方面,OpenAI尚未公開Sora的使用許可權,但已經在和安全測試機構、視覺藝術家、設計師和電影制作人合作,以改進產品。Sora目前所具備的文生影片時長已達到短影片主流時長標準,能夠生成包含多個角色、特定類別動作以及主題和背景準確細節的復雜場景,我們認為Sora等AI文生影片產品有望在電影、短影片、遊戲等領域較大改變創作者的工作方式,降低創作成本,提升生產效率。

技術亮點:基於Diffusion Transformer,時空patches統一表現視覺數據

據OpenAI官網公布的Sora技術報告,Sora具有以下技術亮點:1)基於Diffusion Transformer,從一開始看似靜態雜訊的影片出發,經過多步驟的雜訊去除過程,逐漸生成影片,Transformer架構帶來優越的擴充套件效能;2)將不同類別的視覺數據轉化為統一的表現形式(時空patches),以便於在更廣泛的視覺數據上訓練並出現智能湧現,這同時帶來了跨越不同的持續時間、分辨率和長寬比的能力,即未來能夠針對各種器材制作適配的內容,而此前的影片生成技術往往調整為例如4秒鐘、分辨率256x256的標準尺寸;3)套用此前DALL·E和GPT模型的成果,采用了DALL·E 3中的 re-captioning技術以及GPT的延長提示詞技術,以生成更準確的影片。

風險提示:AI 及技術落地不及預期;本研報中涉及到未上市公司或未覆蓋個股內容,均系對其客觀公開資訊的整理,並不代表本研究團隊對該公司、該股票的推薦或覆蓋。

相關研報

研報:【電子: Sora:生成式AI又一重要進展】2024年2月17日

本文源自:券商研報精選