Sora啟示錄：信仰、對抗與未來

2024-02-19科技

圖片來源@視覺中國

文 | 矽基研究室，作者 | 山核桃

隨著OpenAI正式釋出第一個文生視訊大模型Sora，過去幾天裏圍繞Sora技術配方的猜測，對行業影響的討論成為了科技圈的頭條。一位AI創業者對Sora評價是：「沒有想到文生視訊的GPT時刻能來的這麽快。」

從創業者和行業觀察角度，文生視訊一直被視為多模態AIGC「聖杯」，除了本身相較於文生圖來說難度更高外，在數據品質、算力以及多融合技術的復雜性上都有諸多需要突破的關卡，這也是為什麽即便是行業異常火熱，從Runway等AI視訊初創公司崛起，再到去年Pika爆火，業內人士也樂觀地認為2024是AI行業的「視訊大年」，但還是在時間上留了保守態度。 比如，Pika聯合創始人Chenlin Meng在去年接受采訪預測：「目前視訊生成處於類似GPT-2的時刻。」

但Sora所呈現的效果還是打破了業內人士的預期。

無論是同行們——馬斯克「人類願賭服輸」，Runway聯合創始人「game on」的感慨，還是技術層面，如前阿裏總裁賈揚清「非常牛」的評價，似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的GPT-3時刻。

在各類觀點之外，Sora崛起究竟能給創業者乃至技術界帶來哪些啟示？目前國內外文生視訊的發展進度又如何？

01 Sora是OpenAI技術路線的又一次驗證

「矽基研究室」曾在【Pika爆火，但AI視訊還沒到「GPT時刻」】一文中系統梳理AI生成視訊模型背後的技術路線，主要可分為三個階段——

階段一為基於GAN（生成式對抗網路遊戲）和VAE模型（變分自編碼器），可以自回歸地形成視訊幀，但該技術的局限性在於套用範圍窄，生成視訊分辨率低，且僅能生成靜態、單一的畫面；

階段二為受GPT3和DALLE啟發，行業開始采用Transformer架構， 出現了谷歌的Phenaki、微軟的NUWA等一系列的視訊生成模型，巨頭押註之中，提升了視訊模型的能力，例如可以捕捉上下文，實作顆粒度更細的語意控制等，卻缺點也更明顯了——計算量太大了，對配對數據集的要求也更大。

階段三也則是受stable diffusion等文生圖套用擴散模型的啟發（diffusion models），從影像到視訊領域，采用擴散架構成為了主流 ，Meta的Make-a-video、輝達的Video LDM，初創公司Runway的Runway-Gen1、Runway-Gen2、字節的MagicVideo等也都是采用了擴散架構。

但擴散模型這一技術路線在演算法、數據上存在難點，比如如何改善計算成本和提升數據集品質這一老問題，以及在生成效果與品質上，例如畫面的一致性、分辨率、生成長度上也有不少的問題。

圖片來源：東吳證券

而Sora所呈現出的效果，如生成風格的多樣性、畫面的一致性等優勢恰好彌補了過去視訊生成模型的劣勢。而復盤Sora之所以能加速視訊模型行程，綜合官方的技術文件和專家的猜測觀點， 核心邏輯依舊是OpenAI技術路線的又一次驗證，這套路線的特點是：大力出奇跡、足夠簡潔和堅守技術信仰。

一是大力出奇跡，Sora遵循了OpenAI推崇的Scaling Law。在Scaling Law的指導下，OpenAI擅長以更大規模的算力和數據提升模型效能表現。思謀科技創始人賈佳亞評價Sora：「Sora是大力出奇跡，在學術界連VIT的256*256的分辨率都沒法改的情況下，Sora直接用上了高畫質以及更大的分辨率，這沒幾千上萬張 p00都不敢想象如何開始這個計畫。」

二是簡潔性。根據技術文件和專家猜測，Sora是使用了混合模型架構——是Transformer架構的Diffusion擴散模型，據紐約大學數據科學中心的助理教授謝賽寧的猜測（註：他也是Sora技術文件中所參照的一篇關鍵論文的作者之一）， Sora應該是建立在一種混合模型DiT之上（DiT是一個帶有Transformer主幹的擴散模型，它= [VAE編碼器+ViT+DDPM+VAE解碼器]）。

同時，Sora參考了文生文模型中的Token原理。在文生文模型中，文本被同意轉化為token的數位表示形式，用以模型訓練。而OpenAI提出了一種用patch（視覺修補程式）統一影像與視訊的方法。

OpenAI官方公布的範例視訊

謝賽寧就評價這些技術特點是「簡單性和可延伸性」，沒有專註於創新。 「因為簡單性意味著靈活性。」

三是不變的技術信仰。Sora的爆發並非是短期，而是源自業界（比如老大哥谷歌）的技術嘗試以及OpenAI長期的技術積累，從文本、影像等諸多技術嘗試中均可見一斑。

創新無法被計劃，但所有的創新都可以成為顛覆式創新的墊腳石 ，這仍然是OpenAI給大公司留下的啟示。

02 與Sora的距離有多遠？

不可否認的是，在「太牛了」等感嘆後，國內外的大模型企業也開始了新一輪的焦慮：從文本、影像再到視訊模型，隨著差距進一步拉大，「追趕」又成了新一輪的主題。

去年Pika爆火時，行業曾預測，未來在視訊領域也會是一家公司領先一到兩年，其他公司在追趕。但現在，競爭的時間視窗正因Sora而大大縮小。面對與OpenAI的競爭，Pika創始人郭文景回應：「我們覺得這是一個很振奮人心的訊息，我們已經在籌備直接沖，將直接對標Sora。」

根據美國VC機構a16z的統計， 2023年，文生視訊領域釋出相關工具與產品達到了21種，釋出產品的多為初創企業。

圖片來源：a16z

但當前，國內國外的文生視訊領域呈現出不同的競爭態勢。

在國外，一方面形成了「科技巨頭+創業派+專業派」的組合，目前頭部科技巨頭基本都已入局，只是產品尚未全面公測。專業派則是如Adobe此類面向專業級使用者的老牌軟體巨頭。而創業派則是包括了Runway、Pika等。另一方面，由於海外較為細分和垂直化的科技生態，也湧現出如HeyGen、Descript、Rephrase.ai等圍繞輕量化視訊制作的工具或平台型企業，這一部份初創企業目前也在透過收購或被收購，擴充生態。比如OpenAI參投了Descript，而Rephrase.ai則被Adobe收購。

反觀國內，目前的路線和競爭格局還尚不清晰。 「矽基研究室」梳理，大廠也在積極押註視訊生成，如字節跳動的文生視訊模型MagicVideo-V2、阿達摩院的Zeroscope等。不久前，張楠辭任抖音集團CEO，同時轉向剪映發展，也被外界解讀為字節對視訊領域押註。

盡管技術水平不同，生態也不同，但擺在國內外企業面前的難點與挑戰也是類似的。

首先在技術方面，由於是閉源模型，Sora並未公開更多的技術細節，路徑依舊是模糊的。據魔搭社群開發者的討論，一些可能的技術難點如下： Sora究竟是如何保證視訊特征被更好地保留的？Sora的數據集組成如何？如何保證海量高品質的數據（數據的獲取和標註又是如何完成的？）

其次在算力方面，初創企業難以復刻OpenAI「大力出奇跡」的路徑，阿特曼近期一系列押註算力的計劃也再度印證了算力的稀缺性。 隨著大模型的發展速度更快，算力成本是否能如阿特曼所想的那樣降低，二者之間誰的速度更快，這一速度線往往就是初創企業的生死線。

盡管焦慮，但並非沒有路可走。如一位開發者所言：「OpenAI畫了一條「模糊」的路，但有了這條模糊的路，大家就可以去嘗試，從而畫出通往視訊生成的正確的清晰的路。」

南洋理工大學研究工程師周弈帆就認為從技術貢獻上來看，Sora其中一項創新就是使用了一種不限制輸入形狀的DiT。「DiT能支持不同形狀的輸入，大機率是因為它以視訊的3D位置生成位置編碼， 打破了一維編碼的分辨率限制。後續大家或許會逐漸從U-Net轉向DiT來建模擴散模型的去噪模型。 」（註：UNet是一種流行的摺積神經網路架構，特別適合影像分割任務）

而對一些內容創作者而言，他們關心的不僅是技術，也有開源問題。實驗電影人、AIGC藝術家@海辛在即刻中寫道：「 我還是更相信開源社群，OpenAI總是提供很好的範式 ，DallE2，GPT，Sora.. 但至今你都沒辦法讓DallE2畫具體某個遊戲畫風的角色/場景，由於數據集本身的多樣性不夠，導致沒有辦法做具體的計畫風格，風格沒有辦法自訂，對於大多數商業計畫來說就沒有意義，即實用性很低。」

如人們所預測的2024，無疑是AI視訊大年，Sora提供了一種新的技術路線和方向， 也為內容創作者提供了新的工具，新的追趕開始了，新的競爭與創意也從此刻開始，也正在發生。

參考資料：

1、魔搭社群：復刻Sora有多難？一張圖帶你讀懂Sora的技術路徑

2、Hugging Face：文生視訊: 任務、挑戰及現狀

3、未盡研究：Sora模型只有3B

4、國盛證券：AI 文生視訊：多模態套用的下一站

5、東吳證券：多模態技術加速，AI商業宏圖正啟

6、天才程式設計師周弈帆：OpenAI 視訊模型 Sora 科研貢獻速覽

7、甲子光年：Sora湧現，OpenAI又一次暴力美學的勝利