當前位置: 華文世界 > 科技

Sora啟示錄:信仰、對抗與未來

2024-02-19科技

圖片來源@視覺中國

文 | 矽基研究室,作者 | 山核桃

隨著OpenAI正式釋出第一個文生視訊大模型Sora,過去幾天裏圍繞Sora技術配方的猜測,對行業影響的討論成為了科技圈的頭條。一位AI創業者對Sora評價是:「沒有想到文生視訊的GPT時刻能來的這麽快。」

從創業者和行業觀察角度,文生視訊一直被視為多模態AIGC「聖杯」,除了本身相較於文生圖來說難度更高外,在數據品質、算力以及多融合技術的復雜性上都有諸多需要突破的關卡,這也是為什麽即便是行業異常火熱,從Runway等AI視訊初創公司崛起,再到去年Pika爆火,業內人士也樂觀地認為2024是AI行業的「視訊大年」,但還是在時間上留了保守態度。 比如,Pika聯合創始人Chenlin Meng在去年接受采訪預測:「目前視訊生成處於類似GPT-2的時刻。」

但Sora所呈現的效果還是打破了業內人士的預期。

無論是同行們——馬斯克「人類願賭服輸」,Runway聯合創始人「game on」的感慨,還是技術層面,如前阿裏總裁賈揚清「非常牛」的評價,似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的GPT-3時刻。

在各類觀點之外,Sora崛起究竟能給創業者乃至技術界帶來哪些啟示?目前國內外文生視訊的發展進度又如何?

01 Sora是OpenAI技術路線的又一次驗證

「矽基研究室」曾在【Pika爆火,但AI視訊還沒到「GPT時刻」】一文中系統梳理AI生成視訊模型背後的技術路線,主要可分為三個階段——

階段一為基於GAN(生成式對抗網路遊戲)和VAE模型(變分自編碼器),可以自回歸地形成視訊幀,但該技術的局限性在於套用範圍窄,生成視訊分辨率低,且僅能生成靜態、單一的畫面;

階段二為受GPT3和DALLE啟發,行業開始采用Transformer架構, 出現了谷歌的Phenaki、微軟的NUWA等一系列的視訊生成模型,巨頭押註之中,提升了視訊模型的能力,例如可以捕捉上下文,實作顆粒度更細的語意控制等,卻缺點也更明顯了——計算量太大了,對配對數據集的要求也更大。

階段三也則是受stable diffusion等文生圖套用擴散模型的啟發(diffusion models),從影像到視訊領域,采用擴散架構成為了主流 ,Meta的Make-a-video、輝達的Video LDM,初創公司Runway的Runway-Gen1、Runway-Gen2、字節的MagicVideo等也都是采用了擴散架構。

但擴散模型這一技術路線在演算法、數據上存在難點,比如如何改善計算成本和提升數據集品質這一老問題,以及在生成效果與品質上,例如畫面的一致性、分辨率、生成長度上也有不少的問題。

圖片來源:東吳證券

而Sora所呈現出的效果,如生成風格的多樣性、畫面的一致性等優勢恰好彌補了過去視訊生成模型的劣勢。而復盤Sora之所以能加速視訊模型行程,綜合官方的技術文件和專家的猜測觀點, 核心邏輯依舊是OpenAI技術路線的又一次驗證,這套路線的特點是:大力出奇跡、足夠簡潔和堅守技術信仰。

一是大力出奇跡,Sora遵循了OpenAI推崇的Scaling Law。在Scaling Law的指導下,OpenAI擅長以更大規模的算力和數據提升模型效能表現。思謀科技創始人賈佳亞評價Sora:「Sora是大力出奇跡,在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上了高畫質以及更大的分辨率,這沒幾千上萬張 p00都不敢想象如何開始這個計畫。」

二是簡潔性。根據技術文件和專家猜測,Sora是使用了混合模型架構——是Transformer架構的Diffusion擴散模型,據紐約大學數據科學中心的助理教授謝賽寧的猜測(註:他也是Sora技術文件中所參照的一篇關鍵論文的作者之一), Sora應該是建立在一種混合模型DiT之上(DiT是一個帶有Transformer主幹的擴散模型,它= [VAE編碼器+ViT+DDPM+VAE解碼器])。

同時,Sora參考了文生文模型中的Token原理。在文生文模型中,文本被同意轉化為token的數位表示形式,用以模型訓練。而OpenAI提出了一種用patch(視覺修補程式)統一影像與視訊的方法。

OpenAI官方公布的範例視訊

謝賽寧就評價這些技術特點是「簡單性和可延伸性」,沒有專註於創新。 「因為簡單性意味著靈活性。」

三是不變的技術信仰。Sora的爆發並非是短期,而是源自業界(比如老大哥谷歌)的技術嘗試以及OpenAI長期的技術積累,從文本、影像等諸多技術嘗試中均可見一斑。

創新無法被計劃,但所有的創新都可以成為顛覆式創新的墊腳石 ,這仍然是OpenAI給大公司留下的啟示。

02 與Sora的距離有多遠?

不可否認的是,在「太牛了」等感嘆後,國內外的大模型企業也開始了新一輪的焦慮:從文本、影像再到視訊模型,隨著差距進一步拉大,「追趕」又成了新一輪的主題。

去年Pika爆火時,行業曾預測,未來在視訊領域也會是一家公司領先一到兩年,其他公司在追趕。但現在,競爭的時間視窗正因Sora而大大縮小。面對與OpenAI的競爭,Pika創始人郭文景回應:「我們覺得這是一個很振奮人心的訊息,我們已經在籌備直接沖,將直接對標Sora。」

根據美國VC機構a16z的統計, 2023年,文生視訊領域釋出相關工具與產品達到了21種,釋出產品的多為初創企業。

圖片來源:a16z

但當前,國內國外的文生視訊領域呈現出不同的競爭態勢。

在國外,一方面形成了「科技巨頭+創業派+專業派」的組合,目前頭部科技巨頭基本都已入局,只是產品尚未全面公測。專業派則是如Adobe此類面向專業級使用者的老牌軟體巨頭。而創業派則是包括了Runway、Pika等。另一方面,由於海外較為細分和垂直化的科技生態,也湧現出如HeyGen、Descript、Rephrase.ai等圍繞輕量化視訊制作的工具或平台型企業,這一部份初創企業目前也在透過收購或被收購,擴充生態。比如OpenAI參投了Descript,而Rephrase.ai則被Adobe收購。

反觀國內,目前的路線和競爭格局還尚不清晰。 「矽基研究室」梳理,大廠也在積極押註視訊生成,如字節跳動的文生視訊模型MagicVideo-V2、阿達摩院的Zeroscope等。不久前,張楠辭任抖音集團CEO,同時轉向剪映發展,也被外界解讀為字節對視訊領域押註。

盡管技術水平不同,生態也不同,但擺在國內外企業面前的難點與挑戰也是類似的。

首先在技術方面,由於是閉源模型,Sora並未公開更多的技術細節,路徑依舊是模糊的。據魔搭社群開發者的討論,一些可能的技術難點如下: Sora究竟是如何保證視訊特征被更好地保留的?Sora的數據集組成如何?如何保證海量高品質的數據(數據的獲取和標註又是如何完成的?)

其次在算力方面,初創企業難以復刻OpenAI「大力出奇跡」的路徑,阿特曼近期一系列押註算力的計劃也再度印證了算力的稀缺性。 隨著大模型的發展速度更快,算力成本是否能如阿特曼所想的那樣降低,二者之間誰的速度更快,這一速度線往往就是初創企業的生死線。

盡管焦慮,但並非沒有路可走。如一位開發者所言:「OpenAI畫了一條「模糊」的路,但有了這條模糊的路,大家就可以去嘗試,從而畫出通往視訊生成的正確的清晰的路。」

南洋理工大學研究工程師周弈帆就認為從技術貢獻上來看,Sora其中一項創新就是使用了一種不限制輸入形狀的DiT。「DiT能支持不同形狀的輸入,大機率是因為它以視訊的3D位置生成位置編碼, 打破了一維編碼的分辨率限制。後續大家或許會逐漸從U-Net轉向DiT來建模擴散模型的去噪模型。 」(註:UNet是一種流行的摺積神經網路架構,特別適合影像分割任務)

而對一些內容創作者而言,他們關心的不僅是技術,也有開源問題。實驗電影人、AIGC藝術家@海辛在即刻中寫道:「 我還是更相信開源社群,OpenAI總是提供很好的範式 ,DallE2,GPT,Sora.. 但至今你都沒辦法讓DallE2畫具體某個遊戲畫風的角色/場景,由於數據集本身的多樣性不夠,導致沒有辦法做具體的計畫風格,風格沒有辦法自訂,對於大多數商業計畫來說就沒有意義,即實用性很低。」

如人們所預測的2024,無疑是AI視訊大年,Sora提供了一種新的技術路線和方向, 也為內容創作者提供了新的工具,新的追趕開始了,新的競爭與創意也從此刻開始,也正在發生。

參考資料:

  • 1、魔搭社群:復刻Sora有多難?一張圖帶你讀懂Sora的技術路徑
  • 2、Hugging Face:文生視訊: 任務、挑戰及現狀
  • 3、未盡研究:Sora模型只有3B
  • 4、國盛證券:AI 文生視訊:多模態套用的下一站
  • 5、東吳證券:多模態技術加速,AI商業宏圖正啟
  • 6、天才程式設計師周弈帆:OpenAI 視訊模型 Sora 科研貢獻速覽
  • 7、甲子光年:Sora湧現,OpenAI又一次暴力美學的勝利