圖片來源@視覺中國
文 | 矽基研究室,作者 | 山核桃
隨著OpenAI正式釋出首個文生影片大模型Sora,過去幾天裏圍繞Sora技術配方的猜測,對行業影響的討論成為了科技圈的頭條。一位AI創業者對Sora評價是:「沒有想到文生影片的GPT時刻能來的這麽快。」
從創業者和行業觀察角度,文生影片一直被視為多模態AIGC「聖杯」,除了本身相較於文生圖來說難度更高外,在數據質素、算力以及多融合技術的復雜性上都有諸多需要突破的關卡,這也是為什麽即便是行業異常火熱,從Runway等AI影片初創公司崛起,再到去年Pika爆火,業內人士也樂觀地認為2024是AI行業的「影片大年」,但還是在時間上留了保守態度。 比如,Pika聯合創始人Chenlin Meng在去年接受采訪預測:「目前影片生成處於類似GPT-2的時刻。」
但Sora所呈現的效果還是打破了業內人士的預期。
無論是同行們——馬斯克「人類願賭服輸」,Runway聯合創始人「game on」的感慨,還是技術層面,如前阿裏總裁賈揚清「非常牛」的評價,似乎讓人們一夜之間又回到了一年多前令人恐懼和焦慮的GPT-3時刻。
在各類觀點之外,Sora崛起究竟能給創業者乃至技術界帶來哪些啟示?目前國內外文生影片的發展進度又如何?
01 Sora是OpenAI技術路線的又一次驗證
「矽基研究室」曾在【Pika爆火,但AI影片還沒到「GPT時刻」】一文中系統梳理AI生成影片模型背後的技術路線,主要可分為三個階段——
階段一為基於GAN(生成式對抗網絡遊戲)和VAE模型(變分自編碼器),可以自回歸地形成影片幀,但該技術的局限性在於套用範圍窄,生成影片分辨率低,且僅能生成靜態、單一的畫面;
階段二為受GPT3和DALLE啟發,行業開始采用Transformer架構, 出現了谷歌的Phenaki、微軟的NUWA等一系列的影片生成模型,巨頭押註之中,提升了影片模型的能力,例如可以捕捉上下文,實作顆粒度更細的語意控制等,卻缺點也更明顯了——計算量太大了,對配對數據集的要求也更大。
階段三也則是受stable diffusion等文生圖套用擴散模型的啟發(diffusion models),從影像到影片領域,采用擴散架構成為了主流 ,Meta的Make-a-video、輝達的Video LDM,初創公司Runway的Runway-Gen1、Runway-Gen2、字節的MagicVideo等也都是采用了擴散架構。
但擴散模型這一技術路線在演算法、數據上存在難點,比如如何改善計算成本和提升數據集質素這一老問題,以及在生成效果與質素上,例如畫面的一致性、分辨率、生成長度上也有不少的問題。
圖片來源:東吳證券
而Sora所呈現出的效果,如生成風格的多樣性、畫面的一致性等優勢恰好彌補了過去影片生成模型的劣勢。而復盤Sora之所以能加速影片模型行程,綜合官方的技術文件和專家的猜測觀點, 核心邏輯依舊是OpenAI技術路線的又一次驗證,這套路線的特點是:大力出奇跡、足夠簡潔和堅守技術信仰。
一是大力出奇跡,Sora遵循了OpenAI推崇的Scaling Law。在Scaling Law的指導下,OpenAI擅長以更大規模的算力和數據提升模型效能表現。思謀科技創始人賈佳亞評價Sora:「Sora是大力出奇跡,在學術界連VIT的256*256的分辨率都沒法改的情況下,Sora直接用上了高畫質以及更大的分辨率,這沒幾千上萬張 p00都不敢想象如何開始這個專案。」
二是簡潔性。根據技術文件和專家猜測,Sora是使用了混合模型架構——是Transformer架構的Diffusion擴散模型,據紐約大學數據科學中心的助理教授謝賽寧的猜測(註:他也是Sora技術文件中所參照的一篇關鍵論文的作者之一), Sora應該是建立在一種混合模型DiT之上(DiT是一個帶有Transformer主幹的擴散模型,它= [VAE編碼器+ViT+DDPM+VAE解碼器])。
同時,Sora參考了文生文模型中的Token原理。在文生文模型中,文本被同意轉化為token的數碼表示形式,用以模型訓練。而OpenAI提出了一種用patch(視覺修補程式)統一影像與影片的方法。
OpenAI官方公布的範例影片
謝賽寧就評價這些技術特點是「簡單性和可延伸性」,沒有專註於創新。 「因為簡單性意味著靈活性。」
三是不變的技術信仰。Sora的爆發並非是短期,而是源自業界(比如老大哥谷歌)的技術嘗試以及OpenAI長期的技術積累,從文本、影像等諸多技術嘗試中均可見一斑。
創新無法被計劃,但所有的創新都可以成為顛覆式創新的墊腳石 ,這仍然是OpenAI給大公司留下的啟示。
02 與Sora的距離有多遠?
不可否認的是,在「太牛了」等感嘆後,國內外的大模型企業也開始了新一輪的焦慮:從文本、影像再到影片模型,隨著差距進一步拉大,「追趕」又成了新一輪的主題。
去年Pika爆火時,行業曾預測,未來在影片領域也會是一家公司領先一到兩年,其他公司在追趕。但現在,競爭的時間視窗正因Sora而大大縮小。面對與OpenAI的競爭,Pika創始人郭文景回應:「我們覺得這是一個很振奮人心的訊息,我們已經在籌備直接沖,將直接對標Sora。」
根據美國VC機構a16z的統計, 2023年,文生影片領域釋出相關工具與產品達到了21種,釋出產品的多為初創企業。
圖片來源:a16z
但當前,國內國外的文生影片領域呈現出不同的競爭態勢。
在國外,一方面形成了「科技巨頭+創業派+專業派」的組合,目前頭部科技巨頭基本都已入局,只是產品尚未全面公測。專業派則是如Adobe此類面向專業級使用者的老牌軟件巨頭。而創業派則是包括了Runway、Pika等。另一方面,由於海外較為細分和垂直化的科技生態,也湧現出如HeyGen、Descript、Rephrase.ai等圍繞輕量化影片制作的工具或平台型企業,這一部份初創企業目前也在透過收購或被收購,擴充生態。比如OpenAI參投了Descript,而Rephrase.ai則被Adobe收購。
反觀國內,目前的路線和競爭格局還尚不清晰。 「矽基研究室」梳理,大廠也在積極押註影片生成,如字節跳動的文生影片模型MagicVideo-V2、阿達摩院的Zeroscope等。不久前,張楠辭任抖音集團CEO,同時轉向剪映發展,也被外界解讀為字節對影片領域押註。
盡管技術水平不同,生態也不同,但擺在國內外企業面前的難點與挑戰也是類似的。
首先在技術方面,由於是閉源模型,Sora並未公開更多的技術細節,路徑依舊是模糊的。據魔搭社區開發者的討論,一些可能的技術難點如下: Sora究竟是如何保證影片特征被更好地保留的?Sora的數據集組成如何?如何保證海量高質素的數據(數據的獲取和標註又是如何完成的?)
其次在算力方面,初創企業難以復刻OpenAI「大力出奇跡」的路徑,柯曼近期一系列押註算力的計劃也再度印證了算力的稀缺性。 隨著大模型的發展速度更快,算力成本是否能如柯曼所想的那樣降低,二者之間誰的速度更快,這一速度線往往就是初創企業的生死線。
盡管焦慮,但並非沒有路可走。如一位開發者所言:「OpenAI畫了一條「模糊」的路,但有了這條模糊的路,大家就可以去嘗試,從而畫出通往影片生成的正確的清晰的路。」
南洋理工大學研究工程師周弈帆就認為從技術貢獻上來看,Sora其中一項創新就是使用了一種不限制輸入形狀的DiT。「DiT能支持不同形狀的輸入,大概率是因為它以影片的3D位置生成位置編碼, 打破了一維編碼的分辨率限制。後續大家或許會逐漸從U-Net轉向DiT來建模擴散模型的去噪模型。 」(註:UNet是一種流行的摺積神經網絡架構,特別適合影像分割任務)
而對一些內容創作者而言,他們關心的不僅是技術,也有開源問題。實驗電影人、AIGC藝術家@海辛在即刻中寫道:「 我還是更相信開源社區,OpenAI總是提供很好的範式 ,DallE2,GPT,Sora.. 但至今你都沒辦法讓DallE2畫具體某個遊戲畫風的角色/場景,由於數據集本身的多樣性不夠,導致沒有辦法做具體的專案風格,風格沒有辦法自訂,對於大多數商業專案來說就沒有意義,即實用性很低。」
如人們所預測的2024,無疑是AI影片大年,Sora提供了一種新的技術路線和方向, 也為內容創作者提供了新的工具,新的追趕開始了,新的競爭與創意也從此刻開始,也正在發生。
參考資料: