「眼觀」Sora一夜刷屏，文生視訊大模型何以如此炸裂？

2024-02-19科技

繼 ChatGPT 之後， O pen AI 旗下的 Sora 或再次顛覆行業

最近，關於Open AI的訊息更多是關於其涉足AI芯片制造的討論，卻不曾想山姆·阿特曼（Sam Altman）又悄無聲息地放了一個「大招」——幾天前，Open AI釋出了名為「Sora」的文生視訊大模型，成為繼 Gen-2（Runway）、Pika、Stable Video、Emu Video（Meta）、 Lumiere（谷歌）等之後，文生視訊領域的又一重磅玩家。從目前Sora的演示視訊效果來看，其在視訊延續性、視覺逼真性及連貫性等方面的出色表現，無疑讓一眾競品相形見絀。

前陣子，筆者分享過谷歌的VideoPoet大模型，當時其多元化的通用能力和出眾的表現力，便較之前的同類大模型進步明顯；彼時，谷歌這款AI大模型大有蓋過Open AI風頭的趨勢，沒想到這次Open AI「反將一軍」，瞬間又回歸了行業「頂流」，並引發科技圈的不小震動。

也幾乎在一夜之間，全行業都在討論Sora是何來路，其效果如何如何炸裂等。連馬斯克、周鴻祎等大佬都忍不住下場發聲。

馬斯克表示，人類已完敗（gg humans）；周鴻祎則表示，Sora的誕生意味著AGI（通用人工智慧）實作可能從10年縮短至一兩年。

這 種全球圍觀的 情形，絲毫 不亞於當年 AlphaGo 的橫空出世以及 C hat GPT 的一鳴驚人 ， 所不同的是， 這次人類所受到震驚和威脅 似乎 更大一些。

類似下面這些視訊片段，如果不提前說明，你很難想象AI已經前進演化到如此自然、細膩且逼真的程度了。

圖一：夜景下的城市街頭模特；

圖二：浪漫東京的街頭漫步；

圖三：中國龍年舞龍視訊；

圖四：東京郊區火車窗外的倒影；

圖五：美麗的黃金#2月圖文動態激勵計劃# 海岸……

在動畫領域，Sora也手到擒來，僅透過自然學習，便可以短時間內完成類似動畫電影【怪獸公司】的毛發質感。

要知道，為了呈現【怪獸公司】當中極其復雜的毛發質感，創意團隊付出了大量時間和人力成本。可AI僅用幾分鐘便完成了效果「秒殺」，多少有些讓人細思恐極。

Sora 的最突出優勢在於 生成視訊的 時間超長性 、 鏡頭的 連貫性以及角色（或建築）在鏡頭多角度運動下的一致性 。以往的圖生視訊或文生視訊，最多只能持續幾秒鐘，並且鏡頭的連貫性和人物的運動性往往也存在瑕疵。

而Sora不僅能支持最長達60秒的視訊生成，並且其自然和逼真程度，也幾乎到了以假亂真的地步。因此，不少人驚呼：視訊從業人員恐將迎來集體失業的黑暗時刻！

據悉， Sora 使用了世界模型，即能夠理解和模型現實世界的模型，這無疑有 AGI 的味道了。

得益於ChatGPT的革新優勢，人們絲毫不懷疑Open AI能夠開啟並引領一個嶄新的時代。但這裏有一個前提，即Open AI的優勢更多基於文字這種單模態的輸入與輸出，對於其能否在圖文、視訊等多模態領域同樣表現出眾，其實要打一個問號；尤其是谷歌、Meta等紛紛入局多模態，且向外界展示了各自的階段性成果之後，Open AI的「靜悄悄」，反而讓人替阿特曼捏一把汗。

但借助本次Sora的演示，我們恐怕要改變之前的看法了。

作為生成式人工智慧領域的先行者和首屈一指的大玩家，Open AI並未滿足於ChatGPT的持續驚艷，而是悄然在文生視訊領域下了重註，這不免讓我們看到了「AI時代，贏家通吃」的可怕。而在各大小玩家紛紛殺入文生視訊賽道的當下，對於Open AI在多模態領域的建樹，我們同樣多了幾分期待。

隨著文生視訊或圖生視訊行業的發展，不少專家、學者預言： 全部由 AI 大模型生成的 90 分鐘以上的 AI 大 電影或將很快 誕生。而 Sora 大模型的出現， 無疑 將加速這一行程。

當然，Sora的強大不僅體現在對電影制作效率的極大提升，以及新電影風格的開創，更可能給諸多行業帶來顛覆性的變化。

比如廣告行業，視訊演示和提案，將在很大程度上取代傳統的PPT匯報或圖片展示，演示變得更生動，也更具說服力，同時傳統的廣告視訊制作模式將被徹底顛覆，百萬甚至千萬級預算和數十人的團隊，將變為幾萬甚至幾千預算，外加一個導演和一個AI大模型；

比如教學方面，AI視訊無疑將成為輔助教學的常用工具之一，教師的生產力和教學效果將得到極大提升；

再比如短視訊領域，大量創意型的視訊內容會被批次化生產出來，自媒體視訊創作將變得更加容易。

當然，這同時也會帶來一些負面影響，比如假視訊更加難以甄別，虛假旅遊、虛義肢驗等，可能也會在一定程度上，重創現有的創作者生態。

不過，先不必過於恐慌，因為目前1.0版本的Sora並不完美，一些明顯的瑕疵和不自然，還是能夠輕易捕捉到。比如下面這些視訊片段，仔細觀察，你便能發現其中的不合理之處（吹不滅的蠟燭、懸浮的椅子、穿幫的籃球、由少變多的狗狗等等）。

但是，面對不完美的Sora，我們也不可大意。就像 當初大家對 AI 畫不好人手的嘲諷 一樣 ，隨著技術的進步，這些明顯違反常識的錯誤會得到逐步 修正 ，而技術的 叠代 速度往往要比想象 中來得 更快。 到那時，我們恐怕再也笑不出來了。

同谷歌的Lumiere、VideoPoet類似，目前Sora尚未開源，相關技術報告也剛剛釋出，普通消費者想要體驗，還需要等待時日。不過，相信這個時間不會太久。

結語：

繼AI文字對話、文生圖之後，文生視訊成為生成式AI的下一個戰場。而隨著Open AI的參賽，文生視訊賽道或迎來新的發展契機。

從更長遠的角度看，文生視訊或成為未來行業競爭的主流 。 參考如今視訊成為 繼 文字、圖片之後 的 主流資訊載體和資訊傳播方式，文生視訊或迎來 屬於 AGI 的「 iPhone 時刻」。

當然，機會不是屬於所有人，產業重構之下，有人得利，也必然有人出局。

「大模型全行業通吃」已逐漸成為趨勢共識之下，Open AI最終會不會成為那個全球科技領域的唯一霸主，谷歌、Meta們有沒有機會將Open AI挑落馬下，我們不妨持續關註。