當前位置: 華文世界 > 科技

「眼觀」Sora一夜刷屏,文生視訊大模型何以如此炸裂?

2024-02-19科技

ChatGPT 之後, O pen AI 旗下的 Sora 或再次顛覆行業

最近,關於Open AI的訊息更多是關於其涉足AI芯片制造的討論,卻不曾想山姆·阿特曼(Sam Altman)又悄無聲息地放了一個「大招」——幾天前,Open AI釋出了名為「Sora」的文生視訊大模型,成為繼 Gen-2(Runway)、Pika、Stable Video、Emu Video(Meta)、 Lumiere(谷歌)等之後,文生視訊領域的又一重磅玩家。從目前Sora的演示視訊效果來看,其在視訊延續性、視覺逼真性及連貫性等方面的出色表現,無疑讓一眾競品相形見絀。

前陣子,筆者分享過谷歌的VideoPoet大模型,當時其多元化的通用能力和出眾的表現力,便較之前的同類大模型進步明顯;彼時,谷歌這款AI大模型大有蓋過Open AI風頭的趨勢,沒想到這次Open AI「反將一軍」,瞬間又回歸了行業「頂流」,並引發科技圈的不小震動。

也幾乎在一夜之間,全行業都在討論Sora是何來路,其效果如何如何炸裂等。連馬斯克、周鴻祎等大佬都忍不住下場發聲。

馬斯克表示,人類已完敗(gg humans);周鴻祎則表示,Sora的誕生意味著AGI(通用人工智慧)實作可能從10年縮短至一兩年。

種全球圍觀的 情形 絲毫 不亞於當年 AlphaGo 的橫空出世以及 C hat GPT 的一鳴驚人 所不同的是, 這次人類所受到震驚和威脅 似乎 更大一些。

類似下面這些視訊片段,如果不提前說明,你很難想象AI已經前進演化到如此自然、細膩且逼真的程度了。

圖一:夜景下的城市街頭模特;

圖二:浪漫東京的街頭漫步;

圖三:中國龍年舞龍視訊;

圖四:東京郊區火車窗外的倒影;

圖五:美麗的黃金#2月圖文動態激勵計劃# 海岸……

在動畫領域,Sora也手到擒來,僅透過自然學習,便可以短時間內完成類似動畫電影【怪獸公司】的毛發質感。

要知道,為了呈現【怪獸公司】當中極其復雜的毛發質感,創意團隊付出了大量時間和人力成本。可AI僅用幾分鐘便完成了效果「秒殺」,多少有些讓人細思恐極。

Sora 的最突出優勢在於 生成視訊的 時間超長性 鏡頭的 連貫性以及角色(或建築)在鏡頭多角度運動下的一致性 以往的圖生視訊或文生視訊,最多只能持續幾秒鐘,並且鏡頭的連貫性和人物的運動性往往也存在瑕疵。

而Sora不僅能支持最長達60秒的視訊生成,並且其自然和逼真程度,也幾乎到了以假亂真的地步。因此,不少人驚呼:視訊從業人員恐將迎來集體失業的黑暗時刻!

據悉, Sora 使用了世界模型,即能夠理解和模型現實世界的模型,這無疑有 AGI 的味道了。

得益於ChatGPT的革新優勢,人們絲毫不懷疑Open AI能夠開啟並引領一個嶄新的時代。但這裏有一個前提,即Open AI的優勢更多基於文字這種單模態的輸入與輸出,對於其能否在圖文、視訊等多模態領域同樣表現出眾,其實要打一個問號;尤其是谷歌、Meta等紛紛入局多模態,且向外界展示了各自的階段性成果之後,Open AI的「靜悄悄」,反而讓人替阿特曼捏一把汗。

但借助本次Sora的演示,我們恐怕要改變之前的看法了。

作為生成式人工智慧領域的先行者和首屈一指的大玩家,Open AI並未滿足於ChatGPT的持續驚艷,而是悄然在文生視訊領域下了重註,這不免讓我們看到了「AI時代,贏家通吃」的可怕。而在各大小玩家紛紛殺入文生視訊賽道的當下,對於Open AI在多模態領域的建樹,我們同樣多了幾分期待。

隨著文生視訊或圖生視訊行業的發展,不少專家、學者預言: 全部由 AI 大模型生成的 90 分鐘以上的 AI 電影或將很快 誕生 Sora 大模型的出現, 無疑 將加速這一行程。

當然,Sora的強大不僅體現在對電影制作效率的極大提升,以及新電影風格的開創,更可能給諸多行業帶來顛覆性的變化。

比如廣告行業,視訊演示和提案,將在很大程度上取代傳統的PPT匯報或圖片展示,演示變得更生動,也更具說服力,同時傳統的廣告視訊制作模式將被徹底顛覆,百萬甚至千萬級預算和數十人的團隊,將變為幾萬甚至幾千預算,外加一個導演和一個AI大模型;

比如教學方面,AI視訊無疑將成為輔助教學的常用工具之一,教師的生產力和教學效果將得到極大提升;

再比如短視訊領域,大量創意型的視訊內容會被批次化生產出來,自媒體視訊創作將變得更加容易。

當然,這同時也會帶來一些負面影響,比如假視訊更加難以甄別,虛假旅遊、虛義肢驗等,可能也會在一定程度上,重創現有的創作者生態。

不過,先不必過於恐慌,因為目前1.0版本的Sora並不完美,一些明顯的瑕疵和不自然,還是能夠輕易捕捉到。比如下面這些視訊片段,仔細觀察,你便能發現其中的不合理之處(吹不滅的蠟燭、懸浮的椅子、穿幫的籃球、由少變多的狗狗等等)。

但是,面對不完美的Sora,我們也不可大意。 當初大家對 AI 畫不好人手的嘲諷 一樣 ,隨著技術的進步,這些明顯違反常識的錯誤會得到逐步 修正 ,而技術的 叠代 速度往往要比想象 中來得 更快。 到那時,我們恐怕再也笑不出來了。

同谷歌的Lumiere、VideoPoet類似,目前Sora尚未開源,相關技術報告也剛剛釋出,普通消費者想要體驗,還需要等待時日。不過,相信這個時間不會太久。

結語:

繼AI文字對話、文生圖之後,文生視訊成為生成式AI的下一個戰場。而隨著Open AI的參賽,文生視訊賽道或迎來新的發展契機。

從更長遠的角度看,文生視訊或成為未來行業競爭的主流 參考如今視訊成為 文字、圖片之後 主流資訊載體和資訊傳播方式,文生視訊或迎來 屬於 AGI iPhone 時刻」。

當然,機會不是屬於所有人,產業重構之下,有人得利,也必然有人出局。

「大模型全行業通吃」已逐漸成為趨勢共識之下,Open AI最終會不會成為那個全球科技領域的唯一霸主,谷歌、Meta們有沒有機會將Open AI挑落馬下,我們不妨持續關註。