OpenAI的文生影片模型Sora的問世引發科技圈熱議,傳遞了AI賽道「大力出奇跡」競爭升級的訊號。
盡管Sora尚未對公眾開放,但是OpenAI最新釋出了由開發者透過Sora創作的影片合集,其中包括各種海洋生物在海面上騎單車、網紅祖母在托斯卡納廚房教做菜、未來火星上的無人機比賽以及鴨嘴獸帶著冒險倉鼠翺翔在天空的場景。
在Sora問世後,一些網友直呼這是對友商的「降維打擊」。AI影片生成賽道此前的明星公司Runway和Pika等都已公開表示將加入這場競賽。
奧爾特曼被稱「巫師大人」
Sora最直觀的技術突破不僅在於其生成影片的逼真性,而且在時長方面也甩開對手更大的距離。
Runway能夠生成4秒長的影片,使用者可以將其最多延長至16秒,這是AI生成影片在2023年所能達到的最長時長紀錄;Stable Video和Pika也能分別提供4秒和3秒的影片。Sora可生成長達1分鐘的影片,可以說是直接扔出「王炸」。
Runway有「AI影片界的MidJourney」之稱。幾個月前,Runway剛剛推出了第二代AI生成影片模型。今年1月,Runway宣布,使用者將能夠透過多頭運動筆刷(MultiMotion Brush)功能,實作對AI生成影片中多個元素的運動控制。此外,Runway也因其提供了集合多種AI工具的影片制作解決方案而備受推崇。
Sora釋出後,Runway的CEO克里斯托瓦爾·巴倫蘇埃拉(Cristóbal Valenzuela)在社交媒體X上釋出了兩個字:「Game On(比賽開始了)。」
Pika是AI影片領域的新晉競爭者,它於去年11月推出了生成式AI影片工具Pika1.0,目前也已開放測試。Pika此前對標的公司也是Runway,不過在Sora釋出後,Pika創始人郭文景回應媒體稱,已在籌備「直接沖,對標Sora」。此外,郭文景還透露,目前已經在招人,具體計劃暫時還不能對外透露。
AI影像生成領域的另一家領導者StabilityAI也於去年11月推出了生成影片模型Stable Video Diffusion,但表示它「專門用於研究」,現階段尚未準備好用於「現實世界或商業套用」。
在OpenAICEO奧爾特曼(SamAltman)釋出了一段由Sora生成的巫師主題影片後,Stability創始人兼CEO莫斯塔克(EmadMostaque)在X平台上回應稱:「你是一位巫師大人。」
谷歌最近也釋出了下一代人工智能模型Gemini1.5,並公布了Lumiere模型的研究和演示片段,不過目前還不清楚谷歌計劃何時公開該工具;Meta在去年年底推出了一種新的文本轉影片模型Emu Video,並稱Emu將被整合到臉書(Facebook)和照片墻(Instagram)中。
「世界模型」提前實作了嗎
本質上,Sora與AI影片生成公司Pika、Runway等采用了相似的底層模型,即Diffusion擴散模型(Diffusion Model)。但不同之處在於,Pika和Runway等公司都采用了「小模型」的思維,也就是基於上一幀預測下一幀的方法建立影片;Sora把其中的實作邏輯進行了變化,將U-Net架構替換成了Transformer架構,這種新型架構被稱為DiT,它將影片和影像表示為視覺塊編碼(Patch)的較小數據單元的集合,然後將其解碼來建立影片,並且根據AI「縮尺律」(Scaling Law),隨著訓練計算量的增加,樣本質素將明顯提高,實作大模型智能湧現的能力,這也幫助其在一定程度上理解真實世界的物理影響和因果關系。
OpenAI最新釋出的Sora研究報告就以【影片生成模型成為世界模擬器】為題,彰顯了其將大模型用於模擬物理世界的雄心。不過對於Sora是否真的理解物理世界,技術界還有不同的觀點。
最直接的反對意見來自圖靈獎得主,Meta公司首席科學家、AI團隊負責人楊立昆(Yann LeCun)。在他看來,僅僅根據提示詞(prompt)生成逼真影片並不能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同。他在X平台上亮出觀點:「這裏存在‘巨大’的誤導。」
楊立昆是AI「世界模型」概念的主要倡導者,Runway和Pika等公司都在朝著「世界模型」的發展方向前行。所謂「世界模型」,就是對真實的物理世界進行建模,讓機器像人類一樣,對世界有全面準確的認知。盡管「世界模型」不是AI影片生成的必需要素,它卻是該領域較為高端的一個研究方向,學術色彩更濃。
楊立昆分析稱,模型生成逼真影片的空間非常大,影片生成系統只需要產生一個合理的範例就算成功。不過對於一個物理世界的真實影片而言,其合理的後續延續空間卻非常小,生成這些延續的代表性片段,特別是在特定行動條件下,任務難度更大。此外生成影片的後續內容不僅成本高昂,實際上也毫無意義。基於這一理論,楊立昆認為,更理想的做法是生成影片後續內容的抽象表達,並消除無關場景中的細節。
在Sora釋出同一天,Meta也推出了AI影片模型——聯合嵌入預測架構(V-JEPA)。楊立昆解釋道,JEPA建立的影片不是生成式的,而是在表示空間中進行預測。「聯合嵌入擊敗了生成式。」他表示。
Meta研究員田淵棟也在X平台上表示:「在可學習的潛在空間而不是原始空間中進行規劃/搜尋有其獨特的優勢,沿著這個思路,我們做了一系列的工作,包括最近釋出的擴散世界模型。」
Sora顯然也是奔著「世界模型」而去。不同的是,依靠OpenAI強大的工程化能力以及背後的算力支撐,Sora的發展速度似乎超越了同行數個量級,它的橫空出世無疑讓Meta、Runway等巨頭公司和初創競爭對手面臨更大的壓力。的壓力。
站在「巨人的肩膀上」
從OpenAI釋出的技術報告中可以發現,強大的Sora作者團隊主要成員有十余人,其中核心成員包括研發負責人布魯克斯(Tim Brooks)、皮布爾斯[William(Bill)Peebles]等,他們都畢業於加州大學柏克萊分校(UC Berkley)。值得關註的是,核心名單中還有三名華人研究者。
而從Sora技術報告的參考文獻來看,更多來自谷歌、Meta、MIT等業界和學界的技術人員也都作出了重要貢獻,紐約大學助理教授謝賽寧就是其中的一位。盡管他公開表示自己與Sora團隊沒有關系,但他與皮布爾斯在擴散模型DiT方面的工作,為Sora大模型的實作提供了基礎。
謝賽寧在X平台上表示:「Bill和我在DiT專案上工作時,我們沒有創造新奇事物,而是優先考慮兩個方面:簡單性和可延伸性。這些優先事項提供的不僅僅是概念上的優勢。」
他還推測,Sora模型可能擁有約30億參數。謝賽寧表示,如果這一推測合理,可能表明訓練Sora模型不需要像人們預期的使用那麽多的GPU算力,而且預計未來大模型的叠代會非常快。
AGI何時到來
外界也十分關註Sora大模型橫空出世後對於行業及消費者的影響,尤其是Sora的出現對於通用人工智能(AGI)的實作意味著什麽。
目前來看,盡管業內都認為Sora模型的出現會具有顛覆性的意義,但這種影響力究竟會在何時呈現出爆發威力,似乎很難被預估。
360創始人周鴻祎釋出微博稱,Sora的誕生意味著AGI的實作可能從10年縮短至一兩年。不過據獵豹移動董事長CEO傅盛在朋友圈的觀點,他認為,Sora雖然很強大,但是更多的是「暴力美學」,還談不上徹底理解物理世界,與AGI提前到來也沒有太大的關系。
遊戲行業資深投資人、豐厚資本創始合夥人譚群釗認為,Sora是大型語言模型的再次重要突破,有幾個趨勢值得關註:首先是文字寫作能力會很重要,「文科生要崛起了」,其次是創意和品味很重要。
他對第一財經記者表示:「過去三十年程式設計師用軟件定義世界,將來會回歸到用文字描述世界。AI仍然是工具,需要專業背景,但創意和品味最重要。」在他看來,如果Sora能夠實作目前已經公布出來的影片效果,那麽可能會最先沖擊短劇、短影片領域。
3D生成式AI初創公司影眸科技CTO張啟煊告訴第一財經,OpenAI釋出Sora的底層邏輯是透過一個「現實模擬器」來實作AGI,生成無窮無盡的現實數據。他認為,Sora這類大模型的工作往後發展,如果能夠做到高度可控性,那麽將會顛覆整個CGI(電腦特效技術)工業乃至遊戲引擎行業。「到時候就是圖形學不存在了。」他說道。
張啟煊表示,Sora對消費者和行業都會產生一定的影響。「對普通人來說,如果OpenAI開放API或者有團隊能夠復現這種影片建立能力,相信很快就會在C端影片套用裏看到這樣的功能。」他說,「對行業來說,目前的影響不會有想象中那麽大,可能更多是一些影片素材的收集工作可以得到極大的解放。」
不過Sora目前仍然沒有對公眾開放,而是僅對「紅隊」(Redteaming)開放,還有很多AI安全性相關的問題需要研究部署。在歐美對AI逐漸形成成熟監管體系的背景下,人工智能的任何進展都將受到法規的約束。
上海大邦律師事務所高級合夥人遊雲庭對記者表示:「Sora在正式向公眾推出前,一定會面臨來自現有行業的挑戰。首先,訓練素材獲得授權的知識產權合規就是個大問題,目前不透明;此外,輸出內容不侵權的合規也是個很大的問題。」