當前位置: 華文世界 > 科技

「解碼」一夜刷屏的Sora,「世界模型」看出更多端倪

2024-02-19科技

繼一年多前釋出ChatGPT在全球引發AI(人工智能)狂飆之後,全球AI領軍企業OpenAI又向業界扔下了一枚新「王炸」——AI文生影片模型Sora,這距離谷歌釋出多模態模型Gemini1.5僅過去了幾個小時。

在Gemini1.5的演示中,機器可以「讀懂」人類的各種舉動:當測試員拿出一張紙,Gemini1.5立刻回答「你拿出了一張紙」;而Sora可根據簡短的文字提示生成一段長達一分鐘的高畫質影片,其中包含細膩復雜的場景、生動的角色表情以及復雜的鏡頭運動。上海人工智能研究院高級分析師方帥表示:「兩個最新釋出的AI模型表明,機器在理解人類語言和文字上更近了一步。」

OpenAI在關於Sora的詳細技術報告中表示,Sora對自然語言的理解能力很強。OpenAI將其視為能夠理解和模擬現實世界的模型的基礎,相信其能力是實作AGI(通用人工智能)的重要裏程碑。

AI「文生影片」如何改變未來?正如業界專家所說,Sora的影響往小了說是文生影片技術突破了一個數量級,可直接套用於短影片、廣告等行業;往大了說,它提供了理解、重建和模擬這個世界的可能性。

「缺乏新穎性」的技術如何成為「王炸」?

「很震撼,卻也在意料之中。」在多年從事電腦視覺研究的上海交通大學人工智能研究院副教授王韞博看來,Sora就是用人類已有的「零件」拼裝出了一輛效能超高的汽車——從技術角度看,並不新鮮;但從結果來看,效果炸裂。

Sora帶給業界最大的啟發是DIT模型,即以Transformer為主幹的擴散模型。盡管它們已經是非常成熟的技術,但之前很少有人將兩者放在一起。

Transformer架構是產生長影片的基礎,它之前被廣泛用於大語言模型訓練。受到訓練大語言模型的Token(文本單元)啟發,此次OpenAI團隊引入了Patch(視覺塊嵌入程式碼)的概念,它能對像素、尺寸等各不相同的影片進行編碼,在潛空間裏將Patch的時空數據整合在一起進行訓練,再解碼成為一個高畫質影片。

值得一提的是,Meta首席AI科學家楊立昆稱,他的前同事、紐約大學助理教授謝賽寧和他在柏克萊的學生、現任OpenAI工程師的William Peebles前年合著的關於DIT的論文,是Sora的基礎。戲謔的是,這篇論文曾因「缺乏新穎性」而被電腦視覺頂級學術會議拒收。

被拒收的論文何以成就新「王炸」?王韞博認為,這與OpenAI的工程能力密不可分。在公開釋出的技術資訊中,OpenAI坦言,Sora使用了大規模訓練和超大數據集。謝賽寧推測,整個Sora模型可能有30億個參數。

在攻破語言和影片兩個堡壘的同時,OpenAI公布籌資7萬億美元建立芯片帝國計劃,這筆巨資相當於美國GDP的1/4。業界人士評價,這些或許將幫助OpenAI確立其在演算法與算力上的AI霸主地位,進而向AGI發起最後挑戰。

「模擬世界裏程碑」距世界模型有多遠?

Sora展現出的影片生成能力讓網友驚呼「逆天」,而專業人士則從模型中看出了更多端倪。

輝達人工智能研究院首席研究科學家吉姆·範在社交平台上表示,「如果你還是把Sora看成DALL-E那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。」

「世界模型」「世界模擬器」是Sora的重要標簽,畢竟Sora技術報告的標題就是「作為世界模擬器的視覺生成模型」。

王韞博表示,因為機器與真實世界互動的成本非常高,所以科學家希望能夠在虛擬世界中建立一個與現實世界物理規則相同的模型,方便機器「試錯」。有意思的是,按照「人工智能之父」艾倫·圖靈提出的具身智能概念,想要理解物理世界的法則,就必須有像人一樣的身體與世界互動。但Sora帶來了驚喜:據OpenAI科學家提姆·布魯克斯透露,沒透過人類預先設定,Sora就自己透過「觀察」大量數據,自然而然地學會了關於3D幾何形狀和一致性的知識。

而Sora被人詬病最多的不足之處,也在對物理規則的理解上。比如,在展示老奶奶吹蠟燭的影片中,蠟燭並沒有隨風熄滅;在另一段玻璃杯從空中墜落的影片中,玻璃沒有碎,裏面的水已經流出來了。對此,OpenAI也坦言,目前Sora還難以準確模擬復雜場景的物理原理,可能無法理解因果關系。

「Sora對真實世界的模擬還有很多提升空間,就目前的展示內容來看,並不意味著它已經‘讀懂’了物理規律。」王韞博說,因為人們並不知道究竟是模型建立了真實世界的法則,還是解碼能力比較強大。

盡管Sora距離世界模型還有很長距離,但它證明了一點,即機器可以透過「投餵數據」推算出一些物理世界的規則。毫無疑問,它是機器模擬現實世界的一個裏程碑。

Sora的「最佳試煉場」或將在元宇宙?

許多人認為,Sora橫空出世,影視行業受到的影響將首當其沖。將來,影視劇制作的門檻會將會大大降低,只要心裏有故事,就可借助強大的AI工具進行創作。

但方帥卻並不這樣認為。在他看來,Sora確實有快速將想法變成影片的能力,但其消耗的成本並不低,而且相比文字,廣告、短影片、電影等作品具有更強烈的個人風格,版權保護也更加嚴格,Sora生成內容的版權如何界定,值得商榷。

做了20年影視導演的陳坤則表示,導演的目標不僅僅是一場戲裏的燈光或布景。借助Sora這樣的工具,將燈光、布景、群演等「簡單步驟」交給AI完成,制作一部電影的時間和資金可能只需以前的1/10。

「Sora特別適合制作那些在現實中難以拍攝、對想象力要求特別高的內容,其最佳套用場所是元宇宙。」方帥說。Sora展示了一段特效影片:兩艘帆船在咖啡杯中的「泡沫海面」上戰鬥。通常,這樣的影片拍攝需要用到特殊技巧,現在只需要輸入一段充滿想象力的文字。

蘋果公司或許是最盼望Sora能夠大放異彩的科技企業之一。作為元宇宙硬件——混合現實(MR)頭顯Vision Pro的提供方,蘋果亟需一款「殺手級套用」,而這依賴於海量創作者。Sora可與Vision Pro上的時空計算相匹配,極大降低創作門檻,有望引入大量創作者,讓人類腦海中的想象力變成影片產品。

「短影片行業可能會迎來另一個發展高峰,收獲的可能不是那些會拍影片的人,而是擁有好的審美和無窮想象力的人。」方帥說。

一鏡到底超長影片生成意味著什麽?

在Sora爆火之前,全球最火的兩家AI影片公司是Runway和Pika,單單是Runway的上一輪融資就拿了1億多美元。但兩家公司的創始人在對外預測2024年的時候,都說有一個核心目標是希望能生成15秒的流暢影片。因為,2023年大部份文生影片長度都只有4-6秒,所以他們都把15秒影片作為一個裏程碑。

沒想到一夜之間,Sora一下子將門檻提高到60秒。除了有可能顛覆影視、廣告、教育、遊戲等行業,如果我們將目光放得更長遠,它還將帶帶來什麽?

「如果Sora對真實世界的物理規則掌握得足夠好的話,它可以預測未來。」王韞博說,他在清華讀書時,曾參與過一個用影片預測極端天氣的專案,方法是透過數碼孿生預測未來的雷達影像走勢。「如果可以將Sora與物理約束方法結合,或許有希望大幅提升預測的精度。」另外,影片預測還可以用於流體模擬、剛體模擬等各個領域。

當然,盡管Sora是一次非常重大的飛躍,但「硬幣有兩面」,它也存在被濫用的可能。當「懂物理」的生成影片延長到一分鐘乃至更長時間,人們看到的東西或許無法作為判斷的依據,「眼見為實」也將成為過去式。對此,「鋼鐵俠」馬斯克也對人類未來表達了擔憂。

針對業界的擔憂,美國聯邦貿易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示,它正在提議修改一項已經禁止冒充企業或政府機構的規則,將保護範圍擴大到所有個人。OpenAI內部仍在開展模型倫理側的對抗性測試,比如錯誤資訊、仇恨內容、偏見內容、色情暴力等,會在文本輸入時被拒絕。

無論如何,AGI這一「潘朵拉魔盒」正在被開啟,人們或許應該盡快學會「虛實之間」的生存之道。

作者:沈湫莎

文:沈湫莎圖:視覺中國、Sora官網影片截圖編輯:沈湫莎責任編輯:任荃

轉載此文請註明出處。