當前位置: 華文世界 > 科技

讓世界變成「模擬器」,Sora何以「出道即王炸」?

2024-02-20科技

2024年伊始,OpenAI再向世界扔了一枚AI炸彈——視訊生成模型Sora。它可以基於描述性文字指令,生成長達60秒的視訊,並理解呈現使用者想象中的情緒以及光影。

一如一年前的ChatGPT,Sora被認為是通往AGI(通用人工智慧)的又一個裏程碑時刻。

▲OpenAI官網釋出的Sora生成視訊截圖。(圖片來自OpenAI官網)

丨 被拒收的論文何以成就AI界的新「王炸」?

2月16日,OpenAI釋出了其AI視訊模型Sora,立即引發轟動。Sora產生的視訊不僅解析度高,連貫性強,而且在持續時間上也大大超出預期,引發了網路上一片驚嘆,人們紛紛發出「現實不存在了!」的感嘆。

究其成功之因,不得不提Sora背後的兩大技術革新:時空修補程式(Spacetime Patch)技術和擴散型Transformer(Diffusion Transformer,簡稱DiT)架構。時空修補程式技術最初由谷歌DeepMind的科學家們在2023年7月提出。而DiT架構的首要研究者是Sora團隊的領軍人物William Peebles,他的這項工作曾在2023年的一次電腦視覺會議上遭到拒絕,理由是「缺乏創新性」,然而僅一年後,這項技術卻成為了Sora的核心。盡管這兩種技術各自已相當成熟,但之前鮮有嘗試將它們結合起來使用。

上海交通大學人工智慧研究院的副教授王韞博評論說:「很震撼,卻也在意料之中。」他認為,Sora就像是用已知的技術「零件」組裝出了一輛效能卓越的「汽車」。從技術層面看,這些「零件」並非全新;但從成果來看,其影響卻是革命性的。

如果說蘋果Vision Pro是頭號玩家的硬體外顯,那麽一個能自動構建仿真虛擬世界的AI系統,才是靈魂。從文字(ChatGPT)到圖片(DALL·E)再到視訊(Sora),對OpenAI來說,仿佛在搜集一張張的拼圖,試圖透過影像媒介形態徹底打破虛擬與現實的邊界,成為科幻電影「頭號玩家」一般的存在。

▲OpenAI官網釋出的Sora生成視訊截圖。(圖片來自OpenAI官網)

丨 Sora為何被稱為世界模擬器?

OpenAI並未單純將Sora視為視訊模型,而是作為「世界模擬器」。它能像人一樣,理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現「汽車撞毀坦克」這樣的情況。這就是「世界模型」的強大之處。

按照「人工智慧之父」艾倫·圖靈提出的具身智慧概念,想要理解物理世界的法則,就必須有像人一樣的身體與世界互動。但據OpenAI科學家提姆·布魯克斯透露,沒透過人類預先設定,Sora就自己透過「觀察」大量數據,自然而然地學會了關於3D幾何形狀和一致性的知識。這一點從OpenAI釋出的48個演示視訊中可見一斑,這些視訊在很大程度上解決了過去AI視訊生成的常見問題,展現了更清晰的影像、更逼真的效果和更流暢的邏輯。

然而,Sora在物理規則模擬方面仍存在不足。例如,一段展示老奶奶吹蠟燭的視訊中,蠟燭並未隨風熄滅;另一段視訊中,玻璃杯從空中墜落卻未破裂,水卻已流出。這些現象表明,Sora在復雜場景下的物理原理模擬上還有待完善。

盡管如此,Sora的表現已證明,透過大量數據的分析,機器能夠推斷出一些物理世界的規則,這無疑是向現實世界模擬邁出的重要一步。AI電影【山海奇境】的制作人陳坤提到,Sora透過展示其視訊能力,旨在收集使用者反饋,進一步探索和預測人們期望生成的視訊內容。這一過程類似於大規模模型訓練,全球使用者的互動不斷豐富和最佳化了其世界模型,推動AI在模擬現實世界方面變得更加精準和智慧。

▲OpenAI官網釋出的Sora生成視訊截圖。(圖片來自OpenAI官網)

丨 重塑AGI的Sora如何影響世界?

360公司董事長周鴻祎的預言,即Sora的出現可能將實作通用人工智慧(AGI)的時間從十年縮短至僅一年,體現了Sora在AI領域的潛在影響力。Sora之所以引起廣泛關註,並不僅因為其生成的視訊在時長和解析度上的提升,而是因為OpenAI已經超越了之前所有AI生成內容(AIGC)的能力,建立了與真實物理世界密切相關的視訊內容。

許多人認為,Sora橫空出世,影視行業受到的影響將首當其沖。將來,影視劇制作的門檻會將會大大降低,只要心裏有故事,就可借助強大的AI工具進行創作。

然而不同行業的巨頭對Sora持有不同的看法:遊戲公司育碧視其為一次巨大的飛躍;華大集團CEO尹燁將其比作開啟了AI發展的「牛頓時代」;而Meta的首席人工智慧科學家、圖靈獎得主LeCun則批評Sora無法真正理解物理世界。

Sora的潛力雖然巨大,但也存在被濫用的風險。隨著能夠理解物理規則的視訊生成時間的增長,人們所看到的內容可能不再能作為判斷的依據,「眼見為實」的概念也將成為歷史。對此,像馬斯克這樣的科技領袖也對人類的未來表達了擔憂。

上海人工智慧研究院的高級分析師方帥指出,盡管Sora能夠快速將想法轉化為視訊,但其成本並不低廉。而且,與文字相比,廣告、短視訊、電影等內容具有更強的個人風格和更嚴格的版權保護,Sora生成內容的版權問題也需要被慎重考慮。

面對行業的擔憂,美國聯邦貿易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示,它正在提議修改一項已經禁止冒充企業或政府機構的規則,將保護範圍擴大到所有個人。OpenAI內部也在進行模型倫理方面的對抗性測試,包括拒絕處理錯誤資訊、仇恨內容、偏見內容和色情暴力等。

隨著AGI這一「潘朵拉魔盒」的開啟,人們或許應該盡快適應在虛擬與現實之間辨別的能力。(完)

綜合文匯報、每日經濟新聞、揚子晚報等

編輯:袁理