讓世界變成「模擬器」，Sora何以「出道即王炸」？

2024-02-20科技

2024年伊始，OpenAI再向世界扔了一枚AI炸彈——視訊生成模型Sora。它可以基於描述性文字指令，生成長達60秒的視訊，並理解呈現使用者想象中的情緒以及光影。

一如一年前的ChatGPT，Sora被認為是通往AGI（通用人工智慧）的又一個裏程碑時刻。

▲OpenAI官網釋出的Sora生成視訊截圖。（圖片來自OpenAI官網）

丨被拒收的論文何以成就AI界的新「王炸」？

2月16日，OpenAI釋出了其AI視訊模型Sora，立即引發轟動。Sora產生的視訊不僅解析度高，連貫性強，而且在持續時間上也大大超出預期，引發了網路上一片驚嘆，人們紛紛發出「現實不存在了！」的感嘆。

究其成功之因，不得不提Sora背後的兩大技術革新：時空修補程式（Spacetime Patch）技術和擴散型Transformer（Diffusion Transformer，簡稱DiT）架構。時空修補程式技術最初由谷歌DeepMind的科學家們在2023年7月提出。而DiT架構的首要研究者是Sora團隊的領軍人物William Peebles，他的這項工作曾在2023年的一次電腦視覺會議上遭到拒絕，理由是「缺乏創新性」，然而僅一年後，這項技術卻成為了Sora的核心。盡管這兩種技術各自已相當成熟，但之前鮮有嘗試將它們結合起來使用。

上海交通大學人工智慧研究院的副教授王韞博評論說：「很震撼，卻也在意料之中。」他認為，Sora就像是用已知的技術「零件」組裝出了一輛效能卓越的「汽車」。從技術層面看，這些「零件」並非全新；但從成果來看，其影響卻是革命性的。

如果說蘋果Vision Pro是頭號玩家的硬體外顯，那麽一個能自動構建仿真虛擬世界的AI系統，才是靈魂。從文字（ChatGPT）到圖片（DALL·E）再到視訊（Sora），對OpenAI來說，仿佛在搜集一張張的拼圖，試圖透過影像媒介形態徹底打破虛擬與現實的邊界，成為科幻電影「頭號玩家」一般的存在。

▲OpenAI官網釋出的Sora生成視訊截圖。（圖片來自OpenAI官網）

丨 Sora為何被稱為世界模擬器？

OpenAI並未單純將Sora視為視訊模型，而是作為「世界模擬器」。它能像人一樣，理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會出現「汽車撞毀坦克」這樣的情況。這就是「世界模型」的強大之處。

按照「人工智慧之父」艾倫·圖靈提出的具身智慧概念，想要理解物理世界的法則，就必須有像人一樣的身體與世界互動。但據OpenAI科學家提姆·布魯克斯透露，沒透過人類預先設定，Sora就自己透過「觀察」大量數據，自然而然地學會了關於3D幾何形狀和一致性的知識。這一點從OpenAI釋出的48個演示視訊中可見一斑，這些視訊在很大程度上解決了過去AI視訊生成的常見問題，展現了更清晰的影像、更逼真的效果和更流暢的邏輯。

然而，Sora在物理規則模擬方面仍存在不足。例如，一段展示老奶奶吹蠟燭的視訊中，蠟燭並未隨風熄滅；另一段視訊中，玻璃杯從空中墜落卻未破裂，水卻已流出。這些現象表明，Sora在復雜場景下的物理原理模擬上還有待完善。

盡管如此，Sora的表現已證明，透過大量數據的分析，機器能夠推斷出一些物理世界的規則，這無疑是向現實世界模擬邁出的重要一步。AI電影【山海奇境】的制作人陳坤提到，Sora透過展示其視訊能力，旨在收集使用者反饋，進一步探索和預測人們期望生成的視訊內容。這一過程類似於大規模模型訓練，全球使用者的互動不斷豐富和最佳化了其世界模型，推動AI在模擬現實世界方面變得更加精準和智慧。

▲OpenAI官網釋出的Sora生成視訊截圖。（圖片來自OpenAI官網）

丨重塑AGI的Sora如何影響世界？

360公司董事長周鴻祎的預言，即Sora的出現可能將實作通用人工智慧（AGI）的時間從十年縮短至僅一年，體現了Sora在AI領域的潛在影響力。Sora之所以引起廣泛關註，並不僅因為其生成的視訊在時長和解析度上的提升，而是因為OpenAI已經超越了之前所有AI生成內容（AIGC）的能力，建立了與真實物理世界密切相關的視訊內容。

許多人認為，Sora橫空出世，影視行業受到的影響將首當其沖。將來，影視劇制作的門檻會將會大大降低，只要心裏有故事，就可借助強大的AI工具進行創作。

然而不同行業的巨頭對Sora持有不同的看法：遊戲公司育碧視其為一次巨大的飛躍；華大集團CEO尹燁將其比作開啟了AI發展的「牛頓時代」；而Meta的首席人工智慧科學家、圖靈獎得主LeCun則批評Sora無法真正理解物理世界。

Sora的潛力雖然巨大，但也存在被濫用的風險。隨著能夠理解物理規則的視訊生成時間的增長，人們所看到的內容可能不再能作為判斷的依據，「眼見為實」的概念也將成為歷史。對此，像馬斯克這樣的科技領袖也對人類的未來表達了擔憂。

上海人工智慧研究院的高級分析師方帥指出，盡管Sora能夠快速將想法轉化為視訊，但其成本並不低廉。而且，與文字相比，廣告、短視訊、電影等內容具有更強的個人風格和更嚴格的版權保護，Sora生成內容的版權問題也需要被慎重考慮。

面對行業的擔憂，美國聯邦貿易委員會（FTC）2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示，它正在提議修改一項已經禁止冒充企業或政府機構的規則，將保護範圍擴大到所有個人。OpenAI內部也在進行模型倫理方面的對抗性測試，包括拒絕處理錯誤資訊、仇恨內容、偏見內容和色情暴力等。

隨著AGI這一「潘朵拉魔盒」的開啟，人們或許應該盡快適應在虛擬與現實之間辨別的能力。（完）

綜合文匯報、每日經濟新聞、揚子晚報等

編輯：袁理