詳解Sora，為什麽是AGI的又一個裏程碑時刻？

2024-02-18科技

文｜郝鑫

編｜王一粟、劉雨琦

2024年伊始， OpenAI 再向世界扔了一枚AI炸彈——視訊生成模型Sora。

一如一年前的 ChatGPT ，Sora被認為是AGI（通用人工智慧）的又一個裏程碑時刻。

「Sora意味著AGI實作將從10年縮短到1年」，360董事長周鴻祎作出預判。

但這個模型如此轟動，並不只是因為AI生成的視訊時間更長、解析度更高，而是OpenAI已經超越過去所有 AIGC 的能力，生成了一個與真實物理世界相關的視訊內容。

無厘頭的賽博龐克固然酷炫，但真實世界中的一切如何讓AI重現才更具意義。

為此，OpenAI提出了一個全新的概念—— 世界模擬器 。

在OpenAI官方出具的技術報告中，對Sora的定位為 「作為世界模擬器的視訊生成模型」，「我們的研究結果表明，擴充套件視訊生成模型是構建物理世界通用模擬器的一條可行之路。」

（圖源：OpenAI官網）

OpenAI認為， Sora為能夠理解和模擬真實世界的模型奠定了基礎，這將是實作AGI的一個重要裏程碑。 憑借這一點，就徹底與AI視訊賽道的 Runway、Pika 等公司拉開了一個段位。

從文字（ChatGPT）到圖片（DALL·E ）再到視訊（Sora），對OpenAI來說，仿佛在搜集一張張的拼圖，試圖透過影像媒介形態徹底打破虛擬與現實的邊界，成為電影「頭號玩家」一般的存在。

如果說蘋果Vision Pro是頭號玩家的硬體外顯，那麽一個能自動構建仿真虛擬世界的AI系統，才是靈魂。

「語言模型近似人腦，視訊模型近似物理世界」，愛丁堡大學的博士生Yao Fu表示。

「OpenAI的野心大得超出了所有人的想象，但好像也只有它能做到」，多位AI創業者對光錐智慧感嘆道。

Sora如何成為「世界模擬器」？

OpenAI新釋出的Sora模型，一腳踹開了2024年AI視訊賽道的大門，徹底與2023年以前的舊世界劃出了分界線。

在其一口氣釋出的48個演示視訊中，光錐智慧發現過去AI視訊被詬病的問題大部份得到了解決：更清晰的生成畫面、更逼真的生成效果、更準確的理解能力、更順暢的邏輯理解能力、更穩定和一致性的生成結果等等。

但這一切也不過是OpenAI顯現出的冰山一角， 因為OpenAI從一開始瞄準的就不是視訊，而是所有存在的影像。

影像是一個更大的概念，視訊是其中的一個子集，例如大街上捲動的大屏、遊戲世界的虛擬場景等等。OpenAI要做的事情，是要以視訊為切入口，涵蓋一切影像，模擬、理解現實世界，也就是其強調的「世界模擬器」概念。

正如AI電影【山海奇境】制作人、星賢文化陳坤告訴光錐智慧，「OpenAI在向我們展示它在視訊方面的能力，但真正的目的在於獲取人們的反饋數據，去探索、預測人們想要生成的視訊是什麽樣的。就像大模型訓練一樣，一旦工具開放，就相當於全世界的人在為其打工，透過不斷標記、錄入，讓其世界模型變得越來越聰明。」

於是我們看到， AI視訊成為了理解物理世界的第一個階段，主要突出其作為「視訊生成模型」的內容；發展到第二個階段，才能作為「世界模擬器」提供價值。

抓住Sora「視訊生成」內容的核心在於——找不同， 即Sora和Runway、Pika的差異性體現在哪裏？這個問題至關重要，因為某種程度上解釋了Sora能夠碾壓的原因。

首先的一點，OpenAI沿用了訓練大語言模型的思路， 用大規模的視覺數據來訓練一個具備通用能力的生成模型。

這與文生視訊領域「專人專用」的邏輯完全不同。去年，Runway也有過類似的計劃，被其稱之為「通用世界模型」，思路大致相似，但沒有後續，這回Sora倒是先一步完成了Runway的夢想。

據紐約大學助理教授謝賽寧推算，Sora參數量約為30億，雖然對比GPT模型顯得微不足道，但是這個數量級已經遠超了Runway、Pika等一些公司，可以稱得上是降維打擊。

萬興科技AI創新中心總經理齊鏜泉，評價Sora的成功再次驗證了「大力出奇跡」的可能性，「Sora依然遵循OpenAI的 Scaling Law ，靠大力出奇跡，大量數據，大模型和大量算力。Sora底層采用了遊戲、無人駕駛和機器人領域驗證的世界模型，構建文生視訊模型，達到模擬世界的能力。」

其次，在Sora身上第一次展現了擴散模型與大模型能力的完美融合。

AI視訊就像一部電影大片，取決於劇本和特效兩個重要元素。其中，劇本對應著AI視訊生成過程中的「邏輯」，特效則對應著「效果」。為了實作「邏輯」和「效果」，背後分化出了兩條技術路徑擴散模型和大模型。

去年年底，光錐智慧就曾預判到，為了同時能夠滿足效果和邏輯，擴散和大模型兩條路線終將走向融合。沒想到，OpenAI如此迅速地就解決了這個難題。

（圖源：OpenAI官網）

OpenAI 在技術報告中畫重點提到：「我們將各種型別的視覺數據轉化為統一表示法的方法，這種表示法可用於生成模型的大規模訓練。」

具體來看，OpenAI將視訊畫面的每一幀都編碼轉化為了一個個的視覺修補程式（patches），每個修補程式都類似於GPT中的一個token，成為了視訊、影像中的最小衡量單位，並且可以隨時隨地被打破、被重組。找到了統一數據的方式，統一了度量衡，也就找到了打通擴散模型和大模型的橋梁。

在整個生成的過程中，擴散模型仍在負責生成效果的部份，增加大模型Transformer的註意力機制後，就多了對生成的預測、推理能力，這也就解釋了Sora為什麽能夠從現有獲取的靜態影像中生成視訊，還能擴充套件現有視訊或填充缺失的畫面幀。

發展至今，視訊模型已經呈現出復合的趨勢，模型走向融合的同時，技術也在走向復合。

把之前沈澱的技術積累運用到視覺模型上，也成為了OpenAI的優勢。在Sora文生視訊的訓練過程中，OpenAI就引入了 DALL-E3和GPT的語言理解能力。據OpenAI表示，DALL-E3、GPT基礎上進行訓練，能夠使Sora準確地按照使用者提示生成高品質的視訊。

一套組合拳下來，結果就是出現了模擬能力，也就構成了「世界模擬器」的基礎。

「我們發現，視訊模型在進行大規模訓練時，會表現出許多有趣的新興能力。這些能力使Sora 能夠模擬物理世界中的人、動物和環境的某些方面。這些特性的出現並沒有對三維、物體等產生任何明確的歸納偏差 ——它們純粹是規模現象」，OpenAI表示道。

「模擬」之所以能夠如此炸裂，根本的原因在於，用大模型創造出不存在的事物人們已經習以為常，但是能夠準確地理解物理世界運轉邏輯，例如力是如何交互作用的，摩擦是如何產生的，籃球是如何打出拋物線的等等，這些都是以前任何模型都無法完成的事情，也是Sora超越視訊生成層面的根本意義所在。

不過，從demo到實際成品，可能是驚喜也可能是驚嚇。Meta首席科學家楊立昆就直接對Sora提出了質疑，他表示：「僅憑能夠根據提示生成逼真的視訊，並不能說明系統真正理解了物理世界。生成過程與基於世界模型的因果預測不同，生成式模型只需要從可能性空間中找到一個合理的樣本即可，而無需理解和模擬真實世界的因果關系。」

齊鏜泉也表示，雖然OpenAI驗證了基於世界模型的文生視訊大模型是可行的，但也存在物理互動的準確性難點，盡管Sora能夠模擬一些基本的物理互動，但它在處理更復雜的物理現象時可能會遇到困難；長期依賴關系的處理存在挑戰，即如何保持時間上的一致性和邏輯性；空間細節的精確性，處理空間細節方面如果不夠精確，可能影響到視訊內容的準確性和可信度。

顛覆視訊，但遠不止視訊

Sora成為世界模擬器或許是很久以後的事情，但是就生成視訊而言，已經對現在的世界產生了影響。

第一類就是解決之前技術上面無法突破的問題，推動一些行業邁向新的階段。

最典型的就是影視制作行業，Sora這回最具革命性的能力就是最長生成視訊長度達到了1分鐘。作為參考，大熱門Pika所能生成的長度在3秒、Runway的Gen-2生成長度在18秒，這意味著有了Sora以後，AI視訊將能成為真正的生產力，實作降本增效。

陳坤告訴光錐智慧，在Sora誕生前，其利用AI視訊工具制作科幻電影的成本已經下降至了一半，Sora落地後，更加值得期待。

Sora釋出後，令他印象最深刻的是一個海豚騎車的demo。在那個視訊中，上半身是海豚，下半身是人的兩條腿，腿上還穿了鞋子，在一種極具詭異性的畫風中，海豚完成了作為人騎自由車的動作。

「這對我們來說簡直太神奇了！這個畫面創造出了一種又有想象空間，又符合物理定律的荒誕感，既是情理之中又出乎意料，這才是觀眾能發出驚嘆的影視作品」，陳坤道。

陳坤認為 Sora會像當年的智慧型手機、抖音一樣，把所有內容創作者門檻降低一大步，把內容創作者呈數量級放大。

「未來內容創作者可能都不需要拍攝，只需要說一段話或者一段詞，就能把腦子裏面獨特的想法表達出來，且可以被更多人看到。屆時，我覺得還有可能會出現比抖音更大的新的平台。再往前一步，或許是Sora能夠了解每個人潛意識的想法，自動去生成和創作內容，根本不需要使用者去主動尋求表達」，陳坤表示道。

同樣的行業還有遊戲，OpenAI 技術報告的結尾是一個【我的世界】的遊戲視訊，旁邊寫著這樣一句話：「 Sora可以透過基本策略同時控制Minecraft中的玩家，同時高保真地呈現世界及其動態。只需在Sora的提示字幕中提及‘ Minecraft ’，就能零距離激發這些功能。」

AI遊戲創業者陳希告訴我們，「任何遊戲從業者看到這句話，都是一身冷汗！OpenAI 毫無保留地展露了它的野心」。陳希解讀分析認為，短短的一句話傳達了兩件事情： Sora能控制遊戲角色，同時能渲染遊戲環境。

「就如OpenAI 所說，Sora是一個模擬器，一個遊戲引擎，一個想象力和現實世界的轉換介面。未來的遊戲，只要言之所及，畫面就能被渲染出來。Sora現在學會了構建一分鐘的世界，還能生成穩定的角色，再配合自家的GPT-5，一個純AI生成的、數千平方公裏、活躍著各色生物的地圖，聽上去已經不是異想天開。當然，畫面是否能即時生成，是否支持多人線上，這些都是很現實的問題。但無論怎麽說，新的遊戲模式已經呼之欲出，至少用Sora生成一個【完蛋我被美女包圍了】變得毫無問題了」，陳希道。

第二類是基於模擬世界的能力，在更多領域中創造出新的事物。

愛丁堡大學的博士生Yao Fu表示：「生成式模型學習生成數據的演算法，而不是記住數據本身。就像語言模型編碼生成語言的演算法（在你的大腦中）一樣，視訊模型編碼生成視訊流的物理引擎。 語言模型可以視為近似人腦，而視訊模型近似物理世界。」

學會了物理世界中的普遍規律，讓具身智慧也更加接近人的智慧。

例如在機器人領域，以前的傳導流程為，先給到機器人大腦一個握手的指令，再傳遞到手這個部位，但是由於機器人無法真正理解「握手」的含義，所以只能把指令轉化為「手的直徑縮小為多少厘米」。若世界模擬器成為現實後，機器人就可以直接跳過指令轉化的過程，一步到位理解人的指令需求。

跨維智慧創始人、華南理工大學教授賈奎向光錐智慧表示，顯式的物理模擬將來就有可能套用到機器人領域，「Sora的物理模擬是隱式的，它展示出了只有其內部對物理世界理解和模擬才能生成出來的效果，要對機器人直接有用，我覺得還是顯式的才行。」

「Sora能力還是透過海量視訊數據，還有recaptioning技術，實作出來的，甚至也沒有 3D 顯式建模，更不用說物理模擬了。雖然其生成出來的效果，已經達到/接近了透過物理模擬實作的效果。但物理引擎能做的事情不僅僅是生成視訊，還有很多訓練機器人必須有的其他要素」，賈奎表示道。

雖然Sora還有許多局限性，但在虛擬和現實世界之間已經建立了一個連結，這讓無論是頭號玩家式的虛擬世界，還是機器人更像人類，都充滿了更大的可能性。