OpenAI為什麽總是領先一個版本

2024-02-18科技

作者|陶然編輯|魏曉

Sora視訊模型的釋出，幾乎復刻了一年半之前GPT-3初登場時的AI圈盛況：

突然出現，引起熱議，廣為震驚。

台北時間2月16日，在沒有任何訊息外泄、事先預告的情況下，OpenAI在社交平台X（原推特）發帖，首次對外公布了名為Sora的文生視訊AI模型。

一句「Introducing Sora, our text-to-video model（介紹一下Sora，我們的文本轉視訊模型）」，切入正題之簡短，比起宣發，更像是一則告知：是的，我們又掏出大的來了。

之後，便是對Sora模型的能力介紹：Sora可以建立長達60秒的視訊，其中包含高度詳細的場景、復雜的攝影機運動以及充滿活力、情感的多個角色。

還附上了演示案例的對應Prompt（提示詞）：美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天並在附近的攤位購物。美麗的櫻花花瓣隨著雪花在風中飛舞。

對於Sora，業界評價並不統一：

有人100%認可，也有人120%、200%認可。

360創始人周鴻祎發文稱，Sora意味著實作通用人工智慧可能從10年縮短至1年，該模型展現的不僅是視訊制作的能力，還展現了大模型對真實世界有了理解和模擬之後，會帶來新的成果和突破。

輝達人工智慧研究院首席研究科學家Jim Fan將Sora稱作是視訊生成領域的GPT-3時刻：Sora是一個「數據驅動的物理引擎」，一個可學習的模擬器或「世界模型」。

高強度網上沖浪且一向心直口快的馬斯克則直接打出gg human（人類輸了）。

暫且不去深究後續影響到底是積極還是消極，能給AI、影視、社媒等一眾行業同步帶來顛覆性王炸、劃時代之感的，又是OpenAI，總是OpenAI。

像是一群工程師還在討論如何進一步完善登月計劃，OpenAI的團隊已經從火星傳回來一組自拍——他們總是領先一個版本，為什麽？

前文輝達AI研究院科學家Jim Fan對於Sora的評價，從技術層面來看很有參考性：他將Sora定義為物理引擎和世界模型。傳統意義上的視訊畫面是二維，而人們身處的物理世界是三維的。

這成為了AI視訊模型設計之初的理念區別：在生成視訊的過程中，AI的作用到底應該是將多段視訊片段拆分組合，還是應該作為一個主體，構建並記錄一個虛擬的AI空間。

OpenAI的選擇是後者。

其官網釋出的Sora技術報告中，有一句話值得註意：「我們的結果表明，發展能夠模擬物理世界動態的通用模擬器是一條充滿希望的途徑，具有前所未有的準確度和現實感。」

做一個粗淺的理解就是，Sora不是編輯視訊，而是在生成視訊之前先建模一個空間，然後變成一個鏡頭記錄這個三維立體的虛擬空間。

立體建模能展現資訊量遠遠多於平面圖，從設計思路上OpenAI就領先了一個維度，或者說提前了一個版本。

當然，更多的資訊量意味著更龐大的數據流，在有限算力內跑出更好效果、在保證效果的前提下盡量節約算力，本質上是同一個問題：AI計算效率。

但對於OpenAI來說，這些問題都有經驗可循——從ChatGPT到GPT-4等等計畫的技術積累，成為OpenAI構建Sora模型的良好地基。

受大語言模型成功案例啟發，OpenAI在探索視訊模型時就在思考「如何獲得類似的好處」：大模型運轉期間，token（詞匯單元）作為自然語言處理任務中的最小文本單位，承載著輸入資訊的作用，幫助模型對文本進行處理和理解。ChatGPT將程式碼、數學以及各種不同的自然語言一並拆分為token，再交由模型對token進行處理和理解，並能夠透過學習token之間的關系來獲取更多的語意資訊。

同理，在視訊生成模型中，OpenAI也創造了與token對應的數據單位「Patch」（影像單元），將圖形語言轉化為對應格式的Patch進行計算，在保證模型擴充套件性的同時，大幅提升單位算力內的運算效率。

而在模型的前端，OpenAI同樣用上了自己在GPT系列模型的成果：

和文本對話類似，訓練文生視訊的過程中，除了需要視訊素材案例之外，同樣需要大量對應的文字說明。OpenAI采用了最初在DALL·E 3中提出的「重新加標題」模式，用具備高度描述性的標題生成器為訓練集中的視訊素材生成文字說明。生成結果也證明了，在制作期間為素材添加額外的說明，可以提高包括準確性在內的整體視訊品質。

此外，仿照DALL·E 3的做法，OpenAI還另外使用GPT對使用者輸入的簡短提示詞進行了更便於AI理解的擴寫，把使用者輸入的文字擴充成更長、更詳盡的說明，再交由視訊生成模型進行處理。

對於OpenAI這類技術驅動型公司來說，經驗和技術的積累都是加速度，有跡可循的成功經驗疊加團隊自身對AI概念領先理解，讓OpenAI總是能踩在自己的肩膀向上，或是推著自己加速向前。

比技術領先更可怕或者說更值得友商在意的，是這種領先往往會成為慣性，一步快步步快。指望靠加速追趕和對標與OpenAI看齊，在配套設施愈發成熟的階段，難度恐怕只會不降反增。真正的增量，仍在頂層設計的創新之中。

所以，與其說是AI擠占了人的創新空間，倒不如說是AI拉高了有效創新的門檻：設計AI，或者能超越AI創意的設計，才是大模型時代的有效增量。

來源|AI藍媒匯作者|陶然