Sora如何降維打擊其他文生視訊大模型？記者實測對比

2024-02-18科技

OpenAI的文生視訊大模型Sora已經釋出兩天，其沖擊力依然不減。

2月18日，新京報貝殼財經記者進行了Sora與其他文生視訊大模型的對比測試，發現Sora在時間和視訊生成品質上均對「同行」產生了「降維打擊」：其他文生視訊大模型僅能生成3至4秒的視訊，而Sora生成的視訊時間最多可達1分鐘，且景物也更加清晰穩定、符合描述。

不過，隨著越來越多使用Sora制作的視訊出現以及部份技術細節的公開，業界開始對其進行全方位審視，其中，贊揚和驚嘆聲不少，但Sora生成的視訊也被發現存在諸多不合理之處。

文生視訊對比實測：Sora從「動圖」升級到「短片」

「一個時髦的女人走在東京的街道上，街道上充滿了溫暖發光的霓虹燈和生動的城市標誌。她穿著一件黑色的皮夾克，一件紅色的長裙，一雙黑色的靴子，還帶著一個黑色的錢包。她戴著太陽鏡，塗著紅色的口紅。她自信而隨意地走著。街道是潮濕和反光的，創造了一個五顏六色的燈的鏡面效果。許多行人走來走去。」這是OpenAI官網介紹Sora時，出現的第一組提示詞。

在OpenAI推出Sora之前，文生視訊領域的創業公司主要包括Pika、Runway等，為了驗證Sora的能力，新京報貝殼財經記者將上述同樣的提示詞輸入Pika文生視訊模型，以及Runway旗下的Gen-2video文生視訊模型進行了實測。

在相同提示詞下，新京報貝殼財經記者使用Pika生成的視訊截圖。

在相同提示詞下，新京報貝殼財經記者使用runway旗下Gen-2video生成的視訊截圖。

OpenAI官網上Sora生成的視訊。

貝殼財經記者發現，在相同的提示詞下，Pika僅能生成3秒的視訊，Gen-2video則可以生成4秒的視訊。其中，Pika的視訊為「時髦女人」的背影，無法體現她「戴著太陽鏡，塗著紅色的口紅」的描述，不過對於提示詞中「潮濕反光的街道和五顏六色燈的鏡面效果」體現得較好，但整體上視訊較為模糊。

Gen-2video則跳出了「無法輸入這麽多提示詞」的彈窗，並根據能夠輸入的部份生成了一個4秒的視訊，該視訊相比Pika顯然精細很多，也符合提示詞描述的人物形象，包括「街道、人群、黑錢包」等。

但可以發現，無論是Pika還是Gen-2video，都忽略了「一件紅色的長裙」這個細節，且貝殼財經記者透過觀看視訊發現，這兩段視訊仍能看出AI生成的影子，特別是Gen-2video的人物臉部，有細微的形變，這正是AI生成視訊的特點之一：難以始終保持同一人物的連貫性。

而Sora不僅體現了提示詞中的全部細節，而且還很好地保持了人物的連貫性，使得該視訊幾乎可以「以假亂真」。當然，如果仔細觀察，可以發現該視訊中人物的腳步在某幾個幀會出現不自然的扭曲，以及該視訊中的背景廣告牌雖然酷似日文，但由於目前AI還無法直接在視訊中「認識」文字，其只能生成似是而非的「日文」，這都是AI生成視訊的特點之一。

但即便如此，Sora還是用事實顯現出了同其他文生視訊大模型的代差。

在谷歌和推特都有從業經歷的AI創業者Gabor Cselle也釋出了使用相同提示詞，在其他四個文生視訊模型中「復現」Sora「穿過下雪、櫻花飛舞的東京街道……」的場景，並表示「其他模型達不到能和Sora比較的效果」。

Gabor Cselle社交帳號截圖。

在國內，也有不少AI從業者直觀地感受到了Sora帶來的沖擊。

清華大學沈陽教授團隊一直聚焦AI在各個領域的套用，並也一直在使用AI模型進行文生視訊的操作。2月17日，他在朋友圈釋出了一條團隊成員花兩天制作的「半失敗」AI視訊，並表示「從這裏可以看出和Sora的差距，我讓她暫時放棄這個作品，等演算法升級再重做一下。」

對於Sora出現後，使用AI制作視訊的工作能否繼續，沈陽回復貝殼財經記者「慢慢弄，往前挪唄」。

理解物理世界顛覆影視、遊戲行業 Sora是「通用世界模型」嗎？

為何Sora能夠在視訊生成的品質上明顯領先同業產品？OpenAI在官方網站上表示，Sora是能夠理解和模擬現實世界的模型的基礎，相信這一能力將是實作通用人工智慧的重要裏程碑。不過，Sora還存在很多不完善之處，仍然處於世界模型研究套用的初期階段。

什麽是世界模型？貝殼財經了解到，實際上runway公司在去年12月就提出過要開發通用世界模型（General World Model），用其旗下的Gen-2模型來模擬整個世界，「我們相信，人工智慧的下一個重大進步將來自理解視覺世界及其動態的系統，這就是為什麽我們要圍繞通用世界模型開始一項新的長期研究工作。」

從效果上看，目前OpenAI已經透過Sora部份做到了這一點，因為只有理解物理世界的執行法則，文生視訊模型才能創造出更加逼真的視訊。輝達高級科學家Jim Fan就對此表示，Sora是一個數據驅動的物理引擎，「它是對許多世界的模擬，無論是真實的，還是虛構的。該模擬器透過去噪和梯度學習方式，學習了復雜的渲染、直觀的物理、長期推理和語意理解。」

而理解現實世界的物理法則，也正是通往通用人工智慧這一「終極目標」的必經之路。

對此，不少科技圈名人都發出了驚嘆，馬斯克直接在社交平台上釋出短評「GG世界」（GG是網路遊戲的用語之一，原指遊戲結束時玩家互相致意，後引申為「遊戲結束」）。

360公司董事長周鴻祎則直接在朋友圈發文稱，一旦AI能夠接上網路攝影機，觀看並理解世界上所有的電影，它對世界的理解能力將遠遠超過僅僅透過文字學習所能達到的水平。在這種情況下，實作通用人工智慧不再是遙不可及的夢想。周鴻祎甚至預測，這一天可能在一兩年內就會到來，而不是十年或二十年。

在現實層面，有更多人擔心文生視訊大模型可能直接沖擊影視和遊戲行業。美國舊金山早期投資人Zak Kukoff預測，在5年內，一個不到5人的團隊將可能用文生視訊模型制作出一部票房收入超過5000萬美元的電影。

值得註意的是，日前大火的遊戲【幻獸帕魯】的開發團隊就僅有4人，有許多人質疑該團隊使用了AI生成技術制作遊戲角色，以節省成本。而根據OpenAI 釋出的最新Sora技術報告，Sora能夠模擬視訊遊戲的數位化過程，Sora能在控制 Minecraft 遊戲角色進行基本操作的同時，高品質動態渲染遊戲世界。這意味著，個人開發制作遊戲的門檻可能會被進一步降低。

前阿裏巴巴副總裁，Lepton AI公司創始人賈揚清則直接評價Sora「真的非常牛」，他表示Sora的問世可能會給對作OpenAI的公司帶來一波被大廠FOMO（害怕錯過機會而導致的收購）收購的機會。賈揚清預測，大模型市場長期仍將呈現閉源寡頭的格局，開源大模型仍然需要一段時間才能追趕上，而從演算法小廠的角度來看，要麽在演算法上與OpenAI媲美，要麽深耕垂直領域的套用，要麽選擇開源道路；最後，基礎設施的需求將繼續猛增。

記者聯系信箱：[email protected]

新京報貝殼財經記者羅亦丹

編輯嶽彩周

校對盧茜