語言就是現實！20個預言剖析OpenAI的Sora

2024-02-16科技

作者|付夢珍

淩晨，OpenAI 介紹了其在 AI 視訊領域的新技術進展：我們打造了一種名為Sora的文本到視訊模型。Sora能夠生成長達一分鐘的視訊，同時保持視覺品質和對使用者提示的遵循。

簡單來說，Sora可以根據簡單的提示和靜態影像，生成包含多個角色的視訊畫面。此外，Sora還可以自己「腦補」、「擴充套件」現有視訊片段。

用詞語總結Sora，那就是：「60s超長長度」「單視訊多角度鏡頭」「充滿情感的角色」「高度擬真的細節」和「世界模型」。

這項技術一經釋出，立刻引爆大眾，令無數人發出感嘆：

「OpenAI第三個大招——向所有影視公司丟擲二向箔」

「徹底端掉視訊行業飯碗！OpenAI第一個AI視訊模型炸裂登場」

「60秒一鏡到底驚人，世界模型真來了？」

「太炸了！OpenAI深夜釋出，文字直接生成視訊！網友：我要失業了」

「OpenAI再次舉起屠刀，Sora血洗行業」

OpenAI 在官方網站特別指出，所有的視訊都是由 Sora 直接生成的，沒有做過後期調整。

OpenAI指出，Sora與 GPT 模型類似，也使用了diffusion transformer架構，是一種擴散型變換器模型。OpenAI將視訊和影像的數據表示為patch，類似GPT中的token。技術上，Sora生成的視訊中，主體可以在三維視訊中進行連續運動。

當無數人都在等待OpenAI 公測的時候，Sam Altman已經自己玩嗨了。

他發推瘋狂安利的同時，還親自下場為網友生成視訊：你們隨意來prompt，我一一輸出。

這時，Sam Altman的身份是剪輯師？攝影師？演員？還是導演？

去年，娛樂資本論在采訪AI創業者時，有人提出AI視訊將在今年迎來大爆發，前途不可限量。

沒想到，時間來得如此之快。

那麽，Sora將會為世界帶來哪些改變？

01 一段文字就能生成短片，視訊內容將會大規模爆發，原有的崗位結構將會發生變化，例如攝影師、剪輯將不再存在，編劇可以直接生成電影；

02 講故事的能力會越來越重要；

03 如果你不會講故事，那麽從古書、小說中爬取故事的能力也會很重要，人類歷史上的大量文字內容，將會以視訊內容的形式再現；

04 Sora生成的內容，將會最先在短視訊領域爆火。因為這個行業對技術的要求低，且Sora可以相對低成本地產出大量具備獵奇性的內容；

05 特效行業的諸多鏡頭可以直接使用AI生成；

06 以後拍戲不需要這麽多演員了；

07 遊戲、動畫行業的制作成本將會被大大降低，建模過程可以直接省略了；

08 以後自己寫劇本、自己生成視訊，再加上人機互動的機器，【頭號玩家】的劇情會加速到來；

09 人人都有機會成為AI導演；

10 Sora將會加速數位人、自動駕駛、智慧成本、元宇宙等行業的發展，降低了數位資產的成本；

11 AI視訊賽道將會迎來新的競爭點。此前被眾人看好的Pika、Runway需要重新思考發展方向；

12 當視訊被生成以後，世界是真實的可能性越來越微乎其微。繼電話、數位人詐騙後，新的詐騙手段也會層出不窮；

13 客觀來看，Sora的視訊現在還存在著不連貫幀數、卡幀、斷幀等問題，準確性不足等問題，但這些都會隨著技術的進步而解決。

VOL.1

世界模型意味著什麽？

維特根史坦在【邏輯哲學論】裏說，句子是實在的影像語言，意思是句子、語言可以影射世界的真實狀態，語言就是我們的世界模型。

而現在，Sora已經透過大量的數據，能夠理解物理世界的運動規律，學會了關於3D幾何形狀和一致性的知識，透過運動、反射等方式，建立了一個包含物理規則、與真實世界接近的虛擬世界。

某種程度上來說，Sora已經可以像人一樣，對世界有了全面準確地認知。

例如，Sora在生成「色彩繽紛的魚類和海洋生物充斥的，由紙藝精心構建的珊瑚礁世界」為主題的視訊中，可以自己透過運鏡拍攝，展現內容。

計畫研究員Bill Peebles指出，「視訊中實際上發生了多次鏡頭轉換——這些鏡頭並非後期拼接而成，而是模型一氣呵成地生成的。我們並沒有特別指令它這麽做，它卻能自動完成。」

VOL.2

Sora的成果

提示詞：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

一鏡到底的60秒視訊裏，主體人物和背景都十分穩定，且全景、特寫、鏡頭推拉搖移都有，有著復雜的攝影機運動。細節上水中的倒影也在變化。主體人物走動的時候，背景的招牌也在不斷發生變化。有氛圍，風格絢麗，堪比電影大片的質感。以後導演做創投的時候可以直接用AI生成短片，無需花高價拍攝了。

提示詞：一個美麗的剪影動畫展示了一只狼對著月亮嚎叫，感到孤獨，直到它找到狼群。

整個視訊透過藍色的背影和狼的剪影，極好地展現出了狼的孤獨，劇情上從一匹狼到多匹狼過渡自然，鏡頭語言上全景和中景、特寫交替切換。Sora不僅懂拍攝，還可以辨識人類的情緒。

提示詞：與中國龍一起慶祝中國農歷新年的視訊。

龍的形象十分真實且符合節日氛圍，人群也很有春節的氛圍。

提示詞：一位24歲女子在魔法時刻站在馬拉喀什，眨眼的特寫鏡頭，70公釐拍攝的電影底片，景深，生動的色彩，電影。

視訊中，人物的皮膚細節、睫毛都是十分逼真，和真人實拍幾乎沒有差別。

VOL.3

結語

Sora技術報告詳細內容可以看技術文件：

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI也宣布，將在今天晚些時候，更新技術論文。不過根據Openai之前的釋出風格，當真正有用的東西出來的時候，他們只會公開有限的東西，就像GPT4本身到現在也沒有釋出詳細的技術參數。

或許，當Sora最終跟大家見面，就是在GPT5和ChatGPT相結合釋出的時候。先不用說那時會有多炸裂的改進，就算跟現在Pika或Gen-2相近的視訊生成功能，可以在ChatGPT不額外花錢使用，那也將會給使用者帶來很大的改變。