Sora橫空出世，馬斯克稱「人類輸了」，人工智能進入快車道？

2024-02-18科技

人人皆導演的時代，來了？

近日，OpenAI釋出了首個影片生成模型Sora，還展示了幾段效果相當炸裂的影片。

比如有一段是一名女子在東京街頭漫步，影片中霓虹燈光閃爍，女子身穿黑色皮衣，走路自信而隨意。

無論是路面上小水窪反射的燈光，還是女子的神態、走路的動作，給人感覺都十分逼真，幾乎與電影拍攝的真實場景無異。

有位網友在X平台上分享了這段影片，下面有人評論稱「gg皮克斯」。

緊接著，「5G沖浪選手」馬斯克也回應稱「gg人類（gg humans）。」

而gg是網絡遊戲用語「goodgames」的縮寫，主要是在一局遊戲結束時，由失敗者發出，表示自己認賭服輸。

換句話說，馬斯克的意思是「人類輸了，AI太強大」。

那麽，OpenAI究竟放出了怎樣的一枚核彈？影片生成模型Sora到底強在哪？難道真如馬斯克所說，人類要完蛋了嗎？

Sora有多強？

根據OpenAI的介紹，使用者只需要輸入簡單的描述性語句，Sora就可以建立一段相應的短影片，最高時長可以達到60秒。

且更重要的是，影片能夠實作非常詳細的場景布置、復雜且流暢的運鏡、人物的角色也是惟妙惟肖，與真人無異。

這意味著什麽？

哪怕是一名普通人，只要具備豐富的想象力，能夠將腦海裏的畫面準確地描述出來，那麽就能變成相應的畫面，甚至是獨立創作出一部電影。

毫不誇張地說，這次Sora是AI領域發展的又一裏程碑，與當初ChatGPT橫空出世，對大家造成的震撼是相同的。

要知道，作為Sora的競爭對手，Runway Gen 2、Pika等AI影片工具，現在還在朝著幾秒內「影片片段」的連貫性努力突破，而OpenAI的Sora，已經能創作出一段60秒的「大片」了。

這就相當於， 別人家的小孩還在學著怎麽走路，自家孩子已經能蹦蹦跳跳自己上學，而且半路上還能去商店，給老媽打瓶醬油回家了。

最關鍵的問題是，這還僅僅是OpenAI所公布出來的beta版本，未來Sora會前進演化成怎樣的程度，或者說現在在實驗室裏是否已經有了更大的突破，都是未知數。

Sora強在哪？

既然Sora這麽強，那麽相較於其他對手，它到底強在哪呢？

OpenAI 在技術報告標題上說得很清楚： 影片生成模型是世界模擬器。

世界模擬器，什麽意思？

簡單來說，就是Sora不僅能夠生成短影片，而且能夠學會現實世界的物理規律，並由此進行一定的拓展，隨著時間的推移，能夠預測場景的下一刻會發生什麽，場景中的物體會怎樣運動、出現怎樣的軌跡，形狀如何變化。

舉個例子，我們都知道物體掉到水裏會出現波紋、杯子摔破之後裏面的水會灑出來、燈光照在水面上會反射等等，但這些對於AI來說，都是需要學習的新知識。

所以我們可以看到，Sora的一眾競爭對手，不僅生成的短影片時間僅有幾秒，而且只有一個鏡頭，這正是因為其無法理解真實世界的物理規律，也就難以根據相應的描述生成影片，且哪怕是真的生成影片，也會出現各種各樣的「詭異」，遠不如Sora一樣逼真。

當然了，受限於算力等因素，目前Sora在處理一些復雜的情景時，還是會出錯。

比如Sora在生成一段水杯打破的影片時，是水先灑了出來之後水杯才被打破，這明顯是不符合現實中物理規律的。還比如提示詞「籃球穿過籃筐然後爆炸」中，籃球沒有正確被籃筐阻擋。

下一個十年，是瘋狂的十年

Sora釋出後，360董事長周鴻祎也發表了自身的看法。

按照周鴻祎的暢想，有Sora這種強勁的大模型作為基底，那麽加上其他方面的技術加持，完全可以成為各個領域顛覆性的工具。

比如生物醫學、物理學、化學、數學這些基礎性的學科，大模型都能發揮相應的作用。

尤其是在自動駕駛領域，以前我們給電動汽車裝雷達、裝網絡攝影機，更多強調的是一些感知層面，而不是認知層面。

而如果無法對碰撞的嚴重性、是否會發生碰撞、對方的速度到底有多快，這些實體層面有一個基礎的認知，實作真正的無人駕駛是很難的。

但AI技術的不斷突破，很可能會使這種想象變為現實。

不過，這裏可能有人會說，現在的Sora連一個杯子破碎的影片都做不好，說這些是不是太遙遠了？短時間內根本不可能實作。

但別忘了， 如今距離ChatGPT釋出其實僅僅有1年多的時間，AI發展速度已經超出了絕大多數人的想象。

我們完全可以說，下一個十年，一定是瘋狂的十年。

盡管現在Sora已經帶來了顛覆性的創新，但充其量只是一個起點，未來AI會發展到怎樣的程度，為我們的生活帶來怎樣的改變，現在是很難下一個準確定義的。

寫在最後：

從某種程度上來講，其實科技發展與藝術是有一些相通的：

過去幾百年時間裏，藝術的形式一直在發生變化，所以只能是藝術家去適應新的藝術形式。

而科技同樣如此，AI技術迅速發展，我們唯一需要做的，也是適應。#鯤鵬計劃#