人人皆導演的時代,來了?
近日,OpenAI釋出了首個影片生成模型Sora,還展示了幾段效果相當炸裂的影片。
比如有一段是一名女子在東京街頭漫步,影片中霓虹燈光閃爍,女子身穿黑色皮衣,走路自信而隨意。
無論是路面上小水窪反射的燈光,還是女子的神態、走路的動作,給人感覺都十分逼真,幾乎與電影拍攝的真實場景無異。
有位網友在X平台上分享了這段影片,下面有人評論稱「gg皮克斯」。
緊接著,「5G沖浪選手」馬斯克也回應稱「gg人類(gg humans)。」
而gg是網絡遊戲用語「goodgames」的縮寫,主要是在一局遊戲結束時,由失敗者發出,表示自己認賭服輸。
換句話說,馬斯克的意思是「人類輸了,AI太強大」。
那麽,OpenAI究竟放出了怎樣的一枚核彈?影片生成模型Sora到底強在哪?難道真如馬斯克所說,人類要完蛋了嗎?
Sora有多強?
根據OpenAI的介紹,使用者只需要輸入簡單的描述性語句,Sora就可以建立一段相應的短影片,最高時長可以達到60秒。
且更重要的是,影片能夠實作非常詳細的場景布置、復雜且流暢的運鏡、人物的角色也是惟妙惟肖,與真人無異。
這意味著什麽?
哪怕是一名普通人,只要具備豐富的想象力,能夠將腦海裏的畫面準確地描述出來,那麽就能變成相應的畫面,甚至是獨立創作出一部電影。
毫不誇張地說,這次Sora是AI領域發展的又一裏程碑,與當初ChatGPT橫空出世,對大家造成的震撼是相同的。
要知道,作為Sora的競爭對手,Runway Gen 2、Pika等AI影片工具,現在還在朝著幾秒內「影片片段」的連貫性努力突破,而OpenAI的Sora,已經能創作出一段60秒的「大片」了。
這就相當於, 別人家的小孩還在學著怎麽走路,自家孩子已經能蹦蹦跳跳自己上學,而且半路上還能去商店,給老媽打瓶醬油回家了。
最關鍵的問題是,這還僅僅是OpenAI所公布出來的beta版本,未來Sora會前進演化成怎樣的程度,或者說現在在實驗室裏是否已經有了更大的突破,都是未知數。
Sora強在哪?
既然Sora這麽強,那麽相較於其他對手,它到底強在哪呢?
OpenAI 在技術報告標題上說得很清楚: 影片生成模型是世界模擬器。
世界模擬器,什麽意思?
簡單來說,就是Sora不僅能夠生成短影片,而且能夠學會現實世界的物理規律,並由此進行一定的拓展,隨著時間的推移,能夠預測場景的下一刻會發生什麽,場景中的物體會怎樣運動、出現怎樣的軌跡,形狀如何變化。
舉個例子,我們都知道物體掉到水裏會出現波紋、杯子摔破之後裏面的水會灑出來、燈光照在水面上會反射等等,但這些對於AI來說,都是需要學習的新知識。
所以我們可以看到,Sora的一眾競爭對手,不僅生成的短影片時間僅有幾秒,而且只有一個鏡頭,這正是因為其無法理解真實世界的物理規律,也就難以根據相應的描述生成影片,且哪怕是真的生成影片,也會出現各種各樣的「詭異」,遠不如Sora一樣逼真。
當然了,受限於算力等因素,目前Sora在處理一些復雜的情景時,還是會出錯。
比如Sora在生成一段水杯打破的影片時,是水先灑了出來之後水杯才被打破,這明顯是不符合現實中物理規律的。還比如提示詞「籃球穿過籃筐然後爆炸」中,籃球沒有正確被籃筐阻擋。
下一個十年,是瘋狂的十年
Sora釋出後,360董事長周鴻祎也發表了自身的看法。
按照周鴻祎的暢想,有Sora這種強勁的大模型作為基底,那麽加上其他方面的技術加持,完全可以成為各個領域顛覆性的工具。
比如生物醫學、物理學、化學、數學這些基礎性的學科,大模型都能發揮相應的作用。
尤其是在自動駕駛領域,以前我們給電動汽車裝雷達、裝網絡攝影機,更多強調的是一些感知層面,而不是認知層面。
而如果無法對碰撞的嚴重性、是否會發生碰撞、對方的速度到底有多快,這些實體層面有一個基礎的認知,實作真正的無人駕駛是很難的。
但AI技術的不斷突破,很可能會使這種想象變為現實。
不過,這裏可能有人會說,現在的Sora連一個杯子破碎的影片都做不好,說這些是不是太遙遠了?短時間內根本不可能實作。
但別忘了, 如今距離ChatGPT釋出其實僅僅有1年多的時間,AI發展速度已經超出了絕大多數人的想象。
我們完全可以說,下一個十年,一定是瘋狂的十年。
盡管現在Sora已經帶來了顛覆性的創新,但充其量只是一個起點,未來AI會發展到怎樣的程度,為我們的生活帶來怎樣的改變,現在是很難下一個準確定義的。
寫在最後:
從某種程度上來講,其實科技發展與藝術是有一些相通的:
過去幾百年時間裏,藝術的形式一直在發生變化,所以只能是藝術家去適應新的藝術形式。
而科技同樣如此,AI技術迅速發展,我們唯一需要做的,也是適應。#鯤鵬計劃#