當前位置: 華文世界 > 科技

AI界一夜變天

2024-02-17科技

作者 | 柴旭晨

沒有絲毫預熱和劇透,Open AI深夜直接丟下核彈炸了街,從業者深感要變天。

2月16日淩晨,Open AI釋出了第一個「文生視訊」模型Sora。官方介紹,Sora能根據文字指令創造出包含豐富細節的逼真場景、角色,且能用多角度鏡頭,生成一鏡到底的60秒長視訊。

目前官網上已經更新了48個樣片,視訊中人物、背景都具有驚人的一致性。並且借助於對語言的深刻理解,Sora創造出的角色能表達豐富的情感。

更令業內驚嘆的是,Sora身上似乎開始出現「世界模型」的雛形。透過大量觀察訓練,它學會了許多關於真實世界的物理規律。

要知道,原先動畫影視公司為讓動物的數百萬根毛發、皮膚紋理、衣物等細節在3D建模中表現得如現實場景般真實,為此專門成立研究部門,且投入了不菲的成本和時間才得以實作。而如今,Sora只需要一行描述、幾次提示便能自動完成。

雖然Open AI坦言Sora仍有一些效果上的瑕疵,也因潛在的風險暫未對公眾開放。但憑借著極度真實的視覺效果,這一足以「模糊虛實」的王炸級技術,正粗暴地沖擊著大眾心智。

事實上,文生視訊並非Open AI的獨門,賽道早已湧入大量玩家。去年下半年開始,谷歌、Meta及部份AI創業公司相繼下場試水,國內的字節跳動也於11月推出了文生視訊模型Pixel Dance,阿裏雲的Animate Anyone以及百度文心大模型的類似功能同樣在內測。

入局者眾多,但各家效果卻未達預期,當Runway Gen2、Pika、PixVerse等AI視訊工具還在突破數秒內的連貫性時,Sora已經將時長拉至1分鐘,大振幅拉高生成視訊的可用性。影眸科技CTO張啟煊評價道,Sora跟Pika、Runway及同類玩家已拉開代差。

顛覆性的效果,伴隨的是顛覆性的思路。360董事長周鴻祎指出,現在所有文生圖、視訊的模型都是在2D平面上對圖形元素進行操作,並未適用物理定律。

而Open AI利用了其大語言模型優勢,將LLM和Diffusion結合訓練,透過學習視訊,理解現實世界的動態變化規律,並模擬、創造出新的視覺內容,由此產生的視訊真實感十足。

回溯來看,文生視訊能蔚然成風,成為全球新一輪AIGC競賽的焦點,因為大家都嗅到了短視訊在全球直播電商、內容創作等新興行業的巨大機遇。周鴻祎就認為,Sora可能給廣告業、電影預告片、短視訊行業帶來巨大顛覆,成為激發創作力的工具。

AI從業者更一葉知秋地感受到,Sora在展示視訊制作能力外,更多暗含的是大模型逐漸掌握對真實世界的理解及模擬能力後,可能會帶來更驚嘆的突破和成果。

有強勁大模型的底座、基於對人類語言的解析、對人類知識和世界模型的了解,再疊加其他技術,周鴻祎認為這便可以創造各個領域的超級工具。因為這種「先記憶,再預測」,正是人類理解並與世界互動的方式。

他舉例稱 ,Sora對物理世界的模擬,就會對智慧駕駛領域產生巨大影響。原先智駕「重感知」卻「輕認知」,他認為人在駕駛時的很多判斷,是基於對這個世界的理解,缺乏這一點很難做出真正的無人駕駛。

行業專家普遍認為,套用層面衍化的終局,便是真正通用人工智慧(AGI)時代的到來。

Sora的技術文件就寫道,「我們的結果表明,視訊生成模型是有希望向構建通用物理世界模擬器邁進的路徑」。

「一旦人工智慧接上網路攝影機,把所有電影、視訊都看一遍,其對世界的理解將遠超文字學習。AGI真的就不遠了,不是10-20年的問題,可能一兩年就能實作。」周鴻祎如是說道。

「我相信Open AI手裏或許還藏著一些秘密武器,無論是GPT-5,還是機器學習自動產生內容。」周鴻祎稱,「阿特曼是個行銷大師,知道怎樣掌握節奏」。

這與Sam Altman要籌集7萬億美元,塑全球AI芯片基礎設施的野心形成閉環,因為通往通用人工智慧的道路上,需要極為龐大的算力。

近期有投資界人士透露,Open AI正討論新一輪融資,估值高達千億美元。作為頭羊,有著獨霸AI行業、重塑全球AI芯片行業的龐大野心的Open AI,勢必要借助資本的助推不斷滾雪球。

回溯來看,在這場AI公司、資本交織的遊戲中,技術叠代一直是跳躍式的,並不會給大家慢慢來的時間。
未來的世界和AI行業究竟會駛向何方?還難以斷言,但眼下的2024,必將又是刺激的一年。