當前位置: 華文世界 > 科技

Sora橫空出世,AI創業者和投資人們一夜無眠

2024-02-20科技

來源丨創業邦(ID:ichuangyebang)

作者丨Juny

編輯丨海腰

題圖丨Sora AI

多年以後,當我們再回看「AI視訊生成」這件事時,或許都直接可以用「Sora前時代」和「Sora後時代」來描述它。

在Sora前時代,如Runway、Pika、Stable Video Diffusion等大量創業公司還在百家爭鳴、平分秋色,而在Sora橫空出世後,這些公司都瞬間黯然失色,遭到降維打擊後不得不去重新審視未來的發展道路。畢竟,大家如今都可以隨意生成60秒的高畫質大片了,誰還會為你那4秒的動圖拍手稱贊呢?

當所有人都在為Sora驚嘆狂歡時,在無人在意的角落,是大量AI視訊創業者和投資人的一夜無眠。

遙遙領先幾個身位

首先,讓我們簡要回顧一下相比於此前行業內的同型別產品,此次OpenAI釋出的Sora有哪些顛覆之處。

1.生成視訊的時間長度。在昨天之前,受制於AI文本到視訊生成的物理和時空推理局限,目前整個行業中所公布的單個連貫性視訊的最大長度是16秒,行業的普遍水平是2-4秒之間。但此次Sora的最大支持長度是60秒,直接跨越式升級15倍。

2.鏡頭切換與畫面流暢度。此前AI生成視訊產品都是單鏡頭單生成,在效果層面更像是讓一張圖片動起來。但由Sora所生成的視訊,能夠在保持主體一致性的前提下實作多角度鏡頭無縫切換,整個畫面幹凈流暢,從而實作真正的視訊大片效果。

3.使用的基礎模型架構。此前的AI生成視訊大部份都是基於「大模型+大數據」架構,因此難以突破AI幻覺問題,Runway也在去年12月正式提出要打造通用世界模型。但此次Sora則已經具有了世界模型的雛形,其生成的視訊是基於對真實物理世界的理解,因此內容更加符合邏輯也更加令人信服。

那麽,關於這些突破性的進展,很多人可能也好奇,落實到產品效果層面,Sora真的有如此大的優勢嗎?

雖然目前Sora只僅對一小部份使用者開放還未開啟公測,但因為它們昨天所釋出的視訊都配有詳細的Prompt文本,所以很多人也用這些同樣的文本對其他工具進行了測試。下面,讓我們來看看一些效果對比的例子。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.(提示詞:美麗多雪的東京城熱鬧非凡。鏡頭穿過熙熙攘攘的城市街道,跟隨幾位正在享受美麗雪景和在附近攤位購物的人們。絢麗的櫻花花瓣與雪花一起隨風飛舞。)

圖源:X 帳號@Gabor Cselle

在該對比視訊中我們可以看到,從時長來看,Pika大概3秒、Runway和Stable Video大概4秒,而Sora能長達幾十秒。從內容來看,Pika和Runway生成都是類似於一幅動圖的場景,Pika抓住了攤位、櫻花、雪景等關鍵詞,Runway則更側重於提示詞的最後一句,Stable video的鏡頭有一定的推伸但似乎少了關於櫻花的描述。而Sora這邊,鏡頭從一開始帶有東京街道的全景開始再無縫推進到街道上的小攤和人物的特色,提示詞內所有元素都沒有缺失並且得到了很好的呈現。

再看一個例子。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.(提示詞:兩艘海盜船在一杯咖啡中航行時的逼真特寫視訊)

在Pika所生成的視訊並沒有體現「航行中逼真特寫」的關鍵內容,而Runway則沒能理解關於「在一杯咖啡中航行」的重點描述。從視覺效果來看,Sora也更加準確地展現了提示詞中航行激蕩的情形。

圖源:X 帳號@Syntho_elysium

再比如,那段驚艷眾人的描繪一位時尚女性漫步在京東街頭的視訊。完全相同的一段提示詞之下,Runway展現出來是這樣的:

Pika展現出來是這樣的:

而這是Sora的效果:

除了Runway、Pika等熱門產品之外,還有網友結合使用了AnimateDiff + LCM + StableDiffusion等幾個開源工具,使用了跟Sora相同提示詞,來跟進行了多個視訊畫面的對比。從對比結果也能看到,幾乎所有的生成視訊內容都被Sora「吊打」。

總體來看,雖然目前Runway和Pika等行業內領先工具或許已經基本能實作對提示詞的理解和還原,但從生成視訊的效果來看,不僅時長上難以實作4秒突破,內容仍然缺少著真實性和連貫性。其中,特別是對真實物理世界的還原這一點上,從以下幾個Sora和Runway的對比中就能看出,世界模型的套用確實讓Sora已經到達了另一個層次。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach.

數百創業公司一夜崩塌

從以上這一些簡單的對比中可以看出,Sora的出現對整個AI文本生成視訊行業所產生的影響無疑是具有顛覆性的。這也導致了昨天Sora一經釋出之後,大量的行業投資人拉響了警鐘。

過去一年來,在AI領域幾乎每個月都有AI生成視訊類的公司獲得融資,不僅這些創業公司的投資者都極具號召力,融資級別也幾乎都在千萬級美元以上。比如,去年6月,Runway宣布獲得新一輪1.41億美元的融資,投資者包括谷歌、輝達、Salesforce等;去年8月,由A16Z A輪投資4000萬美元的Irreverent Labs宣布獲得三星的新一輪融資;去年 11月,Pika宣布獲得5500萬美元的融資,由Lightspeed Venture Partners領投,其他投資人還包括Quora的創始人Adam D‘Angelo、前GitHub執行長Nat Friedman等;今年2月,總部位於德國的Colossyan成功獲得由歐洲風投公司Lakestar領投的2200萬美元A輪融資……

2023年AI視訊生成行業的參與者盤點 圖源:A16Z

據不完全統計,過去一年來全球AI生成視訊類賽道的融資已經超過數10億美元,其中大部份的公司都以種子輪、A輪為主。就在今年1月底,A16Z還專門針對AI視訊生成領域做了一個全面的回顧和展望,並盤點了市場上超過20個明星產品。

可以想象的是,這些創業公司以及其背後的投資人都因此次Sora的釋出而經歷了難熬的一天。有人表示,ChatGPT的出現終結了那些AI文本生成的創業公司,現在輪到Sora終結AI視訊生成公司了,AI視訊創業者看到Sora之後心情可以用心如死灰來形容。

不僅是創業者們的努力付諸東流,大量投資者們的錢也或將因此打了水漂。雖然創業公司的縮水情況我們還不得而知,但就在昨天Sora釋出後,作為擁有直接競爭業務的Adobe今日股價就大跌超過了7%。

而關於Sora釋出後的影響,一些圈內人士也陸續發表了他們的觀點。

360創始人周鴻祎在微博長文中表示,Sora的誕生意味著AGI(通用人工智慧)實作可能從10年縮短至一兩年。同時,科技競爭本質上比拼還是人才的密度和深厚積累,Sora效果吊打Pika和Runway很正常,有人認為有了AI以後,創業公司只需要做個體戶就行,實際今天再次證明這種想法是非常可笑的。

此外,前阿裏技術副總裁、目前正在從事AI架構創業的賈揚清也針對Sora在朋友圈釋出了他最新的觀點。他認為此次Sora確實非常厲害,而Sora將帶來的影響包括以下幾點:「1.對標OpenAI的公司有一波被其他大廠fomo收購的機會。2.長線閉源寡頭,開源還需要一段時間才能追趕上。3. 從演算法小廠的角度,要不就演算法上媲美OpenAI,要不就垂直領域深耕套用,要不就選擇開源。4.基礎設施的需求繼續會猛增。」

Sora會帶來革命性的影響嗎?

雖然Sora公布的視訊效果令人驚嘆,但由於目前僅開放給了一小部份人進行實測,因此其真實的效果如何我們還不得而知。畢竟此前Runway和Pika等同型別平台都出現過Demo做得無比精良,實操卻出現種種問題的情況。

此次,就連OpenAI自己也提前給大家打好了預防針。在關於Sora官方部落格的最後,OpenAI明確表示目前Sora的模型還並不完美,仍然屬於世界模型研究套用的初期。特別是在模擬復雜的物理環境下,還會出現明顯的邏輯和因果關系推理錯誤,比如跑步時方向搞反、人吹蠟燭火光不滅、塑膠椅子會變形飄起來、小狼仔變形等情況。

但目前大部份業內人士都認為,目前的Sora還只是最初版本,按照OpenAI目前的訓練情況和模型叠代速度,推理準確性問題會很快被攻克。而屆時,Sora將逐漸對一些行業產生的底層性的影響。

首當其沖的是影視制作行業。【三體】電視劇的特效導演陸貝珂在不久前的一期播客中曾聊到,過去一年來,AI技術對於影視行業的影響主要體現在概念設計和繪畫等基礎工種的效率提升上,更多使用的是AI生成圖片技術,AI生成視訊的不夠準確和邏輯問題導致很多生成內容並不可用,當時他就提出世界模型是影視行業的發展方向。一旦視訊的準確度、連貫性問題被解決,群演、布景、特效等大量內容則都可以用AI去幫助完成。

再比如廣告和短視訊行業。未來大量的廣告和短視訊將由AI生成,對設計師、攝影師、後期制作崗位的需求會大量減少,整個行業執行的模式將出現變革。視訊創作的門檻和經費會大大降低,從崗位上來說會使用AI的內容創作者將成為行業核心。各類短視訊將爆發湧現。

還可能影響的是遊戲行業。在OpenAI 釋出的最新Sora技術報告中提到,Sora能夠模擬如視訊遊戲的數位化過程,Sora能在控制 Minecraft 遊戲角色進行基本操作的同時,高品質動態渲染遊戲世界。未來Sora將可能被套用於建模、生成遊戲動畫和場景等,遊戲開發者的門檻將被大大降低。

圖源:OpenAI官方技術文件

Sora的誕生,似乎再次印證了贏者通吃的道理。手握著絕對資源的OpenAI,又一次走自己的路讓其他人都無路可走。而這可能也讓一些AI創業者和投資者們也開始再次思考,在行業巨頭的陰影和壓力之下,自己能力施展的生存和機會空間究竟在哪裏。