當前位置: 華文世界 > 科技

OpenAI新年開出王炸,AI競爭升級

2024-02-19科技

圖片來源@視覺中國

文 | 伯虎財經,作者 | 陳平安

OPEN AI又刷屏了。

2023年年初,OPEN AI就曾引爆全球科技圈。

因為其釋出了一個全新的聊天機器人模型—— ChatGPT。和過去那些簡單的聊天機器人相比,ChatGPT不僅可以回答人類的追問,承認自己回答中的錯誤,拒絕回答不適當的問題,還能寫詩、編程、寫論文等等。

連馬斯克都忍不住感嘆:「ChatGPT好得嚇人,我們離強大到危險的人工智慧不遠了。」距離釋出後僅兩個月,ChatGPT月活使用者就達到了1億,為其母公司OpenAI拉來了微軟100億美元的下註。

2024年年初,相似的故事又在上演。

2 月 16 日淩晨,OpenAI 在 AI 生成視訊領域扔出一枚「王炸」,宣布推出全新的生成式人工智慧模型「Sora」。

在 OpenAI 官網分享的演示視訊中,Sora 可以直接輸出有多個角色、多種場景和運鏡的畫面。這對比一年前 AI 生成的視訊,簡直是天差地別,其視訊長度方面就「碾壓」同行。

據了解,透過文本指令,Sora可以直接輸出長達60秒的視訊,且視訊的精致程度遠超大部份人的想象。

這意味著,繼文本、影像之後,OpenAI將其先進的AI技術拓展到了視訊領域。

馬斯克也再次評價了 OpenAI 視訊模型:「AI 增強的人類將在未來幾年裏創造出最好的作品。」

01 Sora讓人驚艷的到底是什麽?

一方面是技術上的突破。

Sora 能夠生成長達 1 分鐘的超長視訊,遠超Runway-gen2 的 18 秒和 Pika 的 3 秒。

更重要的是,相比之前AI視訊明顯的「AI感」不同,Sora制作的視訊在逼真度和畫面精致程度將整個AI視訊行業提升到 next level。

從官網視訊來看,人物臉上的黑痣粉刺,地面積水倒映的霓虹光影等等,其細節的精細度幾乎已經做到了以假亂真。換句話來說,Sora 創作的視訊品質,無論是高畫質度還是還原度,都是可圈可點的。

另一方面,同樣引人關註的是,Sora理解長文本的能力。OpenAI在官方部落格中寫道,「Sora不僅可以理解使用者的需求,還知道這些事物在現實世界如何存在。」

什麽意思呢?只需要輸入一段文本,Sora就能自動生成最長一分鐘的高畫質視訊。讓人驚艷的是,Sora不僅可以準確把握使用者文本中的復雜意思,並且還能分拆出不同的元素,將其轉換為有具體創意構思的視訊內容,看起來就像是專業導演、攝像和剪輯的作品。

比如 Sora以「色彩繽紛的魚類和海洋生物充斥的,由紙藝精心構建的珊瑚礁世界」為主題的視訊中, Sora 透過其攝影角度和拍攝時機,成功地推進了故事的發展。視訊中實際上發生了多次鏡頭轉換,這些沒有特別指令它這麽做,它卻能自動完成。

據內行人士透露,像是Sora生成的視訊,就算是頭部動畫制作公司都需要數日時間完成,而Sora只需要幾分鐘搞定。

國盛證券認為 Sora 相比此前其他文生視訊模型,已經跨越到實用生產力工具,1 分鐘長度有望大規模套用在短視訊領域,擴充套件視訊的能力也有望制作長視訊,或將帶來新一輪內容創作產業革命。

當然,Sora並不完美。OpenAI官網指出它可能難以準確模擬復雜場景的物理原理,並且可能無法理解因果關系,混淆提示的空間細節。

以此次釋出的DEMO「與中國龍一起慶祝農歷新年的視訊」為例,Sora無法準確生成視訊畫面中的中文,還被網友調侃調侃「都怪中文太難了?」以及視訊中老人生日蛋糕蠟燭,但蠟燭火苗前面卻沒有絲毫變化等等。

但OpenAI的團隊,讓AI能從最初的模糊分辨不清的影像,進步到目前足以生成長視訊的階段,可見其發展可怖。

B站一位網友是這麽評價的:

「sora出之前我還在給gpt5心裏打一個問號,到底能提升多少,openai還能繼續領跑麽,但現在我是真的服了,真的是比其他廠牛逼不止一點,一出手就是降維打擊,sora也是transform架構,這不就是gpt5的一部份麽,之前網上說gpt5看完了互聯網的所有視訊我還不信,現在我信了」。

02 競爭升級

Sora最直接的影響的肯定是對視訊行業的沖擊。作為一種視訊生成工具,Sora僅需文字就可以生成60秒時長的精細視訊,大大降低了視訊制作的門檻和成本,特別是熱點類等具備強烈時效性的內容。

不過Sora更深層的意義在於,這也意味著有關AI的競爭再度升級。

2023年,ChatGPT的釋出引領全球進入AI熱潮,光是中國公司就釋出了超過130個大模型。起初,大家的目標都是朝著自研大模型進發——有錢的大廠研發基座模型,創業公司們則轉向研發在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。

但事實證明,大模型真正的門檻在於高昂的成本——海量的算力、能提供客製服務的數據服務商和頂尖的人才團隊。

以算力為例,目前市場絕大部份被用於訓練大模型的算力芯片都來自於輝達。根據財經報道,2023年,輝達A100的售價漲了約1倍。單單部署1000台伺服器的電力成本就高達月20萬元。

大廠們的優勢在於,既擁有雄厚的財力去大規模購買、部署GPU,也能及時透過工程最佳化,利用大模型去實作效率提升。

根據晚點LatePost報道,11月,基於阿裏的「通義千問」,跨境業務AI Business團隊正式對外公布自己的產品 「Aidge」,兼具轉譯、行銷、設計、在地化服務等一系列功能。統計數據顯示,11月經過AI最佳化後的商品,獲得的海外詢盤量比之前增加了15%。

字節則在推出了雲雀大模型後,相繼研發出了豆包、扣子、話爐等產品。以話爐為例,使用者可以在其中與AI智慧體一道,透過故事聊天、創作,獲得互動體驗。

Sora使用 transformer 架構,將視訊和影像表示為稱為 Patch 的較小數據單元的集合,類似於 GPT 中的 token。重要的是,它和GPT一樣符合AI 縮尺律(Scaling Law),也就是說隨著訓練計算量的增加,樣本品質明顯提高。

有行業人士表示,目前Sora 暫未對外開放使用,僅OpenAI CEO Sam Altman 在X 平台上與評論互動生成視訊,認為算力的限制可能是目前 Sora 暫未開放使用的重要因素。

算力已經成為了各家最為關註的資源之一。2018 年,Altman 個人投資了一家AI 芯片初創公司Rain Neuromorphics,2019 年,OpenAI 花費5100 萬美元購買Rain 的芯片;去年 11 月,Altman 為一家代號為「Tigris」的芯片企業尋求數十億美元的資金。

軟銀集團創始人孫正義則正尋求籌措1000億美元資金成立一家芯片企業,與旗下半導體設計公司ARM的業務形成互補。

不過Sora的驚艷並不意味著其他人就沒有機會。視訊生成賽道此前的明星公司是Runway和Pika,盡管有許多人認為Sora很容易對兩者進行降維打擊,但Pika創始人郭文景在回應鈦媒體時稱,「我們覺得這是一個很振奮人心的訊息,我們已經在籌備直接沖,將直接對標Sora。」

事實上,OpenAI也並非毫無對手。和Sora同一時期釋出的還有谷歌的Gemini1.5 Pro,根據官方數據,其支持長達 100 萬個 token,遠超當前其他基礎模型,可以一次性處理大量資訊,如 1 小時的視訊、11 小時的音訊、超過3 萬行程式碼或超過 70 萬個單詞。

Sora當然是OpenAI領先的有力證明,但更像是大模型這個「大力出奇跡」賽道競爭升級的訊號。