當前位置: 華文世界 > 科技

Sora橫空出世,中美之間人工智慧的差距在拉大?

2024-02-19科技

(本文先發於【紫金商業評論】,授權紫金財經釋出,轉載請註明來源)

繼文本模型 ChatGPT、影像模型 Dall-E 大殺四方後,OpenAI繼續祭出「大殺器」。

2月16日,OpenAI在其官網釋出文生視訊模型Sora。據介紹,該模型可以生成長達一分鐘的視訊,同時保持視覺品質並遵循使用者提示。

雖然文本轉為視訊的產品早已面世,但是沒有一個能夠在畫質精美程度、逼真程度等方面與Sora相媲美。OpenAI更是在其網站上直言:「Sora是能夠理解和模擬現實世界的模型基礎,我們相信這一功能將成為實作AGI(通用人工智慧)的重要裏程碑。」

作為OpenAI首推的文本轉視訊模型,Sora以黑馬之姿,占據AI領域話題中心。在Sora釋出後,OpenAI的估值也迎來了大幅飆升。

Sora橫空出世

Sora的問世,宣告了新一輪科技革命的到來。

Sora大模型的驚艷之處在於,僅僅透過一段文本指令,Sora就可以直接輸出長達60秒的視訊,並且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。

就連特斯拉CEO馬斯克也為此感到驚嘆,他在社交媒體上轉發網友的貼文時評論稱:「gg humans」,意為「人類認賭服輸」。

具體來看,Sora在多個方面重新定義了AI視訊生成模型的標準:

首先,它將視訊時長從當前的5-15秒,直接提升到了1分鐘,這個長度完全可以應對短視訊的創作需求。從OpenAI發表的文章看,如果需要,超過1分鐘毫無任何懸念。

其次,使用者不僅可以用文字prompt生成視訊,還支持視訊到視訊的編輯,當然也可以生成高品質的圖片,Sora甚至還可以拼接完全不同的視訊,使之合二為一、前後連貫。

此外,它是擴散模型,更是擴散+Transformer的視覺大模型,並且產生了湧現現象,對現實世界有了更深刻的理解和互動能力,具有了世界模型的雛形。

雖然未經提前預熱,但Sora很快成為熱點話題,並引爆國內科技圈,360創始人周鴻祎、出門問問創始人李誌飛等人紛紛下場討論,發表看法。

周鴻祎表示,Sora對短視訊行業有巨大的顛覆,但未必能那麽快擊敗TikTok,更多是創作力工具。此外,他認為,中美兩國的人工智慧差距在拉大。

李誌飛在微信朋友圈稱:「LLM(大型語言模型)Chat GPT是虛擬思維世界的模擬器,以LLM為基礎的視訊生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模了,到底什麽是現實?」

Sora的問世,宣告了新一輪科技革命的到來。

OpenAI的又一次勝利

在Sora 釋出前,大眾對文生視訊方案並不陌生,包括大眾熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等,也取得了不錯的進展,但OpenAI依然實作了降維打擊。

一直以來,AI視訊生成被人看作是AI套用率先垂直落地的場景之一,正因為如此,幾乎所有的 AI 視訊生成公司都陷入了同質化競爭:過多關註更高畫質、更高成功率、更低成本,而非更長時長的世界模型。Pika、Runway 做視訊的時長都不超過4s範圍,雖然可以做到畫面足夠優秀,但物體動態運動表現不佳。

但OpenAI對AI視訊生成的探索更像是沿著另一條路線前進:OpenAI技術報告中透露,Sora能夠深刻地理解運動中的物理世界,堪稱為真正的「世界模型」,透過世界模型,Sora打通虛擬世界與現實世界的邊界,實作真正AGI(通用人工智慧)。

在業內人士看來,Sora是AGI(通用人工智慧)實作的重要裏程碑,Sora的出現將全球目光聚焦於視訊生成領域,驗證了視訊為王的趨勢,也進一步驗證了無視訊不傳播的時代,「視訊+大模型」的套用市場空間擴充套件。

市場預計,在最新一輪由風投公司 Thrive Capital 牽頭融資中,OpenAI 的估值有望超過 800 億美元(約合 5755 億元人民幣)。

作為對比,OpenAI 去年年初釋出ChatGPT的時候,該公司的估值大約為 290 億美元(約合 2086 億元人民幣),如今飆升了 275%。

對於Sora是否會一家獨大,對相關AI視訊生成模型或廠家形成沖擊。業內人士認為,參考此前ChatGPT掀起的大語言模型熱潮,在ChatGPT爆紅後,全球大語言模型不僅沒有出現一家獨大的情況,反而隨著Google、Meta、輝達,以及百度、阿裏、華為等公司的入場,呈現百花齊放態勢。

此外,從實用性來看,風頭更勝一籌的Sora只是展示了幾十個精選作品,離落地還有相當的距離。