當前位置: 華文世界 > 科技

MiniMax加入影片生成混戰,大模型的盡頭是做影片?

2024-09-01科技

又一家國內獨角獸加入影片生成模型的混戰。

8月31日,一向低調的「AI六小龍」 之一——MiniMax第一次正式對外,在上海辦了場「MiniMax Link夥伴日」活動。在會上,MiniMax創始人閆俊傑宣布推出影片生成模型和音樂模型。此外,他預告,新⼀版能從速度和效果都對標GPT-4o的大模型abab7,會在未來⼏周內釋出。

這一影片生成模型的對外名稱為video-1,在具體參數上MiniMax並未有太多介紹。閆俊傑提到,相比市面上的影片模型,video-1具有壓縮率高、文本響應好和風格多樣的特點,可生成原生高分辨率、高幀率影片。目前video-1只提供了文生影片,在未來產品會叠代圖生影片、可編輯、可控性等功能。

目前所有使用者都可以登入海螺AI官網體驗video-1的影片生成功能,記者在現場體驗了一下,輸入一段簡單的提示詞,大概等待1-2分鐘,可生成6秒的影片。從輸出效果來看,畫面基本覆蓋了提示詞說到的點,高畫質、色調審美合格,可以改進的地方是人物面部細節。

在大會討論環節,閆俊傑提到一個點是,大模型是一個看起來很熱,但是也有很多非共識的領域,「到底要做2B還是2C,到底做國內還是做海外,Scaling law到底能不能延續……」等等。

盡管有這麽多非共識,但影片生成或許是今年各大模型廠商的共識。

自今年2月OpenAI釋出影片大模型Sora後,行業叫得上名字的釋出不少,4月生數科技釋出影片大模型Vidu,6月快手釋出AI影片生成大模型可靈,一周後Luma AI釋出文生影片模型Dream Machine,Runway在7月初宣布,文生影片模型Gen-3 Alpha向所有使用者開放使用,在世界人工智能大會期間阿裏達摩院推出尋光,7月底,愛詩科技釋出PixVerse V2,隨後智譜正式釋出清影影片,8月初,字節即夢AI上架市集……

一年前市面上還很少有面向公眾的文生影片模型,短短幾個月內我們目睹了幾十款影片生成模型的問世,一位行業人士感慨,過去一年對於AI影片生成來說是一個歷史性的時刻。

在采訪中,第一財經記者問及MiniMax布局影片生成的必要性,閆俊傑表示,本質原因是,人類社會的資訊更多體現在多模態內容上,「我們每天看的大部份內容,都不是文字,都是一些動態的內容。你開啟小紅書都是圖文,開啟抖音都是影片,甚至開啟拼多多買東西,大部份時候也是圖片。」⽣活中,⽂字互動只是很⼩的⼀部份,更多的是語⾳和影片互動。

因此,為了能夠有非常高的使用者覆蓋度,以及更高的使用深度,作為大模型廠商,唯一的辦法是能夠輸出多模態的內容,而不是只是輸出單純的基於文字的內容,閆俊傑解釋,這是一個核心的判斷。

「只是在之前我們先做出來文字,又做出來聲音,很早做出來了圖片,現在技術變得更強,(可以)把影片也做出來。這個路線是一以貫之的,一定要能做多模態。」 閆俊傑說。

但影片生成賽道很難,僅看OpenAI在年初釋出Sora後,至今沒有正式對外,也可以窺見行業的一些挑戰。

一方面,目前的影片生成結果遠遠達不到使用者的預期,模型並不懂物理規則,同時生成過程很難控制。影片、影像、三維的生成類演算法會遇到很多結構性和細節性問題,如通常會多長出一樣東西或者少一樣東西,或者手穿模到人身體裏,精細化的影片、尤其是具有物理規則的影片目前很難生成。

在采訪中,閆俊傑也表示「這件事還挺難的」,否則如此多號稱做這個事的公司早做出來了。影片的工作復雜度比做文本更難,因為影片的上下文文本天然很長。例如,一個影片是千萬的輸入和輸出,天然就是一個很難的處理。其次,影片量很大,看一個5秒的影片就有幾M,但是5秒看的文字大概100個字,可能都不到1K的數據量,這是幾千倍的儲存差距。

「這裏面的挑戰在於,之前基於文本建的這套底層基礎設施怎麽來處理數據,怎麽來清洗數據,以及怎麽來標註,對影片上都不太適用。」閆俊傑認為,基礎設施需要升級,其次就是耐心,做文字有很多開源,如果基於開源來做,自己研發會更快,如果做影片,開源內容沒那麽多,很多內容做出來也會發現需要重做,需要付出的耐心更大。

此前有行業從業者對記者表示,目前的影片生成有點像影像生成的2022年前夕,2022年8月Stable Diffusion開源後,AIGC影像生成開始爆發,但影片生成領域目前還沒有一個特別厲害的「開源Sora」釋出,大家還需要探路。

啟明創投在7月釋出了 「2024生成式AI十大展望」,其中一條是,3年內影片生成將全面爆發,他們認為,結合3D能力,可控的影片生成將對影視、動畫、短片的生產模式帶來變革。未來影像和影片隱空間表示的壓縮率提升五倍以上,從而使生成速度提升五倍以上。