MiniMax加入影片生成混戰，大模型的盡頭是做影片？

2024-09-01科技

又一家國內獨角獸加入影片生成模型的混戰。

8月31日，一向低調的「AI六小龍」之一——MiniMax第一次正式對外，在上海辦了場「MiniMax Link夥伴日」活動。在會上，MiniMax創始人閆俊傑宣布推出影片生成模型和音樂模型。此外，他預告，新⼀版能從速度和效果都對標GPT-4o的大模型abab7，會在未來⼏周內釋出。

這一影片生成模型的對外名稱為video-1，在具體參數上MiniMax並未有太多介紹。閆俊傑提到，相比市面上的影片模型，video-1具有壓縮率高、文本響應好和風格多樣的特點，可生成原生高分辨率、高幀率影片。目前video-1只提供了文生影片，在未來產品會叠代圖生影片、可編輯、可控性等功能。

目前所有使用者都可以登入海螺AI官網體驗video-1的影片生成功能，記者在現場體驗了一下，輸入一段簡單的提示詞，大概等待1-2分鐘，可生成6秒的影片。從輸出效果來看，畫面基本覆蓋了提示詞說到的點，高畫質、色調審美合格，可以改進的地方是人物面部細節。

在大會討論環節，閆俊傑提到一個點是，大模型是一個看起來很熱，但是也有很多非共識的領域，「到底要做2B還是2C，到底做國內還是做海外，Scaling law到底能不能延續……」等等。

盡管有這麽多非共識，但影片生成或許是今年各大模型廠商的共識。

自今年2月OpenAI釋出影片大模型Sora後，行業叫得上名字的釋出不少，4月生數科技釋出影片大模型Vidu，6月快手釋出AI影片生成大模型可靈，一周後Luma AI釋出文生影片模型Dream Machine，Runway在7月初宣布，文生影片模型Gen-3 Alpha向所有使用者開放使用，在世界人工智能大會期間阿裏達摩院推出尋光，7月底，愛詩科技釋出PixVerse V2，隨後智譜正式釋出清影影片，8月初，字節即夢AI上架市集……

一年前市面上還很少有面向公眾的文生影片模型，短短幾個月內我們目睹了幾十款影片生成模型的問世，一位行業人士感慨，過去一年對於AI影片生成來說是一個歷史性的時刻。

在采訪中，第一財經記者問及MiniMax布局影片生成的必要性，閆俊傑表示，本質原因是，人類社會的資訊更多體現在多模態內容上，「我們每天看的大部份內容，都不是文字，都是一些動態的內容。你開啟小紅書都是圖文，開啟抖音都是影片，甚至開啟拼多多買東西，大部份時候也是圖片。」⽣活中，⽂字互動只是很⼩的⼀部份，更多的是語⾳和影片互動。

因此，為了能夠有非常高的使用者覆蓋度，以及更高的使用深度，作為大模型廠商，唯一的辦法是能夠輸出多模態的內容，而不是只是輸出單純的基於文字的內容，閆俊傑解釋，這是一個核心的判斷。

「只是在之前我們先做出來文字，又做出來聲音，很早做出來了圖片，現在技術變得更強，（可以）把影片也做出來。這個路線是一以貫之的，一定要能做多模態。」閆俊傑說。

但影片生成賽道很難，僅看OpenAI在年初釋出Sora後，至今沒有正式對外，也可以窺見行業的一些挑戰。

一方面，目前的影片生成結果遠遠達不到使用者的預期，模型並不懂物理規則，同時生成過程很難控制。影片、影像、三維的生成類演算法會遇到很多結構性和細節性問題，如通常會多長出一樣東西或者少一樣東西，或者手穿模到人身體裏，精細化的影片、尤其是具有物理規則的影片目前很難生成。

在采訪中，閆俊傑也表示「這件事還挺難的」，否則如此多號稱做這個事的公司早做出來了。影片的工作復雜度比做文本更難，因為影片的上下文文本天然很長。例如，一個影片是千萬的輸入和輸出，天然就是一個很難的處理。其次，影片量很大，看一個5秒的影片就有幾M，但是5秒看的文字大概100個字，可能都不到1K的數據量，這是幾千倍的儲存差距。

「這裏面的挑戰在於，之前基於文本建的這套底層基礎設施怎麽來處理數據，怎麽來清洗數據，以及怎麽來標註，對影片上都不太適用。」閆俊傑認為，基礎設施需要升級，其次就是耐心，做文字有很多開源，如果基於開源來做，自己研發會更快，如果做影片，開源內容沒那麽多，很多內容做出來也會發現需要重做，需要付出的耐心更大。

此前有行業從業者對記者表示，目前的影片生成有點像影像生成的2022年前夕，2022年8月Stable Diffusion開源後，AIGC影像生成開始爆發，但影片生成領域目前還沒有一個特別厲害的「開源Sora」釋出，大家還需要探路。

啟明創投在7月釋出了「2024生成式AI十大展望」，其中一條是，3年內影片生成將全面爆發，他們認為，結合3D能力，可控的影片生成將對影視、動畫、短片的生產模式帶來變革。未來影像和影片隱空間表示的壓縮率提升五倍以上，從而使生成速度提升五倍以上。