當前位置: 華文世界 > 科技

新戰場,影片生成大模型的同與異

2024-08-31科技

文 | 新立場Pro

動態影片生成AI套用正在迎來新的變數。

2023 年,Runway 釋出了文生影片/圖生影片大模型 Gen-2 ;2024年初, OpenAI 的 Sora 展示影片又掀起了一波討論,不過目前 Runway 缺乏中文化版本, Sora 還處於未公開階段,被外界戲稱為期貨,而瞅準了這段空窗時間,國內也見縫插的釋出相關模型/套用,釋出者是國內最大的兩個短影片平台——抖音和快手

今年 6 月份,快手開放了可靈AI大模型使用申請,號稱「全球首個普通使用者可用的真實影像級影片生成大模型」,此後不斷升級並在 7 月 25 日全面開放內測,同時正式上線了會員體系;緊接著在 7 月底和 8 月初,字節的即夢AI的 1.0.0 版本正式上架到安卓/蘋果市集,而在此前 5 月份,剪映 Dreamina 官方就已宣布其品牌的中文名為「即夢」,並上線相關 AI 影片生成功能。

與國外不同的是,國內的AI影片生成大模型不出所料地由最大的兩個短影片平台先發制人入局。但具體而言,即夢AI和可靈AI的初期的套用布局不盡相同,之於其母公司的意義也大相徑庭,畢竟字節內還有豆包, 可靈AI之於快手,更接近於「全村的希望」這一角色。

另一方面,二者生成的AI影片風格顯然有著差別, 即夢似乎更擅長動畫風,可靈卻卷向影像風。 二者的這種差異與前期的布局不無關系,雖然目前還無法說明彼此模式的優劣幾何,但從當下的輿論來看,影像風的AI影片似乎要更有新鮮感。

即夢VS可靈,特性和地位大不相同

從目前輿論偏向來看,字節即夢AI的影片生成表現不如快手可靈AI。【新立場】認為,這來源於其各自的影片剪輯平台剪映和快影本身的特性不同,以及整個字節系和快手系對AI的布局也有所差別。

剪映的即夢AI作為一個單獨的流動應用需要更長的上線周期,而快手選擇了直接將移動端的套用搭載於其影片剪輯平台快影上,極大縮短功能全面上線的周期和難度。

不過關於剪映為何要重新開辟出一個套用,在【新立場】看來,不管是從月活提升需求,App體量,以及收費模式來看,剪映都必須將即夢AI單獨開辟出一個套用。

首先剪映本身的月活使用者在整個移動端影片剪輯這個賽道來看早已一騎絕塵,據 Qusetmobile 此前的數據顯示約有一億,這甚至不包括剪映的海外版 CapCut ,因此剪映更需要考慮的是就將其直接整合到剪映本身的App上的性價比。

由於剪映上本來已有相關AI圖生圖的功能模組,以及特定模式的圖生影片模組,加之剪映自身又十分吃手機記憶體,若將即夢AI的影片生成所有功能作為一個模組植入剪映,會使得剪映本身變得更加臃腫。

並且收費模式的平衡也是個問題,如果將即夢AI直接植入剪映,那麽只可能有兩種收費模式: 1、直接一刀切提高剪映整體會員收費,2、或者在會員收費基礎上,即夢AI相關功能另外收費。 然而目前剪映的會員費用已經不算低了,這兩個模式對於原本的剪映使用者來說都會難以接受。

但對於快手的快影來說,這三方面情況又恰好跟剪映相反: 與剪映相比月活提升空間更大,可以靠更多的更強大的AI功能模組來引流;App本身體量也不算大,原本的會員費也用遠遠低於剪映,目前剪映包年會員費用是499元,而快影連續包年88元,費用可提升空間還很大,因此可靈AI 作為功能模組植入是目前更優的解法。

另一方面,可靈AI跟即夢AI在內部的地位大不相同。

在字節系內套用層面,除了即夢AI,還有聊天機器人豆包,豆包跟即夢一樣擁有單獨的移動端 App,同時也植入在了諸如飛書的字節系套用平台上。根據 Similarweb 的榜單,在 7 月,豆包的存取量已經排到了國內第四(前三分別是Kimi,文心一言以及通義)。除此之外字節在套用層還有其他諸如貓箱、星繪等AI套用,但由於這些套用的存在感並算不高,在此就不多贅述。

而反觀快手,早前釋出的快意大模型在套用層面水花並不算大,可靈AI套用一上線即引起了廣泛關註。

8 月 27 日,在快手的光合創作者大會上,快手蓋坤透露,已有超過 160 萬人使用過快手的影片生成大模型可靈AI,並累計生成超 1600 萬條影片。甚至在 7 月的 Similarweb 榜單上, 可靈AI排到了國內第 18 位,是目前國內排名最高的影片生成類AI套用。

只不過由於即夢AI的 app 正式上線和可靈AI的內測開放都是在 7 月,我們還需要等待 8 月榜單的釋出以得出進一步的結論。

據悉,早在 Sora 展示影片釋出後不久,就有相關人士猜測其模型為「Diffusion模型和Transformer模型的結合」,簡單來說就是 Transformer 理解文字,Diffusion 擴充套件圖片。而在可靈AI官網的介紹中也提到:「基於對文本-影片語意的深刻理解和 Diffusion Transformer 架構。」

據業內人士稱,這樣的架構在今年年初時業內就已普遍開始研究。也就是說,快手開始研究可靈AI也許還要更早一點。雖然 Diffusion 和 Transformer 結合並不能算一個Creative idea,但那時國內的大多大模型廠商還在各種通用百模大戰之中,能選定影片生成這樣一個更具體甚至是投入更大的賽道,並非一個容易事。

對於字節來說,豆包和即夢盡管是不同的團隊在負責,但就以上的榜單來看,比起即夢AI,豆包AI在如今各方AI套用大戰白熱化的階段,似乎更加能夠幫字節搏出位。 因此,可靈和即夢之於其母公司的意義是完全不同的。

可靈AI之於快手,也自然接近於「全村的希望」這一角色。

即夢擅長動畫風,可靈卷向影像風

OpenAI 目前在全球 AI 界獨領風騷除了自身技術的領先,也與其優先釋出奠定的使用者心智以及獲取了更多真實數據訓練機會有關。只是問題在於,影片生成式AI的先手優勢,是否會有聊天機器人AI影響那麽大,在OpenAI看來,也許並不大,不然 Sora 也不會如此不慌不忙。

事實上除去 OpenAI 這一極端案例,就國內的 AI 聊天機器人而言,單純的時機先手優勢也不重要,甚至原本平台的規模優勢也不重要。 OpenAI 之後,國內大廠最先刷存在感的大模型是百度的文心一言,2023 年 3 月份就已上線,而目前流量排名第一的 AI 套用卻是獨角獸 Kimi ,上線於 2023 下半年。

原因在於, 在聊天機器人這個賽道,Kimi 占據的是某個特定內容模式的先手優勢。

以 Kimi 和文心一言、通義等AI的模式作為對比來看,大廠的這些 AI 聊天機器人一開始就學著 OpenAI 的 GPT ,沖著更全面更通用的方向去的,這必然會導致不管是獲客層面還是模型訓練層面都會廣而不精。而 Kimi 盡管也是通用大模型,但卻有一個非常精準且高效的切入點——主要套用場景為專業學術論文的轉譯和理解、輔助分析法律問題、快速理解AAPI開發文件等。顯而易見,這方面的內容更具有邏輯性,對於 AI 來說相對更容易理解和輸出。

也就是說,Kimi 背後的月之暗面比大廠都更早錨定了初期的核心付費使用者以及商業化模式,加之足夠堅定的行銷投入以及精準的行銷獲客渠道,有助於 Kim 實作生成內容質素上的滾雪球。

據【智能湧現】報導,月之暗面在B站的轉化人均成本報價高達 30 元左右。 這個價格不僅在AI界,在大多數領域也算十分高昂。 從競價廣告的邏輯來看,其出價更高也意味著將分到更多的流量。 不過也許對於Kimi來說是值得的,畢竟其核心受眾群體跟B站使用者重合度也比較高。

而在影片生成AI這個賽道,可靈AI掌握的也是內容模式的先手優勢。

實際上,目前市面上早已不缺某個特定模式下的AI影片生成套用,例如此前很火的各種AI動畫風格,瞬息全宇宙風格,各種日漫遊戲風格,以及靜態人物照片生成某個特定動態表情的套用等……這些套用往往體量小,更加容易達成商業化。比如現在抖音使用者正在嘗試的「AI擁抱」——輸入兩個人單獨的照片,即可生成二者擁抱的動態影片。

據悉,這個功能來自一個叫做魅臉的小程式。而該小程式商業化方式十分粗暴,安卓端生成三次擁抱影片收費9.9元。並且不管是抖音還是快手上都有這個小程式。

但顯然,以上這些AI影片內容模式都無法徹底給業內帶來震撼,僅可作為C端使用者的日常娛樂消遣。而抖音使用者相比起快手使用者也更愛探討生成這類生成AI相關的內容(以兩個平台月活使用者和AI話題瀏覽量的比值差距得出)。

不知是否有受到自身平台這些影片內容模式的影響,不管是如今社交媒體上的一些測評結果,還是【新立場】自主測評結果來看,即夢AI生成的內容確實在某些特定的底圖和描述詞之下表現更佳;而更多時候,快手的可靈AI生成的影片,物體動態和光影更自然,畫面質感更佳。不過在移動端,可靈AI生成內容的速度要慢於即夢AI。

以上兩個影片是同一張鮮花照片作為底圖,輸入同樣的描述詞過後兩個AI各自生成的效果。 即夢AI的生成內容更奔放更有動畫感,可靈AI則是更克制更有靈氣的影像感,目前的輿論也確實更偏向於認可後者這種自然的影像風格。

也就是說,可靈AI也許跟 Kimi 一樣,提前想清楚了自己首先要服務的那部份核心使用者以及內容模式——對影像有更高要求的人群,並預想到了只有這種內容模式才能夠給業內帶來一些新的變數。

這時再看抖音方公布即夢AI這個中文名字時,快手的可靈AI很可能已經在為上線做準備了。

寫在最後

不過,由於抖快各自掌握著流量龐大的影片內容宣發渠道,所以如果有一天抖音的即夢AI生成的內容確實明顯更讓使用者驚嘆,倒也不難透過自身平台向使用者傳遞這一資訊。

正如一些特定的小程式或AI套用一樣,此前僅僅一個熱門挑戰,熱門影片,就可以掀起新的一輪圖生影片浪潮,即夢AI當然也可以用自身平台的優勢達到口碑反轉,只是可能很難再以原本動畫風格的內容形式出圈,使用者可能正在對這些動畫風格的生成內容失去新鮮感(並且動畫方向的版權問題更大)。

所以即夢AI接下來需要繼續發力的點,也許就是可靈AI的影像風格。

此外,即便Kimi、阿裏、百度等大廠主導的聊天機器人這個賽道目前還算是和平共處,但快手和抖音帶起的AI影片生成浪潮效果卻是立竿見影,更考驗模型本身的內容生成質素和前進演化速度,接下來其他大模型廠商很有可能也會加入到這場AI生成影片的競爭中。

按照本文的邏輯,有著影片號同時也有強大配套娛樂產業的騰訊,在傳統互聯網大廠中似乎更有優勢,但那就是後話了。