讓貓咪包餃子?AI影片生成「翻車」:有的貓爪變人手 有的「偷感」十足

2024-10-12科技

「甄嬛在後宮大吃漢堡」「等我老了依靠小貓養老」……近期，用AI大模型制作的影片走紅網絡。利用AI，有人將經典電視劇【甄嬛傳】變成了「舌尖上的中國」，有人持續推出AI萌系寵物影片快速在社交媒體上成為寵物博主。

這些影片的背後，是「中國版Sora」的快速崛起。今年年初，Sora在發出60秒影片一鳴驚人後，遲遲不上線變成了遙不可及的「期貨」。在這期間，多家中國廠商搶先入場，推出多款影片大模型產品，包括字節、快手、阿裏雲、昆侖萬維、美圖在內的互聯網廠商，以及Minimax、智譜、愛詩科技與生數科技等大模型初創廠商都在快速跟進。

中國版Sora哪家強?近期，南都記者對8家熱門影片大模型進行了測評，在文生影片方面發現生成效果參差不齊，而圖生影片領域，大部份的產品還有很大提升空間。

快手、字節圍攻Sora「期貨」

今年春節期間，Sora的橫空出世投下了一枚炸彈，瞬間讓卷「文生文」「文生圖」的大模型廠商開啟了「影片的ChatGPT時代」。不過，Sora一鳴驚人後卻遲遲未上線，被外界稱為「期貨」。

幾天前的10月5日，Meta搶在OpenAI之前推出對標Sora的Meta　Movie　Gen。據悉，這款套用可建立不同寬高比的高畫質長影片，支持1080p，不但可以透過文本輸入生成影片，還可以透過文本對現有影片進行編輯修改。此外，它還能生成配套的背景音樂和音效、根據文本指令編輯影片，以及根據使用者上傳的影像生成個人化影片，號稱逼真程度超越Sora。

其實，Meta動作並不算快，中國企業早已迫不及待，搶先布局。

◎今年3月底，字節跳動旗下剪映團隊研發的AI創作平台「即夢AI」開放內測，8月6日，該套用移動版正式上架至蘋果市集，目前已擁有文生圖、文生影片、圖生影片等功能。

◎6月13日，美圖推出基於美圖奇想大模型、聚焦短片創作的平台MOKI。創作者在平台上僅需經過前期設定、內容生成和後期制作，即可打造動畫短片、網文短劇、故事繪本和MV，南都記者測試後發現制作出來的影片時長能到2分鐘。

◎6月21日，快手旗下的可靈推出了圖生影片功能。7月24日，可靈宣布基礎模型再次升級，在畫面質素、運動表現方面均有所提升。

◎9月19日，阿裏雲通義萬相釋出全新影片生成模型，上線文生影片和圖生影片功能。在文生影片功能中，使用者輸入任意文字提示詞，即可免費生成一段高畫質影片。

大模型初創企業布局影片生成

大模型初創企業方面，Minimax、智譜、愛詩科技與生數科技均在影片大模型方面有所布局。

◎早在今年1月，愛詩科技就正式釋出AI影片生成產品PixVerse，能夠免費生成4K高畫質影片。到7月24日，愛詩科技正式釋出影片生成產品PixVerse　V2，一次生成多個影片片段，可實作單片段8秒和多片段40秒的影片生成。

值得一提的是，愛詩科技創始人王長虎曾在2017年加入字節跳動擔任AI　Lab總監，從0到1支撐了抖音與TikTok等國民級影片產品的建設和發展。他曾公開表示，中國公司在短影片賽道做出了10億級別的國民級產品抖音、TikTok，影片套用在中國有使用者基礎和生長土壤，且在AI生成影片這條賽道上有機會誕生大的巨頭公司。

◎今年4月，同為大模型初創企業的生數科技釋出了影片生成模型Vidu，支持最長16秒、最高1080P分辨率影片的生成。兩個月後，影片時長升級為最長32秒。不過，生數科技7月底上線的Vidu官網僅提供4秒和8秒兩種時長選擇。

◎7月26日，大模型初創企業智譜AI宣布AI生成影片模型清影(Ying)正式上線智譜清言。南都記者關註到，套用清影生成6秒影片只需要30秒的時間，該功能不僅支持文生影片、圖生影片，也支持影片生成影片。

◎9月2日，MiniMax釋出了影片模型abab-video-1，並透露該模型壓縮率高、文本響應好、風格多樣，支持原生高分辨率、高幀率影片等特點，能媲美電影質感。

實測一

測評指令:左邊白貓包餃子右邊黑貓切韭菜

近期，大批用AI制作的寵物影片在社交媒體上傳播。以此為例，南都記者以「一只白貓和一只黑貓在廚房，左邊的白貓在包餃子，右邊的黑貓在切韭菜」為提示詞對8款產品進行測試，效果參差不齊。

智譜清影文生影片模型生成的影片中，貓爪像人手。

生成結果

通義貓咪「只看不做菜」，生數科技貓爪變人手

對於影片生成的時長，生數科技CEO唐家渝曾對外介紹，生成時長的能力，本質上與模型對物理世界和對語意輸入的理解相關。南都記者對上述8家企業進行測評後發現，目前各家廠商推出的影片大模型中，能生成的時長最長可到2分鐘，最短的3秒鐘。

南都記者在測評中從第一性原理出發，C端使用者用AI大模型做影片，追求的是效率的提升，或許還夾雜著對新科技的未知期待。從這一點看，本次測評要考量的首先是AI大模型能否達到使用者的基本要求，這一點可以從輸入指令後得出的影片來逐一測評是否達到基本效果，同時也對比輸出影片的時長。

其次，從使用者對新科技的未知期待上，南都記者在測評時也將觀察，某些影片大模型能否做出讓人意向不到的附加效果，比如運鏡、影片風格上能否在完成基本需求的情況下有所突破。

海螺AI 基本理解貓咪做菜指令

海螺AI生成的影片基本理解做菜指令。

Minimax的海螺AI基本理解了提示詞中想讓貓咪擬人化進行做菜的指令。兩只貓在包餃子、剁菜時的畫面都十分了得，白貓雖然邊「包餃子」邊壓抑不住本性想湊上前聞餃子，但還是把一個個餃子完好地包了出來，黑貓也真的拿起菜刀開始「切韭菜」。

通義　兩只貓「只看不做菜」

通義生成的影片，貓咪「只看不做菜」。

阿裏雲通義生成後兩只貓並沒有實作包餃子、切韭菜，而是看著一把刀對韭菜和餃子隨意切了起來。

即夢呈現效果「偷感」十足

即夢生成的影片，貓咪像在嗅聞。

字節即夢生成的影片中，兩只貓試圖伸爪子「參與」到包餃子和切韭菜活動中，但像是在躡手躡腳地嗅聞，「偷感」十足。

PixVerse

「翻車」，「做菜」變吃菜

愛詩科技影片大模型PixVerse中，黑貓和白貓沒有理解「做菜需求」，直接「上手」吃餃子皮、啃韭菜，出現「翻車」。

可靈

兩只貓角色「互換」

快手大模型可靈文生影片模型理解了讓貓「擬人化」做菜的需求，貓能用爪子包餃子，但是黑貓不切韭菜，直接拿起了刀切餃子。

智譜清影

實作各司其職

智譜清影文生影片模型讀懂了讓貓擬人化做菜的需求，同時黑貓和白貓實作了各司其職，一只在包餃子，一只在切韭菜。

南都記者在測試時還勾選了「電影感、鏡頭推進、緊張刺激」等風格、運鏡方式、氛圍方面的要求，測試出來的影片基本都能符合要求。

Vidu

貓爪突變成「人手」

Vidu生成的影片，突然出現人手。

生數科技Vidu影片大模型理解了讓貓擬人化做菜的需求，在生成的影片中，兩只貓處在一個現代化的廚房中，白貓學會了包餃子，黑貓雖然做出了切韭菜的動作，但畫面中並沒有刀，黑貓只能做出「撓爪子」的動作。

不過，生數科技的Vidu影片在生成的影片中還出現了一個畫面轉換的鏡頭。該鏡頭將韭菜放進包好的餃子中間，不過放置韭菜的手變成了「人手」。

美圖MOKI

將提示詞擴寫成完整指令碼

在美圖MOKI影片平台中輸入同一提示詞，該影片大模型首先將提示詞擴寫成了完整指令碼，同時依照選定風格生成了兩個角色，隨後會生成逐幀影片，使用者可以在其中修改圖片、移動位置，最後生成了一個影片，而使用者可以選擇後期對運鏡、音樂等進行加工。

實測二

圖生影片比文生影片更易「翻車」

南都記者還做了圖生影片的嘗試。

當輸入一張有兩只貓的照片，並輸入提示詞「兩只貓在廚房，左邊的貓在包餃子，右邊的貓在切韭菜，兩只貓互相瞪了對方一眼，鏡頭聚焦到包餃子的貓手上，它包得特別快」，字節即夢、快手可靈的圖生影片功能中，照片中的兩只貓在生成的影片中僅僅能實作上下左右晃頭、時不時動動爪子，並沒有實作包餃子、切韭菜等功能。

阿裏雲通義影片大模型實作了切韭菜的動作，不過韭菜和刀在畫面中憑空出現。智譜清影也出現了搟餃子皮、包餃子的動作，不過從輸入兩只貓的圖片到生成搟餃子皮影片的過程中，影片畫面銜接非常生硬，搟餃子皮的手也突然從提示詞中要求的「貓爪子」變成了人的手。

在愛詩科技PixVerse中輸入一張圖片和上述提示詞，圖片中的貓動起來但並沒有實作包餃子，而是在嬉戲吃餃子。

可以看到，相較於文生影片功能，目前大多數影片模型的圖生影片功能仍有很大提升空間。大多數影片模型只能粗淺表現讓照片中的兩只貓動起來，能理解提示詞並在影片中加入新物品、加入轉場效果的影片模型並不多，也更容易出現「翻車」現象。

采寫:南都記者林文琪

圖片均為AI生成影片截圖

讓貓咪包餃子?AI影片生成「翻車」:有的貓爪變人手 有的「偷感」十足

讓貓咪包餃子?AI影片生成「翻車」:有的貓爪變人手有的「偷感」十足