當前位置: 華文世界 > 科技

讓貓咪包餃子?AI影片生成「翻車」:有的貓爪變人手 有的「偷感」十足

2024-10-12科技

「甄嬛在後宮大吃漢堡」「等我老了依靠小貓養老」……近期,用AI大模型制作的影片走紅網絡。利用AI,有人將經典電視劇【甄嬛傳】變成了「舌尖上的中國」,有人持續推出AI萌系寵物影片快速在社交媒體上成為寵物博主。

這些影片的背後,是「中國版Sora」的快速崛起。今年年初,Sora在發出60秒影片一鳴驚人後,遲遲不上線變成了遙不可及的「期貨」。在這期間,多家中國廠商搶先入場,推出多款影片大模型產品,包括字節、快手、阿裏雲、昆侖萬維、美圖在內的互聯網廠商,以及Minimax、智譜、愛詩科技與生數科技等大模型初創廠商都在快速跟進。

中國版Sora哪家強?近期,南都記者對8家熱門影片大模型進行了測評,在文生影片方面發現生成效果參差不齊,而圖生影片領域,大部份的產品還有很大提升空間。

快手、字節圍攻Sora「期貨」

今年春節期間,Sora的橫空出世投下了一枚炸彈,瞬間讓卷「文生文」「文生圖」的大模型廠商開啟了「影片的ChatGPT時代」。不過,Sora一鳴驚人後卻遲遲未上線,被外界稱為「期貨」。

幾天前的10月5日,Meta搶在OpenAI之前推出對標Sora的Meta Movie Gen。據悉,這款套用可建立不同寬高比的高畫質長影片,支持1080p,不但可以透過文本輸入生成影片,還可以透過文本對現有影片進行編輯修改。此外,它還能生成配套的背景音樂和音效、根據文本指令編輯影片,以及根據使用者上傳的影像生成個人化影片,號稱逼真程度超越Sora。

其實,Meta動作並不算快,中國企業早已迫不及待,搶先布局。

◎今年3月底,字節跳動旗下剪映團隊研發的AI創作平台「即夢AI」開放內測,8月6日,該套用移動版正式上架至蘋果市集,目前已擁有文生圖、文生影片、圖生影片等功能。

◎6月13日,美圖推出基於美圖奇想大模型、聚焦短片創作的平台MOKI。創作者在平台上僅需經過前期設定、內容生成和後期制作,即可打造動畫短片、網文短劇、故事繪本和MV,南都記者測試後發現制作出來的影片時長能到2分鐘。

◎6月21日,快手旗下的可靈推出了圖生影片功能。7月24日,可靈宣布基礎模型再次升級,在畫面質素、運動表現方面均有所提升。

◎9月19日,阿裏雲通義萬相釋出全新影片生成模型,上線文生影片和圖生影片功能。在文生影片功能中,使用者輸入任意文字提示詞,即可免費生成一段高畫質影片。

大模型初創企業布局影片生成

大模型初創企業方面,Minimax、智譜、愛詩科技與生數科技均在影片大模型方面有所布局。

◎早在今年1月,愛詩科技就正式釋出AI影片生成產品PixVerse,能夠免費生成4K高畫質影片。到7月24日,愛詩科技正式釋出影片生成產品PixVerse V2,一次生成多個影片片段,可實作單片段8秒和多片段40秒的影片生成。

值得一提的是,愛詩科技創始人王長虎曾在2017年加入字節跳動擔任AI Lab總監,從0到1支撐了抖音與TikTok等國民級影片產品的建設和發展。他曾公開表示,中國公司在短影片賽道做出了10億級別的國民級產品抖音、TikTok,影片套用在中國有使用者基礎和生長土壤,且在AI生成影片這條賽道上有機會誕生大的巨頭公司。

◎今年4月,同為大模型初創企業的生數科技釋出了影片生成模型Vidu,支持最長16秒、最高1080P分辨率影片的生成。兩個月後,影片時長升級為最長32秒。不過,生數科技7月底上線的Vidu官網僅提供4秒和8秒兩種時長選擇。

◎7月26日,大模型初創企業智譜AI宣布AI生成影片模型清影(Ying)正式上線智譜清言。南都記者關註到,套用清影生成6秒影片只需要30秒的時間,該功能不僅支持文生影片、圖生影片,也支持影片生成影片。

◎9月2日,MiniMax釋出了影片模型abab-video-1,並透露該模型壓縮率高、文本響應好、風格多樣,支持原生高分辨率、高幀率影片等特點,能媲美電影質感。

實測一

測評指令:左邊白貓包餃子 右邊黑貓切韭菜

近期,大批用AI制作的寵物影片在社交媒體上傳播。以此為例,南都記者以「一只白貓和一只黑貓在廚房,左邊的白貓在包餃子,右邊的黑貓在切韭菜」為提示詞對8款產品進行測試,效果參差不齊。

智譜清影文生影片模型生成的影片中,貓爪像人手。

生成結果

通義貓咪「只看不做菜」,生數科技貓爪變人手

對於影片生成的時長,生數科技CEO唐家渝曾對外介紹,生成時長的能力,本質上與模型對物理世界和對語意輸入的理解相關。南都記者對上述8家企業進行測評後發現,目前各家廠商推出的影片大模型中,能生成的時長最長可到2分鐘,最短的3秒鐘。

南都記者在測評中從第一性原理出發,C端使用者用AI大模型做影片,追求的是效率的提升,或許還夾雜著對新科技的未知期待。從這一點看,本次測評要考量的首先是AI大模型能否達到使用者的基本要求,這一點可以從輸入指令後得出的影片來逐一測評是否達到基本效果,同時也對比輸出影片的時長。

其次,從使用者對新科技的未知期待上,南都記者在測評時也將觀察,某些影片大模型能否做出讓人意向不到的附加效果,比如運鏡、影片風格上能否在完成基本需求的情況下有所突破。

海螺AI 基本理解貓咪做菜指令

海螺AI生成的影片基本理解做菜指令。

Minimax的海螺AI基本理解了提示詞中想讓貓咪擬人化進行做菜的指令。兩只貓在包餃子、剁菜時的畫面都十分了得,白貓雖然邊「包餃子」邊壓抑不住本性想湊上前聞餃子,但還是把一個個餃子完好地包了出來,黑貓也真的拿起菜刀開始「切韭菜」。

通義 兩只貓「只看不做菜」

通義生成的影片,貓咪「只看不做菜」。

阿裏雲通義生成後兩只貓並沒有實作包餃子、切韭菜,而是看著一把刀對韭菜和餃子隨意切了起來。

即夢 呈現效果「偷感」十足

即夢生成的影片,貓咪像在嗅聞。

字節即夢生成的影片中,兩只貓試圖伸爪子「參與」到包餃子和切韭菜活動中,但像是在躡手躡腳地嗅聞,「偷感」十足。

PixVerse

「翻車」,「做菜」變吃菜

愛詩科技影片大模型PixVerse中,黑貓和白貓沒有理解「做菜需求」,直接「上手」吃餃子皮、啃韭菜,出現「翻車」。

可靈

兩只貓角色「互換」

快手大模型可靈文生影片模型理解了讓貓「擬人化」做菜的需求,貓能用爪子包餃子,但是黑貓不切韭菜,直接拿起了刀切餃子。

智譜清影

實作各司其職

智譜清影文生影片模型讀懂了讓貓擬人化做菜的需求,同時黑貓和白貓實作了各司其職,一只在包餃子,一只在切韭菜。

南都記者在測試時還勾選了「電影感、鏡頭推進、緊張刺激」等風格、運鏡方式、氛圍方面的要求,測試出來的影片基本都能符合要求。

Vidu

貓爪突變成「人手」

Vidu生成的影片,突然出現人手。

生數科技Vidu影片大模型理解了讓貓擬人化做菜的需求,在生成的影片中,兩只貓處在一個現代化的廚房中,白貓學會了包餃子,黑貓雖然做出了切韭菜的動作,但畫面中並沒有刀,黑貓只能做出「撓爪子」的動作。

不過,生數科技的Vidu影片在生成的影片中還出現了一個畫面轉換的鏡頭。該鏡頭將韭菜放進包好的餃子中間,不過放置韭菜的手變成了「人手」。

美圖MOKI

將提示詞擴寫成完整指令碼

在美圖MOKI影片平台中輸入同一提示詞,該影片大模型首先將提示詞擴寫成了完整指令碼,同時依照選定風格生成了兩個角色,隨後會生成逐幀影片,使用者可以在其中修改圖片、移動位置,最後生成了一個影片,而使用者可以選擇後期對運鏡、音樂等進行加工。

實測二

圖生影片比文生影片更易「翻車」

南都記者還做了圖生影片的嘗試。

當輸入一張有兩只貓的照片,並輸入提示詞「兩只貓在廚房,左邊的貓在包餃子,右邊的貓在切韭菜,兩只貓互相瞪了對方一眼,鏡頭聚焦到包餃子的貓手上,它包得特別快」,字節即夢、快手可靈的圖生影片功能中,照片中的兩只貓在生成的影片中僅僅能實作上下左右晃頭、時不時動動爪子,並沒有實作包餃子、切韭菜等功能。

阿裏雲通義影片大模型實作了切韭菜的動作,不過韭菜和刀在畫面中憑空出現。智譜清影也出現了搟餃子皮、包餃子的動作,不過從輸入兩只貓的圖片到生成搟餃子皮影片的過程中,影片畫面銜接非常生硬,搟餃子皮的手也突然從提示詞中要求的「貓爪子」變成了人的手。

在愛詩科技PixVerse中輸入一張圖片和上述提示詞,圖片中的貓動起來但並沒有實作包餃子,而是在嬉戲吃餃子。

可以看到,相較於文生影片功能,目前大多數影片模型的圖生影片功能仍有很大提升空間。大多數影片模型只能粗淺表現讓照片中的兩只貓動起來,能理解提示詞並在影片中加入新物品、加入轉場效果的影片模型並不多,也更容易出現「翻車」現象。

采寫:南都記者 林文琪

圖片均為AI生成影片截圖