半年過去，AI視訊卷到哪兒了？

2024-07-23科技

文 | 定焦，作者 | 王璐，編輯 | 魏佳

自從今年年初Sora露面後，國內國外都想用AI顛覆好萊塢，近期的AI視訊圈更是十分熱鬧，產品一個接一個釋出，都喊著要趕超Sora。

國外兩家AI視訊初創公司率先開打，舊金山人工智慧科技公司Luma推出Dream Machine視訊生成模型，並扔出堪稱電影級別的宣傳片，產品也給使用者免費試用；另一家在AI視訊領域小有名氣的初創公司Runway，也宣布將Gen-3 Alpha模型向部份使用者開啟測試，稱能將光影這樣的細節生產出來。

國內也不甘示弱，快手推出的可靈Web端，使用者能生成長達10秒的視訊內容，還具備首尾幀控制和相機鏡頭控制功能。其原創AI奇幻短劇【山海奇鏡之劈波斬浪】也在快手播出，畫面均由AI生成。AI科幻短劇【三星堆：未來啟示錄】也在近期播出，為字節旗下的AI視訊產品即夢制作。

AI視訊如此快的更新速度讓不少網友直呼，「好萊塢可能又要來一次大罷工了。」

如今在AI視訊賽道上，有谷歌、微軟、Meta，阿裏、字節、美圖等國內外科技、互聯網巨頭，也有Runway、愛詩科技等新秀公司，據「定焦」不完全統計，僅國內，便有約20家公司推出了自研AI視訊產品/模型。

頭豹研究院數據顯示，2021年中國AI視訊生成行業的市場規模為800萬元，預計2026年，這一市場規模將達到92.79億元。不少業內人士相信，2024年生成視訊賽道會迎來Midjourney時刻。

全球的Sora們發展到什麽階段了？誰最強？AI能幹掉好萊塢嗎？

圍攻Sora：產品雖多，能用的少

AI視訊賽道推出的產品/模型不少，但真正能讓大眾使用的十分有限，國外的突出代表便是Sora，半年過去了還在內測，僅對安全團隊和一些視覺藝術家、設計師和電影制作人等開放。國內情況也差不多，阿裏達摩院的AI視訊產品「尋光」、百度的AI視訊模型UniVG都在內測階段，至於目前正火的快手可靈，使用者想使用也需要排隊申請，這已經刨去了一大半產品。

剩下可使用的AI視訊產品中，一部份設定了使用門檻，使用者需要付費或懂一定技術。比如潞晨科技的Open-Sora，如果不懂一點程式碼知識，使用者便無從下手。

「定焦」整理國內外公布的AI視訊產品發現，各家的操作方式和功能差不多，使用者先用文字生成指令，同時選擇片幅大小、影像解析度、生成風格、生成秒數等功能，最終點選一鍵生成。

這些功能背後的技術難度不同。其中最難的是，生成視訊的解析度和秒數，這也是AI視訊賽道各家在宣傳時比拼的重點，背後與訓練過程中使用的素材品質和算力大小密切相關。

AI研究者Cyrus告訴「定焦」，目前國內外大多數AI視訊支持生成480p/720p，也有少部份支持1080p的高畫質視訊。

他介紹，高品質素材越多，算力越高，訓練出來的模型能生成更高品質的視訊，但不代表有高品質的素材算力，就能生成高品質素材。而用低分辨率素材訓練的模型，若要強行生成高分辨視訊，會出現崩壞或者重復，比如多手多腳。這類問題可以透過放大、修復和重繪之類的方式解決，不過效果和細節一般。

很多公司也把生成長秒數當賣點。

國內大部份AI視訊支持2-3秒，能達到5-10秒算是比較強的產品，也有個別產品很卷，比如即夢最高長達12秒，不過大家都不及Sora，它曾表示最長能生成一段60秒的視訊，但由於還沒有開放使用，具體表現如何無法驗證。

光卷時長還不夠，生成的視訊內容也得合理。石榴AI首席研究員張恒對「定焦」表示：從技術上，可以要求AI一直輸出，毫不誇張地說，哪怕生成一個小時的視訊，也不是問題，但我們多數時候要的並不是一段監控視訊，也不是一個迴圈播放的風景畫動圖，而是畫面精美有故事的短片。

「定焦」測試了5款國內比較熱的免費文生視訊AI產品，分別為字節的即夢、Morph AI的Morph Studio、愛詩科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI，給了它們一段相同的文字指令：「一個穿著紅裙子的小女孩，在公園裏，餵一只白色的小兔子吃胡蘿蔔。」

幾款產品的生成速度上差不多，僅需2-3分鐘，但解析度、時長差得不少，準確度上更是「群魔亂舞」。

各家的優缺點很明顯。即夢贏在時長，但生成品質不高，主角小女孩在後期直接變形，Vega AI也是相同的問題。PixVerse的畫質比較差。

相比之下，Morph生成的內容很準確，但只有短短2秒。藝映畫質也不錯，但對文字理解不到位，直接把兔子這一關鍵元素弄丟了，且生成視訊不夠寫實，偏漫畫風。

總之，還沒有一家產品能給到一段符合要求的視訊。

AI視訊難題：準確性、一致性、豐富性

「定焦」的體驗效果和各家釋放的宣傳片相差很大，AI視訊如果想要真正商用，還有相當長的一段路要走。

張恒告訴「定焦」，從技術角度看，他們主要從三個維度考量不同AI視訊模型的水平：準確性、一致性、豐富性。

如何理解這三個維度，張恒舉了個例子。

比如生成一段「兩個女孩在操場看籃球比賽」的視訊。

準確性體現在，一是對內容結構理解的準確，比如視訊中出現的要是女孩，而且還是兩個；二是流程控制的準確，比如投籃投進後，籃球要從籃網中逐漸下降；最後是靜態數據建模準確，比如鏡頭出現遮擋物時，籃球不能變成橄欖球。

一致性是指，AI在時空上的建模能力，其中又包含主體註意力和長期註意力。

主體註意力可以理解為，在看籃球比賽的過程中，兩個小女孩要一直留在畫面裏，不能隨便亂跑；長期註意力為，在運動過程中，視訊中的各個元素既不能丟，也不能出現變形等異常情況。

豐富性則是指，AI也有自己的邏輯，即便在沒有文字提示下，能生成一些合理的細節內容。

以上維度，市面上出現的AI視訊工具基本都沒能完全做到，各家也在不斷提出解決辦法。

比如在視訊很重要的人物一致性上，即夢、可靈想到了用圖生視訊取代文生視訊。即使用者先用文字生成圖片，再用圖片生成視訊，或者直接給定一兩張圖片，AI將其連線變成動起來的視訊。

「但這不屬於新的技術突破，且圖生視訊難度要低於文生視訊，」張恒告訴「定焦」，文生視訊的原理是，AI先對使用者輸入的文字進行解析，拆解為一組分鏡描述，將描述轉文本再轉圖片，就得到了視訊的中間關鍵幀，將這些圖片連線起來，就能獲得連續有動作的視訊。而圖生視訊相當於給了AI一張可模仿的具體圖片，生成的視訊就會延續圖片中的人臉特征，實作主角一致性。

他還表示，在實際場景中，圖生視訊的效果更符合使用者預期，因為文字表達畫面細節的能力有限，有圖片作為參考，會對生成視訊有所幫助，但當下也達不到商用的程度。直觀上說，5秒是圖生視訊的上限，大於10秒可能意義就不大了，要麽內容出現重復，要麽結構扭曲品質下降。

目前很多宣稱用AI進行全流程制作的影視短片，大部份采用的是圖生視訊或者視訊到視訊。

即夢的使用尾幀功能用的也是圖生視訊，在結合的過程中，人物出現了變形、失真。

Cyrus也表示，視訊講究連貫，很多AI視訊工具支持圖轉視訊也是透過單幀圖片推測後續動作，至於推測得對不對，目前還是看運氣。

據了解，文生視訊在實作主角一致性上，各家也並非純靠數據生成。張恒表示，大多數模型都是在原有底層DIT大模型的基礎上，疊加各種技術，比如ControlVideo（哈工大和華為雲提出的一種可控的文本-視訊生成方法），從而加深AI對主角面部特征的記憶，使得人臉在運動過程中不會發生太大變化。

不過，目前都還在嘗試階段，即便做了技術疊加，也還沒有完全解決人物一致性問題。

AI視訊，為什麽前進演化慢？

在AI圈，目前最卷的是美國和中國。

從【2023年全球最具影響力人工智慧學者】（簡稱「AI 2000學者」榜單）的相關報告可以看出，2020年-2023年全球「AI 2000機構」4年累計的1071家機構中，美國擁有443家，其次是中國，有137家，從2023年「AI 2000學者」的國別分布看，美國入選人數最多，共有1079人，占全球總數的54.0%，其次是中國，共有280人入選。

這兩年，AI除了在文生圖、文生音樂的方面取得較大進步之外，最難突破的AI視訊也有了一些突破。

在近期舉辦的世界人工智慧大會上，倚天資本合夥人樂元公開表示，視訊生成技術在近兩三年取得了遠超預期的進步。新加坡南洋理工大學助理教授劉子緯認為，視訊生成技術目前處於GPT-3 時代，距離成熟還有半年左右的時間。

不過，樂元也強調，其技術水平還是不足以支撐大範圍商業化，基於語言模型開發套用所使用的方法論和遇到的挑戰，在視訊相關的套用領域也同樣適用。

年初Sora的出現震驚全球，它基於transformer架構的新型擴散模型DiT再做擴散、生成的技術突破，提高了影像生成品質和寫實，使得AI視訊取得了重大突破。Cyrus表示，目前國內外的文生視訊，大多數都沿用的是類似技術。

圖源 / Sora官網

此刻，大家在底層技術上基本一致，雖然各家也以此為基礎尋求技術突破，但更多卷的是訓練數據，從而豐富產品功能。

使用者在使用字節的即夢和Morph AI的Morph Studio時，可選擇視訊的運鏡方式，背後原理便是數據集不同。

「以往各家在訓練時使用的圖片都比較簡單，更多是對圖片存在哪些元素進行標註，但沒有交代這一元素用什麽鏡頭拍攝，這也讓很多公司發現了這一缺口，於是用3D渲染視訊數據集補全鏡頭特征。」張恒表示，目前這些數據來自影視行業、遊戲公司的效果圖。

「定焦」也嘗試了這一功能，但鏡頭變化不是很明顯。

Sora們之所以比GPT、Midjourney們發展得慢，是因為又搭了一個時間軸，且訓練視訊模型比文字、圖片更難。「現在能用的視訊訓練數據，都已經挖掘殆盡，我們也在想一些新辦法制造一系列可以拿來訓練的數據。」張恒說。

且每個AI視訊模型都有自己擅長的風格，就像快手可靈做的吃播視訊更好，因為其背後有大量這類數據支撐。

石榴AI創始人沈仁奎認為，AI視訊的技術有Text to video（文本轉視訊），Image to video（圖片轉視訊），Video to video（視訊轉視訊），以及Avatar to video（數位人），能客製形象和聲音的數位人，已經運用到了行銷領域，達到了商用程度，而文生視訊還需要解決精準度和可控度問題。

此刻，無論是由抖音和博納合作的AI科幻短劇【三星堆：未來啟示錄】，還是快手原創的AI奇幻短劇【山海奇鏡之劈波斬浪】，更多是大模型公司主動找影視制作團隊進行合作，有推廣自家技術產品的需求，且作品也沒有出圈。

在短視訊領域，AI還有很長的路要走，幹掉好萊塢了的說法更為時尚早。