字節豆包直面AI影片降本難題，壓力給到了誰？

2024-10-16科技

自Sora橫空出世開辟了AI影片的新紀元以來，國內外各大玩家陸續加入AI影片的競逐賽。但是，當進入這一更互動、更沈浸的影片新時代，又該如何應對成本、質素和效能方面的挑戰？

10月15日，火山引擎聯合英特爾共同在影片雲技術大會上釋出了大模型訓練影片預處理方案。【每日經濟新聞】記者在釋出會現場了解到，目前該技術方案已套用於豆包影片生成模型。

釋出會上，Bytedance Research負責人李航介紹，豆包影片生成模型PixelDance在訓練過程中采用了火山引擎的大模型訓練影片預處理方案，充分利用了大量潮汐資源，為模型訓練提供了有力支撐。

此外，抖音集團影片架構負責人王悅透露了字節自研影片編解碼芯片的最新進展：經過抖音集團內部的實踐驗證，該芯片在同等影片壓縮效率下，成本節省了95%以上。

「首先，超大規模影片訓練數據集導致計算和處理成本激增。」王悅指出大模型廠商在預處理過程中面臨諸多挑戰，「其次是影片樣本數據參差不齊，然後是處理鏈路環節多、工程復雜，最後還面臨著對GPU、CPU、ARM等多種異構算力資源的排程部署。」

圖片來源：每經記者楊昕怡攝

自研多媒體處理框架，豆包直面AI影片降本難題

在9月24日的火山引擎AI創新巡展上，豆包影片生成-PixelDance和豆包影片生成-Seaweed兩款大模型一並釋出，吸引業內外人士關註。其實，字節跳動在影片生成模型上下的功夫不止於此。

10月15日，火山引擎釋出了大模型訓練影片預處理方案，致力於解決影片大模型訓練的成本、質素和效能等方面的技術挑戰。

據介紹，對訓練影片進行預處理是保障大模型訓練效果的重要前提。預處理過程可以統一影片的數據格式、提高數據質素、實作數據標準化、減少數據量以及處理標註資訊，從而使模型能更高效地學習影片中的特征和知識，提升訓練效果和效率。

在影片生成模型的訓練中，算力成本無疑是首屈一指的挑戰。

一位國內影片生成模型的演算法工程師在接受【每日經濟新聞】記者采訪時表示，在擁有高質素數據後，影片模型會比大語言模型更難訓練，有更多的算力需求，「目前已知的開源影片模型沒有特別大，主要是目前很多影片模型處於不知道如何使用數據的階段，（用於訓練的）高質素數據也沒有特別多。」

電腦科學家Matthias Plappert的研究也顯示，Sora的訓練對算力規模的要求巨大，在訓練環節大約需要在4200～10500張NVIDIA p00上訓練1個月，且當模型生成到推理環節以後，計算成本將迅速超過訓練環節。

為了解決降本難題，火山引擎借助Intel的CPU等資源，將大模型訓練影片預處理方案依托於自研的多媒體處理框架。王悅表示，該方案還在演算法和工程方面進行了調優，可以對海量影片數據高質素預處理，短時間內實作處理鏈路的高效協同，提高模型訓練效率。

對於該方案的套用，李航在釋出會現場透露，豆包影片生成模型PixelDance在訓練過程中已采用該方案。同時，火山引擎影片雲團隊提供的點播解決方案還為PixelDance生產的影片提供了從編輯、上傳、轉碼、分發、播放的全生命周期一站式服務，讓模型的商業化套用有了保障。

此外，在此次釋出會上，火山引擎還釋出了跨語言同聲復刻直播方案、多模態影片理解與生成方案、對話式AI即時互動方案和AIG3D&大場景重建方案，從影片的生產端、互動端到消費端，全鏈路融入AI能力。

拿到AI影片時代的「船票」之後，去向何方？

AI正全方位重塑著人們生產、傳播和接受資訊的路徑。其中，不斷湧現的影片新技術將人們從流暢、高畫質的數據世界帶入了更加智能、更具互動體驗的AI世界。

今年7月，商湯推出了首個面向C端使用者的可控人物影片生成大模型Vimi；8月，「AI六小龍」之一的MiniMax釋出了影片生成模型video-1；9月，可靈AI完成第9次叠代，釋出「可靈1.5模型」，阿裏雲在雲棲大會上推出全新的影片生成模型，字節也釋出了2款影片生成模型⋯⋯AI影片產品的誕生和叠代幾乎是以月來計時的。

對於AI影片產品的「爆發」，北京市社會科學院副研究員王鵬在接受【每日經濟新聞】記者采訪時表示，國內AI影片產品正處於快速發展和不斷叠代的階段，主要因為市場需求旺盛、套用場景廣泛和商業化模式多樣等。

目前市場上AI影片產品的落地大多在影視、電商行銷等領域，例如今年7月，即夢AI和博納影業合作推出了全國首部AIGC生成式連續性敘事科幻短劇集【三星堆：未來啟示錄】；今年9月，快手聯合賈樟柯、李少紅等9位知名導演啟動「可靈AI」導演共創計劃。

與此同時，工信部資訊通訊經濟專家委員會委員盤和林向【每日經濟新聞】記者指出，如今部份AI影片產品處於匯入期，因為技術或合規性，很難在市場上鋪開，「目前感覺開源（AI影片產品）比閉源的更受歡迎，因為AI影片生成的成本很高，而影片制作者往往缺少資金，所以利用開源的、下載到終端的AI演算法可以更好地制作生成影片。」

在他看來，現階段AI影片產品主要有算力和合規風險兩方面的主要障礙。「演算法、算力和數據方面都需要企業投入較多的資源和時間；另一難點在於合規風險，如今對私密越來越重視，合規是繞不過去的話題，而AI影片有時可能會侵犯個人私密。」他解釋。

此外，易觀分析研究合夥人陳晨也在接受【每日經濟新聞】記者采訪時表達了對影片生成大模型短期變現能力的擔憂，「由於AI大模型高昂的模型訓練與推理成本，加之C端使用者對AI工具的需求相對分散，付費意願不足，影片大模型在C端市場的商業化仍然會面臨一個較長的培育期。」

AI影片的時代來到了，但這註定是一個長坡厚雪的賽道，如何降本增效、拿下更多市場也將成為互聯網大廠和科技企業面對的不變命題。

每日經濟新聞