推出智慧鏈路提升模型訓練效率，火山引擎釋出AI視訊模型訓練新方案

2024-10-18科技

自今年年初Open AI釋出第一款文生視訊模型Sora後，接下來的時間裏，國產視訊生成大模型也迎來飛快增長。

今年4月，中國第一個長時長、高一致性、高動態性視訊大模型Vidu正式釋出。7月，智譜AI正式釋出視訊生成大模型「清影」，同月商湯科技也釋出了第一個「可控」人物視訊生成大模型Vimi。

無獨有偶，快手可靈AI、抖音即夢AI也紛紛上線，不斷升級。

一方面，視訊大模型生成的逼真場景和角色，給使用者帶來了沈浸式體驗。另一方面，這也讓推理算力消耗激增，再者，視訊內容的復雜性和多樣性，也使得模型訓練和最佳化變得更加困難。

工欲善其事，必先利其器。

10月15日，在火山引擎的視訊雲技術大會上，火山引擎釋出了其最新的大模型訓練視訊預處理方案，致力解決視訊大模型訓練成本、品質和效能等方面的技術挑戰。

據介紹，對訓練視訊進行預處理，是保障大模型訓練效果的重要前提，所帶來的好處也有很多，如統一視訊的數據格式、提高數據品質、實作數據標準化、減少數據量以及處理標註資訊。經過預處理後，模型能高效地學習視訊中的特征和知識，從而提高訓練效果和效率。

此次，借助英特爾（Intel）的CPU等資源，火山引擎釋出了大模型訓練視訊預處理方案。依托於自研的多媒體處理框架BMF，能有效應對模型訓練的算力成本挑戰。此外，該方案還在演算法和工程方面進行了調優，可以對海量視訊數據進行高品質預處理，短時間內實作處理鏈路的高效協同，提高模型訓練效率。

目前，該技術方案已經套用於豆包視訊生成模型。

據Bytedance Research負責人李航介紹，豆包視訊生成模型PixelDance在訓練過程中，采用了火山引擎的大模型訓練視訊預處理方案，充分利用大量潮汐資源，為模型訓練提供了有力支撐。

火山引擎總裁譚待在活動致辭中表示，在AIGC、多模態等技術的共同推動下，使用者體驗在多個維度上經歷著深刻轉變。

「基於抖音業務實踐和與行業客戶共創，火山引擎視訊雲正積極探索AI大模型與視訊技術的深度融合，在技術底座、處理鏈路和業務增長層面為企業尋找解法。」譚待說。

展望未來，在AI視訊時代，人和AI的互動將變得的更加動態，也會變得更加頻繁。一個智慧的處理鏈路是保障互動體驗的前提，也是行業發展的關鍵。從這一點看，火山引擎給整個大模型行業都開了一個好頭。