當前位置: 華文世界 > 科技

推出智慧鏈路提升模型訓練效率,火山引擎釋出AI視訊模型訓練新方案

2024-10-18科技

自今年年初Open AI釋出第一款文生視訊模型Sora後,接下來的時間裏,國產視訊生成大模型也迎來飛快增長。

今年4月,中國第一個長時長、高一致性、高動態性視訊大模型Vidu正式釋出。7月,智譜AI正式釋出視訊生成大模型「清影」,同月商湯科技也釋出了第一個「可控」人物視訊生成大模型Vimi。

無獨有偶,快手可靈AI、抖音即夢AI也紛紛上線,不斷升級。

一方面,視訊大模型生成的逼真場景和角色,給使用者帶來了沈浸式體驗。另一方面,這也讓推理算力消耗激增,再者,視訊內容的復雜性和多樣性,也使得模型訓練和最佳化變得更加困難。

工欲善其事,必先利其器。

10月15日,在火山引擎的視訊雲技術大會上,火山引擎釋出了其最新的大模型訓練視訊預處理方案,致力解決視訊大模型訓練成本、品質和效能等方面的技術挑戰。

據介紹,對訓練視訊進行預處理,是保障大模型訓練效果的重要前提,所帶來的好處也有很多,如統一視訊的數據格式、提高數據品質、實作數據標準化、減少數據量以及處理標註資訊。經過預處理後,模型能高效地學習視訊中的特征和知識,從而提高訓練效果和效率。

此次,借助英特爾(Intel)的CPU等資源,火山引擎釋出了大模型訓練視訊預處理方案。依托於自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰。此外,該方案還在演算法和工程方面進行了調優,可以對海量視訊數據進行高品質預處理,短時間內實作處理鏈路的高效協同,提高模型訓練效率。

目前,該技術方案已經套用於豆包視訊生成模型。

據Bytedance Research負責人李航介紹,豆包視訊生成模型PixelDance在訓練過程中,采用了火山引擎的大模型訓練視訊預處理方案,充分利用大量潮汐資源,為模型訓練提供了有力支撐。

火山引擎總裁譚待在活動致辭中表示,在AIGC、多模態等技術的共同推動下,使用者體驗在多個維度上經歷著深刻轉變。

「基於抖音業務實踐和與行業客戶共創,火山引擎視訊雲正積極探索AI大模型與視訊技術的深度融合,在技術底座、處理鏈路和業務增長層面為企業尋找解法。」譚待說。

展望未來,在AI視訊時代,人和AI的互動將變得的更加動態,也會變得更加頻繁。一個智慧的處理鏈路是保障互動體驗的前提,也是行業發展的關鍵。從這一點看,火山引擎給整個大模型行業都開了一個好頭。