當前位置: 華文世界 > 科技

推出智能鏈路提升模型訓練效率,火山引擎釋出AI影片模型訓練新方案

2024-10-18科技

自今年年初Open AI釋出第一款文生影片模型Sora後,接下來的時間裏,國產影片生成大模型也迎來飛快增長。

今年4月,中國首個長時長、高一致性、高動態性影片大模型Vidu正式釋出。7月,智譜AI正式釋出影片生成大模型「清影」,同月商湯科技也釋出了首個「可控」人物影片生成大模型Vimi。

無獨有偶,快手可靈AI、抖音即夢AI也紛紛上線,不斷升級。

一方面,影片大模型生成的逼真場景和角色,給使用者帶來了沈浸式體驗。另一方面,這也讓推理算力消耗激增,再者,影片內容的復雜性和多樣性,也使得模型訓練和最佳化變得更加困難。

工欲善其事,必先利其器。

10月15日,在火山引擎的影片雲技術大會上,火山引擎釋出了其最新的大模型訓練影片預處理方案,致力解決影片大模型訓練成本、質素和效能等方面的技術挑戰。

據介紹,對訓練影片進行預處理,是保障大模型訓練效果的重要前提,所帶來的好處也有很多,如統一影片的數據格式、提高數據質素、實作數據標準化、減少數據量以及處理標註資訊。經過預處理後,模型能高效地學習影片中的特征和知識,從而提高訓練效果和效率。

此次,借助英特爾(Intel)的CPU等資源,火山引擎釋出了大模型訓練影片預處理方案。依托於自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰。此外,該方案還在演算法和工程方面進行了調優,可以對海量影片數據進行高質素預處理,短時間內實作處理鏈路的高效協同,提高模型訓練效率。

目前,該技術方案已經套用於豆包影片生成模型。

據Bytedance Research負責人李航介紹,豆包影片生成模型PixelDance在訓練過程中,采用了火山引擎的大模型訓練影片預處理方案,充分利用大量潮汐資源,為模型訓練提供了有力支撐。

火山引擎總裁譚待在活動致辭中表示,在AIGC、多模態等技術的共同推動下,使用者體驗在多個維度上經歷著深刻轉變。

「基於抖音業務實踐和與行業客戶共創,火山引擎影片雲正積極探索AI大模型與影片技術的深度融合,在技術底座、處理鏈路和業務增長層面為企業尋找解法。」譚待說。

展望未來,在AI影片時代,人和AI的互動將變得的更加動態,也會變得更加頻繁。一個智能的處理鏈路是保障互動體驗的前提,也是行業發展的關鍵。從這一點看,火山引擎給整個大模型行業都開了一個好頭。