攻破AI視訊大模型訓練挑戰！火山引擎送「神助攻」，已套用於豆包

2024-10-16科技

作者 | ZeR0
編輯 | 漠影

智東西10月15日報道，今日，火山引擎在視訊雲技術大會上釋出 大模型訓練視訊預處理方案 ，助力解決視訊大模型訓練的成本、品質、效能等方面的技術挑戰。該技術方案現 已套用於豆包視訊生成模型 。

火山引擎還釋出並開源了 移動端後處理解決方案BMF lite 版本。BMF lite支持端側大模型接入和算子加速，更加輕量、通用。

同時，火山引擎推出 跨語言同聲復刻直播方案 、 多模態視訊理解與生成方案 、 對話式AI即時互動方案 和 AIG3D&大場景重建方案 ，從視訊的生產端、互動端到消費端，全鏈路融入AI能力。

去年推出的 字節自研視訊編解碼芯片 ，經過抖音集團內部的實踐驗證，在同等視訊壓縮效率下，成本節省了 95% 以上，還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。該芯片將於近期 正式對外開放測試 ，招募首批種子使用者，共同探索商業價值的可復制性。

火山引擎也與出海先鋒攜手，從趨勢、技術、玩法等角度共同探索出海新增長機遇。火山引擎視訊雲國際業務負責人梁建在會上釋出了 出海全景圖 。

火山引擎總裁譚待在致辭時談道，洶湧而來的技術浪潮帶來前所未有的挑戰：1）生成式AI帶動視訊數據指數級增長，對計算效能提出嚴峻考驗；2）多模態媒體處理需求日益凸顯，對音視訊處理的生產端、互動端、消費端提出了全新要求；3）如何讓技術套用真正落地並帶來世紀業務價值，是當前必須面對的問題。

應對這些挑戰， 火山引擎視訊雲基於抖音真實業務實踐和與行業客戶共創，正積極探索大模型AI與視訊技術的深度融合 ；在 技術底座 層面，依托自研的算力編解碼技術和多媒體處理框架，致力於最佳化成本並提升計算效率；在 處理鏈路 層面，結合大模型和AI技術，全面最佳化了生產互動和消費鏈路，以打造更智慧、更互動、更沈浸的使用者體驗；在 業務增長 層面，與抖音平台生態緊密聯動，構建從內容分發到變現的全鏈條業務增長模式。

一、應對AI視訊時代技術挑戰：自研芯片對外開測，BML視訊處理框架上新

抖音集團視訊架構負責人王悅分享了一組來自市場調研機構的數據：視訊是雲業務中增長最快的工作負載之一；到2026年，視訊在數據中心基礎設施中的占比將從10%增長到20%~25%；到2024~2030年，市場規模預計將達千億美元。

他談道，AI視訊時代面臨三重挑戰：一是 計算效能 ，生成式AI技術大幅降低視訊生成的門檻，導致視訊數據以驚人的20倍速增長；二是 編解碼極限 ，編解碼技術的智慧化升級正推動與AI/大模型技術的深度融合，不僅提升了編解碼效率，而且為使用者帶來了更加優質的視訊體驗；三是 框架瓶頸 ，需要構建更強大、更靈活的多媒體處理框架，滿足日多模態/跨模態預訓練處理需求。

王悅宣布，火山引擎去年推出的 自研視訊編解碼芯片 取得顯著進展，在抖音集團內部實踐驗證中實作了效率的顯著提升和成本的大幅降低，在同等視訊壓縮效率下，成本節省了 95% 以上。火山引擎也將 首次正式對外開放測試 ，招募首批種子使用者，共同探索商業價值的可復制性。該芯片的BVE1.2編碼器，在2024MSU世界編碼器大賽中首次亮相就以其優異的編解碼效能和吞吐率的大幅領先，奪得最佳ASIC編碼器。

在 智慧編解碼的演算法層 ，火山引擎的影像視訊壓縮技術也取得了突破性進展，其自研編解碼技術BVC升級到更高效的第二代，並融合了深度學習技術，推出了 傳統-智慧混合編解碼解決方案 。

該方案在充分理解傳統編碼技術和深度學習壓縮技術各自原理的基礎上，將二者有機的融合成一體。傳統編碼框架加入了非對稱四叉樹劃分等創新技術，智慧編碼模組則引入了基於深度學習的環路濾波、自適應變采樣等技術。這種結合極大提升了編解碼的效率，該方案在第六屆深度學習影像壓縮挑戰賽的高碼率和低馬力兩個壓縮賽道上均取得了主觀和客觀的雙料指標冠軍。

在 框架層面 ，火山引擎自研視訊處理框架BMF自去年開源以來，在助力AI初創計畫落地和移動端開源層面不斷演進，今日進一步 釋出並開源移動端後處理解決方案BMF lite版本 。

BMF lite具有更輕量、更通用、更高效、更前沿等特點，比如它沒有第三方依賴，具有輕量化的結構設計、多平台統一的介面形式、Kernel融合方案等，支持端側大模型接入和算子加速、演算法間復用資源。

目前BMF lite已廣泛套用於抖音各業務上，每天服務超 10億名 使用者，處理視訊圖片 萬億次 。

由於端側對功耗和記憶體非常敏感，火山引擎重點建設基於跨平台資源復用的演算法包框架設計，整體對外將采用跨平台的數據結構設計，適配安卓、iOS、Web、PC等平台，復用相同的演算法例項，不同演算法可復用算子及數據資源。這個方案針對點播和直播後處理的場景收益明顯。

在模組演算法層面，火山引擎此次開源對外輸出了 超分、降噪、大模型文生圖演算法能力 ，選取的模型是開源的，將在一些抖音實際落地的工程最佳化方案套用到模型加速中。火山引擎也同步開源了 基於GPU加速的7種常用基礎影像算子能力 ，並充分擴充了客戶端的一些異構能力，包括 DSP、NPU、端側GPU 。

二、依托BMF框架，視訊生成大模型已上線火山引擎

對訓練視訊進行預處理 是保障大模型訓練效果的重要前提。預處理過程可統一視訊的數據格式、提高數據品質、實作數據標準化、減少數據量以及處理標註資訊，從而使模型能更高效地學習視訊中的特征和知識，提升訓練效果和效率。

隨著視訊生成模型興起，訓練大模型的處理框架面臨諸多挑戰：首先是 成本挑戰 ，超大規模視訊訓練數據集導致計算和處理成本激增；其次是 品質挑戰 ，視訊樣本數據品質參差不齊，處理鏈路環節多、工程復雜，數據樣本待分類、分段和清洗；三是 效能挑戰 ，涉及多種異構算力資源的排程和部署。

借助英特爾CPU等資源， 火山引擎大模型訓練視訊預處理方案 依托於自研 多媒體處理框架BMF ，能有效應對模型訓練的算力成本挑戰。該方案還在演算法和工程方面進行了調優，可以對海量視訊數據高品質預處理，短時間內實作處理鏈路的高效協同，提高模型訓練效率。

BMF透過和豆包大模型團隊合作，對海量視訊數據進行了預處理。基於火山引擎視訊處理平台和BMF框架，火山引擎短時間內 生產了足夠多高品質的視訊素材用於模型訓練 ，也 有力支撐了視訊生成大模型的上線與調優 。

火山BMF大模型訓練視訊預處理方案 應對成本挑戰 ，使用了海量的潮汐資源和精細化混部排程； 應對品質及效能挑戰 ，使用30+種算子對視訊進行了多維度分析和篩選，利用DMF框架靈活排程將復雜的算子處理流程靈活部署在多種資源上，實作了快速的效能調優； 應對協同挑戰 ，利用BMF動態模組特性，實作外掛程式化解耦、多語言開發，相比傳統框架將叠代效率提升了數倍。

英特爾大數據高級首席工程師程從超分享說，大模型和生成式AI時代面臨高算力、高品質數據集、改善描述復雜性、構建開源生態等方面的挑戰。視訊轉碼效能對CPU的計算能力敏感，CPU的頻率、核數和cache的大小都很重要。通常視訊處理的節點都是數據中心裏效能較為高端的伺服器。

英特爾能夠為不同的視訊處理選擇最合適的平台，比如一機多卡高密度GPU可滿足編解碼密度和成本需求，CPU和GPU方案的靈活配置能夠根據具體套用來分配資源，至強CPU可實作視訊品質最優、編碼靈活、穩定可靠。

三、多項「音視訊+AI」技術方案，助力企業全鏈路適配AIGC

火山引擎視訊雲團隊為字節跳動提供音視訊技術，並透過火山引擎服務外部客戶。

Bytedance Research負責人李航談道， 豆包視訊生成模型PixelDance 在訓練過程中采用了火山引擎大模型訓練視訊預處理方案，充分利用了大量潮汐資源，為模型訓練提供了有力支撐。

火山引擎視訊雲團隊提供的 點播解決方案 還為PixelDance生產的視訊提供了從編輯、上傳、轉碼、分發、播放的全生命周期一站式服務，讓模型的商業化套用有了保障。

豆包視訊生成模型PixelDance於9月24日釋出，該模型采用DiT架構，透過高效的DiT融合計算單元和全新設計的擴散模型訓練方法，突破了內送流量備援容錯機制體運動的復雜互動、多鏡頭切換的內容一致性難題。目前，豆包視訊生成模型 已透過火山引擎面向企業開啟邀測 。

PixelDance1.4新版本 有四大特點：1、能生成人物的復雜連續動作；2、能生成復雜的內送流量備援容錯機制體互動；3、能一次性生成多鏡頭視訊；4、擁有超強的運鏡控制能力。

其核心技術包括大規模擴散生成模型、高壓縮比&高還原性視訊編碼解碼模型、精準視訊描述模型、大規模公開視訊數據處理管線等。

火山引擎視訊雲負責人Yongyuan談道，在AI視訊時代，人和AI互動變得更加動態和生動，這要求 處理鏈路更加智慧和互動 。

會上，火山引擎釋出了 跨語言同聲復刻直播方案 、 多模態視訊理解與生成方案 、 對話式AI即時互動方案 和 AIG3D&大場景重建方案 ，從視訊的生產端、互動端到消費端，全鏈路融入AI能力。

在 生產端 ，跨語言同聲復刻直播方案能夠最佳化同傳直播，實作更加精準的字幕辨識、更快輸出並帶有自然斷句，還透過虛擬人技術調整口型，支持6國以上的語言輸出；多模態視訊理解與生成方案能夠套用於短劇、賽事、教育等場景；多模態電商素材生成方案可生成圖文、解說、AIGC視訊和3D模型。

在 互動端 ，依托豆包大模型和火山引擎視訊雲自研的多項演算法，對話式AI即時互動方案使得人與AI的互動更加自然，提供了智慧對話和自然語言處理的強大能力、媲美真人的自然生動音色，也支持聲音復刻，可實作毫秒級人聲檢測和打斷響應，能過濾90%雜訊，精準辨識打斷意圖，並透過流式處理將端到端響應延時降低至1秒。

在 消費端 ，AIG3D方案使3D構建更便捷；大場景重建方案具有高效渲染速度，支持二次創作，可低成本生成直播布景，使場景重建更真實；6DoF直播方案提供即時3D模型渲染、低延時6DoF並能降低采整合本，讓空間體驗更沈浸。

例如，火山引擎透過AI生成3D內容和大場景重建方案，為山西高平二郎廟金代戲台和北京正乙祠兩座珍貴的歷史建築生成了3D數位資產，並以虛擬直播間的形式套用於抖音戲曲直播場景。

抖音開放平台開發者營運負責人李建男分享了AI新產能助力業務增長的三個關鍵詞—— 建立新場景 、 制造新體驗 、 塑造新產能 。她分享了一些數據：AI智慧體將直播間變現效率提升了36%；生成式AI大大降低創作門檻，帶動圖片、視訊、故事、IP、辦公、學習等優質內容量級增長200%；引入AI創作工具能帶動視訊投稿量、平均W數、內容豐富度的有效增長。

李建男總結道，透過三方模型引入數據場景開放，能夠實作垂類深度支持，帶動線索轉化率提升，從而提升行銷效果，這對服務商是一個非常好的機遇，可帶動服務商商業價值提升，進而帶來更多精準語料，進一步驅動技術進步，實作更好的模型訓練效果提升。

結語：AI+視訊技術深度融合，推動使用者體驗多維度轉變

生成式AI為視訊化社會帶來了革命性變化，不僅能提升內容創作效果，還豐富了互動體驗。在AIGC、多模態等技術的共同推動下，使用者體驗在多個維度上經歷著深刻轉變。

與此同時，AI+視訊也給底層技術的效能化、編解碼的智慧化、處理框架的廣泛化帶來新挑戰。作為AI視訊時代智慧底座的構建商，火山引擎希望讓多媒體處理框架的部署更加規模化、普惠化，進一步控制算力成本和提高計算效率，推動編解碼與智慧技術更好融合，從而提升最終的體驗效果。