來自科技進步一等獎的肯定：騰訊破解萬億參數大模型訓練難題

2024-03-26科技

機器之心釋出

機器之心編輯部

中國電子學會 2023 科學技術獎授獎名單公布，這次，我們發現了一個熟悉的身影 —— 騰訊 Angel 機器學習平台。

在大模型飛速發展的當下，科學技術獎授予機器學習平台類研究和套用計畫，對於模型訓練平台的價值和重要性給予了充分的肯定。

科學技術獎授予機器學習平台類研究和套用計畫，在大模型飛速發展的當下，對於模型訓練平台的價值和重要性給予了充分的肯定。

從深度學習的新一輪浪潮開始，各大公司都已經意識到機器學習平台對於打造人工智慧技術的意義，谷歌、微軟、輝達都有自己的機器學習平台，為快速訓練人工智慧模型提供便捷支持。

2023 年開始，大模型的興起進一步提升了模型參數量，各大公司都推出參數規模達千億、萬億大小的模型，這些模型普遍采用深度神經網路模型，存在模型分布式訓練難和套用復雜帶來的模型設計難兩大核心痛點。

為什麽是 Angel 機器學習平台？

詳解四大核心技術突破

由多名院士等權威專家組成的鑒定委員會認為，騰訊 Angel 機器學習平台技術復雜度高、研制難度大、創新性強，套用前景廣闊，整體技術達到國際先進水平，其中面向 all-to-all 通訊的高效緩存排程與管理技術、自適應預采樣與圖結構搜尋技術達到國際領先水平。

騰訊 Angel 平台架構圖

騰訊 Angel 機器學習平台采用了分布式參數伺服器架構，這種架構的特點是，儲存模型參數和執行模型計算，這兩種任務在分別的伺服器上執行，增加更多伺服器就可以支持更大、計算需求更高的模型。

面對海量數據和超大規模模型訓練需求，騰訊 Angel 機器學習平台在網路通訊與緩存、模型儲存與排程、多模態模型與融合學習排序以及大規模圖模型與結構搜尋技術等核心環節取得技術突破。

為了提高訓練效率，TB 級機器學習模型通常采用分布式訓練方法，需要大量的參數和梯度同步，以 1.8T 模型千卡訓練為例，IO 通訊量達到 25TB, 耗時占比 53%，此外，加上不同算力集群間的異構網路環境，通訊網路延遲不一，這些都對模型訓練過程中的通訊開銷提出了較高的要求。騰訊 Angel 機器學習平台基於騰訊雲星脈網路的高效通訊與緩存排程管理技術，可有效解決 TB 級模型訓練通訊開銷大的問題，實作網路通訊耗時減少 80%，分布式訓練效能達業界主流方案的 2.5 倍。

現有的算力條件下，盡管模型達到 TB 級，而主流 GPU 的視訊記憶體仍只有 80G，參數儲存有瓶頸。針對 TB 級模型訓練參數儲存難的關鍵問題，騰訊 Angel 機器學習平台提出了視訊記憶體主記憶體統一視角儲存管理機制，實作模型儲存容量比業界增加 1 倍，訓練效能是業界主流方案 2 倍。

大模型要向通用模型發展，離不開對多模態數據的處理支持，不同模態，例如文字、影像、視訊等數據的對齊融合理解難度大。在多模態模型的訓練上，騰訊 Angel 機器學習平台針對廣告場景，提出多模態融合學習的全鏈路排序廣告推薦技術，助力廣告召回率提升 40% 以上。

另外，針對面向推薦系統的圖模型訓練，騰訊 Angel 機器學習平台設計了圖節點特征自適應圖網路結構搜尋技術，可自動輸出最優結構，解決了 TB 圖模型套用中「圖資料探勘難」的問題，實作模型訓練效能提升 28 倍，與業界比具有最優擴充套件性。

騰訊 Angel 機器學習平台鍛造之路

騰訊混元大模型擴充套件到萬億規模

作為騰訊人工智慧技術的基礎平台，騰訊 Angel 平台誕生於 2015 年，支持 PS-Worker 分布式訓練，以及十億參數 LDA 模型的訓練。

2017 年，Angel 框架在 Github 開源，向開發者開放，同時，技術上，Angel 解決了異構網路下的通訊問題，效能進一步提升。2019 年，在可延伸圖模型多模態理解技術取得突破，解決萬億節點可延伸圖模型問題。2021 年，提出 GPU 視訊記憶體統一視角儲存技術，解決大模型參數儲存與效能問題。

在騰訊通用人工智慧大模型騰訊混元的打造中，騰訊 Angel 機器學習平台也發揮了重要作用。

2023 年 9 月，騰訊混元大模型正式對外亮相，預訓練語料超 2 萬億 tokens，具有強大的中文理解與創作能力、邏輯推理能力，以及可靠的任務執行能力。

面對建設騰訊混元大模型的需求，騰訊 Angel 機器學習平台打造了自研的面向大模型訓練和推理的機器學習框架 Angel PTM 和 Angel HCF，支持單任務萬卡級別超大規模訓練和大規模推理服務部署。實作大模型訓練效率提升至主流開源框架的 2.6 倍，千億級大模型訓練可節省 50% 算力成本，升級後支持單任務萬卡級別超大規模訓練。在推理上，騰訊 Angel 機器學習平台推理速度提高了 1.3 倍，在騰訊混元大模型文生圖的套用中，推理耗時從原本的 10 秒縮短至 3 至 4 秒。

此外，Angel 還提供了從模型研發到套用落地的一站式平台，支持使用者透過 API 介面或精調等方式快速呼叫騰訊混元大模型能力，加速大模型套用構建，騰訊會議、騰訊新聞、騰訊視訊等超過 400 個騰訊產品及場景均已接入騰訊混元內測。

騰訊混元透過采用混合專家模型 (MoE) 結構，已將模型擴充套件至萬億級參數規模，推動了效能提升和推理成本下降。作為通用模型，騰訊混元在中文表現上處於業界領先水平，尤其在文本生成、數理邏輯和多輪對話中效能表現卓越。目前，騰訊混元也在積極發展多模態模型，以進一步加強文生圖和文生視訊能力。

騰訊大量的套用場景，為騰訊 Angel 機器學習平台的落地提供了實驗地。除了騰訊混元大模型，騰訊 Angel 機器學習平台也支持了騰訊廣告以及騰訊會議等產品，並透過騰訊雲服務多個行業和企業客戶，助力各行各業的數位化和智慧化發展。

以騰訊廣告為例，采用騰訊 Angel 機器學習平分布式訓練最佳化、多模態理解圖資料探勘等創新技術，廣告業務場景中的多模態大模型訓練速度提升 5 倍，模型規模提升 10 倍，實作廣告召回率大幅提升。