當前位置: 華文世界 > 科技

AI大模型訓練-智能無失真網絡技術深度分析(第一篇) 2024

2024-09-02科技

AI大模型訓練-智能無失真網絡技術共四篇!

1. 簡介

智能無失真網絡是透過硬件架構、智能無失真演算法和一系列的網絡技術,為人工智能、分布式儲存、HPC(High Performance Computing,高效能計算)等套用場景提供的「無丟包、低時延、高吞吐」網絡環境,用於加速計算和儲存的效率,為數據中心構建統一融合的網絡。

1.2 產生背景

1.2.1 RDMA 的套用需求

RDMA(Remote Direct Memory Access,遠端直接記憶體存取)技術的內核旁路機制允許套用與網卡之間直接讀寫數據,使得伺服器內的數據傳輸時延降低。

同時 RDMA 利用相關的硬件和網絡技術,使伺服器網卡之間可以直接讀記憶體,實作了高吞吐量、超低時延和低 CPU 開銷的效果。

當前分布式儲存、HPC 高效能計算、AI 人工智能等場景均采用 RoCEv2(RDMA over Converged Ethernet version 2)作為乙太網路上的傳輸協定來降低傳輸時延和 CPU 負擔。

但是 RoCEv2 是一種基於無連線的 UDP 協定,缺乏完善的丟包保護機制,對於網絡丟包異常敏感。

同時,分布式高效能套用是多對一通訊的 Incast 流量模型,對於乙太網路的器材,Incast 流量易造成器材內部佇列緩存的瞬時突發擁塞甚至丟包,帶來時延的增加和吞吐的下降,從而損害分布式套用的效能。

所以為了發揮出 RDMA 的真正效能,突破數據中心大規模分布式系統的網絡效能瓶頸,勢必要為 RDMA 搭建一套「無丟包、低時延、高吞吐」的無失真網絡環境。

1.2.2 數據中心硬件發展的需求

計算、儲存、網絡是數據中心的三要素,三者需要協同發展。

當前業界在計算芯片算力、儲存讀取速度方面取得了巨大的進展。從 2016 年到 2021 年,近 5 年GPU/AI 芯片算力增長了 90 倍。

采用 NVMe(Non Volatile Memory Express,非揮發性記憶體主機控制器介面規範)介面協定的 SDD 儲存介質存取效能相對 HDD 機械硬碟提升了 10000 倍,讀寫儲存介質的時延主要取決於網絡時延的大小。

隨著儲存介質和計算處理器的演進,網絡通訊的時延成為阻礙計算和儲存效率的進一步提升的短板。因此為數據中心提供一套「無丟包、低時延、高吞吐」的無失真網絡環境是未來發展的關鍵需求。

1.3 技術架構

智能無失真網絡一方面透過流量控制技術和擁塞控制技術來提升網絡整體的吞吐量,降低網絡時延,另一方面透過智能無失真儲存網絡等技術實作網絡和套用系統融合最佳化。

根據智能無失真網絡技術和TCP/IP 協定棧的對應關系,智能無失真網絡的技術架構如圖 1 所示:

圖1 智能無失真網絡的技術架構

在物理硬件層: 智能無失真網絡需要支持智能無失真演算法的 AI 芯片和轉發/交換芯片的支持。 ‍‍

在數據鏈路層: 部署流量控制技術 PFC(Priority-based Flow Control,基於優先級的流量控制),同時預防 PFC 死結問題。 PFC技術由 IEEE 802.1Qbb定義,用於解決擁塞丟幀問題。

在網絡層: 智能無失真網絡可以套用如下擁塞控制技術:

ECN(Explicit Congestion Notification,顯式擁塞通知)技術: ECN 是一種端到端的網絡擁塞通知機制,它允許網絡在發生擁塞時不丟棄報文,在 RFC 3168 中定義。

ECN Overlay 技術: 將 ECN 技術套用到 VXLAN 網絡中,以實作 VXLAN 網絡中端到端的擁塞通知機制。

大小流區分排程: 器材埠轉發報文時還會使用 QoS 的擁塞管理技術進行佇列排程,提供不同的服務標準。網絡中流量被管理員區分為大小流,並區分排程,以保證大流的吞吐率和小流的時延需求。

AI ECN 功能: AI ECN 結合了智能演算法,可以根據智能演算法對現網流量模型進行預測,並動態調整 ECN 低門限。

IPCC(Intelligent Proactive Congestion Control,智能主動擁塞控制)是一種以網絡器材為核心的主動擁塞控制技術,可以根據器材埠的擁塞狀態,準確控制伺服器發送RoCEv2 報文的速率。

在傳輸層可以采用 ECMP 對網絡中的流量進行負載分擔。

在套用層,智能無失真網絡提供了 iNOF(Intelligent Lossless NVMe Over Fabric,智能無失真儲存網絡)功能,透過對 iNOF 主機的快速管控,提升儲存網絡的易用性,實作乙太網路和儲存網絡融合。