當前位置: 華文世界 > 科技

AI大模型訓練-智慧無失真網路技術深度分析(第一篇) 2024

2024-09-02科技

AI大模型訓練-智慧無失真網路技術共四篇!

1. 簡介

智慧無失真網路是透過硬體架構、智慧無失真演算法和一系列的網路技術,為人工智慧、分布式儲存、HPC(High Performance Computing,高效能計算)等套用場景提供的「無丟包、低時延、高吞吐」網路環境,用於加速計算和儲存的效率,為數據中心構建統一融合的網路。

1.2 產生背景

1.2.1 RDMA 的套用需求

RDMA(Remote Direct Memory Access,遠端直接記憶體存取)技術的內核旁路機制允許套用與網卡之間直接讀寫數據,使得伺服器內的數據傳輸時延降低。

同時 RDMA 利用相關的硬體和網路技術,使伺服器網卡之間可以直接讀記憶體,實作了高吞吐量、超低時延和低 CPU 開銷的效果。

當前分布式儲存、HPC 高效能計算、AI 人工智慧等場景均采用 RoCEv2(RDMA over Converged Ethernet version 2)作為乙太網路上的傳輸協定來降低傳輸時延和 CPU 負擔。

但是 RoCEv2 是一種基於無連線的 UDP 協定,缺乏完善的丟包保護機制,對於網路丟包異常敏感。

同時,分布式高效能套用是多對一通訊的 Incast 流量模型,對於乙太網路的裝置,Incast 流量易造成裝置內部佇列緩存的瞬時突發擁塞甚至丟包,帶來時延的增加和吞吐的下降,從而損害分布式套用的效能。

所以為了發揮出 RDMA 的真正效能,突破數據中心大規模分布式系統的網路效能瓶頸,勢必要為 RDMA 搭建一套「無丟包、低時延、高吞吐」的無失真網路環境。

1.2.2 數據中心硬體發展的需求

計算、儲存、網路是數據中心的三要素,三者需要協同發展。

當前業界在計算芯片算力、儲存讀取速度方面取得了巨大的進展。從 2016 年到 2021 年,近 5 年GPU/AI 芯片算力增長了 90 倍。

采用 NVMe(Non Volatile Memory Express,非揮發性記憶體主機控制器介面規範)介面協定的 SDD 儲存介質存取效能相對 HDD 機械硬碟提升了 10000 倍,讀寫儲存介質的時延主要取決於網路時延的大小。

隨著儲存介質和計算處理器的演進,網路通訊的時延成為阻礙計算和儲存效率的進一步提升的短板。因此為數據中心提供一套「無丟包、低時延、高吞吐」的無失真網路環境是未來發展的關鍵需求。

1.3 技術架構

智慧無失真網路一方面透過流量控制技術和擁塞控制技術來提升網路整體的吞吐量,降低網路時延,另一方面透過智慧無失真儲存網路等技術實作網路和套用系統融合最佳化。

根據智慧無失真網路技術和TCP/IP 協定棧的對應關系,智慧無失真網路的技術架構如圖 1 所示:

圖1 智慧無失真網路的技術架構

在物理硬體層: 智慧無失真網路需要支持智慧無失真演算法的 AI 芯片和轉發/交換芯片的支持。 ‍‍

在數據鏈路層: 部署流量控制技術 PFC(Priority-based Flow Control,基於優先級的流量控制),同時預防 PFC 死結問題。 PFC技術由 IEEE 802.1Qbb定義,用於解決擁塞丟幀問題。

在網路層: 智慧無失真網路可以套用如下擁塞控制技術:

ECN(Explicit Congestion Notification,顯式擁塞通知)技術: ECN 是一種端到端的網路擁塞通知機制,它允許網路在發生擁塞時不丟棄報文,在 RFC 3168 中定義。

ECN Overlay 技術: 將 ECN 技術套用到 VXLAN 網路中,以實作 VXLAN 網路中端到端的擁塞通知機制。

大小流區分排程: 裝置埠轉發報文時還會使用 QoS 的擁塞管理技術進行佇列排程,提供不同的服務標準。網路中流量被管理員區分為大小流,並區分排程,以保證大流的吞吐率和小流的時延需求。

AI ECN 功能: AI ECN 結合了智慧演算法,可以根據智慧演算法對現網流量模型進行預測,並動態調整 ECN 低門限。

IPCC(Intelligent Proactive Congestion Control,智慧主動擁塞控制)是一種以網路裝置為核心的主動擁塞控制技術,可以根據裝置埠的擁塞狀態,準確控制伺服器發送RoCEv2 報文的速率。

在傳輸層可以采用 ECMP 對網路中的流量進行負載分擔。

在套用層,智慧無失真網路提供了 iNOF(Intelligent Lossless NVMe Over Fabric,智慧無失真儲存網路)功能,透過對 iNOF 主機的快速管控,提升儲存網路的易用性,實作乙太網路和儲存網路融合。