当前位置: 华文世界 > 科技

AI大模型训练-智能无损网络技术深度分析(第一篇) 2024

2024-09-02科技

AI大模型训练-智能无损网络技术共四篇!

1. 简介

智能无损网络是通过硬件架构、智能无损算法和一系列的网络技术,为人工智能、分布式存储、HPC(High Performance Computing,高性能计算)等应用场景提供的「无丢包、低时延、高吞吐」网络环境,用于加速计算和存储的效率,为数据中心构建统一融合的网络。

1.2 产生背景

1.2.1 RDMA 的应用需求

RDMA(Remote Direct Memory Access,远程直接内存访问)技术的内核旁路机制允许应用与网卡之间直接读写数据,使得服务器内的数据传输时延降低。

同时 RDMA 利用相关的硬件和网络技术,使服务器网卡之间可以直接读内存,实现了高吞吐量、超低时延和低 CPU 开销的效果。

当前分布式存储、HPC 高性能计算、AI 人工智能等场景均采用 RoCEv2(RDMA over Converged Ethernet version 2)作为以太网上的传输协议来降低传输时延和 CPU 负担。

但是 RoCEv2 是一种基于无连接的 UDP 协议,缺乏完善的丢包保护机制,对于网络丢包异常敏感。

同时,分布式高性能应用是多对一通信的 Incast 流量模型,对于以太网的设备,Incast 流量易造成设备内部队列缓存的瞬时突发拥塞甚至丢包,带来时延的增加和吞吐的下降,从而损害分布式应用的性能。

所以为了发挥出 RDMA 的真正性能,突破数据中心大规模分布式系统的网络性能瓶颈,势必要为 RDMA 搭建一套「无丢包、低时延、高吞吐」的无损网络环境。

1.2.2 数据中心硬件发展的需求

计算、存储、网络是数据中心的三要素,三者需要协同发展。

当前业界在计算芯片算力、存储读取速度方面取得了巨大的进展。从 2016 年到 2021 年,近 5 年GPU/AI 芯片算力增长了 90 倍。

采用 NVMe(Non Volatile Memory Express,非易失性内存主机控制器接口规范)接口协议的 SDD 存储介质访问性能相对 HDD 机械硬盘提升了 10000 倍,读写存储介质的时延主要取决于网络时延的大小。

随着存储介质和计算处理器的演进,网络通信的时延成为阻碍计算和存储效率的进一步提升的短板。因此为数据中心提供一套「无丢包、低时延、高吞吐」的无损网络环境是未来发展的关键需求。

1.3 技术架构

智能无损网络一方面通过流量控制技术和拥塞控制技术来提升网络整体的吞吐量,降低网络时延,另一方面通过智能无损存储网络等技术实现网络和应用系统融合优化。

根据智能无损网络技术和TCP/IP 协议栈的对应关系,智能无损网络的技术架构如图 1 所示:

图1 智能无损网络的技术架构

在物理硬件层: 智能无损网络需要支持智能无损算法的 AI 芯片和转发/交换芯片的支持。 ‍‍

在数据链路层: 部署流量控制技术 PFC(Priority-based Flow Control,基于优先级的流量控制),同时预防 PFC 死锁问题。 PFC技术由 IEEE 802.1Qbb定义,用于解决拥塞丢帧问题。

在网络层: 智能无损网络可以应用如下拥塞控制技术:

ECN(Explicit Congestion Notification,显式拥塞通知)技术: ECN 是一种端到端的网络拥塞通知机制,它允许网络在发生拥塞时不丢弃报文,在 RFC 3168 中定义。

ECN Overlay 技术: 将 ECN 技术应用到 VXLAN 网络中,以实现 VXLAN 网络中端到端的拥塞通知机制。

大小流区分调度: 设备端口转发报文时还会使用 QoS 的拥塞管理技术进行队列调度,提供不同的服务标准。网络中流量被管理员区分为大小流,并区分调度,以保证大流的吞吐率和小流的时延需求。

AI ECN 功能: AI ECN 结合了智能算法,可以根据智能算法对现网流量模型进行预测,并动态调整 ECN 低门限。

IPCC(Intelligent Proactive Congestion Control,智能主动拥塞控制)是一种以网络设备为核心的主动拥塞控制技术,可以根据设备端口的拥塞状态,准确控制服务器发送RoCEv2 报文的速率。

在传输层可以采用 ECMP 对网络中的流量进行负载分担。

在应用层,智能无损网络提供了 iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)功能,通过对 iNOF 主机的快速管控,提升存储网络的易用性,实现以太网和存储网络融合。