当前位置: 华文世界 > 科技

探索NVLink、InfiniBand、ROCE、DDC技术,剖析GPU集群组网技术

2024-02-08科技

GPU集群组网技术分析:NVLink、InfiniBand、ROCE、DDC

AIGC训练中的并行处理方案与网络拥塞的影响
AIGC训练过程中的并行处理方案包括数据并行、模型并行、流水并行、张量并行等。这些方案均会导致训练过程中产生显著的跨GPU流量,网络中的任何拥塞都可能导致训练时间延长和GPU利用率降低。
优化后的文字(150字):
AIGC训练中的并行处理方案虽能提高训练效率,但会产生显著的跨GPU流量,网络拥塞将导致训练时间延长和GPU利用率降低。常见的并行方案有数据并行、模型并行、流水并行、张量并行等。无论采用哪种并行方案,由于参数和数据集的巨大规模,通过连接GPU网络传输的数据量都非常庞大。因此,确保网络的畅通对于AIGC训练至关重要。

GPU/TPU集群网络组网方案及在LLM训练中的应用
# GPU网络条件:
* 超高带宽:支持大规模数据并行训练。
* 低延迟:减少通信开销,提高训练效率。
* 可扩展性:支持更大的集群规模和更多的GPU/TPU节点。
* 灵活性和可靠性:易于部署和维护,确保训练任务的稳定运行。
# 主流GPU网络方案:
* NVLink:NVIDIA专有互连技术,提供超高带宽和低延迟。
* InfiniBand:高性能网络标准,提供低延迟和可扩展性。
* ROCE以太网Fabric:基于以太网的网络方案,提供经济高效的解决方案。
* DDC网络方案:由微软开发的网络方案,专为大规模分布式训练而设计。
# 在LLM训练中的应用:
* 大规模数据并行训练:GPU/TPU集群网络支持大规模数据并行训练,可显著提高训练速度。
* 多机多卡训练:GPU/TPU集群网络支持多机多卡训练,可充分利用集群资源,提高训练效率。
* 分布式训练:GPU/TPU集群网络支持分布式训练,可将训练任务分配到多个节点并行执行,进一步提高训练速度。
# 总结:
合理选择和部署GPU/TPU集群网络方案,对于LLM训练的性能至关重要。本文介绍了主流的GPU网络方案及其在LLM训练中的应用,可为读者提供参考和借鉴。我们将探讨流行的GPU/TPU集群网络组网,包括:NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等,深入了解它们之间的连接方式以及如何在LLM训练中发挥作用。为了获得良好的训练性能,GPU网络需要满足以下条件:

革新训练效率:端到端延迟优化
端到端延迟是影响训练效率的关键因素之一。通过降低节点间数据传输的总体延迟,可以有效缩短整体训练时间。尤其是对于GPU间通信频繁的大规模分布式训练场景,端到端延迟的优化尤为重要。
优化端到端延迟的方法有很多,例如:
* 优化网络拓扑结构,减少数据传输距离。
* 使用高性能网络接口卡,提高数据传输速率。
* 优化数据传输协议,减少数据传输开销。
* 使用分布式训练框架,合理分配数据和计算任务,减少通信量。
通过这些优化措施,可以有效降低端到端延迟,从而显著缩短整体训练时间,提高训练效率。由于GPU间通信频繁,降低节点间数据传输的总体延迟有助于缩短整体训练时间。

无丢包传输:保障AI训练高效稳定
在AI训练过程中,无丢包传输至关重要,确保训练数据完整性,避免因数据丢失导致训练回退和浪费资源。任何梯度或中间结果的丢失都会导致训练回退到内存中存储的前一个检查点并重新开始,严重影响训练性能。
无丢包传输功能可确保数据在传输过程中不会发生丢失,使AI训练更加高效稳定。对于AI训练至关重要,因为任何梯度或中间结果的丢失都会导致训练回退到内存中存储的前一个检查点并重新开始,严重影响训练性能。

高效的端到端拥塞控制:
- 瞬态拥塞:在树形拓扑中,多个节点向单个节点传输数据时不可避免。
- 持久性拥塞:会增加系统尾延迟。
- GPU之间顺序依赖关系:即使一个GPU的梯度更新受到网络延迟影响,也可能导致多个GPU停运。
- 慢速链路:降低训练性能。在树形拓扑中,当多个节点向单个节点传输数据时,瞬态拥塞不可避免。持久性拥塞会增加系统尾延迟。由于GPU之间存在顺序依赖关系,即使一个GPU的梯度更新受到网络延迟影响,也可能导致多个GPU停运。一个慢速链路就足以降低训练性能。

- 系统总成本:考虑 GPU 架构设计时,应将系统成本作为关键因素,包括硬件、软件和维护费用。
- 功耗和冷却成本:高性能 GPU 通常功耗较高,因此需要考虑冷却成本。
- 性能和能效:评估不同 GPU 架构设计,应考虑其计算性能和能效,以优化性能和成本。

一、NVLink 交换系统

NVLink 交换机:构建 GPU 服务器间交换网络
- NVLink 交换机不仅可用于连接 GPU 服务器中的 GPU,还能构建连接 GPU 服务器之间的交换网络。
- Nvidia 在 2022 年的 Hot Chips 大会上展示了使用 NVswitch 架构连接 32 个节点(256 个 GPU)的拓扑结构。
- NVLink 是专门设计为连接 GPU 的高速点对点链路,具有比传统网络更高的性能和更低的开销。
- 使用 NVLink 交换机构建 GPU 服务器间交换网络,可显著提升 GPU 服务器之间的通信速度和效率,满足高性能计算、深度学习等应用对网络带宽和低延迟的要求。个 GPU 的 NVLink 交换机也可以用于构建连接 GPU 服务器之间的交换网络。Nvidia 在 2022 年的 Hot Chips 大会上展示了使用 NVswitch 架构连接 32 个节点(或 256 个 GPU)的拓扑结构。由于 NVLink 是专门设计为连接 GPU 的高速点对点链路,所以它具有比传统网络更高的性能和更低的开销。

• 第三代 NVswitch 拥有 64 个 NVLink 端口,提供高达 12.8 Tbps 的交换容量,支持多播和网络内聚合,减少 GPU 之间的数据传输量。
• 网络内聚合可将所有工作 GPU 生成的梯度汇集到 NVswitches 内部,并将更新的梯度反馈给 GPU,以便进行下一次迭代。
• 此功能可减少训练迭代过程中 GPU 之间的数据传输,从而提高训练效率。NVswitch 配备 64 个 NVLink 端口,提供高达 12.8Tbps 的交换容量,同时支持多播和网络内聚合功能。网络内聚合能够在 NVswitches 内部汇集所有工作 GPU 生成的梯度,并将更新后的梯度反馈给 GPU,以便进行下一次迭代。这一特点有助于减少训练迭代过程中 GPU 之间的数据传输量。

NVswitch 架构展现出色性能,速度是 InfiniBand 交换网络的 2 倍。
NVswitch 架构在训练 -3 模型时展现出了令人瞩目的性能,速度是 InfiniBand 交换网络的 2 倍。这一令人印象深刻的性能提升使其成为大规模人工智能训练任务的理想选择。
值得注意的是,NVswitch 架构的带宽相对较低。
NVswitch 架构的带宽相较于高端交换机供应商提供的 51.2Tbps 交换机来说,要少 4 倍。这一带宽限制可能会阻碍其在某些高性能计算应用程序中的使用。NVswitch 架构的速度是 InfiniBand 交换网络的 2 倍,展现出了令人瞩目的性能。然而,值得注意的是,这款交换机的带宽相较于高端交换机供应商提供的 51.2Tbps 交换机来说,要少 4 倍。

NVSwitch 限制了大规模系统构建的规模和灵活性
NVSwitch 存在两大局限性,阻碍了大规模系统的构建。
1. 成本高昂且协议受限:
- 建设包含 1000 个以上 GPU 的大型系统时,NVSwitch 的成本极高,且规模越大,成本越难以负担。
- NVSwitches 协议本身限制了系统扩展性,无法支持更大规模的系统。
2. 供应商锁定:
- Nvidia 不单独出售 NVSwitches,数据中心无法通过混搭 GPU 产品来扩展现有集群,因为其他供应商的 GPU 不支持 NVSwitch 接口。
这些局限性使得 NVSwitches 难以被更广泛地采用,也为数据中心在构建大规模系统时带来诸多挑战。NVswitches 构建包含超过 1000 个 GPU 的大规模系统,不仅成本上不可行,还可能受到协议本身的限制,从而无法支持更大规模的系统。此外,Nvidia 不单独销售 NVswitches,这意味着如果数据中心希望通过混合搭配不同供应商的 GPU 来扩展现有集群,他们将无法使用 NVswitches,因为其他供应商的 GPU 不支持这些接口。

二、InfiniBand 网络

InfiniBand(简称IB)技术,自1999年推出以来,作为高速替代方案,已广泛用于连接服务器、存储和网络。由于经济因素,其最初的宏大设想有所收缩,但凭借其卓越的速度、低延迟、无丢失传输以及远程直接内存访问(RDMA)功能,InfiniBand仍在高性能计算、人工智能/机器学习集群和数据中心等领域得到了广泛应用。
InfiniBand的主要优势包括:
* 卓越的速度:InfiniBand提供高达100 Gbps(甚至更高)的吞吐量,是传统PCI和PCI-X总线的数十倍。
* 低延迟:InfiniBand的延迟仅为几微秒,是传统总线的数千分之一。
* 无丢失传输:InfiniBand采用先进的纠错机制,确保数据在传输过程中不会丢失。
* 远程直接内存访问(RDMA):InfiniBand支持RDMA功能,允许应用程序直接访问远程内存,无需经过操作系统,从而大幅提高数据传输效率。
凭借这些优势,InfiniBand已成为高性能计算、人工智能/机器学习集群和数据中心等领域的首选连接技术。

InfiniBand(IB)协议:
- 高效轻量化设计,避免以太网开销。
- 支持基于通道和基于内存的通信,适用多种场景。
- 构建高效数据中心和高性能计算环境的理想选择。

- IB实现了无丢包传输,不会因缓冲区溢出而丢失数据。
- IB支持端点之间的拥塞通知,类似于TCP/IP中的ECN。
- IB提供卓越的服务质量,允许对某些类型的流量进行优先处理,降低延迟,防止丢包。收设备之间的基于信用的流量控制,IB实现了无丢包传输(队列或虚拟通道级别)。这种逐跳的流量控制确保不会由于缓冲区溢出而造成数据丢失。此外,它还支持端点之间的拥塞通知(类似于 TCP/IP 协议栈中的 ECN)。IB提供卓越的服务质量,允许优先处理某些类型的流量以降低延迟和防止丢包。

* RDMA协议支持:所有IB交换机均支持RDMA协议,实现数据在GPU内存间的直接传输。
* 显著提升吞吐量:数据传输绕过CPU操作系统,显著提升吞吐量。
* 大幅降低端到端延迟:直接传输方式大幅降低端到端延迟,优化数据传输性能。

InfiniBand交换系统:高性能,但配置和扩展具有挑战性
InfiniBand交换系统在高性能计算环境中具有诸多优点,包括低延迟、高带宽和可靠性。然而,与以太网交换系统相比,InfiniBand系统在配置和扩展方面较为困难。
InfiniBand交换系统的扩展性可能在拥有32K或更多GPU的网络中成为挑战。此外,需要专门的硬件,如主机通道适配器和电缆,增加了扩展成本。
InfiniBand交换系统优点:
- 低延迟:确保实时应用程序的快速响应时间。
- 高带宽:支持大量数据传输,满足高性能计算的需求。
- 可靠性:提供稳定的连接,减少数据丢失的风险。
InfiniBand交换系统缺点:
- 难以配置和维护:需要专业知识和经验,可能导致管理和故障排除复杂。
- 扩展性有限:在大型集群中,扩展性可能成为瓶颈。
- 成本较高:需要特殊硬件,如主机通道适配器和InfiniBand电缆,导致扩展成本增加。

NVIDIA独领高性能IB交换机市场,引领HPC和AI GPU集群互连
NVIDIA是目前唯一一家提供高端IB交换机的供应商,专门为HPC和AI GPU集群使用而设计。众多科技巨头都在使用NVIDIA的高端IB交换机来构建其强大的人工智能集群,包括OpenAI和Meta。
OpenAI在Microsoft Azure云中使用10,000个NVIDIA A100 GPU和IB交换网络来训练他们的-3模型,该模型是世界上最大的语言模型之一。
Meta最近构建了一个包含16K GPU的集群,该集群使用NVIDIA A100 GPU服务器和Quantum-2 IB交换机,用于训练其生成式人工智能模型,包括LLaMA。该集群的规模空前,是世界上最大的AI训练集群之一。
值得注意的是,当连接10,000个以上的GPU时,服务器内部GPU之间的切换是通过服务器内的NVswitches完成的,而IB/以太网网络则负责将服务器连接在一起。
NVIDIA的高端IB交换机以其高性能、低延迟和可扩展性而著称,是构建HPC和AI GPU集群的理想选择。随着人工智能技术的发展,对高性能互连解决方案的需求也将不断增长,NVIDIA将继续在这个领域保持领先地位。英伟达GTC 2021大会上发布全新的InfiniBand网络平台,具有25.6Tbps的交换容量和400Gbps端口)。这个集群被用于训练他们的生成式人工智能模型,包括LLaMA。值得注意的是,当连接10,000个以上的GPU时,服务器内部GPU之间的切换是通过服务器内的NVswitches完成的,而IB/以太网网络则负责将服务器连接在一起。

以太网在超大规模GPU集群中的优势
* 经济高效: 以太网在许多硅/系统和光模块供应商中形成了强大的生态系统,并且以开放标准为目标,实现了供应商之间的互操作性,因此使用以太网网络可能更有意义。
* 可扩展性: 以太网可以扩展到更大的网络,以支持更多的GPU。
* 灵活性: 以太网可以轻松地重新配置,以适应不同的工作负载。
* 可靠性: 以太网是一种可靠的网络技术,可以确保数据传输的可靠性。云服务提供商正在寻求构建具有32K甚至64K GPU的GPU集群。在这种规模上,从经济角度来看,使用以太网网络可能更有意义。这是因为以太网已经在许多硅/系统和光模块供应商中形成了强大的生态系统,并且以开放标准为目标,实现了供应商之间的互操作性。

三、ROCE无损以太网

以太网:数据中心的互联霸主
- 速度范围从1Gbps到800Gbps,未来可达1.6Tbps
- 互连端口速度和总交换容量高于Infiniband
- 价格相对较低,每单位带宽成本更具竞争力
- 源于高端网络芯片供应商的激烈竞争
- 更多带宽集成到ASIC,降低每千兆位成本
以太网凭借其卓越的速度、容量和成本优势,成为数据中心互联的主流选择。Infiniband相比,以太网在互连端口速度和总交换容量上更胜一筹。此外,以太网交换机的价格相对较低,每单位带宽的成本更具竞争力,这主要归功于高端网络芯片供应商之间的激烈竞争,推动了厂商将更多带宽集成到ASIC中,从而降低了每千兆位的成本。

高端以太网交换机ASIC的性能是英伟达GTC 2021大会上发布的InfiniBand网络平台Quantum-2的两倍,交换容量高达51.2Tbps,配备800Gbps端口。这意味着,如果交换机的吞吐量翻倍,构建GPU网络所需的交换机数量可以减少一半。这种高性能交换机可以显著提高网络效率,降低构建和运营成本。(英伟达GTC 2021大会上发布全新的InfiniBand网络平台,具有25.6Tbps的交换容量和400Gbps端口))的两倍。这意味着,如果交换机的吞吐量翻倍,构建GPU网络所需的交换机数量可以减少一半。

* 以太网提供无丢包传输服务,可确保关键数据畅通无阻。
* 通过优先流量控制 (PFC) 实现,支持 8 个服务类别和无丢包类别。
* 在处理和通过交换机时,无丢包流量享有优先级,即使在网络拥塞时。
* 交换机或网卡通过流量控制管理上游设备,避免丢弃数据包。
* 无丢包传输服务对于关键应用至关重要,如金融交易、医疗保健和工业自动化。

万兆以太网RDMA技术优化方案
* 基于RoCEv2(RDMA over Converged Ethernet)实现RDMA(远程直接内存访问)。
* RDMA数据包通过IP/UDP封装,直接传输到GPU服务器中的网络适配器(NIC)的内存中,无需CPU介入。
* 部署DCQCN等端到端拥塞控制方案,降低RDMA的端到端拥塞和丢包。
方案优势
* 高性能:RDMA通过直接访问GPU内存,避免了CPU的介入,从而提高了数据传输速度。
* 低延迟:RDMA减少了数据传输的延迟,从而提高了应用的性能。
* 高可靠性:DCQCN等拥塞控制方案可以降低RDMA的端到端拥塞和丢包,从而提高了数据的可靠性。帧被封装在IP/UDP内。当RoCEv2数据包到达GPU服务器中的网络适配器(NIC)时,NIC可以直接将RDMA数据传输到GPU的内存中,无需CPU介入。同时,可以部署如DCQCN等强大的端到端拥塞控制方案,以降低RDMA的端到端拥塞和丢包。

* 负载均衡:
BGP(边界网关协议)使用ECMP(等价路径多路径路由)来在具有相等代价的路径上分发数据包。
* 哈希分配:
交换机使用哈希函数来分配数据包的路径。
* 负载不均:
哈希分配并不总是完善,可能导致某些链路负载不均,造成网络拥塞。不总是完美的,可能会导致某些链路负载不均,造成网络拥塞。

* 预留轻微过量的带宽,以避免拥塞。
* 实现自适应负载均衡,将数据包路由到最优路径。
* 使用 RoCEv2 的数据包级负载均衡,将数据包均匀分散在可用链路上。
* 确保网卡支持在 RoCE 传输层上处理无序数据,确保 GPU 接收到的数据是有序的。
这些策略有助于解决带宽拥塞问题,并提高网络性能。将新流的数据包路由到其他端口。许多交换机已经支持此功能。此外,RoCEv2的数据包级负载均衡可以将数据包均匀地分散在所有可用链路上,以保持链路平衡。但这可能导致数据包无序到达目的地,需要网卡支持在RoCE传输层上处理这些无序数据,确保GPU接收到的数据是有序的。这需要网卡和以太网交换机的额外硬件支持。

* 部分厂商的 ROCE 以太网交换机可聚合来自 GPU 的梯度,减少训练过程中的 GPU 间流量。
* 例如,Nvidia 的高端以太网交换机具有此功能。

* 高端太网交换机和网卡提供了强大的拥塞控制、负载均衡功能和RDMA支持,可扩展到比IB交换机更大的设计。
* 云服务提供商和大规模集群的公司已开始使用基于以太网的GPU网络,以连接超过32K的GPU。
* 太网交换机和网卡的优势在于,它们比IB交换机具有更高的端口密度、更低的功耗和更低的成本。太网交换机和网卡具备强大的拥塞控制、负载均衡功能和RDMA支持,可以扩展到比IB交换机更大的设计。一些云服务提供商和大规模集群的公司已经开始使用基于以太网的GPU网络,以连接超过32K的GPU。

四、DDC全调度网络

全调度网络技术革新,引领数据中心互联新潮流
近年来,交换机/路由器芯片供应商纷纷推出支持全调度Fabric或AI Fabric的芯片,这项技术革新为数据中心互联带来了新的机遇。
全调度网络实际上已在模块化机箱设计中应用十余年,如Juniper的PTX系列路由器采用虚拟出口队列(VOQ)网络,实现了全调度网络。
全调度网络具有众多优势,包括:
- 提高网络利用率
- 降低延迟
- 简化网络管理
全调度网络技术为数据中心互联提供了更灵活、更可扩展、更高效的解决方案,有望引领数据中心互联新潮流。

- VOQ架构中,数据包仅在入口叶子交换机中进行一次缓冲,减少了缓冲次数和网络延迟。

- VOQ为整个系统中的每个输出队列提供缓冲空间,每个VOQ的大小足以容纳数据包在40-70微秒内遇到拥塞时的数据包,满足了高性能网络的严格要求。

- VOQ采用片上缓冲区和外部存储器中的深度缓冲区相结合的方式,提高了数据缓冲区的容量和灵活性。


当入口叶子交换机检测到某个 VOQ 队列中累积了多个数据包,它会向出口交换机发出请求,要求在网络中传输这些数据包。该请求通过网络传输,到达出口叶子交换机。

- 出口叶子交换机中的调度器可批准队列的请求,但速率有限制,避免过度订阅交换机链路。
- 调度器根据严格的调度层次以及浅输出缓冲区中的可用空间来批准请求。
- 这有助于防止交换机链路过载,并确保队列服务质量。调度器根据严格的调度层次以及其浅输出缓冲区中的可用空间来批准这些请求。这些批准的速率受到限制,以避免过度订阅交换机链路(超出队列缓存接受范围)。

智能交换机设备可处理到达入口叶子交换机的批准,并将批准的数据包通过所有可用上行链路转发至出口,从而实现高效的网络数据传输。

数据包负载均衡和有序传输
发送到特定VOQ的数据包可以均匀地分散在所有可用的输出链路上,实现完美的负载均衡。然而,出口交换机配备了逻辑功能,可以将这些数据包按顺序重新排列,然后将它们传输到GPU节点,避免数据包的重新排序。

出口调度器在数据进入交换机前就对已批准的数据进行控制,有效消除以太网数据面中99%由incast引起的拥塞问题,并完全消除头阻塞问题。值得一提的是,数据仍然通过以太网进行传输,包括请求和批准。调度器在数据进入交换机之前就对已批准的数据进行了控制,从而避免了链路带宽的超额使用,因此消除了以太网数据面中99%由incast引起的拥塞问题(当多个端口尝试向单个输出端口发送流量时),并且完全消除了头阻塞(HOL blocking)。需要指出的是,在这种架构中,数据(包括请求和批准)仍然是通过以太网进行传输的。

头阻塞(HOL blocking):数据传输的绊脚石
头阻塞是指网络传输中,第一个数据包受阻后,所有后续数据包都会被阻塞,无法继续传输。这种现象会极大地影响网络传输效率和性能。
头阻塞常见原因:
* 网络拥塞导致数据包丢失或延迟。
* 路由器或交换机配置不当,导致数据包无法正确转发。
* 防火墙或其他网络安全设备阻止数据包通过。
解决方案:
* 优化网络带宽和配置,减少拥塞并防止数据包丢失。
* 正确配置路由器和交换机,确保数据包能够正确转发。
* 调整防火墙或安全设备的规则,允许必要的数据包通过。
防止头阻塞的发生,可以提高网络传输效率和性能。HOL blocking)是指在网络传输中,一列数据包中的第一个数据包如果遇到阻碍,会导致后面所有的数据包也被阻塞,无法继续传输,即使后面的数据包的目标输出端口是空闲的。这种现象会严重影响网络的传输效率和性能。

先进的网络架构,例如 Juniper 的 Express 和 Broadcom 的 Jericho 系列,采用专有的分段化(cellified)数据面,实现了虚拟输出队列(VOQ)技术。
这种架构可显著提高网络性能和可扩展性,满足当今数据中心和云计算领域对高吞吐量和低延迟的需求。
VOQ 技术可有效降低网络拥塞,并确保数据包按顺序处理,从而优化数据传输的效率和可靠性。cellified)数据面实现了虚拟输出队列(VOQ)。

分段数据面技术:提高链路利用率,减少延迟
分段数据面技术是一种新型的数据交换技术,它将数据包分割成固定大小的分段,并在所有可用的输出链路上均匀分布这些分段,从而提高链路利用率。
与在数据包级别进行均匀分布相比,分段数据面技术可以避免输出链路上的另一个存储/转发延迟(出口以太网接口),并减少 VOQ 数据面的总体延迟。
分段数据面技术还可以使用功耗更低、延迟更短的定制交换机来替代用于转发分段的 spine 交换机,从而进一步减少延迟和功耗。
因此,分段数据面技术是一种可以同时提高链路利用率、减少延迟和降低功耗的新型数据交换技术。
具体优势:
- 提高链路利用率:因为混合使用大型和小型数据包很难充分利用所有链路,而分段转发可以将数据包分割为固定大小的分段,并在所有可用的输出链路上均匀分布这些分段,从而提高链路利用率。
- 减少延迟:分段转发可以避免输出链路上的另一个存储/转发延迟(出口以太网接口),并使用功耗更低、延迟更短的定制交换机来替代用于转发分段的 spine 交换机,从而进一步减少延迟。
- 降低功耗:分段数据面交换机在功耗方面优于以太网交换机,因为它们不需要支持L2交换的开销,从而降低功耗。

VOQ架构确实存在一些局限性:

叶子交换机的入口缓冲区大小应与系统中所有虚拟输出队列 (VOQ) 在拥塞期间缓冲数据包的需求成正比。缓冲区大小与 GPU 的数量和每个 GPU 的优先级队列数量直接相关,GPU 规模越大,入口缓冲区需求也越大。合理的缓冲区大小有助于确保数据包在网络拥塞期间不会丢失,从而提高网络性能和可靠性。入口端应具有合理的缓冲区,以供系统中所有VOQ在拥塞期间缓冲数据包。缓冲区大小与GPU数量及每个GPU的优先级队列数量成正比。GPU规模较大直接导致更大的入口缓冲区需求。

出口队列缓冲区应设计为能够覆盖数据面往返延迟,以避免在请求-批准握手期间这些缓冲区耗尽。在较大型的GPU集群中,使用3级数据面时的往返延迟可能比使用单级数据面时的往返延迟大。如果出口队列缓冲区未适当调整以适应增加的往返延迟,输出链路将无法达到100%的利用率,从而降低系统的性能。级数据面时,由于光缆延迟和额外交换机的存在,此往返延迟可能会增加。如果出口队列缓冲区未适当调整以适应增加的往返延迟,输出链路将无法达到100%的利用率,从而降低系统的性能。

* VOQ系统通过出口调度改善尾部延迟,但引入额外往返延迟。
* 入口叶交换机在发送数据包前需要请求批准,增加延迟。
* 最小延迟增加与出口阻塞和入口请求-批准握手相关。

通过全调度VOQ优化GPU集群中的网络性能
充分利用全调度VOQ架构的优势,缓解延迟并提高吞吐量。全调度VOQ (fabric) 在降低延迟上的性能优于以太网流量,尤其在链路利用率超过90%的情况下。若可接受相应的成本投入,可以通过增加缓冲区的方式提高链路利用率,在扩大GPU规模时值得投资。

供应商锁定限制了交换机混合使用。
由于每个供应商都使用专有协议,因此在同一fabric中混合使用和匹配交换机变得非常困难。这种供应商锁定限制了数据中心在选择交换机时的灵活性,并可能导致更高的成本和更复杂的管理。

总结:主流GPU集群组网技术应用情况

NVLink交换系统,专为GPU间通信而生,提供了业界领先的解决方案。但其主要应用于服务器内部的GPU通信,或小规模跨服务器节点间的数据传输,对大规模GPU集群互连支持有限。交换系统虽然为GPU间通信提供了有效解决方案,但其支持的GPU规模相对有限,主要应用于服务器内部的GPU通信以及小规模跨服务器节点间的数据传输。

InfiniBand网络以其无拥塞、低延迟的特性在数据中心网络中占据重要地位。然而,由于其封闭的架构和较高的成本,它更适用于中小规模且对有线连接有需求的客户群体。网络作为一种原生的RDMA网络,在无拥塞和低延迟环境下表现卓越。然而,由于其架构相对封闭且成本较高,它更适用于中小规模且对有线连接有需求的客户群体。

ROCE无损以太网优势
- 成熟的以太网生态,组网成本最低。
- 最快的带宽迭代速度,可满足中大型训练GPU集群对高带宽的需求。
- 适用性更广,在中大型训练GPU集群场景中展现出更高的适用性。则凭借其依托成熟的以太网生态、最低的组网成本以及最快的带宽迭代速度,在中大型训练GPU集群的场景中展现出更高的适用性。

DDC 全调度网络将信元交换与虚拟输出队列 (VOQ) 技术相结合,有效解决以太网拥塞问题。作为新兴技术,业界正在评估其长期潜力和应用前景,目前处于研究阶段。,它结合了信元交换和虚拟输出队列(VOQ)技术,因此在解决以太网拥塞问题方面有着显著的优势。作为一种新兴技术,目前业界各家仍处于研究阶段,以评估其长期潜力和应用前景。