在本周二的阿姆斯特丹的思科全球网络会议(Cisco Live)上,企业网络巨头思科宣布与英伟达( Nvidia)合作推出一系列专为时下最受关注的热门词(AI/ML:人工智能/机器学习)量身定制的硬件和软件平台。
两家合作的一个重点是使得用标准以太网部署和管理人工智能系统更加容易一些,相信那些费尽周折考 CCNA 和/或 CCNP 证书的人对此会深有体会。
GPU为人工智能集群提供动力,也往往是讨论的焦点,但支持人工智能集群所需的高性能、低延迟网络可能相当复杂。现代 GPU 节点确实在很大程度上受益于 200Gb/s、400Gb/s 以及即将到来的 800Gb/s 高速网络,但这只是部分因素,尤其是在训练模型时。因为这些工作负载通常需要分布在包含四个或八个 GPU 的多台服务器上,任何额外的延迟都会导致训练时间的延长。
因此,Nvidia 的 InfiniBand 仍然在人工智能网络部署中占据主导地位。Dell'Oro Group 的企业分析师 Sameh Boujelbene 最近在接受采访时估计,约 90% 的部署使用的是 Nvidia/Mellanox 的 InfiniBand,而不是以太网。
这并不是说以太网没有受到重视。一些新兴技术(例如带有深度数据包缓冲区的智能网卡(smartNIC)和人工智能优化交换机专用集成电路(ASIC)有助于抑制数据包丢失)使以太网至少可以更像 InfiniBand 一样运行。
例如,我们去年夏天谈到过的思科 Silicon One G200 交换机 ASIC 就具有许多有利于人工智能网络的功能,包括高级拥塞管理、数据包喷洒技术和链路故障转移。但需要注意的是,这些功能并非思科独有,Nvidia 和博通(Broadcom)近年来也推出了类似功能的交换机。
Dell'Oro 预测,到 2027 年,以太网在人工智能网络中的作用将占据约 20% 的收入份额。其中一个原因是业界熟悉以太网。人工智能部署可能仍然需要做一些特定的调整,但企业已经知道如何部署和管理以太网基础设施。
对 Nvidia 来说仅这一点就使得与思科等网络厂商的合作是一个有吸引力的前景。虽然这可能会减少 Nvidia 自家 InfiniBand 或 Spectrum 以太网交换机的销售额,但回报是能够将更多 GPU 交付到本来可能对部署完全独立的网络堆栈持怀疑态度的企业。
思科的企业人工智能视角
为了支持这些努力,思科和 Nvidia 推出了参考设计和系统,旨在确保兼容性,并帮助解决部署网络、存储和计算基础设施方面的知识差距,以支持其人工智能部署。
这些参考设计以企业可能已经投资的平台为目标,包括来自 Pure Storage、NetApp 和 Red Hat 的套件。参考设计还有助于推动思科的 GPU 加速系统。其中包括将旗下的 FlexPod 和 FlashStack 框架应用于人工智能推理工作负载的参考设计和自动化脚本。许多人预计推理(尤其是小型特定领域模型的推理)将成为企业人工智能部署的主要部分,因为其运行和训练成本相对较低。
FlashStack AI Cisco Verified Design (CVD) 是一个将思科的网络和 GPU 加速 UCS 系统与 Pure Storage 的闪存阵列一起部署的指南。而 FlexPod AI(CVD)似乎也遵循了类似的模式,只是将 Pure 换成了 NetApp 的存储平台。思科表示,这些产品将于本月晚些时候推出,未来还将推出更多由 Nvidia 支持的 CVD。
提一下思科的 UCS 计算平台,该网络方案还推出了一款专注于边缘的X系列刀片系统,可配备Nvidia的最新GPU。
X Direct机箱有8个插槽,可配置双插槽或四插槽计算刀片组合,或用于GPU计算的PCIe扩展节点。额外的 X-Fabric 模块也可用于扩展系统的 GPU 容量。
不过,值得注意的是,与Supermicro、Dell、HPE和其他厂商所采用的Nvidia最强大的SXM模块不同,思科的UCS X Direct系统似乎只支持功耗较低的基于PCIe的GPU。
根据UCS X Direct数据表,每台服务器最多可配备六个紧凑型 GPU,或最多两个双插槽、全长、全高 GPU。
这对那些希望运行消耗数百千兆字节 GPU 内存的大型语言模型的用户来说可能是个限制。不过,在运行较小的推理工作负载时,如边缘数据预处理,这可能已经足够了。
思科该平台的定位是制造业、医疗保健业和运行小型数据中心的企业。