思科和輝達擴大合作推動 AI 網路中乙太網路的發展

2024-02-08科技

在本周二的阿姆斯特丹的思科全球網路會議（Cisco Live）上，企業網路巨頭思科宣布與輝達（ Nvidia）合作推出一系列專為時下最受關註的熱門詞（AI/ML：人工智慧/機器學習）量身客製的硬體和軟體平台。

兩家合作的一個重點是使得用標準乙太網路部署和管理人工智慧系統更加容易一些，相信那些費盡周折考 CCNA 和/或 CCNP 證書的人對此會深有體會。

GPU為人工智慧集群提供動力，也往往是討論的焦點，但支持人工智慧集群所需的高效能、低延遲網路可能相當復雜。現代 GPU 節點確實在很大程度上受益於 200Gb/s、400Gb/s 以及即將到來的 800Gb/s 高速網路，但這只是部份因素，尤其是在訓練模型時。因為這些工作負載通常需要分布在包含四個或八個 GPU 的多台伺服器上，任何額外的延遲都會導致訓練時間的延長。

因此，Nvidia 的 InfiniBand 仍然在人工智慧網路部署中占據主導地位。Dell'Oro Group 的企業分析師 Sameh Boujelbene 最近在接受采訪時估計，約 90% 的部署使用的是 Nvidia/Mellanox 的 InfiniBand，而不是乙太網路。

這並不是說乙太網路沒有受到重視。一些新興技術（例如帶有深度封包緩沖區的智慧網卡（smartNIC）和人工智慧最佳化交換機專用積體電路（ASIC）有助於抑制封包遺失）使乙太網路至少可以更像 InfiniBand 一樣執行。

例如，我們去年夏天談到過的思科 Silicon One G200 交換機 ASIC 就具有許多有利於人工智慧網路的功能，包括高級擁塞管理、封包噴灑技術和鏈路故障轉移。但需要註意的是，這些功能並非思科獨有，Nvidia 和博通（Broadcom）近年來也推出了類似功能的交換機。

Dell'Oro 預測，到 2027 年，乙太網路在人工智慧網路中的作用將占據約 20% 的收入份額。其中一個原因是業界熟悉乙太網路。人工智慧部署可能仍然需要做一些特定的調整，但企業已經知道如何部署和管理乙太網路基礎設施。

對 Nvidia 來說僅這一點就使得與思科等網路廠商的合作是一個有吸重力的前景。雖然這可能會減少 Nvidia 自家 InfiniBand 或 Spectrum 乙太網路交換機的銷售額，但報酬是能夠將更多 GPU 交付到本來可能對部署完全獨立的網路堆疊持懷疑態度的企業。

思科的企業人工智慧視角

為了支持這些努力，思科和 Nvidia 推出了參考設計和系統，旨在確保相容性，並幫助解決部署網路、儲存和計算基礎設施方面的知識差距，以支持其人工智慧部署。

這些參考設計以企業可能已經投資的平台為目標，包括來自 Pure Storage、NetApp 和 Red Hat 的套件。參考設計還有助於推動思科的 GPU 加速系統。其中包括將旗下的 FlexPod 和 FlashStack 框架套用於人工智慧推理工作負載的參考設計和自動化指令碼。許多人預計推理（尤其是小型特定領域模型的推理）將成為企業人工智慧部署的主要部份，因為其執行和訓練成本相對較低。

FlashStack AI Cisco Verified Design (CVD) 是一個將思科的網路和 GPU 加速 UCS 系統與 Pure Storage 的快閃記憶體陣列一起部署的指南。而 FlexPod AI（CVD）似乎也遵循了類似的模式，只是將 Pure 換成了 NetApp 的儲存平台。思科表示，這些產品將於本月晚些時候推出，未來還將推出更多由 Nvidia 支持的 CVD。

提一下思科的 UCS 計算平台，該網路方案還推出了一款專註於邊緣的X系列刀片系統，可配備Nvidia的最新GPU。

X Direct機箱有8個插槽，可配置雙插槽或四插槽計算刀片組合，或用於GPU計算的PCIe擴充套件節點。額外的 X-Fabric 模組也可用於擴充套件系統的 GPU 容量。

不過，值得註意的是，與Supermicro、Dell、HPE和其他廠商所采用的Nvidia最強大的SXM模組不同，思科的UCS X Direct系統似乎只支持功耗較低的基於PCIe的GPU。

根據UCS X Direct數據表，每台伺服器最多可配備六個緊湊型 GPU，或最多兩個雙插槽、全長、全高 GPU。

這對那些希望執行消耗數百千兆字節 GPU 記憶體的大型語言模型的使用者來說可能是個限制。不過，在執行較小的推理工作負載時，如邊緣數據預處理，這可能已經足夠了。

思科該平台的定位是制造業、醫療保健業和執行小型數據中心的企業。