MLPerf測試結果公布：輝達B200推理效能達MI300X的4倍

2024-09-01科技

8月29日訊息，輝達釋出了其 Blackwell B200芯片第一個MLPerf Inference 4.1測試（在Llama 2 70B大模型上）結果，顯示B200的效能是達到了上一代的Hopper p00的4倍，即效能提升了300%。與此同時，AMD也公布了8個MI300X GPU在相同測試中的成績，達到了與輝達DGX p00（整合了8個p00）相當的成績。這也凸顯了輝達在AI芯片市場領導地位。

具體來說，單個輝達Blackwell B200 GPU 在AI推理測試中，可以每秒生成 10,755 個Token，在離線參考測試中可以每秒生成11,264 個Token。作為對比，雖然基於4個Hopper p00 GPU的伺服器提供了接近的結果，但是單個H00 GPU每秒生成的Token數僅有B200 GPU的約1/4。這也證明了輝達的說法，即單個Blackwell B200 GPU的速度達到了單個Hopper p00 GPU 的約3.7至4倍。但我們需要剖析這些數位以更好地理解它們。

首先，輝達的Blackwell B200 處理器使用的是 FP4 精度，因為其第五代 Tensor Core 支持該格式，而基於 Hopper 的 p00 則僅支持和使用 FP8。MLPerf 指南允許這些不同的格式，但 Blackwell B200中的 FP4 效能使其相比 FP8 吞吐量翻了一番，因此這是第一個需要註意的重要事項。

接下來，輝達在使用單個 B200 與四個 p00 GPU對比方面有些不公平。因為擴充套件從來都不是完美的，因此單個 GPU 往往是每個 GPU 效能的最佳情況。MLPerf 4.1 沒有列出單個 GPU p00 結果，只有一個 B200 結果，因此它們之間的對比並不公平。然而，單個 p00 的效能達到了每秒4,488 個Token，這意味著 B200 在該特定測試中，速度達到了p00的 2.5 倍，即快了150%。

另外，雙方之間HBM容量和頻寬的差異也是關鍵因素，並且存在很大的代際差異。經過測試的 B200 GPU 配備 180GB HBM3E 記憶體，p00 SXM 配備 80GB HBM（某些配置高達 96GB），p00 配備 96GB HBM3 和高達 144GB 的 HBM3E。具有 96GB HBM3 的單個 p00 在離線模式下僅達到了 3,114 個Token/秒。

因此，數位格式、GPU 數量、記憶體容量和配置存在潛在差異，這些差異會影響「高達 4 倍」的數位。其中許多差異僅僅是因為 Blackwell B200 是一款具有更新架構的新芯片，而所有這些都影響了其最終效能。

回到配備 141GB HBM3E 記憶體的輝達p00，它不僅在以 Llama 2 70B 大型語言模型為特色的生成式 AI 基準測試中也表現出色，而且在數據中心類別的每一項測試中都表現出色。出於顯而易見的原因，在利用 GPU 記憶體容量的測試中，它的速度明顯快於 p00。

再來看，AMD公布的MLPerf Inference 4.1測試（在Llama 2 70B大模型上）中其MI300X的成績。搭配AMD Genoa CPU及8個MI300X的伺服器在該AI推理測試中，效能達到了每秒21028個Token，而在離線參考測試中，效能達到了每秒223514個Token；其搭配AMD Turin CPU及8個MI300X的伺服器在AI推理測試中，效能達到了每秒22021個Token，在離線參考測試中，效能達到了24110個Token。

可以看到，這些測試當中，8卡的MI300X系統達到了接近輝達DGX p00系統的成績，差異大概在2-3%以內。如果看單個MI300X GPU的效能，在伺服器中每秒生成2520個Token，離線測試中每秒可生成3062個Token，達到了與輝達p00 GPU相當的水平。

綜合比較單個AMD MI300X與輝達p00和B200的MLPerf Inference 4.1測試（在Llama 2 70B大模型上）測試成績來看，輝達B200的成績也是遙遙領先於MI300X和p00，其效能平均達到了MI300X的4倍左右，也達到了p00的約2.5倍左右。這也進一步凸顯了輝達B200效能的領先性。

同樣需要指出的是，AMD MI300X配備了更大的192GB HBM，而B200則是180GB HBM，當然，MI300X的TDP功耗要更低，為750W。而輝達p00和B200的TDP功耗則高達1000W。

編輯：芯智訊-浪客劍