打破 AI 算力天花板，Meta超大規模AI基礎設施架構解讀

2024-05-07科技

Meta超大規模AI智算基礎設施架構設計

摘要

雙重 GPU 集群，每群配備 2.4 萬個 p00 芯片，分別采用 RoCE 和 InfiniBand 網路連線。
LLaMA3 就是在這兩個集群上訓練出來的 ；
Meta AI 將部署龐大算力集群，擁有 35 萬張 p00 GPU，相當於 60 萬張 p00 的總算力，助力突破性人工智慧研究。

Meta打造兩個龐大AI集群，每個集群擁有2.4萬張GPU。該設計專註於計算、網路和儲存的無縫整合，旨在推動人工智慧的未來發展。

1 第一代 GPU 集群： 1.6w A100 (RSC)

Meta 自 2022 年起公開其強大的 AI 基礎設施，率先推出 Research SuperCluster (RSC)，該集群由 16,000 個 A100 GPU 組成。RSC 為 Meta 的 AI 研究和開發提供了無與倫比的計算能力。

RSC為Meta AI開發提供技術支持，助力其構建將生成式AI融入各類套用，如電腦視覺、NLP、語音辨識、影像生成和編碼。RSC的先進能力顯著提升了Llama/llama2等AI模型的訓練效率。

2 第二代 GPU 集群：2.4w p00

精確數位是每個集群 24,576 張 p00 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和經驗教訓，這包括，

新集群能支持更大、更復雜的模型，為 GenAI產品開發和AI研究的進步 鋪平了道路。

Meta 自研關鍵技術，搭建先進基礎設施，每天高效執行萬億級 AI 任務。端到端最佳化確保數據中心高效執行，支撐著 Meta 的 AI 創新。

左側：電腦櫃，包括GPU伺服器機框、fabric交換機等等；右側：儲存機櫃。

2.1 計算： Grand Teton GPU 主機

雙新集群采用 Grand Teton，這是 Meta 開發的一種開放的 GPU 硬體平台，已貢獻給開放計算計畫 (OCP)。

從2015年的Big Sur平台開始，Meta一直在開放設計GPU硬體平台。

Grand Teton 實物圖如下，

提供了快速可延伸性和靈活性，設計簡化，可以快速部署到數據中心，並易於維護和擴充套件。

創新的Open Rack電源和機架架構相結合，可迅速構建和客製Meta當前和未來的集群，滿足不斷增長的應用程式需求。

2.2 網路

兩個集群使用了不同的網路方案，但都是 400Gbps 接入。

2.2.1 集群一：400Gbps RoCE + 自研交換機

基於 RoCE 網路，使用的交換機包括

自研置頂交換機（ TOR ）Wedge400 / Arista 7800 ，

自研 模組化交換機 Minipack2。

Minipack/Minipack2 多用途交換機，可靈活部署為 Spine 交換機，滿足不同組網需求。

Minipack 創新（2019 年），重塑 Facebook 數據中心網路，為下一代數據基礎設施樹立了新標桿。

早期的數據中心網路：
Facebook 的下一代數據中心網路：「數據中心 Fabric」（2014 年）

2.2.2 集群二：400Gbps InfiniBand

使用NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小結

在評估大規模訓練中的 RoCE/IB 適用性和可延伸性時，對比研究表明：
RoCE 和 IB 組網的集群均可處理大型生成式 AI 任務，例如 Llama 3 的訓練，且未遇網路限制。
這些發現為構建更大規模集群提供指導，有助於解決大型生成式 AI 訓練模型的網路挑戰。

2.3 儲存

儲存在 AI 訓練中扮演著重要角色，然而相關的討論確非常少。

人工智慧任務的多模態性推動了對高效能儲存的需求。理想的解決方案應提供卓越效能，並在處理影像、視訊和文本時保持低能耗。

2.3.1 數據和 checkpoints 儲存：FUSE + Tectonic

AI 集群的數據和 checkpoint 的儲存方案：

上層是一個自研的 Linux 使用者空間檔案系統（FUSE）

Tectonic，Meta 的分布式儲存解決方案，專為快閃記憶體最佳化，為數據密集型應用程式提供無與倫比的效能和效率。

這個解決方案使得

同時還提供了 EB 級儲存系統所需的靈活性和高吞吐。

2.3.2 互動式偵錯：Parallel NFS

與 Hammerspace 合作開發的並列 NFS 系統，可支持數千個 GPU 的互動式偵錯。程式碼改動能瞬間同步到環境中的所有節點，顯著提升偵錯效率。

Tectonic 分布式儲存與 Hammerspace 相結合，釋放了企業數據快速叠代的潛能，同時打破了規模限制。

2.3.3 大容量 SSD + 客製每個機櫃的伺服器數量

Tectonic 和 Hammerspace 解決方案均采用 YV3 Sierra Point 伺服器平台，整合了市場上最先進的高容量 E1.S SSD，提供卓越的效能和儲存容量。

OCP 伺服器如同樂高積木，賦予儲存層靈活擴充套件性，滿足未來 AI 集群的增長需求，且不影響日常維護和操作，為數據中心提供敏捷高效的基礎架構。

3 效能

3.1 原則：效能和易用性缺一不可

構建 AI 集群的關鍵是兼顧效能與易用性，避免顧此失彼。這種均衡至關重要，因為它確保了訓練出卓越的 AI 模型。

最佳化大型系統設計的最佳方法是透過叠代構建和測試。小集群和大型集群的效能比較可以幫助辨識瓶頸。下圖以訊息大小為橫軸，歸一化頻寬（0-100）為縱軸，展示了當大量 GPU 互動時 AllGather 效能隨集群規模的變化。

最佳化前：小型集群效能優異（90%+），大型集群效能低下（10%-90%）。
最佳化後：透過系統化最佳化，大型集群效能飆升至理想的90%+，與小型集群齊頭並進。

3.2 大集群最佳化

最佳化大型集群效能：
* 透過減少wait time提升效能85%。
* 最佳化hash slot分配方式提升效能15%。

改進 job scheduler ，使其具備 網路拓撲感知能力 ，這帶來的好處：
1. 延遲降低
2. 轉發到更上層網路（交換機）的流量減少。
結合 NVIDIA NCCL ，最佳化了 網路路由策略 ，以實作最優的網路利用率。

以上兩項最佳化使大集群的效能已經接近小集群。

與 訓練框架和模型團隊 密切合作，不斷改進基礎設施。例如，
1. 並列技術最佳化，
2. 儲存最佳化，
可偵錯性是大型訓練的主要障礙，在大規模情況下難以追蹤拖慢訓練行程的卡頓原因。
為此，正在開發 desync 偵錯和分布式飛行記錄等工具，用於跟蹤分布式訓練流程，快速辨識問題。
PyTorch 最佳化顯著提升訓練速度：
透過最佳化行程組初始化，PyTorch 可支持數萬至數十萬 GPU 並列訓練。最佳化前，啟動時間可長達數小時，最佳化後縮減為幾分鐘。

4 對Open AI innovation的承諾

Meta 堅信開源技術的力量，旨在透過開放創新來解決行業難題：
- Meta 堅定地致力於開源硬體和軟體。
- 相信開源社群可加速 AI 領域的進步。

持續支持開放硬體創新，成為 OCP 創始成員，已將 Grand Teton 和 Open Rack 等設計貢獻給社群，共創未來。

作為 PyTorch 的最大和主要貢獻者，繼續推動這一AI軟體框架的開發和普及。

繼續致力於 AI 研究社群的開放創新。

匯聚 AI 先鋒，探索負責任的 AI 發展。我們倡導在開發大模型和大語言模型等技術時，堅持道德準則和社會影響考量。

聯手 AI Alliance，一個領先 AI 組織組成的聯盟，加速負責任的 AI 創新，開啟開放社群的無限可能。

AI 工作建立在開放科學和協力合作的哲學之上。

5 未來展望

Meta為其未來 AI 願景打造了兩個強大的 AI 訓練集群。到 2024 年底，Meta 將擁有 35 萬張 p00 GPU，總算力相當於 60 萬張 p00，為其 AI 創新奠定了基礎。

持續最佳化基礎設施，從硬體到業務層面，確保靈活可靠。評估和改進流程以滿足不斷演變的需求，支持創新模型和研究，打造未來準備就緒的系統。

-對此，您有什麽看法見解？-