當前位置: 華文世界 > 科技

打破 AI 算力天花板,Meta超大規模AI基礎設施架構解讀

2024-05-07科技

Meta超大規模AI智算基礎設施架構設計

摘要

  1. 雙重 GPU 集群,每群配備 2.4 萬個 p00 芯片,分別采用 RoCE 和 InfiniBand 網絡連線。
  2. LLaMA3 就是在這兩個集群上訓練出來的
  3. Meta AI 將部署龐大算力集群,擁有 35 萬張 p00 GPU,相當於 60 萬張 p00 的總算力,助力突破性人工智能研究。

Meta打造兩個龐大AI集群,每個集群擁有2.4萬張GPU。該設計專註於計算、網絡和儲存的無縫整合,旨在推動人工智能的未來發展。

1 第一代 GPU 集群: 1.6w A100 (RSC)

Meta 自 2022 年起公開其強大的 AI 基礎設施,率先推出 Research SuperCluster (RSC),該集群由 16,000 個 A100 GPU 組成。RSC 為 Meta 的 AI 研究和開發提供了無與倫比的計算能力。

RSC為Meta AI開發提供技術支持,助力其構建將生成式AI融入各類套用,如電腦視覺、NLP、語音辨識、影像生成和編碼。RSC的先進能力顯著提升了Llama/llama2等AI模型的訓練效率。

2 第二代 GPU 集群:2.4w p00

精確數碼是每個集群 24,576 張 p00 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和經驗教訓,這包括,

  • 新集群能支持更大、更復雜的模型,為 GenAI產品開發和AI研究的進步 鋪平了道路。
  • Meta 自研關鍵技術,搭建先進基礎設施,每天高效執行萬億級 AI 任務。端到端最佳化確保數據中心高效執行,支撐著 Meta 的 AI 創新。

    左側:電腦櫃,包括GPU伺服器機框、fabric交換機等等;右側:儲存機櫃。

    2.1 計算: Grand Teton GPU 主機

    雙新集群采用 Grand Teton,這是 Meta 開發的一種開放的 GPU 硬件平台,已貢獻給開放計算專案 (OCP)。

    從2015年的Big Sur平台開始,Meta一直在開放設計GPU硬件平台。

    Grand Teton 實物圖如下,

  • 提供了快速可延伸性和靈活性,設計簡化,可以快速部署到數據中心,並易於維護和擴充套件。
  • 創新的Open Rack電源和機架架構相結合,可迅速構建和客製Meta當前和未來的集群,滿足不斷增長的應用程式需求。

    2.2 網絡

    兩個集群使用了不同的網絡方案,但都是 400Gbps 接入。

    2.2.1 集群一:400Gbps RoCE + 自研交換機

    基於 RoCE 網絡,使用的交換機包括

  • 自研置頂交換機( TOR )Wedge400 / Arista 7800 ,
  • 自研 模組化交換機 Minipack2。
  • Minipack/Minipack2 多用途交換機,可靈活部署為 Spine 交換機,滿足不同組網需求。
  • Minipack 創新(2019 年),重塑 Facebook 數據中心網絡,為下一代數據基礎設施樹立了新標桿。
  • 早期的數據中心網絡:
    Facebook 的下一代數據中心網絡:「數據中心 Fabric」(2014 年)
  • 2.2.2 集群二:400Gbps InfiniBand

    使用NVIDIA Quantum2 InfiniBand fabric。

    2.2.3 小結

    在評估大規模訓練中的 RoCE/IB 適用性和可延伸性時,對比研究表明:
    RoCE 和 IB 組網的集群均可處理大型生成式 AI 任務,例如 Llama 3 的訓練,且未遇網絡限制。
    這些發現為構建更大規模集群提供指導,有助於解決大型生成式 AI 訓練模型的網絡挑戰。

    2.3 儲存

    儲存在 AI 訓練中扮演著重要角色,然而相關的討論確非常少。

    人工智能任務的多模態性推動了對高效能儲存的需求。理想的解決方案應提供卓越效能,並在處理影像、影片和文本時保持低能耗。

    2.3.1 數據和 checkpoints 儲存:FUSE + Tectonic

    AI 集群的數據和 checkpoint 的儲存方案:

  • 上層是一個自研的 Linux 使用者空間檔案系統(FUSE)
  • Tectonic,Meta 的分布式儲存解決方案,專為快閃記憶體最佳化,為數據密集型應用程式提供無與倫比的效能和效率。
  • 這個解決方案使得

  • 同時還提供了 EB 級儲存系統所需的靈活性和高吞吐。
  • 2.3.2 互動式偵錯:Parallel NFS

    與 Hammerspace 合作開發的並列 NFS 系統,可支持數千個 GPU 的互動式偵錯。程式碼改動能瞬間同步到環境中的所有節點,顯著提升偵錯效率。

    Tectonic 分布式儲存與 Hammerspace 相結合,釋放了企業數據快速叠代的潛能,同時打破了規模限制。

    2.3.3 大容量 SSD + 客製每個機櫃的伺服器數量

    Tectonic 和 Hammerspace 解決方案均采用 YV3 Sierra Point 伺服器平台,整合了市場上最先進的高容量 E1.S SSD,提供卓越的效能和儲存容量。

    OCP 伺服器如同樂高積木,賦予儲存層靈活擴充套件性,滿足未來 AI 集群的增長需求,且不影響日常維護和操作,為數據中心提供敏捷高效的基礎架構。

    3 效能

    3.1 原則:效能和易用性缺一不可

    構建 AI 集群的關鍵是兼顧效能與易用性,避免顧此失彼。這種均衡至關重要,因為它確保了訓練出卓越的 AI 模型。

    最佳化大型系統設計的最佳方法是透過叠代構建和測試。小集群和大型集群的效能比較可以幫助辨識瓶頸。下圖以訊息大小為橫軸,歸一化頻寬(0-100)為縱軸,展示了當大量 GPU 互動時 AllGather 效能隨集群規模的變化。

    最佳化前:小型集群效能優異(90%+),大型集群效能低下(10%-90%)。
    最佳化後:透過系統化最佳化,大型集群效能飆升至理想的90%+,與小型集群齊頭並進。

    3.2 大集群最佳化

    最佳化大型集群效能:
    * 透過減少wait time提升效能85%。
    * 最佳化hash slot分配方式提升效能15%。

    1. 改進 job scheduler ,使其具備 網絡拓撲感知能力 ,這帶來的好處:
      1. 延遲降低
      2. 轉發到更上層網絡(交換機)的流量減少。
    2. 結合 NVIDIA NCCL ,最佳化了 網絡路由策略 ,以實作最優的網絡利用率。

    以上兩項最佳化使大集群的效能已經接近小集群。

    1. 訓練框架和模型團隊 密切合作,不斷改進基礎設施。例如,
      1. 並列技術最佳化,
      2. 儲存最佳化,
    2. 可偵錯性是大型訓練的主要障礙,在大規模情況下難以追蹤拖慢訓練行程的卡頓原因。
      為此,正在開發 desync 偵錯和分布式飛行記錄等工具,用於跟蹤分布式訓練流程,快速辨識問題。
    3. PyTorch 最佳化顯著提升訓練速度:
      透過最佳化行程組初始化,PyTorch 可支持數萬至數十萬 GPU 並列訓練。最佳化前,啟動時間可長達數小時,最佳化後縮減為幾分鐘。

    4 對Open AI innovation的承諾

    Meta 堅信開源技術的力量,旨在透過開放創新來解決行業難題:
    - Meta 堅定地致力於開源硬件和軟件。
    - 相信開源社區可加速 AI 領域的進步。

  • 持續支持開放硬件創新,成為 OCP 創始成員,已將 Grand Teton 和 Open Rack 等設計貢獻給社區,共創未來。
  • 作為 PyTorch 的最大和主要貢獻者,繼續推動這一AI軟件框架的開發和普及。
  • 繼續致力於 AI 研究社區的開放創新。
  • 匯聚 AI 先鋒,探索負責任的 AI 發展。我們倡導在開發大模型和大語言模型等技術時,堅持道德準則和社會影響考量。
  • 聯手 AI Alliance,一個領先 AI 組織組成的聯盟,加速負責任的 AI 創新,開啟開放社區的無限可能。
  • AI 工作建立在開放科學和協力合作的哲學之上。

    5 未來展望

    Meta為其未來 AI 願景打造了兩個強大的 AI 訓練集群。到 2024 年底,Meta 將擁有 35 萬張 p00 GPU,總算力相當於 60 萬張 p00,為其 AI 創新奠定了基礎。

    持續最佳化基礎設施,從硬件到業務層面,確保靈活可靠。評估和改進流程以滿足不斷演變的需求,支持創新模型和研究,打造未來準備就緒的系統。

    -對此,您有什麽看法見解?-

    -歡迎在評論區留言探討和分享。-