IT之家 7 月 24 日訊息,埃隆馬斯克的孟菲斯超級計算集群(Memphis Supercluster)已上線,據馬斯克介紹稱,該集群在單個 RDMA fabric 上使用 10 萬張液冷 p00,是 「世界上最強大的 AI 訓練集群」。
如此龐大的算力自然需要驚人的電力供應,每個 p00 GPU 至少消耗 700 瓦電力,這意味著整個數據中心同時執行需要超過 70 兆瓦的電力,這還不包括其他伺服器、網絡和冷卻器材的耗電量。令人驚訝的是,由於與當地電網的供電協定尚未敲定,馬斯克目前使用 14 台大型移動發電機為這個巨型設施供電。
AI 和半導體分析師 Dylan Patel 最初在社交媒體上表示,由於電力限制,馬斯克的孟菲斯超級計算集群可能無法執行。他指出,目前僅從電網抽取了 7 兆瓦電力,只能支持約 4000 個 GPU 執行。田納西河谷管理局(TVA)將在 8 月 1 日之前向該設施提供 50 兆瓦電力,前提是 xAI 能簽署相關協定。Patel 還觀察到,xAI 場地的 150 兆瓦變電站仍在建設中,預計將於 2024 年第四季度完工。
然而,透過衛星影像分析,Patel 很快發推文稱他發現了馬斯克的解決辦法 —— 使用 14 台 VoltaGrid 移動發電機連線到看起來像四個移動變電站的器材。
每台半掛車大小的發電機可提供 2.5 兆瓦電力,14 台總共能提供驚人的 35 兆瓦電力。加上從電網獲得的 8 兆瓦電力,總共為 43 兆瓦,足以以有限功率執行 3.2 萬個 p00 GPU。
如果田納西河谷管理局在 8 月初為其提供所需的 50 兆瓦電力,馬斯克將有足夠的電力同時執行 6.4 萬個 GPU。Patel 表示, 執行 10 萬個 GPU 需要 155 兆瓦電力 ,但 xAI 需要變電站才能達到這個水平。因此,要麽變電站提前完工,要麽馬斯克將部署更多移動發電機來滿足電力需求。
巨大的電力消耗及其對全球暖化的影響是目前 AI 數據中心面臨的主要問題。僅 2023 年售出的所有數據中心 GPU 的耗電量就超過了 130 萬個普通美國家庭耗電量的總和,給電網帶來了巨大壓力。而且,僅僅建設更多的發電廠並不能滿足數據中心的需求,還需要建設高壓輸電路線、變電站等額外基礎設施,才能將電力從發電廠輸送到伺服器。
除了建設 AI 計算所需電廠的時間和成本外,還必須考慮溫室氣體排放。雖然馬斯克在孟菲斯超級計算集群部署的移動發電機使用天然氣作為燃料(比煤炭或石油更清潔), 但在執行過程中仍然會向大氣中排放碳。
IT之家註意到,谷歌最近透露,由於數據中心能源需求,其碳足跡自 2019 年以來增長了 48%。因此可以預見,除非馬斯克轉向更清潔的能源生產方式,否則 xAI 也將面臨同樣的問題。
馬斯克正全力推動 xAI 成為 AI 開發領域的領跑者,並為此不惜一切手段。希望使用移動發電機只是暫時的解決方案,孟菲斯超級電腦集群需要過渡到更清潔的能源,而田納西河谷管理局可以提供這種能源。由於後者使用核能、水電和化石燃料發電的組合,如果 xAI 從其采購電力而不是依賴僅使用天然氣的移動發電機,其碳足跡會更小。