當前位置: 華文世界 > 科技

馬斯克宣布啟動全球最大AI集群,整合10萬個輝達H100 GPU

2024-07-23科技
7月23日,據國外媒體報道,馬斯克在其社交媒體上宣布,旗下AI初創公司xAI已開始在位於田納西州的所謂孟菲斯超級集群(training cluster)上進行訓練,號稱這是「全球最強大的AI訓練集群」。
馬斯克在X平台的宣布截圖華爾街見聞
據馬斯克介紹,這個集群由100,000個液冷p00 GPU組成,這些芯片是輝達去年開始提供的。
馬斯克還表示,該集群在單個RDMA結構(即遠端直接數據存取結構)上執行。據思科介紹,這種結構可以在計算節點之間提供更高效、更低延遲的數據傳輸,而不會給中央處理器(CPU)帶來負擔。
馬斯克今年5月曾透露這一計劃 ,將輝達p00串聯到一台巨型的超級電腦中,並稱其為「算力超級工廠」。
當時,馬斯克匆匆忙忙地開始了Supercluster的工作,需要購買輝達「Hopper」p00 GPU。這似乎表明,當時這位科技大亨沒有耐心等待 p00 芯片推出,更不用說即將推出的基於 Blackwell 的 B100 和 B200 GPU。盡管預計較新的 Nvidia Blackwell 數據中心 GPU 將在 2024 年底之前發貨。
馬斯克新浪科技
xAI的目標是到2024年12月訓練出「按每項指標衡量都是全球最強大的AI」。馬斯克表示,孟菲斯超級集群將為實作這一目標提供「顯著優勢」。
不過,據外媒表示,不要對這一時間節點報太大期望,因為馬斯克以公開提出並錯過許多專案(如全自動駕駛汽車、無人駕駛出租車產品Robotaxi和將人類送往火星)的最後期限而聞名。
馬斯克周一還表示,特斯拉將在明年小規模生產用於內部使用的Optimus機器人,並希望到2026年能大規模生產供其他公司使用。這比他之前承諾的時間表晚了。之前馬斯克宣稱到2024年底將在特斯拉工廠使用Optimus機器人,並在2025年交付給其他公司。
另外,Microsoft正在與OpenAI行政總裁Sam Altman(阿爾特曼)合作開發一個價值1000億美元的AI訓練超級電腦,代號為Stargate。如果這一專案取得成功,xAI的孟菲斯超級集群可能不會長期保持全球最強大的AI訓練集群地位。
心智觀察所研究員潘攻愚認為,馬斯克一直標榜特斯拉是一家人工智能和機器人公司。特斯拉大型工廠三班倒一刻不停地進行數據搜集用於AI訓練,馬斯克需要近10萬塊p00用於特斯拉FSD自動駕駛服務,為下半年推出Robotaxi做準備。不過如此大量的采購有兩個挑戰,一個是能耗。目前p00全年總能耗已經超過了格魯吉亞等小國全年所有的電量;一個是從訓練到推理的跳躍,畢竟p00用於推理的性價比並不高,會造成很多算力的「通貨膨脹」。
目前,輝達的股價正在走出另一波調整,馬斯克的最新言論為其註入一針強心劑。截至當地時間22日美股收盤,輝達上漲4.76%,特斯拉則上漲5.15%。
心智觀察所研究員呂棟指出,AI既是「暴力美學」,也是工程比拼,需要算力、演算法、數據的深度融合與經驗積累。
一方面,隨著計算量不斷攀升,單卡算力角色弱化,大模型訓練亟需一個超級工廠,即「大且通用」的加速計算平台,以縮短訓練時間,實作模型能力的快速叠代。隨著大模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集群已成為競賽入場券。
另一方面,建設萬卡或超萬卡集群並非一萬張GPU卡的簡單堆疊,而是一項高度復雜的系統工程。算力集群不是一個計算GPU,怎麽把它組織成算力網絡,相互之間通訊效率怎麽提高,怎麽實作MFU(算力利用率)達到60%的最優目標,這些都要靠網絡通訊、計算、儲存一起來解決。只有軟硬件結合,把整個集群算力發揮到最高,才能實作1+1>2的效果。
另外值得註意的是,在比拼算力和演算法之外,如何將人工智能基礎設施化,賦能全行業,中國正在做人工智能賦能實體經濟的道路探索。
中國工程院院士、中國科學院計算技術研究所所長孫凝暉認為,算力基礎設施的中國方案需要具備「兩低一高」,即在供給側,大振幅降低算力器件、算力器材、網絡連線、數據獲取、演算法模型呼叫、電力消耗、營運維護、開發部署的總成本,讓廣大中小企業都消費得起高品質的算力服務,有積極性開發算力網套用;在消費側,大振幅降低廣大使用者的算力使用門檻,面向大眾的公共服務必須做到易獲取、易使用,像水電一樣即開即用,像編寫網頁一樣輕松客製算力服務,開發算力網套用。在服務效率側,中國的算力服務要實作低熵高通量,其中高通量是指在實作高並行度服務的同時,端到端服務的響應時間可滿足率高;低熵是指在高並行負載中出現資源無序競爭的情況下,保障系統通量不急劇下降。保障「算得多」對中國尤其重要。
當前,中國也正在掀起建設萬卡集群的熱潮,像華為、中國移動、摩爾執行緒等廠商都在布局萬卡集群。