在全球範圍內,科技巨頭們正紛紛加大投入,布局高效能算力集群,以滿足人工智慧不斷增長的計算需求。由於單卡算力相對有限,為了縮短訓練時間,通常采用分布式訓練技術,透過多台節點構建出一個計算能力和視訊記憶體能力超大的集群。從建設進度上看海外頭部廠商在2022年、2023年已經完成萬卡集群搭建,國內頭部互聯網廠商和電信業者也加速萬卡集群建設布局
1. **谷歌**:2023年5月,谷歌推出的AI超級電腦A3,搭載了約26000塊輝達p00 GPU,這一壯舉不僅體現了谷歌在AI領域的技術領先,也為其在機器學習和深度學習研究中的套用提供了強大的算力支持
2. **META**:在2022年,META宣布了一個由1.6萬塊輝達A100 GPU組成的集群。到了2024年初,META進一步擴大規模,建成了兩個各含24576塊GPU的集群,並設定了宏偉目標:到2024年底,構建一個包含35萬塊輝達p00 GPU的龐大基礎設施,以支撐其元宇宙和AI研究的雄心
3. **微軟**:早在2020年,微軟便構建了一個覆蓋1萬塊GPU的超級電腦,這一舉措不僅加速了其在雲端運算和AI服務領域的發展,也為全球研究人員和企業提供了強大的計算資源
4. **亞馬遜**:Amazon EC2 Ultra集群采用了2萬個p00 TensorCore GPU,這一集群的推出,為使用者提供了前所未有的計算能力,特別是在處理大規模數據分析和機器學習任務方面
5. **特斯拉**:2023年8月,特斯拉上線了一個整合1萬塊輝達p00 GPU的集群,這一集群的投入使用,將極大提升特斯拉在自動駕駛和車輛智慧化方面的研發速度
6. **華為**:2023年7月,華為宣布其集群規模從4000卡擴充套件至16000卡,實作了萬卡AI集群的部署,這一進展不僅體現了華為在硬體和軟體協同最佳化方面的能力,也為華為在AI領域的研究和套用提供了堅實的支撐
7. **騰訊**:推出的星脈高效能網路,能夠支持高達10萬卡GPU的超大規模計算,網路頻寬高達3.2T,這一網路的建設,不僅提升了騰訊雲服務的競爭力,也為未來的AI和大數據套用提供了廣闊的空間
8. **字節跳動**:提出的MegaScale生產系統,支撐12288卡Ampere架構訓練集群,這一系統的推出,為字節跳動在內容推薦、影像處理等AI套用提供了強大的算力保障
9. **科大訊飛**:2023年10月,科大訊飛宣布啟動萬卡集群算力平台「飛星一號」,這一平台的建立,將助力科大訊飛在智慧語音和人工智慧領域的研究和套用更上一層樓
10. **中國移動**:計劃今年商用哈爾濱、呼和浩特、貴陽三個自主可控的萬卡集群,總規模接近6萬張GPU卡,這一舉措將有力推動中國移動在5G和AI領域的融合創新
11. **中國電信**:計劃在2024年上半年在上海規劃建設一個達到15000卡、總計算力超過4500P的國產萬卡算力池,這將是國內第一個超大規模國產算力液冷集群。2024年3月,天翼雲上海臨港國產萬卡算力池已正式啟用,標誌著中國電信在雲端運算和AI服務領域的重大突破
12. **中國聯通**:計劃在今年內,在上海臨港國際雲數據中心建成中國聯通第一個萬卡集群,這一集群的建成,將為中國聯通在數據中心和雲端運算市場提供新的有利競爭
這些布局不僅展示了科技巨頭們在AI領域的雄心壯誌,也預示著未來AI技術的發展將更加迅猛。讓我們一起期待,這些強大的算力集群將如何改變世界