全球科技巨头万卡算力集群布局进展

2024-07-28科技

在全球范围内，科技巨头们正纷纷加大投入，布局高性能算力集群，以满足人工智能不断增长的计算需求。由于单卡算力相对有限，为了缩短训练时间，通常采用分布式训练技术，通过多台节点构建出一个计算能力和显存能力超大的集群。从建设进度上看海外头部厂商在2022年、2023年已经完成万卡集群搭建，国内头部互联网厂商和电信运营商也加速万卡集群建设布局

1. **谷歌**：2023年5月，谷歌推出的AI超级计算机A3，搭载了约26000块英伟达p00 GPU，这一壮举不仅体现了谷歌在AI领域的技术领先，也为其在机器学习和深度学习研究中的应用提供了强大的算力支持

2. **META**：在2022年，META宣布了一个由1.6万块英伟达A100 GPU组成的集群。到了2024年初，META进一步扩大规模，建成了两个各含24576块GPU的集群，并设定了宏伟目标：到2024年底，构建一个包含35万块英伟达p00 GPU的庞大基础设施，以支撑其元宇宙和AI研究的雄心

3. **微软**：早在2020年，微软便构建了一个覆盖1万块GPU的超级计算机，这一举措不仅加速了其在云计算和AI服务领域的发展，也为全球研究人员和企业提供了强大的计算资源

4. **亚马逊**：Amazon EC2 Ultra集群采用了2万个p00 TensorCore GPU，这一集群的推出，为用户提供了前所未有的计算能力，特别是在处理大规模数据分析和机器学习任务方面

5. **特斯拉**：2023年8月，特斯拉上线了一个集成1万块英伟达p00 GPU的集群，这一集群的投入使用，将极大提升特斯拉在自动驾驶和车辆智能化方面的研发速度

6. **华为**：2023年7月，华为宣布其集群规模从4000卡扩展至16000卡，实现了万卡AI集群的部署，这一进展不仅体现了华为在硬件和软件协同优化方面的能力，也为华为在AI领域的研究和应用提供了坚实的支撑

7. **腾讯**：推出的星脉高性能网络，能够支持高达10万卡GPU的超大规模计算，网络带宽高达3.2T，这一网络的建设，不仅提升了腾讯云服务的竞争力，也为未来的AI和大数据应用提供了广阔的空间

8. **字节跳动**：提出的MegaScale生产系统，支撑12288卡Ampere架构训练集群，这一系统的推出，为字节跳动在内容推荐、图像处理等AI应用提供了强大的算力保障

9. **科大讯飞**：2023年10月，科大讯飞宣布启动万卡集群算力平台「飞星一号」，这一平台的建立，将助力科大讯飞在智能语音和人工智能领域的研究和应用更上一层楼

10. **中国移动**：计划今年商用哈尔滨、呼和浩特、贵阳三个自主可控的万卡集群，总规模接近6万张GPU卡，这一举措将有力推动中国移动在5G和AI领域的融合创新

11. **中国电信**：计划在2024年上半年在上海规划建设一个达到15000卡、总计算力超过4500P的国产万卡算力池，这将是国内首个超大规模国产算力液冷集群。2024年3月，天翼云上海临港国产万卡算力池已正式启用，标志着中国电信在云计算和AI服务领域的重大突破

12. **中国联通**：计划在今年内，在上海临港国际云数据中心建成中国联通首个万卡集群，这一集群的建成，将为中国联通在数据中心和云计算市场提供新的竞争优势

这些布局不仅展示了科技巨头们在AI领域的雄心壮志，也预示着未来AI技术的发展将更加迅猛。让我们一起期待，这些强大的算力集群将如何改变世界