当前位置: 华文世界 > 科技

液冷AI服务器,出现瓶颈

2024-07-18科技

本文由半导体产业纵横(ID:ICVIEWS)综合

随着Blackwell芯片出货量的增加,客户采用液冷的意愿也会提升。

业内人士称,液冷解决方案的通用快速断开装置(UQD)供应已趋于紧张,这可能成为AI服务器液冷增长的主要瓶颈。

服务器ODM厂商指出,Nvidia的Blackwell AI芯片,包括B100和B200,将于今年开始出货,但GB200解决方案要到2024年底或2025年才会开始量产。

B100、B200客户目前大多仍采用风冷散热设计,不过据ODM厂商反映,液冷渗透率持续提升,预估随着Blackwell芯片出货量的增加,客户采用液冷的意愿也会提升。

扩大产能以应对液体冷却需求的增加

相关企业纷纷扩大生产,迎接液冷新时代。散热模块厂商晶晨科技计划将水冷板月产能从3万片提升10倍至30万片。

Auras 在泰国设立新工厂,以响应客户的地缘政治担忧和要求。该工厂预计将于第三季度开始量产。除了扩大冷板的本地产能外,Auras 还计划在本地生产冷却分配单元 (CDU) 和冷却液分配歧管 (CDM),计划月产能约为 2,000-3,000 套。

散热模组厂AVC在近期财报电话会议上指出,其中国及越南工厂的冷板模组月产能约为11.5万台,若以冷板计算,则月产量约42万台,AVC计划年底前将产能扩大50%。

AVC 还计划将 CDU 的月产能扩大至 1,000 台,将 CDM 的月产能扩大至 30,000 套。AVC 强调,这一计划产能可根据客户订单需求灵活调整。

热能技术公司高力热处理因客户对液冷产能需求增加,正扩大台湾中坜厂区产能,预计第三季末CDM月产能将从1,000台增至2,000台,年底将增至4,000台,行内CDU年产能也将在年底达到2,000台。

上述厂商均对液冷需求抱有较高期待,主要原因在于中国与欧盟的运算效率与数据中心PUE规范,但最重要因素还是Nvidia解除了对芯片厂商散热规格自我限制。

液冷快速增长导致UQD短缺

在大家热切期盼液冷时代来临之际,UQD成为成长的最大瓶颈,散热模块厂指出,近期UQD供货吃紧,虽然液冷目前市占率只有个位数,但未来若上升至两位数,UQD恐将一票难求。

UQD供应商多来自欧美,如美国大厂Parker Hannifin与CPC、瑞士Staubli International、丹麦Danfoss、瑞典Cejn等,台湾连接器零组件大厂Lotes也积极入市,并已开始送样。

安博科技董事长梁志坚指出,由于液冷最看重的是避免泄漏,而UQD是最容易发生泄漏的元件,因此UQD的供货是液冷元件中最紧张的。这不仅是技术问题,相关厂商也有专利保护,安博科技正在研究如何突破这些专利壁垒。

业界表示,UQD厂商有专利保护,但同时也需要经过层层验证,包括OCP认证、客户端验证等耗时耗力,加上现有欧美厂商无扩充产能意向,将成为液冷快速发展的主要瓶颈。

Supermicro 是成长最快的液冷厂商之一,创始人兼首席执行官梁见后指出,过去 30 年,液冷仅占服务器市场的 1%,但他预估 2025 年渗透率将跃升至 30%。

液体冷却成为潜在解决方案,人工智能繁荣给电网带来压力

生成式人工智能的快速发展推动了数据中心前所未有的扩张,引发了人们对其对电网影响的担忧。这些耗电设施可能会导致停电并增加能源成本。

据电力研究所估计,到2030年,数据中心可能消耗美国9%的电力,是目前的两倍。一个大型数据中心的用电量相当于数十万户家庭的用电量。

人工智能不断增加的电力需求尤其令人担忧。早期的人工智能模型消耗的电量是谷歌搜索的十倍,而较新的芯片对能源的需求甚至更高。专家警告称,未来人工智能的发展可能会受到我们产生足够电力的能力的限制。

一些国家面临严峻挑战。例如,到 2026 年,爱尔兰可能会有 30% 的电力用于数据中心。在美国,数据中心的用电集中在 15 个州,其中得克萨斯州和弗吉尼亚州最多。加利福尼亚州的情况危急,预计新建的数据中心可能会产生超过核电站发电量的电力需求。

数据中心:巨大的能源消耗和液体冷却的兴起

人工智能的计算需求正在推高服务器温度和碳排放,从而导致冷却系统需求大幅增加。冷却系统占数据中心总电力消耗的 40%,是仅次于服务器本身的第二大电力消耗来源。

全球服务器冷却市场预计将从 2024 年的 200 亿美元增长到 2027 年的 900 亿美元。数据中心的液体冷却系统预计将从 1% 增加到 22%,市场价值在未来三年内从 3.17 亿美元增长到 78 亿美元。

使用水或冷却剂来冷却服务器的液体冷却解决方案正日益流行。新技术包括浸入式冷却(将整个服务器机架浸入非导电液体中)和直接液体冷却(在服务器周围循环水)。虽然目前比空气冷却系统更昂贵,但液体冷却可以将数据中心的功耗降低 10% 或更多。

研究公司 Global Market Insights 预测,全球数据中心液体冷却市场规模将从 2022 年的 21 亿美元增长到 2032 年的 122 亿美元。Uptime Institute 的一项调查发现,16% 的数据中心经理认为液体冷却将在 1-3 年内成为数据中心的主要冷却方法,而 41% 的人认为这将需要 4-6 年。因此,混合冷却方法在短期内更有可能出现。

数据中心风冷系统管理领域的领导者Upsite Technologies指出,虽然技术在不断进步,但短期内不太可能实现100%液冷数据中心,液冷设备仍然需要风冷来散热。

虽然液体冷却也更高效,但难以大规模实施,而且需要大量的前期投资。空气冷却成本较低,但效率较低。因此,混合冷却设施正变得越来越受欢迎,以最大限度地发挥液体和空气冷却的优势。

数据中心能源危机引发紧急行动呼吁

由于数据中心对环境的影响,它们受到越来越多地关注。世界各国政府都在实施法规,以控制其能源消耗和碳足迹。中国的「绿色数据中心」指南以及德国、新加坡和日本的类似举措就是这一趋势的例子。

施耐德电气等行业专家强调,需要采用全面的环境指标来评估数据中心的可持续性。这包括能源使用以外的因素,例如水资源和废物产生。

美国政府正在向大型科技公司施压,要求他们投资清洁能源,并认识到生成人工智能不断增长的电力需求对环境产生的重大影响。

寻找合适的电源:数据中心和能源挑战

数据中心需要多样化的能源组合,以平衡可靠性和可持续性,满足不断增长的需求。

太阳能和风能等可再生能源因其低碳足迹而颇具吸引力。然而,它们对天气条件的依赖可能导致输出不稳定,因此不适合作为数据中心的唯一电源。建造冗余设施来弥补这种不一致性可能是必要的,但成本很高。

核电成为一种潜在的解决方案。传统核电站提供可靠的基载电力,产生对数据中心运营至关重要的稳定电力。此外,全球核电市场预计将在未来十年实现稳步增长。

核能领域的创新提供了更多有希望的可能性。小型模块化反应堆 (SMR) 正在开发中,作为传统核电站的更小、更安全、更具可扩展性的替代品。虽然仍处于研发阶段,但 SMR 有可能直接部署在数据中心,提供专用的清洁能源。

然而,SMR 的广泛应用面临重大障碍。监管和制造方面的挑战可能会使其商业部署推迟数年。美国政府正在积极探索解决方案,包括与科技巨头合作以降低成本并简化流程。

减少数据中心能源需求的另一种方法是优化人工智能工作负载。通过将一些人工智能任务从云端转移到具有较小、资源密集度较低的人工智能模型的本地设备,可以降低总体能耗。

数据中心的未来发展需要多管齐下。采用多元化的能源组合,包括核能等可靠能源,同时积极寻求 SMR 等可再生和创新解决方案至关重要。此外,优化本地设备上的 AI 工作负载可以进一步促进数据中心的可持续发展。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。