當前位置: 華文世界 > 科技

液冷AI伺服器,出現瓶頸

2024-07-18科技

本文由半導體產業縱橫(ID:ICVIEWS)綜合

隨著Blackwell芯片出貨量的增加,客戶采用液冷的意願也會提升。

業內人士稱,液冷解決方案的通用快速斷開裝置(UQD)供應已趨於緊張,這可能成為AI伺服器液冷增長的主要瓶頸。

伺服器ODM廠商指出,Nvidia的Blackwell AI芯片,包括B100和B200,將於今年開始出貨,但GB200解決方案要到2024年底或2025年才會開始量產。

B100、B200客戶目前大多仍采用風冷散熱設計,不過據ODM廠商反映,液冷滲透率持續提升,預估隨著Blackwell芯片出貨量的增加,客戶采用液冷的意願也會提升。

擴大產能以應對液體冷卻需求的增加

相關企業紛紛擴大生產,迎接液冷新時代。散熱模組廠商晶晨科技計劃將水冷板月產能從3萬片提升10倍至30萬片。

Auras 在泰國設立新工廠,以響應客戶的地緣政治擔憂和要求。該工廠預計將於第三季度開始量產。除了擴大冷板的本地產能外,Auras 還計劃在本地生產冷卻分配單元 (CDU) 和冷卻液分配歧管 (CDM),計劃月產能約為 2,000-3,000 套。

散熱模組廠AVC在近期財報電話會議上指出,其中國及越南工廠的冷板模組月產能約為11.5萬台,若以冷板計算,則月產量約42萬台,AVC計劃年底前將產能擴大50%。

AVC 還計劃將 CDU 的月產能擴大至 1,000 台,將 CDM 的月產能擴大至 30,000 套。AVC 強調,這一計劃產能可根據客戶訂單需求靈活調整。

熱能技術公司高力熱處理因客戶對液冷產能需求增加,正擴大台灣中壢廠區產能,預計第三季末CDM月產能將從1,000台增至2,000台,年底將增至4,000台,行內CDU年產能也將在年底達到2,000台。

上述廠商均對液冷需求抱有較高期待,主要原因在於中國與歐盟的運算效率與數據中心PUE規範,但最重要因素還是Nvidia解除了對芯片廠商散熱規格自我限制。

液冷快速增長導致UQD短缺

在大家熱切期盼液冷時代來臨之際,UQD成為成長的最大瓶頸,散熱模組廠指出,近期UQD供貨吃緊,雖然液冷目前市占率只有個位數,但未來若上升至兩位數,UQD恐將一票難求。

UQD供應商多來自歐美,如美國大廠Parker Hannifin與CPC、瑞士Staubli International、丹麥Danfoss、瑞典Cejn等,台灣連結器零元件大廠Lotes也積極入市,並已開始送樣。

安博科技董事長梁誌堅指出,由於液冷最看重的是避免泄漏,而UQD是最容易發生泄漏的元件,因此UQD的供貨是液冷元件中最緊張的。這不僅是技術問題,相關廠商也有專利保護,安博科技正在研究如何突破這些專利壁壘。

業界表示,UQD廠商有專利保護,但同時也需要經過層層驗證,包括OCP認證、客戶端驗證等耗時耗力,加上現有歐美廠商無擴充產能意向,將成為液冷快速發展的主要瓶頸。

Supermicro 是成長最快的液冷廠商之一,創始人兼行政總裁梁見後指出,過去 30 年,液冷僅占伺服器市場的 1%,但他預估 2025 年滲透率將躍升至 30%。

液體冷卻成為潛在解決方案,人工智能繁榮給電網帶來壓力

生成式人工智能的快速發展推動了數據中心前所未有的擴張,引發了人們對其對電網影響的擔憂。這些耗電設施可能會導致停電並增加能源成本。

據電力研究所估計,到2030年,數據中心可能消耗美國9%的電力,是目前的兩倍。一個大型數據中心的用電量相當於數十萬戶家庭的用電量。

人工智能不斷增加的電力需求尤其令人擔憂。早期的人工智能模型消耗的電量是谷歌搜尋的十倍,而較新的芯片對能源的需求甚至更高。專家警告稱,未來人工智能的發展可能會受到我們產生足夠電力的能力的限制。

一些國家面臨嚴峻挑戰。例如,到 2026 年,愛爾蘭可能會有 30% 的電力用於數據中心。在美國,數據中心的用電集中在 15 個州,其中德薩斯州和維珍尼亞州最多。加利福尼亞州的情況危急,預計新建的數據中心可能會產生超過核電站發電量的電力需求。

數據中心:巨大的能源消耗和液體冷卻的興起

人工智能的計算需求正在推高伺服器溫度和碳排放,從而導致冷卻系統需求大幅增加。冷卻系統占數據中心總電力消耗的 40%,是僅次於伺服器本身的第二大電力消耗來源。

全球伺服器冷卻市場預計將從 2024 年的 200 億美元增長到 2027 年的 900 億美元。數據中心的液體冷卻系統預計將從 1% 增加到 22%,市場價值在未來三年內從 3.17 億美元增長到 78 億美元。

使用水或冷卻劑來冷卻伺服器的液體冷卻解決方案正日益流行。新技術包括浸入式冷卻(將整個伺服器機架浸入非導電液體中)和直接液體冷卻(在伺服器周圍迴圈水)。雖然目前比空氣冷卻系統更昂貴,但液體冷卻可以將數據中心的功耗降低 10% 或更多。

研究公司 Global Market Insights 預測,全球數據中心液體冷卻市場規模將從 2022 年的 21 億美元增長到 2032 年的 122 億美元。Uptime Institute 的一項調查發現,16% 的數據中心經理認為液體冷卻將在 1-3 年內成為數據中心的主要冷卻方法,而 41% 的人認為這將需要 4-6 年。因此,混合冷卻方法在短期內更有可能出現。

數據中心風冷系統管理領域的領導者Upsite Technologies指出,雖然技術在不斷進步,但短期內不太可能實作100%液冷數據中心,液冷器材仍然需要風冷來散熱。

雖然液體冷卻也更高效,但難以大規模實施,而且需要大量的前期投資。空氣冷卻成本較低,但效率較低。因此,混合冷卻設施正變得越來越受歡迎,以最大限度地發揮液體和空氣冷卻的優勢。

數據中心能源危機引發緊急行動呼籲

由於數據中心對環境的影響,它們受到越來越多地關註。世界各國政府都在實施法規,以控制其能源消耗和碳足跡。中國的「綠色數據中心」指南以及德國、新加坡和日本的類似舉措就是這一趨勢的例子。

舒妮達電氣等行業專家強調,需要采用全面的環境指標來評估數據中心的可持續性。這包括能源使用以外的因素,例如水資源和廢物產生。

美國政府正在向大型科技公司施壓,要求他們投資清潔能源,並認識到生成人工智能不斷增長的電力需求對環境產生的重大影響。

尋找合適的電源:數據中心和能源挑戰

數據中心需要多樣化的能源組合,以平衡可靠性和可持續性,滿足不斷增長的需求。

太陽能和風能等可再生能源因其低碳足跡而頗具吸重力。然而,它們對天氣條件的依賴可能導致輸出不穩定,因此不適合作為數據中心的唯一電源。建造冗余設施來彌補這種不一致性可能是必要的,但成本很高。

核電成為一種潛在的解決方案。傳統核電站提供可靠的基載電力,產生對數據中心營運至關重要的穩定電力。此外,全球核電市場預計將在未來十年實作穩步增長。

核能領域的創新提供了更多有希望的可能性。小型模組化反應堆 (SMR) 正在開發中,作為傳統核電站的更小、更安全、更具可延伸性的替代品。雖然仍處於研發階段,但 SMR 有可能直接部署在數據中心,提供專用的清潔能源。

然而,SMR 的廣泛套用面臨重大障礙。監管和制造方面的挑戰可能會使其商業部署推遲數年。美國政府正在積極探索解決方案,包括與科技巨頭合作以降低成本並簡化流程。

減少數據中心能源需求的另一種方法是最佳化人工智能工作負載。透過將一些人工智能任務從雲端轉移到具有較小、資源密集度較低的人工智能模型的本地器材,可以降低總體能耗。

數據中心的未來發展需要多管齊下。采用多元化的能源組合,包括核能等可靠能源,同時積極尋求 SMR 等可再生和創新解決方案至關重要。此外,最佳化本地器材上的 AI 工作負載可以進一步促進數據中心的可持續發展。

*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系後台。