當前位置: 華文世界 > 科技

數據中心的功耗難題,液冷能解決嗎?

2024-07-12科技
耗能頗高的數據中心常被稱為「不冒煙的鋼廠」。這不僅是因為處理器執行消耗大量電力,也是因為數據中心需消耗更多能源,來冷卻高溫執行中的伺服器。幾年間,數據中心處理器功耗持續攀升,大模型更添一把「火」,業內正在尋找新的冷卻方式。
「原來一個機櫃40多U(長度單位),有那麽高,功耗不到8000瓦,現在常用於訓練或推理的4U八卡機功耗達到10千瓦,體積才那麽大一點。」近日一場采訪中,綠色雲圖總經理、網宿科技副總裁胡世軒用手比劃,向記者形容,伺服器機櫃變小了,但一台高度不到2分米的伺服器,現在卻成為功耗「怪獸」。
推高功耗表現的一大原因是AI。AI處理器功耗隨著效能提高而提高,傳統風冷不再適合。有業內人士告訴記者,目前各種液冷技術還在競賽,但從大趨勢看,液冷已逐漸成為新建智算中心的標配。
數據中心功耗難題
全球AI基礎設施競賽還在進行。與此同時,套用於AI場景的高效能芯片功耗越來越高。山西證券研報參照S&P Global數據稱,2017年主流芯片廠商TDP(熱設計功耗)僅200瓦左右,到2023年,一般GPU的TDP已經達到350~700瓦,輝達新一代B100功耗甚至超過1000瓦。
「原來一台伺服器功率大概500瓦、1000瓦,現在單張芯片就能達到500瓦了。」 胡世軒向記者形容。
高功耗導向高排放。谷歌近日在其年度環境報告中指出,2023年公司溫室瓦斯排放量達到1430萬噸碳當量,比2019年基準高出48%。谷歌2023年與能源相關的排放量同比增長37%,排放主要來自數據中心電力消耗。微軟總裁布拉德·史密斯5月也承認,公司的減排目標受到人工智慧戰略的影響。
高功耗導致芯片出現高溫,進而影響芯片效能,業內將這一現象成為「功耗墻」。冷卻成為必不可少的手段。一般而言,數據中心有約40%的功耗用於制冷系統。傳統數據中心多采用風冷等傳統冷卻方式,但因應對高功耗時的低能效,業內出現了取代風冷的聲音。
今年早些時候,輝達CEO黃仁勛表示,液冷技術將成為AI算力的下一個趨勢性領域。輝達從B100產品開始便采用液冷技術。「黃仁勛認為浸沒式液冷是未來方向,這是他的觀點,不一定代表業界對液冷技術走向的共識,但高功耗情況下,液冷確實是需要的。」一名伺服器業內人士告訴記者,如果說風冷是吹風扇、空調,液冷則像泡澡。
英特爾資深技術專家近日接受第一財經記者采訪時解釋,之所以風冷不適應高功耗場景,是因為傳統風冷風扇轉速越快、散熱效果越好、風扇轉動耗能越高,但轉速達到某個臨界點後散熱效果提升有限,功耗卻上升明顯。風冷對300瓦、350瓦功耗以上的處理器而言價效比不高。
記者從多名伺服器業內人士了解到,今年伺服器出貨增長較明顯的是智算中心常用的AI伺服器。「據我們觀察,新建數據中心的冷卻方式以液冷為主,風冷較少。我們和中國台灣、美國的產業上下遊廠商聊,發現大家的感覺都是‘今年跟以前明顯不一樣’。」 以上技術專家告訴記者,從存量市場看,多數數據中心仍采用風冷,應對高功耗時需透過加裝更多電風扇、做大散熱器等方式‘打修補程式’,確保已有處理器還能使用。但未來幾年,隨著數據中心逐漸轉向液冷,芯片廠商可能會轉向推出只考慮液冷環境下執行的芯片。埃克森美孚合成基礎油業務部門亞太行銷長王欣也感受到,今年數據中心伺服器冷卻液的需求有所增長。
粗略分,液冷目前主要有兩種方式,冷板式液冷不需要浸沒芯片,浸沒式液冷則是將整台伺服器包括芯片浸在液體中,由液體帶走熱量。胡世軒向記者形容,做通用計算的數據中心發熱量不大,沒有必要打破由冷機、空調降溫的方式,而當智算中心單U功耗達0.5千瓦的臨界值時,液冷的效果和價效比都更高。
「液冷和風冷相比,數據中心能節省20%以上能耗,我判斷其中用在制冷上的能耗可節省80%以上。風冷數據中心PUE(數據中心電能利用效率)一般在1.5左右,有的地方要求做到1.3,從我們做的計畫看,浸沒式液冷數據中心PUE則能做到1.1以下。」 胡世軒表示。
仍在發展初期
液冷能以較低能耗冷卻數據中心的處理器,但作為相對新興的技術,目前部署液冷的價格仍偏高,各種液冷技術也仍在爭流。
液冷有一些技術挑戰需要攻克。王欣告訴記者,浸沒式液體把伺服器所有硬體泡在裏面,材料相容是關鍵難題,此外,需要解決訊號穩定性、散熱性等問題,冷卻液廠商需要持續研發和更新。
此外,記者了解到,目前各方對冷卻方案的選擇各有判斷,共識還未形成。據市場研究機構IDC數據,去年國內液冷伺服器市場規模增長52.6%,其中95%采用冷板式液冷。技術路線上看,冷板式和浸沒式都有單相和兩相兩種技術路線,單相采用氟碳化合物或合成油,雙相目前只有氟碳化合物散熱能力較高。
上述英特爾資深技術專家表示,單相冷板散熱效果出色、業界采用較多,但無法根除液體泄漏風險。兩相冷板所用的氟化物冷卻液泄漏後不會造成電路短路,但氟化物對環境有影響。氟化物在國際上有減少或禁止使用的趨勢,英特爾目前支持基於合成油的單相冷板和單相浸沒式液冷技術。產業鏈也在根據目前的技術挑戰做調整。王欣表示,氟化液冷卻液非常穩定,在自然界中不容易降解且價格較高,公司推出對環境影響較小的無PFAS(全氟和多氟烷基物質)浸沒式冷卻液,正與產業鏈合作,滿足浸沒式冷卻場景的技術指標。
整體而言,上述英特爾資深技術專家告訴記者,現在液冷還沒有某種技術比另一種技術更有統治性優勢,未來需求也還不明確,每個技術都有優缺點,而且為了適應未來需求還在繼續演進。另有業內人士告訴記者,液冷上遊供應鏈有不少廠家,技術有壁壘,競爭也較激烈。
價格方面,胡世軒告訴記者,浸沒式和冷板式液冷的價格今年都在往下走。建造成本看,浸沒式液冷比傳統風冷貴5%~8%,但預計部署規模增大後,兩年內可以做到風液同價。冷卻液廠商也在推動冷卻液叠代降價,現在已有產品價格比氟化物冷卻液低很多。
目前,液冷產業鏈上遊為零部件及液冷裝置廠商,國產廠商包括英維克、綠色雲圖等,中遊為液冷伺服器及芯片廠商、液冷整合設施廠商,包括中興、浪潮、曙光、新華三等。產業鏈已形成一些合作。英特爾與綠色雲圖、立訊精密、埃克森美孚等合作開發液冷解決方案,6月推出PUE低於1.05的G-Tank浸沒式冷卻解決方案。輝達則與液冷裝置提供商Vertiv合作,超微電腦也針對輝達芯片推出液冷系統。
從相關性較大的產業鏈上市企業看,部份股價或業績受液冷需求增長催化,但整體冷熱不均。Vertiv股價從年初的每股45美元左右漲至美股7月11日92.86美元/股。英維克7月11日釋出今年上半年業績預告,稱機房溫控節能產品增長較快,上半年凈利潤業績增長80%~110%。全棧布局液冷的伺服器廠商浪潮2023年曾受專用芯片供應緊張影響,營收、凈利潤均同比減少,今年上半年預計營收同比增長60%以上。
今年第一季度,中科曙光旗下布局數據中心冷卻技術的曙光數創營收則同比下降94.22%,凈利潤虧損,公司相關負責人5月在投資者活動上提及,冷板產品門檻低於比浸沒液冷產品,仍處於發展初期,很多同行業公司都在進入冷板市場搶奪份額,導致競爭激烈,公司目前以搶占市場份額為主,長遠看預計毛利會改善。
(本文來自第一財經)