當前位置: 華文世界 > 科技

算力底座升級,減碳、算力「全都要」丨ToB產業觀察

2024-10-14科技

【中國綜合算力指數報告(2024)】中顯示,截至2024年6月,中國在用算力中心的機架數量超過830萬,算力規模達到246 EFLOPS(以FP32精度計算),智慧算力同比增速超過65%。中國在2025年的目標是算力規模超過300 EFLOPS。

透過數據可以看出,智慧算力中心已經成為未來數據中心建設的主要趨勢和方向。

算力底座步入AIDC時代

智算中心的火爆可以說一大半的功勞要歸功於以ChatGPT為代表的人工智慧技術在各行各業掀起了新一輪的革命,讓智算中心成為當下炙手可熱的存在。

回看整個數據中心產業發展可以大致分為三個階段,第一個階段,2010年以前,中國數據中心行業的主力軍主要是三大電信業者,以及少量的第三方中立IDC服務商,比如成立於1999年的世紀互聯,以及成立於2001年的萬國數據。這個時期的數據中心大多承載著電信通訊的業務為主。

第二階段,2010年—2020年前後,伴隨著雲端運算產業在中國的快速發展,互聯網成為時代的寵兒,這10年間湧現了大量的第三方數據中心供應商,而秦淮數據作為新興的超大規模數據中心廠商,成為順應這一階段高速發展互聯網業務的典型代表。IDC(互聯網數據中心Internet Data Center)的名號也在此期間得以加強。

2020年至今,隨著企業對於多元算力需求的激增,GPU開始大量在企業級數據中心得以套用,傳統的IDC也開始逐漸向AIDC轉變,人工智慧技術正在重塑數據中心行業。

在IDC向AIDC轉變的過程中,使用者和企業最容易感受到的一點就是——主流CPU、GPU功耗和伺服器節點功耗指數級增長,在秦淮數據CTO張炳華看來,當下的AIDC要具備高算力、高彈性、大規模、高效能和智慧化五大能力,才能應對人工智慧大模型帶來的算力供給和能耗挑戰。

高算力方面,隨著大模型越來越大,智算中心需要提供更高的算力。從CPU到GPU,從通用計算到異構計算,數據中心的效能提升了很多倍,機櫃的功率密度跳躍式增長,以使用GB200的伺服器為例,最大單機櫃功率已達132kW,這就需要具備高效能的計算和數據處理能力,以支持復雜的人工智慧演算法和模型訓練。

高彈性方面,為了滿足使用者多元化的需求,智算中心需要更彈性。「目前,智算中心總體在向高效、開放、環保、智慧方向發展,這是必然路徑。」張炳華如是說,「同時,作為賦能人工智慧發揮價值的核心底座,智算中心基礎設施同樣需要滿足更多差異化、多元化的算力場景需求,要透過彈性設計同時相容風冷和液冷,相容CPU和GPU等不同效能的計算和儲存資源,也要靈活匹配不同的算力部署。」

大規模方面,為了滿足人工智慧對於算力龐大的需求,智算中心規模會越來越大,張炳華認為,未來單個智算集群需能提供5~10萬卡GPU大規模的算力和儲存資源,「要滿足人工智慧套用對數據和計算的需求;未來單個AZ(可用分區)數據中心的IT容量將從幾十MW級別增長到幾百MW級別。」張炳華告訴鈦媒體APP。

高效能方面,除了提高交付效率外,作為公認的「電老虎」,數據中心的能源消耗和環境保護一直是業內關註的重點,尤其是在2020年9月中國提出了「3060」的雙碳戰略目標之後,如何「減碳增效」成為IDC行業關註的焦點,即便在AIDC時代,能效依然是關鍵指標。智算中心的節能環保已經被提升到了一個全新的高度。張炳華對鈦媒體APP表示,在提高能效方面,智算中心需要充分利用自然資源,采用數據中心全棧式解決方案,透過最佳化設計和營運策略,實作極簡供電、極致冷卻,降低數據中心的能源消耗,提高能效比。

智慧化方面,主要體現在智算中心的智慧化管理。復雜性和多樣性的業務需求對數據中心運維工具系統提出了更高要求,傳統運維工具對運維管理的提升構成了嚴重的制約,甚至在一定程度上影響著業務的穩定性和安全性。在張炳華看來,智算中心在為AI提供底層支撐的同時,也需要借助AI和機器學習的能力,實作數據中心的自動化管理和最佳化,包括智慧監控、智慧預測、智慧散熱、故障智慧定位,提高營運效率。

高算力、碳中和要兼顧

在AIDC發展的過程中,如何做到高品質算力與碳中和的「既要....又要....」,已成為眾多IDC廠商戰略布局的關鍵。

從能耗占比角度出發,數據中心內部IT裝置耗能占比超60%,非IT裝置能耗不到40%。其中,空調裝置能耗占比最大,超過20%。目前數據中心節能減排技術焦點主要還是集中在制冷系統。

「過去5年間,GPU算力增長近90倍。」中國工程院院士劉韻潔曾公開表示,伴隨著算力增加而來的就是芯片能耗的增加。目前主流系列處理器功耗已達350~400TDP/W。這還僅是CPU的功耗,而GPU的功耗遠遠高於CPU,以輝達p00為例,構建萬卡的p00智算中心集群,其IT功耗可達10MW。並且隨著莫耳定律逐漸失效,在後莫耳定律時代下,芯片算力與其功耗仍將大幅提升。

根據IDC測算,預計到2027年,AI數據中心容量的復合年增長率 (CAGR) 將達到40.5%,與此同時AI數據中心的能源消耗預計將以44.7%的CAGR增長,到2027年達到146.2太瓦時(TWh)。

從技術發展上看,近兩年液冷技術從「PPT畫餅」逐漸走向了成熟落地套用,據科智咨詢預計,2024年中國液冷數據中心市場將同比增長53%,市場規模將增長至236億元;預計2022—2027年,中國液冷數據中心市場將以59%的復合增長率持續蓬勃發展;預計到2027年,隨著AI系列套用的規模化落地以及液冷生態的日趨成熟,市場規模將突破千億大關。

這個過程中,不僅是諸如寧暢、浪潮資訊這樣的硬體裝置供應商涉足這個賽道,IDC服務商也開始逐漸在液冷領域開發產品和解決方案。以秦淮數據為例,張炳華告訴鈦媒體APP,為了滿足大模型時代對更大計算所需的冷卻需求,秦淮數據也早已在冷板式液冷和浸沒式液冷技術方面進行布局,目前可支持高達 150kW 的高密度機櫃。

張炳華認為,是否套用液冷主要還是取決於使用者對於技術的接受度,「目前大多數使用者還是喜歡采用傳統風冷的方案,因為它是解耦的,技術發展也更為(與液冷相比)成熟,」張炳華指出,「同時,以冷板液冷為例,冷卻工質大多采用純水加藥或以純水為基礎的配方液,或者用乙二醇、丙二醇溶液,執行時間久了有管道腐蝕、漏液的風險。」

不過,在張炳華看來,上述的痛點目前行業內已經有一些辦法可以解決,最終影響使用者對液冷的選擇,還是硬體裝置的耦合度、標準化程度,甚至是成本和生態的完善度,「透過這些舉措可以提升使用者對於套用液冷的接受度,」張炳華告訴鈦媒體APP。

無獨有偶,中國資訊通訊研究院雲端運算與大數據研究所總工程師郭亮也曾表示,隨著輝達Blackwell架構的 GPU芯片產品(預計於今年第四季出貨)的部署,將推動液冷散熱方案的滲透率明顯增長,從2024年的10%左右至2025年將突破20%。

除此之外,張炳華認為,隨著技術程度、標準化,以及生態的完善,液冷的部署成本也會越來越低,這也會推動液冷技術在數據中心的套用。據賽迪顧問釋出的【2023中國液冷套用市場研究報告】,2022年液冷數據中心1kW的散熱成本為近6500元,相比2021年已經下降了54.2%,預計2023年1kW的散熱成本有望降至5000元左右,與傳統風冷的建設成本已基本持平。

從目前角度出發,張炳華認為風液混合是當前液冷套用較好的一種方式。基於此,秦淮數據開創性地在數據中心中采用「液側冷板液冷和風側磁懸浮相變」的冷卻組合系統。據張炳華介紹,該技術成功運用於秦淮數據華北某基地的兩棟數據中心計畫,「2024年上半年,計畫中負載平穩的機房實際執行PUE低至1.128,全年WUE預計僅為0.15。相較於IDEC冷卻技術機房,該計畫的冷卻技術大幅降低了電力和水資源消耗,每100MW可節約用電3950萬度,相當於降低標煤消耗4850噸,可節水88萬噸,約等於233個標準遊泳池的蓄水量。」張炳華用一個個數據佐證了風液混合是當下滿足企業大規模智算需求的智算中心供冷最優解的觀點。

不只有液冷

除液冷之外,隨著技術的發展,近年來數據中心供冷的方式已經從單一的傳統空調機組變得更多樣化,間接蒸發冷卻、磁懸浮冷機組等新一代制冷方式層出不窮,一種新型制冷系統,甚至諸如風液混合的多種制冷方式組合的形式在數據中心大規模套用的場景已經屢見不鮮。

以磁懸浮冷卻機組為例,該系統采用磁懸浮無油離心技術,實作無機械損耗,在免維護的同時,還可進一步提升冷卻系統的靈活性和可靠性,對此,張炳華表示,磁懸浮冷卻系統破解了單機櫃 10 至 35kW 高功率密度的空氣冷卻技術難題,創新的分布式冗余方案可突破建築條件、氣候、水源制約,實作彈性適配按需部署,「該系統在秦淮數據華北和馬來西亞的數據中心已經得到使用,CLF(制冷負載系數)分別低至 0.08 和 0.15。」張炳華與鈦媒體APP分享了幾個套用磁懸浮冷卻系統的案例。

據鈦媒體觀察,除了磁懸浮冷卻系統以外,2022年秦淮數據還與維諦技術聯手釋出了名為「玄冰」的無水冷卻技術,透過控制技術和感應技術高度協同,「玄冰」無水冷卻將制冷系統的輸出與環境溫度緊密相連,可以充分利用自然冷能降低數據中心能耗,解決了北方地區數據中心所處地水資源匱乏和能耗限制,「每100MW規模的數據中心年節水量多達120萬噸,相當於320個國家遊泳中心水立方標準遊泳池的蓄水量,可滿足10000戶四口之家的年用水量。」張炳華介紹到。

除了IDC服務商積極布局減碳技術以外,硬體裝置廠商也都在這方面進行布局,聯想集團推出了自研的海神(Neptune™)溫水水冷技術。該技術的核心優勢在於能實作90%的余熱回收再利用,熱移除效率最高達98%,可降低42%的能耗,並將數據中心PUE可降至1.1以下;浪潮資訊、超融合伺服器廠商等也紛紛在冷板式液冷方面進行布局.....

另一方面,還有不少IDC服務商從供電方面,透過提升供電效率,進而降低數據中心碳排放,眾所周知,電在纜線中傳輸的過程中會產生熱量,同時也會消耗掉部份電能,而「電」作為數據中心不可或缺的唯一能量來源,如何能夠降低傳輸過程中的損耗,提高「電」在數據中心中的利用效率,同樣成為行業內關註的焦點。

以現有技術來看,采用DR、RR供電架構,UPS ECO、高壓直流等技術手段可有效降低「電」在傳輸過程中的損耗,因減少了逆變的過程,高壓直流一般可達到96.5%的利用率,甚至更高。

秦淮數據在算力大會期間釋出了全新「玄鐵」極簡供電架構,對多個供電系統進行預制化、模組化升級,「相比傳統配電模式,透過一體化整合和與土建解耦的彈性交付能力,‘玄鐵’智慧電力模組3.0可以實作整體測試、模組部署、彈性擴容,大大節省占地面積,縮短現場交付周期。有效解決算力激增下數據中心供配電系統部署周期長、能源效率低、運維成本高等挑戰,保障供電全生命周期的安全可靠。」張炳華告訴鈦媒體APP。

作為算力底座的數據中心已經步入了新的時代,這個時代下,如何在保證算力供給的前提下,實作碳中和目標,已經成為整個IDC行業上下遊需要共同面對的挑戰。(本文先發於鈦媒體APP,作者|張申宇,編輯丨蓋虹達)