當前位置: 華文世界 > 科技

Transformer正在耗盡Transformer

2024-04-01科技

新的GPT還沒來,AI數據中心先遇到困難了。

作者|艾倫

編輯|王博 趙健

模型微調平台OpenPipe創始人Kyle Corbitt近期爆了一個料。

他與微軟工程師的聊天中,微軟工程師透露了以下資訊:

  • GPT-6正在訓練中

  • 在不同地區之間的GPU上配置InfiniBand(無限頻寬)級別的連線很困難

  • 而在一個州內放置(使用)超過10萬個p00,就會使電網癱瘓

  • 有網友做了計算,如果十萬個p00同時開啟,功耗將達到70MW。正常來說一般大型電廠輸出功率能達到2000MW,70MW負載其實並不大,但突然在電網中增加70MW的負載,就很容易讓電網系統出問題。

    OpenAI CEO 山姆·奧爾特曼(Sam Altman)上周在訪談中提到:「今年OpenAI將會釋出一個令人驚嘆的模型,即將釋出的模型相當於200個中等大小模型的混合。」

    而在前段時間舉行的「博世互聯世界2024」大會上,埃隆·馬斯克(Elon Musk)表示,自己在一年多前就預測到了芯片短缺,接下來短缺的會是降壓變壓器(step-down transformer),而明年將沒有足夠的電力來執行所有的芯片。

    馬斯克還講了一個並不太好笑的笑話:「人們需要transformer(指:變壓器)來執行transformer(指:transformer模型)。」「這些transformer正在耗盡transformer。」

    1.數據中心電力困境

    數據中心缺電不是一個新問題。

    早在2022年8月,愛爾蘭國有電力公司EirGrid就暫停了兩大科技公司的數據中心建設計劃:一個亞馬遜網絡服務站點和兩個微軟站點(包括一個應該為愛爾蘭風場提供備用電源的站點)。EirGrid發言人稱:「沒有得到EirGrid的特許,無法連線到愛爾蘭的電網。」

    同一年,英國政府宣布暫停西倫敦的新數據中心建設,理由是「因為數據中心已經占用了電力容量」。不只英國,美國維珍尼亞州勞登縣作為世界上數據中心最集中的地方,也由於電力限制,宣布推遲新專案。

    電力短缺的根源是GPU需求暴漲。與傳統數據中心的CPU集群不同,AI算力集群通常需要高密度的電力供應,單機櫃的電力需求從傳統的幾kW增加到幾十kW。

    阿裏巴巴公司原副總裁、Lepton AI創始人賈揚清最近在矽谷「高山夜話」活動中表示,AI帶來的增量需求首先是高效能的算力。第二個是高質素的模型,以及上層需要的適合這些高效能、高質素和高穩定性需求的計算的軟件層。

    對於一個AI數據中心來說,除了IT器材(儲存、運算、網絡和連結器)之外還需要供電器材(UPS、蓄電池、柴油發電機、配電單元)、溫控器材(冷源器材、機房空調、新風系統)等。

    業界用PUE(PUE=數據中心總能耗/IT器材能耗)衡量數據中心能源利用率,理想水平為1.6至2.0,但並不是每個數據中心都能做到理想PUE。換言之,數據中心IT器材能耗越大,總用電消耗一般就越大,這使得AI數據中心耗電量急劇膨脹。

    根據咨詢機構SemiAnalysis預測,全球數據中心關鍵IT電力需求將從2023年的 49GW激增至2026年的96GW,其中AI數據中心關鍵IT電力需求增長迅猛,到2026年將達到40GW(40,000MW)。

    全球數據中心關鍵IT電力需求(單位:MW),圖片來源:SemiAnalysis

    數據中心電力需求的增長趨勢也很明顯,特別是在AI和加密貨幣領域。國際能源署釋出的【2024年電力報告】預測,到2026年,AI數據中心的電力需求將達到90TWh,相當於約10GW的數據中心關鍵IT電力需求,或者相當於730萬個p00。

    傳統數據中心、加密貨幣、專用AI數據中心的預計電力需求,圖片來源:SemiAnalysis

    隨著全球對互聯網服務和人工智能的需求持續增長,支持其執行的數據中心的用電量可能在短短4年內翻一番。這意味著這些數據中心在2026年的耗電量將與目前日本全國的耗電量相當。

    澎拜新聞曾在報道數據中心耗電問題時提到,據不完全統計,2020年全球發電量的5%左右用於計算能力消耗,而這一數碼到2030年可能提高到15%到25%左右。而2020年中國數據中心耗電量突破2000億度,是同時期三峽大壩和葛洲壩電廠發電量總和的2倍。

    史丹福大學教授李飛飛在公開演講和學術文章中指出,隨著AI技術的廣泛套用,必須考慮其對電力供應和環境的影響,並尋找創新的解決方案來實作AI的可持續發展,否則AI數據中心發展可能很快會造成電力緊縮。

    除了未來的電力困境之外,數據中心建設和營運在當前也面臨很多挑戰。

    例如在愛爾蘭,據【愛爾蘭獨立報】報道,愛爾蘭在2028年之前禁止都柏林地區新的數據中心接入電網,根本原因是化石燃料排放過多。政府為了實作碳排放目標,限制新數據中心落地。

    而新加坡具備良好的地理條件,豐富的液冷水資源,優秀的基礎設施。但「花園城市」新加坡土地資源太少,不足以支撐大量數據中心落地,這對數據中心建設構成了實質性的制約。

    國內的情況如何呢?

    目前,「東數西算」工程正在穩步推進,8個國家算力樞紐節點建設已全部開工,10個國家數據中心集群同步布局。西部地區新開工建設的數據中心專案數量穩步增長,中國算力集聚效應初步顯現。

    但【中國工業報】今年1月的報道指出,受技術、成本、機制等多重因素制約,西部部份數據中心利用效率不高,面臨算不了、算不起、算不好等問題,「東數西算」目前整體上仍處於「東數西存」階段。

    數據中心的困境,在AI浪潮的裹挾下越來越嚴重。

    2.數據中心熱潮

    「做不完,根本做不完」!在AI浪潮起來之後,這句話成為了很多芯片代工廠工人和數據中心施工團隊的口頭禪。

    AI數據中心的「發動機」在於GPU。大型科技公司對於數據中心建設的狂熱需求也讓輝達的出貨量節節攀升。

    從2021年到2024年底,輝達交付的p00及同等功率GPU數量超過500萬個。按約3.5萬美元的市場價,這相當於500萬輛特斯拉Model 3。

    根據Omdia Research的數據,2023年第三季度Meta、微軟購買了最多的p00,分別為15萬張,其次是谷歌、亞馬遜、Oracle、騰訊、CoreWeave、百度、阿裏巴巴、Lambda Labs、字節跳動與特斯拉。

    輝達p00出貨量,圖片來源:Omdia Research

    大廠們無一不在瘋狂建設AI數據中心。

    Meta在年初釋出訊息稱,預計到今年年底完成65萬個p00的安裝。1月25日,美國印第安納州經濟發展公司宣布Meta將在該州建立一個價值8億美元的AI數據中心,占地70萬平方英尺。本月,這座數據中心正式開工,據外媒透露,數據中心將於2026年投入營運,除了100個營運工作崗位外,還將在施工高峰期支持1250多個工作崗位。

    同樣在這個月,Meta 推出2個24K GPU集群,為訓練 Llama3 構建超強資源池。Meta官方表示,這些集群能夠為更大、更復雜的模型提供支持,為通用人工智能產品開發、AI研究進步鋪路。

    微軟擁有當下規模最大的數據中心,他們也積極加入到數據中心擴建比賽中。年初微軟計劃擴大其在倫敦和卡迪夫的數據中心規模,並向英格蘭北部地區擴張。折戟愛爾蘭後,轉向法國等地尋找新的數據中心座落地。

    除了基礎設施外,微軟還將撥款數百萬英鎊用於人員培訓,並引進超2萬台最先進的圖形處理器到英國,這是機器學習和開發人工智能所需的關鍵技術。可以確保英國人具備構建和使用AI所需的技能。

    谷歌計劃開發超過千MW級的訓練集群,其中大部份計算力來自自研的TPU萬卡集群。具體來說,谷歌將投資10億美元在英國赫特福德郡Waltham Cross新建數據中心,占地33英畝。谷歌副總裁兼英國和愛爾蘭董事總經理Debbie Weinstein表示:「這項投資旨在支持人工智能創新。一旦完成,將為英國各地的企業帶來關鍵的計算能力,並幫助確保為谷歌雲客戶和英國及海外的谷歌使用者提供可靠的數碼服務。」

    據Semianalyst報道,亞馬遜AWS以6.5億美元購買了美國一個1000MW核動力數據中心園區。

    圖源:datacenterdynamics.com

    國內AI數據中心有另一個名字,叫「智算中心」。

    甲子光年智庫在【中國AIGC產業算力發展報告】中指出,智能算力持續增長,未來需求增加,進一步加快了智算中心建設及相關器材增長。

    2月19日,國務院國資委召開「AI賦能 產業煥新」中央企業人工智能專題推進會。會議強調,中央企業要把發展人工智能放在全域工作中統籌謀劃,深入推進產業煥新,加快布局和發展智能產業。要夯實發展基礎底座,把主要資源集中投入到最需要、最有優勢的領域,加快建設一批智能算力中心,進一步深化開放合作,更好發揮跨央企協同創新平台作用。

    國內智能算力中心建設的速度,正在加快。

    相關數據顯示,全球範圍內目前有8000多個數據中心,主要分布在美國、亞洲和歐洲。美國北維珍尼亞州是全球最大的數據中心集散地,此外大型數據中心集散地還有英國的倫敦、愛爾蘭的都柏林,中國的北京、貴州、內蒙古以及位於東南亞的新加坡。這也與輝達的地區出貨數據相吻合。

    3.綠色數據中心是答案嗎?

    Semianalyst統計了全球電價情況,其中美國電價全球最低,平均為0.083美元/度。中國的工業電價為0.092美元/度,在全球範圍也處於低位。

    中國的大量電力來自煤炭發電,而美國得益於2000年代初的頁巖氣革命,如今全美天然氣發電量占總發電量的40%,煤炭發電量占比從2012年的37%減少到2022年的20%。

    圖片來源:share.america.gov

    燃煤電廠的碳強度遠高於天然氣,每千克產出的電量效益遠不及天然氣。這意味著在建設數據中心時,美國將擁有更多清潔能源,更少受到全球碳排放協定的限制。

    中國本身是建設新型發電能力最好的國家之一,但由於種種原因,現階段中國無法完全轉向天然氣,而必須依靠煤炭和核電作為主要發電手段。

    根據中國政府網報道,近年來中國透過最佳化綠色供電架構、提高綠電使用比例、綠色智能營運等方式實作節能降耗。目前中國已經建立了三批共計153家國家綠色數據中心,分布在內蒙,寧夏等地。例如萬國數據公司的十一號數據中心透過采用單路高壓直流供電和采購使用綠電,已經開始實作低碳轉型。

    工信部印發的【新型數據中心發展三年行動計劃(2021-2023年)】提出,到2023年底,新建大型及以上數據中心PUE降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下,以加快綠色數據中心的普及。

    實際效果如何呢?

    3月29日,一場與綠色數據中心有關的活動在京舉行。

    國家數據局黨組書記、局長劉烈宏在活動上表示,在「東數西算」與城市算力中心協同推進的過程中,需要進一步明確國家樞紐節點的算力「蓄水池」定位,面向風光水電等清潔能源豐富、區位優勢突出、產業基礎較好的非國家樞紐節點地區,有序推進建設本區域高效低碳、集約迴圈的綠色數據中心。

    劉烈宏公布了一項最新數據,位於青海的數據中心平均能效指標PUE值保持在1.2以下,處於全國領先水平。

    如何不讓「transformer耗盡transformer」?綠色數據中心給出了答案。

    *參考資料:

    【AI Datacenter Energy Dilemma - Race for AI Datacenter Space】,Semianalysis

    【智算中心元年:如何理解「AI工廠」】,產業家

    【AI數據中心,正值風口】,半導體產業縱橫

    【國家數據局:五方面推進全國一體化算力網建設】,人民網

    (封面圖來源:攝圖網AI創作)