從芯片盛會Hot Chips看AI基建：算力狂飆電力承壓，輝達、英特爾爭相推出節能方案

2024-08-27科技

當地時間8月26日，OpenAI硬件設施負責人Trevor Cai在Hot Chips 2024上發表了長達一小時的演講，主題為「構建可延伸的AI基礎設施」。他指出，OpenAI的一項重要觀察結果是，擴大規模可以產生更好、更有用的人工智能（AI)。

作為全球芯片行業影響力最大的會議，Hot Chips於每年八月份在史丹福大學舉行。不同於其他行業會議以學術研究為主，Hot Chips是一場產業界的盛會，各大處理器公司會在每年的會上展現他們最新的產品以及在研的產品。

【每日經濟新聞】記者註意到，AI浪潮推動數據中心激增，同時也伴隨著能源需求的激增。在這樣的背景下，此次的Hot Chips大會上，圍繞人工智能的議題比以往任何一屆都更加活躍。Trevor Cai的演講著眼於解決能源和算力之間的問題，英特爾、IBM和輝達等則是提出了更節能的技術方案。

摩根士丹利在8月份釋出的研究預測稱，生成式AI的電力需求將在未來幾年內每年飆升75%，預計到2026年，其消耗的能源量將與西班牙在2022年的消耗量相當。科技巨頭們該如何應對能源挑戰？

輝達公布Blackwell更多細節，英特爾們聚焦「節能方案」

當地時間8月26日，一年一度的半導體企業盛會Hot Chips 2024在史丹福大學紀念禮堂舉行，今年是第36屆。

從會議第一天的情況來看，大部份的話題都集中在了更節能、安全且可延伸的大規模AI伺服器部署方案上。

OpenAI硬件負責人Trevor Cai發表了「可預測的擴充套件和基礎設施」主題演講，談到了提升計算能力所帶來的可預測的擴充套件效益，這也是OpenAI自成立之初就關註的重點。一個重要的觀察結果是，擴大規模可以產生更好、更有用的人工智能。「每次計算量翻倍，它都會得到更好的結果。模型的能力和計算資源的消耗是呈指數級別的上升的。自2018年以來，行業中前沿模型的計算量每年增長約4倍。」他說道。

行業計算趨勢圖片來源：OpenAI Hot Chips演講PDF

最初，GPT-1只需幾周的時間完成訓練。如今，它已經擴充套件到需要龐大的GPU集群。因此，OpenAI認為AI的基礎建設需要大量投資，因為計算能力的提升已經產生了超過8個數量級的效益。

似乎是為了呼應OpenAI的演講，各大公司今天各自演講也不約而同地提到了大規模部署AI伺服器的計劃方案。

IBM在大會上披露了即將推出的IBM Telum II處理器和IBM Spyre加速器的架構細節。新技術旨在顯著擴充套件下一代IBM Z大型電腦系統的處理能力，透過一種新的AI整合方法幫助加速傳統AI模型和大型語言AI模型的協同使用。IBM特別強調這次更新的先進I/O 技術旨在降低能耗和數據中心占用空間。

輝達也在大會上放出了最新的AI集群架構Blackwell的相關訊息。輝達稱，Blackwell擁有6項革命性技術，可支持多達10萬億參數的模型進行AI訓練和即時大語言模型（LLM）推理。值得註意的是，輝達的Quasar量化系統用於確定可以使用較低精度的內容，從而減少計算和儲存。輝達表示他們的宗旨就是在提高能源效率的同時為AI和加速計算效能提供新標準。

除此之外，英特爾、博通、海力士等公司的演講中均提到了更節能的技術方案。

算力狂飆電力承壓，科技巨頭如何應對能源挑戰？

科技巨頭們著眼「更節能的」技術方案的根本原因在於，當前人工智能熱潮正在增加更強大的處理器以及保持數據中心冷卻所需的能源需求。

當前，微軟、Alphabet和Meta等大型科技公司正在投資數十億美元建設數據中心基礎設施，以支持生成式人工智能，但數據中心的激增也伴隨著能源需求的激增。

據彭博社報道，僅去年，大型科技公司就向數據中心設施投入了約1050億美元。谷歌、蘋果和特斯拉等公司不斷透過新產品和服務增強AI能力。每項AI任務都需要巨大的計算能力，這意味著數據中心會消耗大量電力。國際能源署 (IEA)預測，到2026年，全球數據中心每年使用的能源量將相當於日本的電力消耗量。

Hugging Face的人工智能和氣候負責人Sasha Luccioni提到，雖然訓練AI模型需要耗費大量能源（例如，訓練 GPT-3 模型耗費了大約1300兆瓦時的電力，而GPT-4的訓練消耗是GPT3的50倍），但通常只進行一次。然而，由於查詢量巨大，模型生成響應可能需要更多能源。

例如，當使用者向 ChatGPT 等AI模型提問時，需要向數據中心發送請求，然後強大的處理器會生成響應。這個過程雖然很快，但消耗的能量也是巨大的。根據艾倫人工智能研究所的數據，對ChatGPT進行一次查詢所消耗的電量相當於為燈泡點亮 20 分鐘——是簡單Google搜尋耗電量的10倍以上。

然而，全球的電力資源有限，而數據中心需要持續穩定的電力供應來執行伺服器和其他核心營運器材。如果能源供應不穩定，停機可能會給企業和其他使用者造成重大經濟損失。此外，巨大的能源消耗也引發了人們對環境的擔憂。

太陽能能源需求歷史數據與預測對比圖片來源 OpenAI Hot Chips演講PDF

為應對這一挑戰，科技公司們開始尋找解決方案。

部份公司選擇更清潔且高效的能源供給，如核能。亞馬遜最近在賓夕法尼亞州東北部購買了一個價值6.5億美元的核能數據中心園區設施，該設施將使用核反應堆產生的高達40%的電力，最終使亞馬遜能夠減少對當地電網的依賴。與此同時，微軟聘請了核專家來帶頭尋找這種替代電源。微軟還與核電廠營運商簽訂了合約協定，為其位於維珍尼亞州的一個數據中心提供電力。

除此之外，科技公司們不僅在前文所提到的一系列芯片節能技術進行努力，也在其他硬件設施和技術上下足了功夫。

谷歌正在開發人工智能專用芯片，例如張量處理單元(TPU)，這些芯片針對人工智能任務進行了最佳化，而不是使用為遊戲技術建立的圖形處理單元(GPU)。

輝達針對Blackwell芯片的直接液體冷卻系統還宣布了一項研究，研究表明了如何重新利用從伺服器中吸收的熱量並將其回收到數據中心。據輝達估計，冷卻最多可減少數據中心設施耗電量28%。

然而，威斯康辛大學麥迪遜分校的教授辛基利提醒，傑文斯悖論在這裏依然適用，即資源效率的提高往往會增加其總體利用率，而不是減少。「提高人工智能的效率，雖然減少了單次能耗，但整體使用率的增加最終會導致總體能耗的上升，」辛基利解釋道。這個悖論不僅適用於19世紀的火車煤炭使用，同樣適用於當今的人工智能和電力消耗。

每日經濟新聞