當前位置: 華文世界 > 科技

人工智能撞上「功耗墻」,終極解決方案是什麽?

2024-05-15科技
矽谷AI大佬已經開始為能源焦慮了。
4月底,OpenAI CEO奧爾特曼 (Sam Altman)出手投資了一家能源初創公司Exowatt,這家公司成立於2023年,旨在用太陽能解決大型數據中心對清潔能源的需求問題。
這並非奧爾特曼第一次投資能源公司,此前他也押註了從事可控核聚變的 Helion Energy 以及核分裂發電公司Oklo。作為目前全球最強大模型企業的掌舵者,奧爾特曼在年初的達沃斯會議上稱,AI行業正面臨能源危機,其消耗的電力將遠遠超出人們的預期。「AI技術的發展速度前所未見,到了明年人類就沒有足夠的電力來執行所有的芯片了。」這是特斯拉CEO馬斯克在2月底給出的警告。
對AI行業來說,從外部獲取更多能源是一方面,從內部降低能源消耗同樣是熱門議題。從芯片側、軟件生態到儲存、套用側,AI生態內企業已經意識到並開始在降低能耗方面作出努力。
能耗考驗大模型
「AI電力需求將迅猛增長。」摩根士丹利在3月釋出的一份AI報告中,預計2023-2027年全球數據中心電力需求為430太瓦時-748太瓦時,相當於2024/2027年全球電力需求的2%-4%。但電力基礎設施可能跟不上這一增長形勢。
為了解決能源消耗問題,不少人工智能基礎設施公司已經在探索從基礎技術層面去突破。
清程極智是聚焦軟件系統這一層的清華系創業企業,成立於2023年12月,就在3月底這家企業完成了首輪數千萬元融資,投資方包括AI大模型獨角獸公司「智譜 AI」。
對於AI的能耗問題,清程極智相關負責人Eric對第一財經表示,在芯片方面,更先進的芯片工藝,不論是提高制程的3納米或是采用chiplet的方式,都可以滿足提升算力效能的同時降低功耗。
與芯片相關聯的是系統層面,如何更好地做編譯最佳化,將單塊芯片的效率提高,並進一步將幾千張、幾萬張芯片連線在一起,將並列框架做好,提高整體效率,這對於大模型訓練場景來說非常重要。
從套用側來看,大模型耗電多是因為模型訓練的數據量巨大、模型非常復雜以及使用者向AI提出的請求量巨大。因此,Eric介紹,尋找更好的模型架構,在演算法層面最佳化模型的設計,使其更加精簡,並適當降低精度,這都可以降低功耗。
已經有不少學者專家在反思目前大模型技術路線問題。
上海人工智能實驗室主任助理、領軍科學家喬宇此前在GDC大會上表示,沿著Scaling Law,對算力需求越來越多,大家會有一個問題:Scaling Law何處是盡頭,跟現在相比,大模型至少還有1-2個數量級的提升。
「到2030年,是不是我們再提高兩個數量級就有機會實作真正通用的人工智能,但是我們也要考慮另外一個問題,按照目前這條技術路線,它對算力、對能耗的消耗非常巨大。我們真的需要把這麽大的社會資源都投入到這樣的領域中來,還是需要現在(找到比)Scaling Law更加高效的方法,後者是這個時代研究者、開發者必須思考的問題。」喬宇說。
上海人工智能實驗室領軍科學家林達華表達了同樣的想法,當前主流的大模型無一例外都建立在Transformer架構堆疊的基礎上,但這種架構的問題是對計算資源的消耗特別大,反觀人腦這樣的「大模型」,有大約100萬億個神經連線,遠遠超過現有大模型體量,但人腦的執行功率只有20瓦。
實際上,過去一年,產業界和學術界在不斷探索更加高效的架構,其中MoE(混合專家模型)受到了越來越多企業的關註。「但這僅僅是一個起點,未來還會有更加高效的稀疏模型結構出現。」林達華說。
在采訪中林達華對第一財經表示,如果每一個使用者的需求都用大模型千億參數去響應的話,企業方的成本收益也會算不過來,這必然會倒逼企業在架構上做更多高效的嘗試,將架構的計算成本降下去,隨著驗證逐漸成功,它們會慢慢進入產業界,從而帶來模型架構新的黃金時期。
在Eric看來,除了以上幾個層次之外,套用落地側也有很大的變數。目前國內都在研究通用大模型,大規模的訓練場景對算力要求較高,不過未來大模型跑出來後,或許模型的推理需求會更重要,這個時候「套用側有多少是真的需要訓練基礎大模型」的問題就會出現。
Eric表示,未來大模型祛魅以後,或許業界會反思,並不是所有問題都需要用大模型解決,這或許會減少算力的不必要消耗。
芯片改良路線還能走多遠
業界把降耗的希望寄托在芯片設計上。
「套用側的豐富是必然的,就是時間問題,就算不是大模型的套用,也會有一些如機器人、自動駕駛這樣場景下的算力需求,最後一層一層傳導下來,最終都要看芯片。」Eric表示,往往更豐富、更高級的套用,最終都會傳導至對算力的需求上面。
摩爾定律走向物理極限已成為不少半導體行業人士的共識,芯片行業通行數十年的算力提升方案越來越難實作。
作為最炙手可熱的AI芯片廠商,輝達向來是先進工藝的堅定支持者。但最新的芯片並未沿著晶體管密度翻倍的路徑向下走。
當今年3月的GTC大會上,當輝達CEO黃仁勛從口袋裏掏出一塊Blackwell架構芯片和一塊上一代Hopper架構芯片時,他表示「我們需要更大的GPU」。明顯可見的是,「更大」也是物理意義上的:由兩塊B200整合成的Blackwell架構GB200明顯大於前一代的p00。即便是單顆B200,也比p00體積大了約一倍。
這顆B200采用台積電N4P工藝,相比兩年前推出的p00 4N工藝(5nm)制程有所改良。B200整合2080億個晶體管,是上一代p00的2.6倍,但考慮到體積也增大了,晶體管密度並未翻倍。
業界對輝達芯片的創新力度和實際效能提升多有討論。輝達稱GB200在大語言模型推理時比p00效能提升30倍,且減少四分之三能量消耗。黃仁勛舉例,使用8000枚其第一代AI芯片訓練聊天機器人ChatGPT三個月,將耗能15兆瓦,而使用新一代芯片在同樣時長內執行同樣任務,僅需2000枚芯片,能耗降低至4兆瓦。
但記者此前參加的一個行業論壇上,一名大模型算力廠商負責人分析稱,B200以FP16浮點數計算,算力相比p00大概翻了2倍,功耗則是1.5倍,算下來能效比僅比p00增加約50%,不能只看官方宣稱的「GB200效能提升30倍」。
「這件事告訴我們,大模型發展中我們既要看算力又要看成本。功耗最終對應電力,而電力對應成本。」該負責人稱。記者了解到,也有業界人士認為,變「大」的輝達GPU體現了制程進步放緩後的妥協,輝達已在更多考慮制程之外的改良手段。
輝達的最新芯片上「縫合」越多改良技術,越體現出芯片廠商對繼續最佳化效能和功耗的渴望。
「芯片制程達到5納米乃至更先進節點時,晶體管密度提升速度變慢了。」千芯科技董事長陳巍也告訴記者,除了先進制程,GB200還采取兩種辦法提升算力,一是用chiplet技術將兩個裸片(小片晶圓)相連,實作更大等效芯片面積,二是將數據格式從FP8延伸至FP4,透過縮小數據格式獲得更多乘法單元。
國內某頭部高校研究電腦架構的教授林建華(化名)告訴記者,輝達新GPU的改良技術既包括記憶體HBM采取的3D堆疊技術,又包括chiplet(芯粒)技術。
林建華認為,各種改良辦法業內基本都已在嘗試了,「需要認識到的是,GPU發展了這麽多年,每年都有更新最佳化,能最佳化得基本差不多了。在現有技術範圍內,只能是有限程度的改進。」
陳巍也認為,輝達最新一代GPU采取的改良路線,不一定能繼續走下去。「FP4基本是大模型能跑的數據精度極限了,繼續降低數據格式,Block Float(區塊浮點)還能往下走一代,但再往下走兩代以上概率非常低。」他告訴記者。
傳統馮·諾依曼架構中,記憶體效能限制GPU效能、能耗增長限制芯片算力,被業內稱為「記憶體墻」和「功耗墻」。
「傳統電腦馮·諾依曼架構的存和算分開,計算時需要把數據從存的地方搬至算的地方,再搬回去,期間有功耗損失。高功耗問題由來已久。」林建華告訴記者,「基本可以肯定地說,新電腦架構的顛覆不會在兩三年、三五年內出現,這將是一個長時間的探索。」
林建華表示,在GPU之外,對更優能耗和更高效能的探索方向包括光計算、量子計算、DNA計算等,其中,量子計算和光計算還處於萌芽階段,展望未來需以10年、20年為單位去看。
什麽是終極方案?
相比芯片側需要更長期的探索,在軟件系統方面業界則能更快落地。Eric對第一財經表示,國產部份芯片算力效率比較低,主要是軟件方面的生態較差。
「本來國產某芯片的跑分可能和輝達是對標的,但因為軟件生態不太完整,很多基礎的庫不完善,用起來較費勁導致效率不高,所以能發揮出來的效能並不高,特別是在千卡萬卡集群訓練時尤為明顯。」Eric舉例表示,訓練一個GPT-4,輝達芯片組10000塊卡訓練6個月或許能做出來大模型,但用同樣數量的、對標輝達的國產芯片,可能需要更長時間,因為整體系統效率偏低。
訓練時的算力利用尤為重要。方法之一是把能用的算力用得更好,如進一步壓榨GPU等加速卡的效能;二是把系統的整體利用效率提升,將平行計算框架、排程系統、儲存系統、容錯系統等核心基礎軟件協同一起,這需要透過大規模異構系統軟件來解決。
國內清程極智、無問芯穹等企業都做這樣的嘗試。螞蟻集團這樣的大廠也在很早之前建立了綠色計算部門。
螞蟻集團雲原生技術部總經理、綠色計算負責人黃挺對第一財經表示,現在業界公開的、相對較好的訓練算力使用效率差不多在60%,40%算力沒有被充分利用,透過軟件方式提升硬件使用效率還有較大空間。
年初螞蟻集團一次性宣布了不少這方面的成果,包括開源分布式訓練加速擴充套件庫ATorch,相當於一個可讓大模型訓練更高效的「工具包」,以及和上海交通大學合作釋出的技術成果GMLake入選了國際頂會,這項技術將碎片化的視訊記憶體靈活地拼接起來,可提高33%的GPU可用視訊記憶體量。
黃挺介紹,當前制約高效訓練的因素中,視訊記憶體容量非常關鍵,由於GPU執行過程中需要依賴大量的視訊記憶體,視訊記憶體不足會導致運算核心閑置。
黃挺給了一個更容易理解的解釋,一個GPU一般都會帶一個自己的視訊記憶體,「你可以把它想象成一個箱子,一般一台伺服器會有多個GPU,整個集群裏會有上萬卡的GPU,你就可以看到有無數多的箱子放在裏面,實際上很多箱子在使用中有一些空間是沒有塞滿的。在原來情況下,一個GPU只能使用自己的箱子,旁邊的GPU很難去使用其他箱子裏空出來的空間,但是透過‘池化’的技術,就可以把所有的箱子組成一個更大的箱子,盡量去填滿縫隙。」
在此前的GDC大會上,螞蟻集團技術專家DLRover負責人王勤龍提到,故障也是大規模訓練很難避免的,這會導致GPU算力利用率低的問題。模型參數很大,訓練規模一大故障率就高了,「比如一張卡一天的故障率是千分之一,1000張卡一天穩定跑成功概率不到40%。」這些都是軟件層需要去解決的問題。
伴隨大模型的出現,向量數據庫(Vector database)頻繁地出現在公眾視野。這是一種新型儲存方式,被看作 AI基礎設施的關鍵一環,可以讓大模型更高效率地儲存和讀取知識庫,並且以更低的成本進行模型微調,對降低能耗也尤為重要。
AI創企Zilliz於 2019 年開源首個向量數據庫產品 Milvus,其創始人 & CEO 星爵對第一財經表示,如果將大語言模型看作是新一代的大腦或者處理器,那麽向量數據庫就是新一代的儲存,大模型負責運算,向量數據庫負責數據的儲存。
大模型企業爭相做超長上下文,推理成本會隨著文本視窗的長度線性增長,當文本的長度超過了1M的時候,會給計算帶來非常大的壓力,而這是向量數據庫可以發揮作用的地方。
星爵介紹,用向量數據庫理論上可以提供無限大的上下文,同時帶來能耗的顯著下降。這種方式伴隨的缺點是,精確程度會有所欠缺。
更樂觀一點的看法是,或許未來不必擔心能源問題。星爵對第一財經表示,從降低能耗的路徑來說,當下提到的一些方案可能都不是最優的。未來更大的希望是在可控核聚變這種技術上有更大的突破,然後理論上可以擁有無窮無盡的能源,能源也會變得很便宜。「我們現在覺得可控核聚變還有50年,但也許只需要15年。」
(本文來自第一財經)