本文由半導體產業縱橫(ID:ICVIEWS)編譯自venturebeat
芯片制造商、初創公司和雲提供商正在構建專用AI處理器和加速器。
數據中心是互聯網的後端。無論是 Netflix 還是 Google,所有大公司都利用數據中心及其托管的電腦系統向終端使用者提供數位服務。隨著企業的重點轉向高級 AI 工作負載,數據中心傳統的以 CPU 為中心的伺服器正在透過整合新的專用芯片或「協處理器」而得到增強。
從本質上講,這些協處理器背後的想法是引入某種附加元件來增強伺服器的計算能力。這使它們能夠處理 AI 訓練、推理、資料庫加速和網路功能等工作負載的計算需求。在過去幾年中,以 Nvidia 為首的 GPU 已成為協處理器的首選,因為它們能夠以無與倫比的速度處理大量數據。根據Futurum Group的一項研究,由於需求增加,去年 GPU 占數據中心內支持 AI 用例的協處理器的 74% 。
研究顯示,GPU 的主導地位預計只會增長,到 2028 年,該類別的收入將以每年 30% 的速度增長,達到 1020 億美元。但問題是:雖然 GPU 憑借其並列處理架構成為加速各種大規模 AI 工作負載(如訓練和執行大規模、萬億參數語言模型或基因組測序)的強大夥伴,但它們的總體擁有成本可能非常高。例如,Nvidia 的旗艦GB200「超級芯片」結合了 Grace CPU 和兩個 B200 GPU,預計成本在 60,000 至 70,000 美元之間。一台裝有 36 個這種超級芯片的伺服器估計成本約為 200 萬美元。
雖然這在某些情況下可能有效,例如大型計畫,但並非適用於每家公司。許多企業 IT 經理都希望采用新技術來支持選定的低到中等密集型 AI 工作負載,並特別關註總體擁有成本、可延伸性和整合度。畢竟,大多數 AI 模型(深度學習網路、神經網路、大型語言模型等)都處於成熟階段,需求正在轉向 AI 推理和增強特定工作負載(如影像辨識、推薦系統或物件辨識)的效能,同時保持高效。
這正是芯片制造商、初創公司和雲提供商正在構建的專用 AI 處理器和加速器的新興領域。
人工智慧處理器和加速器到底是什麽?
從本質上講,AI 處理器和加速器是位於伺服器 CPU 生態系中的芯片,專註於特定的 AI 功能。它們通常圍繞三種關鍵架構:專用積體電路 (ASIC)、現場可編程門陣列 (FPGA) 和最新創新的神經處理單元 (NPU)。
ASIC 和 FPGA 已經存在了相當長一段時間,可編程性是兩者之間的唯一區別。ASIC 是為特定任務(可能與 AI 相關,也可能不相關)從頭客製的,而 FPGA 可以在後期重新配置以實作自訂邏輯。NPU 與兩者的區別在於,NPU 是一種專用硬體,只能加速 AI/ML 工作負載,如神經網路推理和訓練。
Futurum 集團執行長 Daniel Newman 告訴 Venturebeat:「加速器往往能夠單獨執行任何功能,有時采用晶圓級或多芯片 ASIC 設計,它們能夠處理一些不同的應用程式。NPU 是專用芯片(通常是系統的一部份)的一個很好的例子,它可以處理許多矩陣數學和神經網路用例以及使用更少功率的各種推理任務。」
這些加速器,尤其是為特定套用而構建的 ASIC 和 NPU,在成本和功耗方面比 GPU 更高效。
IBM 雲和行業平台總經理 Rohit Badlaney 告訴 VentureBeat:「GPU 設計主要以算術邏輯單元 (ALU) 為中心,這樣它們就可以同時執行數千次計算,而 AI 加速器設計主要以張量處理器核心 (TPC) 或單元為中心。一般來說,AI 加速器的效能與 GPU 效能的比較取決於該設計的固定功能。」
目前,IBM 采用混合雲方法,在整個堆疊中使用多個 GPU 和 AI 加速器,包括來自 Nvidia 和 Intel 的產品,為企業提供選擇,以滿足其獨特工作負載和套用的需求 - 高效能和高效率。
「我們的全棧解決方案旨在幫助改變企業、開發人員和開源社群構建和利用生成式人工智慧的方式。人工智慧加速器是我們認為對希望部署生成式人工智慧的客戶非常有益的產品之一,"Badlaney 說。他補充說,雖然 GPU 系統最適合大型模型訓練和微調,但加速器同樣可以處理許多人工智慧任務,而且成本更低。
例如,IBM 雲虛擬伺服器使用了英特爾的Gaudi 3加速器,並配備了專為推理和大記憶體需求設計的客製軟體棧。該公司還計劃透過由多個系統組成的小型集群,將加速器用於微調和小型訓練工作負載。
「人工智慧加速器和 GPU 可以有效地用於一些類似的工作負載,例如從 LLM 和擴散模型(像穩定擴散這樣的影像生成)到標準物體辨識、分類和語音配音。不過,人工智慧加速器和 GPU 之間的優勢和差異完全取決於硬體提供商的設計。Badlaney 解釋說:"例如,Gaudi 3 AI 加速器的設計旨在顯著提升計算能力、記憶體頻寬和基於架構的能效。
他說,這直接帶來了價效比優勢。
除了英特爾,其他人工智慧加速器也在市場上備受關註。這不僅包括為谷歌、AWS 和微軟等公共雲提供商打造的客製芯片,還包括 Groq、Graphcore、SambaNova Systems 和 Cerebras Systems 等初創公司的專用產品(某些情況下是 NPU)。它們都以各自的方式脫穎而出,在不同領域向 GPU 發起挑戰。
在其中一個案例中,Tractable 是一家開發人工智慧的公司,旨在分析財產和車輛損壞情況以進行保險理賠,該公司能夠利用 Graphcore 的智慧處理單元-POD 系統(一種專門的 NPU 產品),與他們一直使用的 GPU 相比,效能大幅提升。
「Tractable 公司聯合創始人兼技術長 Razvan Ranca 在一篇博文中寫道:"我們看到速度提高了大約 5 倍。「這意味著研究人員現在可以執行的實驗數量可能是以前的五倍,這意味著我們加快了整個研發過程,並最終在我們的產品中建立了更好的模型"。
在某些情況下,AI 處理器還為訓練工作負載提供支持。例如,Aleph Alpha 數據中心的 AI 超級電腦正在使用Cerebras CS-3,該系統由這家初創公司的第三代 Wafer Scale Engine 提供支持,擁有 900,000 個 AI 核心,用於構建下一代自主 AI 模型。甚至谷歌最近推出的客製 ASIC TPU v5p也在為 Salesforce 和 Lightricks 等公司提供一些 AI 訓練工作負載。
選擇加速器的方法應該是怎樣的?
現在已經確定除了 GPU 之外還有許多 AI 處理器可以加速 AI 工作負載,尤其是推理,那麽問題是:IT 經理如何選擇最佳投資方案?其中一些芯片可能具有良好的效能和效率,但由於其架構,它們在處理的 AI 任務型別方面可能會受到限制。其他芯片可能會做得更多,但與 GPU 相比,TCO 差異可能沒有那麽大。
由於答案因芯片設計而異,VentureBeat 采訪的所有專家都建議選擇應基於要處理的工作負載的規模和型別、數據、持續叠代/更改的可能性以及成本和可用性需求。
幫助企業進行 AI 訓練和推理的Sustainable Metal Cloud技術長 Daniel Kearney 表示,企業執行基準測試來測試價效比優勢也很重要,並確保他們的團隊熟悉支持各自 AI 加速器的更廣泛的軟體生態系。
「雖然詳細的工作負載資訊可能無法提前獲得,或者可能無法為決策提供支持,但建議使用代表性工作負載、真實世界測試和可用的同行評審真實世界資訊進行基準測試和測試,以提供數據驅動的方法來為合適的工作負載選擇合適的 AI 加速器。這種前期調查可以節省大量時間和金錢,特別是對於大型且昂貴的培訓工作,」他建議道。
在全球範圍內,隨著推理工作的增長,包括 AI 芯片、加速器和 GPU 在內的 AI 硬體總體市場預計將以每年 30% 的速度增長,到 2028 年將達到 1380 億美元。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系後台。