當前位置: 華文世界 > 科技

雲巨頭大暴走,自研CPU落地200萬張!新一輪芯片洗牌開始了

2024-07-25科技

作者 | ZeR0
編輯 | 漠影

上周,全球最大雲端運算巨頭亞馬遜雲科技自主研發的Graviton4處理器全面上市,最初為全新例項Amazon EC2 R8g提供支持。

這件事還挺讓人感慨,有種Arm伺服器CPU千帆過盡、苦盡甘來的既視感。

伺服器CPU領域曾經上演風水輪流轉,早期由一眾精簡指令集前輩一統天下,後來被復雜指令集架構x86逆襲蠶食。等精簡指令集中的後輩Arm想闖數據中心賽道時,x86早已全面霸場。

其實Arm早在2008年就對這個新興市場躍躍欲試,結果一晃十年過去,幾經試水,楞是沒激起零星的水花。

第一張進入數據中心市場的門票,還是雲端運算產業老大哥亞馬遜雲科技送來的。

當時亞馬遜雲科技發了個「三連擊」:

1、2015年1月,出其不意地收購以色列芯片設計企業Annapurna Labs,引起產業密切關註;

2、2017年,推出首款自研網絡芯片Amazon Nitro,把全球第一款商用的DPU芯片送上歷史舞台;

3、2018年,釋出首款Amazon Graviton處理器,讓Arm伺服器CPU在數據中心歷史中有了清晰的座標。

隨後亞馬遜雲科技緊鑼密鼓開展了教科書般的多線客製芯片攻關,其他中美大廠也相繼跟上自研處理器的風潮。漫長的伺服器CPU拉鋸戰,終於從x86單方面碾壓,變成Arm陣營聲勢漸漲。

Graviton亦逐漸坐穩全球最廣泛使用的Arm伺服器CPU,亞馬遜雲科技更是被視作帶領Arm生態在數據中心開疆辟土的「全村的希望」。伯恩斯坦去年的一份報告顯示,亞馬遜雲科技占據了全球超過一半的Arm伺服器CPU市場。

▲亞馬遜雲科技五年釋出五款Graviton處理器(圖源:智東西)

今天,大廠自研芯片屢見不鮮,但成功者寥寥可數。亞馬遜雲科技用五年寫出的這本自研伺服器CPU參考教材,值得被反復咀嚼。

一、六年死磕CPU自研創新,給Arm伺服器芯片開路

一代開山路,二代奠江湖。

這是亞馬遜雲科技自研伺服器芯片發家的真實寫照:2018年11月釋出的Graviton處理器,發出了雲端運算大廠自研CPU的第一聲槍響;一年後,繼任者Graviton2出場,標誌著Arm伺服器CPU正式進入數據中心市場競爭中,與x86掰手腕。

Graviton2整合了300億顆晶體管,核心數量足足是上一代的4倍,並翻倍提升了L1/L2緩存,總線頻寬達到2TB/s,相比上一代實作了7倍的效能提升。與基於x86的同類例項相比,基於Graviton2的例項效能提高了40%,每個例項成本降低了20%。

在低功耗上的出色表現,使亞馬遜雲科技大舉將通用工作負載轉移到Graviton2上,以節省電力和成本。此後,Graviton系列的采用率飆升,覆蓋的工作負載從起初的Cache和Web擴充套件到數據分析、機器學習、高效能計算等。

Graviton在市場的初步告捷,堪稱改變Arm命運的節點。

這背後,亞馬遜雲科技在底層創新上頗費心思:首次不再使用同步多執行緒技術,而是實作物理核心單執行緒資源獨享,讓每個vCPU獨占1個物理核心,使vCPU之間更加隔離,不會因爭搶資源而導致效能抖動。

從第一代到第二代,Graviton透過增加核數取得了可觀的效能提升,但到第三代,亞馬遜雲科技需要納入更多的設計創新。

增加核數、提升主頻,是提升效能的兩個常見手段。2021年釋出的第三代Graviton3沒有采用這些思路,核心數不變,主頻僅略微提升。因為提高頻率對於大規模數據中心來說會比較冒險,可能會帶來大量的能耗,而且需要搭配升級的電源及散熱配置,最終導致客戶的使用成本上升。

Graviton3做了幾項有別於前代的創新:

1、采用Chiplet設計,將7塊矽die封裝在一起;

2、采用指令級並列方法,提高了單個核心周期可執行的指令數量,使核心能完成更多工;

3、針對記憶體頻寬和延時敏感型工作負載,增加了40%的記憶體空間,並采用DDR5將記憶體通道頻寬提升50%。

結果,相比上一代,Graviton3能將套用負載的效能無差別提升25%,功耗相比x86例項降低多達60%。透過內建機器學習硬件加速單元,這顆處理器還實作了3倍的機器學習效能提升,並被AI研究人員和企業用於雲中的MLOps。

2022年推出的Graviton3E,專門針對浮點和向量指令運算進行了最佳化,向量計算效能達到Graviton3的2倍,尤其適用於人工智能/機器學習、高效能計算等套用場景。

最新一代Graviton4用上了更好的Neoverse-V2核心,並將核心數增加到96核,每個核心的L2緩存提升1倍至2MB,記憶體頻寬提升75%。

每一代Graviton都會較上一代有兩位數的效能提升,並且單位算力功耗不斷下降。而節能減排對於數據中心的可持續發展極其重要,Twitter、Databricks、F1方程式式賽車、Snap等知名雲客戶都使用了基於Graviton的服務,並對其降本增效的優勢贊譽有加。

據外媒報道,到2022年年中,Graviton約占亞馬遜雲科技CPU例項的20%,其中大部份是Graviton2,亞馬遜雲科技新增虛機例項中約50%都是Graviton系列。

一些雲客戶公開背書稱,他們透過租用Graviton服務節省了10%~40%的計算成本。

作為Graviton早期使用者的大宇無限,用Graviton2將大數據作業的成本降低了20%;大量使用Graviton2例項的塗鴉也升級到新一代例項,將IoT平台加解密效能提高50%。

根據市場調研機構IDC的數據,2023年第一季度Arm伺服器出貨量市占率約為10%。此時Arm在伺服器市場的生態問題已經初步得到解決。

截至目前,亞馬遜雲科技在全球六大洲33個地區和100多個可用區累計部署了超過200萬張Graviton處理器。這些處理器驅動了超過150種計算例項,被全球超過5萬的企業和開發者所使用。

二、唯一實作大規模使用Arm架構的雲大廠

在服務雲客戶的過程中,亞馬遜雲科技團隊發現如果希望針對所有可能的工作負載徹底變革計算的性價比,需要徹底重新思考例項,深入底層技術,包括客製芯片。

為什麽是基於Arm架構設計芯片?

對於亞馬遜雲科技來說,這既是形勢所迫,又是前瞻布局。

首先,Arm的特許證相對易得,而且設計自由度高,便於亞馬遜雲科技設計出更符合雲業務需求的處理器。

其次,省電長期是數據中心的老大難。考慮到規模效應,每個芯片節省的幾瓦特都很重要。而Arm已經被移動處理器市場檢驗過高能效、高算力密度、低成本等優勢。

另外前文我們提到過,Graviton在提升頻率上很謹慎,透過更高的指令級並列來補足效能,使其在性價比上更有競爭力。在高CPU利用率下,Graviton中每個vCPU獨占一個物理核心,不存在爭用問題,能保持依然快的速度,其價格優勢則會變得明顯。

據亞馬遜雲科技披露,相比采用Graviton3的第七代R7g例項,基於新一代Graviton4處理器的Amazon EC2 R8g例項效能提高了30%,例項大小更大,vCPU和記憶體增加多出3倍,能為數據庫、記憶體緩存和即時大數據分析等記憶體密集型工作負載提供更好的性價比。

與R7g例項相比,R8g例項可將Web應用程式最高提速30%,數據庫最高提速40%、大型Java應用程式最高提速45%。

其效能和性價比優勢已經得到一些實測驗證。

根據Phoronix釋出的一些基準測試結果,在相同vCPU數量時,新Graviton4核心大致與英特爾Sapphire Rapids效能相當,同時能媲美AMD第四代EPYC,在執行高效能計算、加密、程式碼編譯、光線追蹤、數據庫、3D建模等工作負載時,代際進步整體非常出色。

▲經測試,基於Graviton4的R8g例項性價比超過基於英特爾至強、AMD EPYC的亞馬遜雲科技雲例項(圖源:Phoronix.com)

作為R8g例項正選客戶之一,Honeycomb分享稱Graviton4的吞吐量改進非常明顯,相比四年前剛開始使用Graviton,每vCPU吞吐量提高了一倍多。他們準備在R8g例項系列正式釋出後立即把整個工作負載遷移到Graviton4上。

爆款遊戲【堡壘之夜】的制作公司Epic Games評價說,基於最新Graviton4的EC2 R8g例項是基於他們測試過的最快的EC2例項,在其「最具競爭力和對延遲敏的工作負載中表現出色」,可以充分提高遊戲伺服器的效能。

對SAP HANA Cloud使用R8g例項的初步測試結果顯示,與基於Graviton3的例項相比,R8g例項的分析效能可提升高達25%,事務性工作負載效能可提升高達40%。

▲R8g例項不同規格對比

迄今為止,只有亞馬遜雲科技真正實作了大規模使用Arm架構。

為什麽是亞馬遜雲科技?正如亞馬遜雲科技大中華區解決方案架構總經理代聞在今年中國峰會上所言:「只有在雲端運算的環境下,才有機會做這樣的從套用到CPU的全棧創新。」

自研芯片不是紙上創新,需要工程經驗的積累,不僅要追求高效能,而且要足夠的穩定可靠和高度安全。

用相同Arm微架構不代表就能做出一樣效能的CPU,設計出芯片也不代表就能取得量產和商業上的成功。光是幾百個CPU核心互連帶來的線性度和通訊延時問題,就能難倒不少芯片團隊,更別提設計Arm伺服器芯片還要突破生態難關。

亞馬遜雲科技的研發思路是從對雲客戶工作負載的深刻理解,逆向穿透到芯片設計。這種以客戶為中心的方法能讓亞馬遜雲科技短期內進行調整,以快速適應市場動態。

以Graviton4為例,亞馬遜雲科技首次面向實際套用設計CPU架構,該處理器的設計工程中從傳統的MicroBenchmark基準測試評價體系轉向以實際工作負載進行評價的方法。比如,最佳化Cassandra數據庫、Groovy套用、nginx伺服器,所需要的前端和後端CPU參數是不一樣的。

龐大的客戶規模為亞馬遜雲科技高築壁壘。其遍布全球的廣泛數據中心集群,能承載Graviton系列處理器的落地。全球最大雲端運算業務所形成的規模效應,又能為亞馬遜雲科技有效攤薄成本。

持續創新的雲服務,使亞馬遜雲科技能夠了解到使用最多的套用及其資源消耗模式,以此來挑選對使用者來說收益最高的技術點,進行針對性最佳化,快速改進軟件和硬件堆疊甚至是CPU設計,研發出相匹配的vCPU和硬件核心。

同時,亞馬遜的各條托管服務的產品線都使用統一的基礎設施,因此Graviton創新可以及時套用到所有的托管服務裏。使用者透過更換計算選項,就能輕松享受到Graviton帶來的性價比提升。

使用者只需關心哪款例項更能滿足需求,亞馬遜雲科技負責將軟件的遷移和學習成本打下來。透過將更多的管理服務和Graviton做深度整合,從x86無縫遷移到Arm變得簡單快捷。

三、自研芯片如何影響雲端運算?

今天,自研芯片已經成科技大廠的標準動作,不管是降本增效、構建有利競爭,還是提高可控性、降低第三方芯片企業依賴,都是容易說服下遊客戶和投資者的好故事。

但在九年前,當亞馬遜雲科技率先踏出自研芯片之路時,這還是個超前的探索。

回溯雲端運算發展史,亞馬遜雲科技在2006年釋出首款EC2(彈性雲端運算)例項定義被視作一個歷史時刻。隨後越來越多的企業逐漸接受雲端運算概念,並開始將自家套用遷移到雲端。

現在亞馬遜雲科技可以在雲上順利執行幾萬個節點的高效能計算集群來訓練大模型,能在雲上處理高並行的即時串流媒體套用,這些在當時都是很難想象的。要知道亞馬遜雲科技的第一款EC2例項,主頻只有1.7GHz,網絡頻寬250Mbps,記憶體不到2GB,磁盤是只有160GB的機械盤。

在雲端運算業務剛起步的幾年,亞馬遜雲科技要解決很多棘手問題,特別令團隊焦慮的是:如果使用客製版Xen作為虛擬化管理程式,無論如何耗費大量時間來最佳化程式碼,虛擬層始終會占用主機資源,並且x86 CPU並不擅長處理網絡流量。

直到2013年,一家以色列芯片企業Annapurna Labs走進亞馬遜雲科技的視線。經過合作,亞馬遜雲科技首次將網絡處理寫到硬件。驚喜的落地表現,讓亞馬遜雲科技盯上了這家出色的合作夥伴:2015年1月,亞馬遜雲科技宣布收購Annapurna Labs,自此踏上自研芯片的旅程。

回過頭來看,這絕對是亞馬遜雲科技歷史上一筆精明的投資。

就在這一交易的兩年後,亞馬遜雲科技對外宣布Nitro虛擬化平台,將安全、管理、監控全部解除安裝到硬件上,將主機算力近乎100%地提供給客戶。

從此,雲端運算走上了業務與基礎設施完全物理隔離的路子,底層的虛擬化技術創新和上層的伺服器種類發展可以並列展開。

這催生了EC2例項的關鍵拐點:從2006年到2017年,亞馬遜雲科技用11年從1種EC2例項做到70種;而從2017年到2023年,EC2例項驟然爆發式增長,6年從70種發展到750種,能為各類負載提供合適的計算例項。

站在Nitro成功的基石上,亞馬遜雲科技發展出網絡芯片、伺服器CPU、AI訓練和推理芯片三條產品線:Nitro網絡芯片已經發展到第五代,持續最佳化網絡效能、儲存效能和安全加固;Graviton已經釋出四代五款;AI推理芯片Inferentia和AI訓練芯片Trainium,透過提供更具性價比的推理和訓練例項,讓使用者有了GPU之外的AI加速選擇。

這使得亞馬遜雲科技能夠保持內部全棧創新的靈活性:從客製的板卡及伺服器開始,到深入底層客製芯片,再到橫向擴充套件自研芯片版圖,亞馬遜雲科技逐漸將從芯片、硬件到軟件整合協同,在為業務帶來更好成本效益和可靠性的同時,構成獨屬於自己的核心競爭力。

自研芯片與亞馬遜雲科技自研的儲存伺服器和高速網絡系統聯動,使得更多芯片能夠高效互連,從而真正明顯縮短計算的時間。站在這些創新基礎上,亞馬遜雲科技能夠支持雲端運算中執行最具挑戰性的任務之一——人工智能與機器學習。

在近期舉行的亞馬遜雲科技紐約峰會上,亞馬遜雲科技宣布96%的AI/ML獨角獸已將其業務跑在亞馬遜雲科技上,2024福布斯AI 50榜單中90%的企業選用亞馬遜雲科技。從2023年至今,亞馬遜雲科技已經正式釋出了326項生成式AI功能,同期機器學習和生成式AI服務的正式可用數量超過了其他供應商的兩倍。

廣泛的用例與深厚的技術積累總是唇齒相依。這些數量驚人的AI用例,使得亞馬遜有足夠的實踐案例來為客戶提供能取得最佳收益的選擇,而廣泛的客戶反饋又能成為其芯片設計最好的動能。芯片技術的持續叠代,將托舉起越來越高性價比的雲服務,推動生成式AI普惠。

結語:沒有哪款芯片,是雲端運算的唯一解

市場上有大量的芯片選擇,雲基礎設施提供商能在如何將所有這些整合在一起方面發揮價值,從而更好實作從基礎設施到雲服務的各種創新。

與獨立芯片企業不同的是,亞馬遜雲科技自研芯片的目的不在於參與市場競爭,而在於為其客戶提供一個「萬能商店」,既提供自研芯片,又提供英特爾CPU、輝達GPU等市面主流選擇,由客戶來根據這些芯片例項的配置檔,自行選擇最能滿足工作負載需求的產品組合。

Graviton的六年演進,走通了Arm伺服器CPU落地的故事。Arm為亞馬遜雲科技提供了靈活客製CPU的基礎,亞馬遜雲科技則推動了伺服器芯片市場格局的變陣,成為Arm在數據中心市場展現成本和性價比優勢的最好代言。

只要Graviton還有降本增效的空間,亞馬遜雲科技就可以繼續降價讓利,把規模與技術的紅利回饋給雲客戶。