當前位置: 華文世界 > 科技

CXL,AI時代的「運力」引擎

2024-08-29科技

生成式人工智慧的突然爆紅,除了給算力芯片提出了更高的要求以外,傳統系統設計無法滿足計算需求的缺點也愈發明顯。

日前,專家在「2024開放計算中國峰會」上提到,在過去的開發中,記憶體和I/O的擴充套件能力已遠落後於計算密度的增長,平均到每個核心的記憶體和I/O頻寬更是持續下降。「而隨著AIGC時代的到來,記憶體需求大幅增加,同時也產生了梯度數據聚合與分發等海量I/O通訊需求。這個時候,就需要新的架構來緩解系統記憶體和I/O瓶頸,實作數據處理規模、並列處理能力和系統算力提升。」

而近年來推出的CXL,正在成為其中的一個答案。

CXL,前景可期

所謂CXL,也就是Compute Express Link。作為一種開放標準的高速互聯協定,CXL的推出主要是要解決小算盤件和記憶體之間的互聯問題,旨在改善處理器與加速器、記憶體擴充套件裝置等之間的通訊。

從技術上看,CXL是透過現有的PCIe(Peripheral Component Interconnect Express)實體層傳輸訊號,但在協定層面上引入了新的特性和改進,以顯著提升系統中處理器、加速器和記憶體裝置之間的數據交換效率和一致性,使得資源共享具有更低的延遲,減少了軟體堆疊的復雜性,並降低了整體系統成本,為高效能計算和大規模數據處理提供了更為強大的支持。

自2019年首次釋出以來,CXL在過去幾年裏已經演進到了CXL 3.1標準。在適用範圍方面,也從一開始的僅支持有限功能,增加到對橫向擴充套件 CXL 進行了額外的結構改進、新的可信執行環境增強以及記憶體擴充套件器的改進。

具體而言,CXL擁有以下三個關鍵特征:

1. 統一的記憶體模型:

CXL支持三種協定,分別是CXL.io、CXL.cache和CXL.memory。其中CXL.io主要用於傳統的I/O操作,與PCIe類似;CXL.cache和CXL.memory則提供了緩存一致性和記憶體存取能力,使得CPU與加速器或記憶體擴充套件裝置之間能夠共享和一致性地存取記憶體。這對於加速器(如GPU、FPGA)而言尤為重要,因為它們可以更有效地存取系統記憶體,而不必透過緩慢的I/O通道。

2. 緩存一致性:

CXL允許處理器和外部裝置(如加速器)共享相同的記憶體空間,並保持緩存的一致性。這意味著數據在不同裝置之間傳輸時不需要頻繁復制或同步,從而提高了效能。

3. 高頻寬低延遲:

透過最佳化的協定棧,CXL在維持高頻寬的同時還能提供低延遲的通訊。這使得其在需要快速數據交換的套用中非常適合,如AI加速、數據分析等。相比於傳統的基於RDMA的分解記憶體架構,CXL可以實作納秒級的低延遲,相比於NVDIMM的非揮發性記憶體,其時延也低幾個數量級。

「與其他互聯協定不一樣,CXL的關鍵差異點就在於其硬體支持cache coherency。」英特爾數據中心和人工智慧集團至強客戶解決方案事業部總經理李亞東在介紹CXL時強調。也正是因為具備這樣的特性,CXL可以實作CPU與加速器或記憶體擴充套件裝置之間能夠共享和一致性地存取記憶體,真正實作機架級的分解記憶體解耦架構。「除了CXL協定最初設想的用於CPU-GPU互相以cacheline顆粒度互相存取對方記憶體並可緩存,CXL還能很好地解決LLM時代記憶體容量、成本、利用率等挑戰。」李亞東接著說。

據負責維護CXL標準的CXL聯盟介紹,如上圖所示,CXL有三種典型用例。知名分析機構Yole更是樂觀預期,到 2028 年,CXL 市場總收入將增長到 150 億美元以上。其中,DRAM 將構成 CXL 市場收入的大部份,到 2028 年市場收入將超過 120 億美元。除此以外,CXL 控制器和CXL交換機也將在市場中迅速發展。

有見及此,越來越多的廠商加入了CXL聯盟,以抓住這個由伺服器和互聯新協定帶來的新機遇。

產業鏈玩家,各出奇招

作為CPU產業龍頭以及CXL的主要推動者之一,英特爾持續推進這項技術的進步和普及,公司是CXL spec的主要貢獻者,同時也在Linux kernel裏貢獻了大量CXL相關的程式碼。第四代英特爾® 至強® 可延伸處理器支持CXL1.1,提供對Type1, Type2, Type 3裝置(也就是大家期待已久的CXL記憶體擴充套件裝置)的支持。在最新的至強6上,英特爾為CXL 2.0協定提供了支持,後續會有下一代新產品的持續支持和CXL技術叠代。

除了英特爾以外,作為方案提供商的浪潮資訊,和軟硬體全套套用部署及行業標準最大推動者之一的阿裏雲,也不遺余力地參與到CXL的推廣中。

首先看全球領先的IT基礎設施產品、方案和服務提供商浪潮資訊。據了解,浪潮資訊從2022年開始就推出相關的CXL產品,具體而言就是CXL1.1時代的記憶體遠端擴充套件以及CXL 2.0時代的記憶體池化硬體等解決方案。當中,後者更是有望在未來的伺服器套用中扮演重要的角色。

如前文所說,記憶體已經成為了當下伺服器(尤其是AI伺服器)的瓶頸。在這種情況下,自CXL 2.0時代引入的記憶體池化技術,就是一場「及時雨」。據介紹,該功能可以構建全域記憶體資源池,以此最佳化記憶體的總體利用率。而透過 CXL 交換機和記憶體控制器實作了「池化」後,記憶體資源的動態分配與回收也更方便。

浪潮資訊記憶體池化計畫負責人陳曦介紹說,從硬體角度看,這本身就是一個很難的技術,因為在實作過程中,需要考慮到互聯的損耗、整機系統的統一管理以及資源的排程。從固件和軟體的層面看,如何根據套用需求動態排程這些記憶體資源,讓CXL的效能發揮到最優效果,也是需要重點解決的問題之一。所以針對記憶體池化套用,一定是靠軟硬體協同設計實作,浪潮資訊作為全球TOP伺服器系統廠商,帶領廠商及各個合作夥伴,持續探索先進技術,推動技術實踐落地,讓我們的數據中心更綠色、更高效、更智慧。

基於領先的技術積累,浪潮資訊也開發出了領先的記憶體池化原型系統,實作內送流量備援容錯機制機記憶體資源池化與共享,最大支持8HOST主機共享存取記憶體資源池,支持百納秒遠端池化記憶體存取。當中,浪潮資訊還開發出了業界首款CXL交換機。支持CXL2.0&CXL1.1單元,單節點最大支持32路32GT/s x16對外互連埠,聚合頻寬達到4TB/S,支持任意上下行配置,支持direct mapping/pooling/sharing功能。

從下圖可以看到,記憶體池化在多個套用場景中都擁有著無可比擬的優勢。

來到阿裏雲方面,作為CXL聯盟董事會成員,也是創始成員(阿裏巴巴、思科、Dell EMC、Facebook、谷歌、慧與、華為、英特爾和微軟)之一,阿裏雲全程參與了CXL協定的制定和叠代演進。阿裏雲超高速互聯負責人孔陽表示,之所以如此看好CXL,是因為於伺服器中不可或缺的CPU而言,這項技術能很有效地擴充套件記憶體頻寬,同時還可以擴充套件記憶體的容量並具備實作記憶體池化共享的能力。

「隨著數據越來越大,我們的計算節點核心節點越來越多,對於我們數據的處理能力需求越來越大。以記憶體來看,我們計算節點對於記憶體的頻寬和容量的需求是不斷提升的,這就催生一些針對於傳統伺服器或者當前CPU擴充套件的記憶體,CXL就為這種需求提供了一種解決方案。」孔陽說。據介紹,阿裏在CXL方向上的研發一直走在業界前列,研發了一系列產品和技術,並聯合多個業務方和合作夥伴進行了多個解決方案的探索;其中包含了Y-config共享記憶體驗證系統,業界第一個大容量CXL記憶體模組,以及業界第一個CXL Switch系統等。阿裏雲在此基礎上形成了支持CXL的通用計算伺服器、CXL Switch軟硬體系統、Alimemory(CXL Memory)、AliSCM(CXL Pmem)、Memory Box等較為完整的產品布局,並透過這些產品支撐起彈性,可編排的磐久伺服器方升機櫃級架構。阿裏雲認為只有透過從部件到機櫃的軟硬體結合整體技術能力,才能充分發揮CXL的業務價值,把握未來伺服器架構的發展方向。

就拿阿裏雲推出的業界第一個基於CXL Switch記憶體池的業務系統解決方案來說,該設計支持CXL擴充套件、池化、共享,透過CXL Farbic,對各類裝置進行擴充套件。早在2022年雲棲大會曾介紹該CXL方案的系統架構,並在2023年雲棲大會展示了CXL Switch+ CXL Memory Box的硬體裝置,是業界首家釋出相關軟硬體系統的雲端運算公司。該方案透過CXL Switch Box系統,提供大容量、高效能、靈活性強的池化記憶體系統,可搭載包括阿裏自研持久化記憶體AliSCM、大容量CXL介面AliMemory等部件。

正是在阿裏雲這樣的從協定到產品再到生態建設的成員推動下,CXL ecosystem近年的發展非常快。在過去的若幹年裏,阿裏雲同時對Gen-Z,CCIX,CXL等互連技術一直保持密切的跟蹤,在判斷CXL作為通用計算側記憶體語意的統一協定介面後,就在CXL方向上持續投入保持業界領先的技術把控和產研部件研發。在芯片和硬體生態角度,阿裏作為CXL協定聯盟的創始會員,除了積極的參與協定的設計和規劃,也大力地推動CPU、Switch和部件合作廠商支持CXL特性,目前業界對CXL1.1已經有產品化的部件,包括CPU、部件、retimer,連結器等。分別在24~25/25~26年,業界會陸續推出支持CXL2.0/CXL3.x的產品面世。

寫在最後

不僅僅是英特爾的至強處理器,行業內其它廠商的CPU、switch、memory expander,和retimer等芯片產品也在陸續釋出,同時也有ISV和OEM提供了CXL 記憶體擴充套件、記憶體池化等解決方案。而隨著越來越多的生態合作夥伴加入,我們也期待未來CXL技術會有蓬勃發展。

例如在當前火熱的AI時代,要更高效能的系統互連、記憶體、儲存。CXL提供的記憶體語意和緩存一致性協定對於AI這類套用具有天然的優勢。尤其是記憶體擴充套件、池化、共享等技術,英特爾正在與多個業界夥伴合作用於AI套用場景的解決方案。

不過,從上面的介紹中我們可以看到,當前的很多CXL套用都是圍繞這Memory做文章,這其實可以理解的。因為需求太大,成本又太高,池化就可以最大限度地在容量、頻寬和成本中達到更好的平衡。但是,從CXL的初衷看來,其推出的目標之一是解決小算盤件本身之間的高速連線,解決CPU、GPU之間怎麽進行高速交換以及高速交換中的數據和頻寬問題。於是,推動CPU與加速器(如GPU、FPGA、AI專用芯片)之間的高速、低延遲通訊的異構計算普及會成為CXL未來發展的要務。

總而言之,在CXL的推動下,高效率的數據中心成為可能,這項技術也將成為雲端運算、大規模AI模型訓練、即時數據分析和邊緣計算等套用的重要支柱。CXL也勢必將在數據中心系統中扮演重要角色。