當前位置: 華文世界 > 科技

進叠時空宣布開源RISC-V芯片的AI核心技術

2024-04-30科技
01:13
00:25
00:28

佳惠

AI已經從技術走向套用,改變了我們的生活和工作方式。數據流通,萬物互聯,在不久的將來,我們將進入一個全新的Robot Computer時代。Robot Computer時代由智慧化和大模型為核心驅動力,以視覺、語言和AI為媒介代表的一種主動互動形態。它區別於個人電腦和手機終端時代的被動互動方式。

從個人電腦到智慧型手機,隨著套用場景的遷移,我們對計算系統與芯片可以提供的算力需求也在加速演進。面對未來大模型(LLM)和AIGC等智慧化浪潮的挑戰,更高的算力效率,更低的算力功耗和算力成本,三者疊加在一起,使得算力需求與算力供給之間的矛盾越來越凸顯。

透過對芯片、算力與AI三者發展叠代過程的觀察不難看出,高能效比的算力、通用的軟體棧以及高度最佳化的編譯器,將是AI算力產品邁向成功的必要條件。近日,進叠時空在高效能計算芯片方面,已經取得顯著進展,成功推出了全球首顆8核RISC-V AI CPU,SpacemiT Key Stone™ K1(以下簡稱「K1」),以最快速度跑通高效能RISC-V從技術到商業的閉環。

4月29日,在「創芯·生生不息——進叠時空2024年度產品釋出會」上,進叠時空創始人、CEO陳誌堅博士釋出了全球首顆 8核 RISC-V AI CPU——SpacemiT Key Stone™ K1(簡稱K1),用一項項實測數據證明:在滿足AI演算法模型快速叠代和部署方面,同等微架構的RISC-V芯片至少領先ARM芯片1.5代。

陳誌堅在釋出會上介紹,現有的主流AI演算法部署通常使用抽象描述的多框架演算法模型,落地套用至具體的芯片平台,依托CPU、GPU、NPU等相關載體。在目前的邊緣和端側計算生態中,由於各家芯片公司缺少基於CPU核客製AI算力的能力或者授權,而且NPU相較於傳統CPU有一定的功耗優勢,使得在實際落地場景中,NPU的使用率很高。但是NPU有其致命的缺點,各家NPU都擁有獨特的軟體棧,其生態相對封閉,缺乏與其他平台的互操作性,導致資源難以共享和整合。對於使用者而言,NPU內部機制不透明,使得基於NPU的二次開發,如部署私有的創新算子,往往需要牽涉到芯片廠商,IP廠商和軟體棧維護方,研發難度較大。

著眼於這些實際的需求和問題,進叠時空推出的K1芯片在設計和生態上采取了開放策略。以通用CPU為基礎,結合少量DSA客製(符合RISC-V IME擴充套件框架)和大量微架構創新,以通用CPU的包容性最大程度的復用開源生態的成果,在相容開源生態的前提下,提供TOPS級別的AI算力,加速邊緣AI套用。這意味著K1芯片可以避免低品質的重復開發,並充分利用開源資源的豐富性和靈活性,以較小的投入快速部署。

K1適配所有主流大模型

「這種開放性和相容性不僅降低了部署大量現有AI模型的門檻,還為使用者提供了更多的創新可能性,使得AI解決方案不再是一個專門的領域,而是每個程式設計師都可以參與和創新的領域。」陳誌堅表示。

據陳誌堅介紹,基於進叠時空的AI技術路線,以輕量化外掛程式的方式,透過開放的軟體棧,使得K1芯片能夠在短時間內支持大量開源模型的部署,目前已累計驗證了包括影像分類、影像分割、目標檢測、語音辨識、自然語言理解等多個場景的約150個模型的最佳化部署,timm、onnx modelzoo、ppl modelzoo等開源模型倉庫的支持透過率接近100%,而且理論上我們能夠支持所有的公開onnx模型。

SpacemiT Muse™ Book 大模型及AI效能展示視訊

進叠時空外掛程式的使用方式如下:

■C/C++

■python

陳誌堅在釋出會上宣布,將開源K1所有自研的AI擴充套件指令和所有AI軟體棧原始碼,與RISC-V生態的開發者和建設者們共享AI技術,共建未來。

作為進叠時空首顆自研高效能計算芯片,K1芯片除了在AI方面取得了突破性成果,在包括儲存效能、計算效能、浮點效能等芯片的三個核心效能上,相較ARM同級別的Cortex-A55芯片也都取得代差級優勢。

同等微架構下,儲存效能大幅領先於ARM Cortex-A55

芯片儲存的速度越快,電腦的執行速度也就越快,這意味著能夠更快存取和處理數據,縮短反應時間,對於需要高效數據交換的AI終端套用場景來說尤為重要。陳誌堅介紹,在儲存效能方面,同等微架構下,K1芯片搭載的進叠時空自研RISC-V 智算核X60™表現亮眼,大幅領先ARM Cortex-A55 15%。其中,LMbench Write單項來看,最高可達6.32GB每秒,LMbench Copy和Read,分別可達3.35GB每秒和3.56GB每秒,遠超ARM Cortex-A55的讀寫和復制速度。此外,X60智算核在記憶體stream方面的各項指標也遠超ARM Cortex-A55。

同等微架構下,計算效能大幅領先於ARM Cortex-A55

在各大領域的真實套用中,X60™智算核的實際計算效能也大幅領先ARM Cortex-A55。在相同工藝下,X60™智算核單位頻率的效能大幅領先,這來自於之前提到的出色的各項傳統CPU的效能,也來自於X60™智算核基於RISC-V Vector的強大SIMD效能。影像效能方面,最高為ARM Cortex-A55影像效能的2.14倍,壓縮效能的1.2倍,繪制效能的1.19倍。

提高芯片的計算效能,也可以透過提高數據並列效能來實作。這種能力也被稱為向量計算能力。事實上,AI大模型推理涉及大量的向量運算和矩陣運算,利用處理器的向量指令功能,能夠加快模型的推理速度。

據釋出會公布的數據,基於RISC-V Vector 1.0標準,X60™智算核可以提供2倍於ARM Neon的256-bit SIMD並列處理算力。相比Arm Neon指令集,能在多個領域的套用情況和帶來的效能提升。在影像預處理、顏色空間轉換、圖形學等演算法效能上,X60™是ARM Cortex-A55的1.5倍。此外,進一步在LU分解,QR分解,SVD分解,Chelesky分解,Eigen分解等五大矩陣進行分解後,基於在OpenBLAS+Eigen,核心計算,sgemm的效能上的突出表現,X60智算核是ARM Cortex-A55的1.5倍。更為重要的是,X60智算核的向量計算技術,還解決了SIMD技術帶來的二進制不相容問題,使同一份程式碼可以跑在基於RISC-V架構的任何向量位寬的處理器上,開發者不需要經歷ARM指令集擴充套件和程式碼重寫,這意味著軟體維護成本將大大降低,對RISC-V生態的建設具有重大意義。

同等微架構下,浮點運算能大幅領先於ARM Cortex-A55

浮點運算能力是芯片在進行浮點計算時的速度和精確度,對於Robot Computer時代裏,高強度的科學計算和圖型處理等密集運算的應用程式來說,浮點效能尤為關鍵。

陳誌堅介紹,進叠時空隨機抽取的18個應用程式進行實測後,測試結果顯示,X60™智算核在14個應用程式的執行數據都大幅領先於ARM Cortex-A55。其中,在X60™智算核上執行從頭計算量子化學程式GAMESS,是ARM Cortex-A55的12.2倍,稱得上「遙遙領先」。

SpacemiT Key Stone™ K1產品特性介紹

「進叠時空成立之初就一直堅信,RISC-V可以進入高端CPU市場,未來的芯片屬於RISC-V.而在中國,一定會誕生若幹家世界一流的RISC-V計算生態企業。」陳誌堅表示。

K1芯片的成功,不僅是進叠時空的成功,更是RISC-V全球AI創新實踐的一個重要成果。陳誌堅認為,RISC-V開源模式帶來的開放性,讓包括進叠時空在內的企業和研發人員有了與全球頂尖人才合作、共建的機會。此外,十倍壓力、軟硬體和生態並列發展也更具優勢。RISC-V指令集更加適合全面加速叠代的Robot ComputerI時代算力發展需求。

「RISC-V的軟體生態相比X86和ARM還不夠成熟,但發展的速度是當年X86和ARM不能匹敵的。」陳誌堅認為,作為開源且跨所有領域的指令集生態,各套用領域和全球各大廠商都在有序的、大力的貢獻自己技術。RISC-V社群在推進底層軟體生態的建設,RISE社群在推進上層套用生態的建設,也都在快速有序的推進中。「目前,我們不能說它比X86或者Arm的生態更大,但假以時日,我們堅信,開源Linux取代Unix的現象,一定會在RISC-V架構開發中再次上演。」

據悉,進叠時空在這場年度產品釋出會上不僅釋出了自研SpacemiT Power Stone™ P1電源芯片、SpacemiT Key Stone™ K1終端芯片,還釋出了搭載K1芯片的SpacemiT Muse™ Book、SpacemiT Muse™ Shelf和SpacemiT Muse™ Box等生態產品。陳誌堅在釋出會上透露,SpacemiT Muse™ 系列生態產品將於近期開啟預售,為全球RISC-V生態建設提供更加便捷的軟硬體產品支持。

SpacemiT Muse™ 生態產品展示

(推廣)

稽核:余早早

責編:左宗鑫

編輯:胡娜