當前位置: 華文世界 > 科技

存算一體芯片帶來的創新和驚喜有哪些

2024-08-30科技

存算一體芯片帶來的創新和驚喜有哪些

用於儲存和處理的一體化芯片有何過人之處?

近年來,隨著人工智慧套用場景的爆炸式增長,人工智慧演算法對計算能力的需求急劇增加,其增長速度遠遠超過莫耳定律所預測的硬體效能提升。傳統電腦芯片在計算資源、處理延遲和功耗等方面的局限性逐漸顯現,難以滿足高度並列化的人工智慧計算需求。

在智慧芯片領域,傳統的馮-諾依曼架構側重於計算,處理器和記憶體的物理分離導致大量數據頻繁遷移,進一步限制了人工智慧電路的整體效能。因此,傳統芯片架構面臨著 "記憶體墻"、"功耗墻 "和 "算力墻 "等嚴重問題,難以滿足人工智慧套用在低延遲、高能效和高擴充套件性方面的迫切需求。

針對這一問題,業界開發了一種名為 "儲存和帳戶 "的解決方案。

究竟什麽是儲存墻、電源墻和轉譯墻?什麽是一體化芯片,它如何解決這些問題?一體化技術的出現給業界帶來了哪些驚喜?

芯片開發的三大障礙

首先,有必要了解什麽是 "擋土墻"。

記憶體墻是指記憶體效能嚴重限制 CPU 效能的一種現象。在過去 20 年中,CPU 效能以每年約 55% 的速度快速增長,而記憶體效能每年僅增長約 10%。由於長期發展速度不均衡,目前記憶體的利用率已遠遠落後於 CPU 的運算速度,記憶體瓶頸阻礙了高效能處理器充分發揮作用,成為高效能計算發展的一大制約因素。這種嚴重影響處理器效能的記憶體瓶頸被稱為 "記憶體墻"。

儲存電腦的 "剪刀差" 來源:儲存電腦的 "剪刀差":OneFlow,艾訊泰克研究中心

除了儲存墻問題,還有流量墻問題,即在數據傳輸過程中會消耗大量能量,從而大大降低芯片的能效。

造成電源問題的主要原因是,隨著電腦系統對記憶體頻寬的要求越來越高,並努力追求更高的容量和存取速度,傳統 DRAM 和其他型別記憶體的功耗急劇增加,最終達到收益遞減點,無法透過簡單地增加電源預算來解決。

部份原因是數據必須透過多級儲存階層(包括 L1、L2 和 L3 快取)從 DRAM 傳輸到 CPU。在某些情況下,將單個數據從 DRAM 傳輸到 CPU 所需的能量要比在 CPU 上處理該數據所需的能量高出幾個數量級,甚至幾個數量級。

英特爾的研究表明,當半導體工藝達到 7 奈米時,數據處理功耗會上升到每位元 35 pJ,占總功耗的 63.7%。數據傳輸造成的功耗增加,限制了芯片開發的速度和效率。

兩者都存在 "編譯墻 "問題,因為當編譯器在極短的時間內處理大量數據時,不可能以靜態可預測的方式最佳化運算子、函式、程式或整個網路,而手動最佳化又非常耗時。

在過去,這三座 "大山 "的缺陷可以透過先進的工藝創新快速提高計算能力來彌補。

然而,殘酷的現實是,莫耳定律隨著物理極限、HBM、3D DRAM、更好的互連和其他傳統方式而逐漸失效,而工藝技術的改進在過去幾十年中一直在改善芯片的 "老 "算術問題,但 "解決方案 "也是 "治標不治本",晶體管小型化越來越難以提高算術效能並降低功耗。

隨著大規模建模時代的到來,資訊科技的普及無疑加大了 "三面墻 "的影響。

部署綜合儲存和會計技術是應對這些挑戰的有效辦法。

股票和帳戶的結合會帶來什麽驚喜?

從儲存與計算一體化技術的原理來看,儲存與計算一體化的實質是將儲存功能與計算功能整合在同一電路中,直接利用儲存裝置進行數據處理。透過修改儲存電腦結構中的 "讀取電路",可以從 "讀取電路 "中獲取計算結果,並將計算結果直接 "寫入 "記憶體中的目標地址,從而省去了處理裝置和儲存裝置之間頻繁的數據傳輸。透過修改儲存電腦架構的 "讀取電路",可從 "讀取電路 "中獲取運算結果,並將結果直接 "寫入 "記憶體中的目標地址,從而無需在處理裝置和儲存裝置之間頻繁傳輸數據,消除了數據傳輸開銷,大大降低了功耗,並極大地提高了處理效率。這樣就無需在處理裝置和儲存裝置之間頻繁傳輸數據,大大降低了功耗,提高了處理效率。

因此,整合儲存計算技術可以有效消除馮-諾依曼架構的瓶頸。

在實際套用中,組合儲存和計算技術能帶來哪些效能優勢?

儲存電腦芯片在某些領域可以提供更高的計算能力(1000 TOPS 或更高)和更好的能效(10-100 TOPS/W 或更高),這一點明顯優於傳統的 ASIC 芯片。CCS 技術還可以透過在邏輯計算中使用儲存裝置來提高計算能力,這相當於在同一區域內增加了計算內核的數量。

在能耗管理方面,統一儲存和處理可以將能耗降低到原來的十分之一到百分之一,因為它減少了不必要的數據處理,提高了數據處理效率,降低了能耗;統一儲存和處理自然會帶來更好的成本效益。

綜合儲存和計量技術的分類

根據儲存和計算之間的接近程度,常見的儲存和計算解決方案可分為三大類:近記憶體處理(PNM)、記憶體處理(PIM)和記憶體計算(CIM)。

近記憶體計算是一條更為成熟的技術路線。透過使用先進的壓縮技術將邏輯運算芯片和記憶體封裝在一起,縮短記憶體和處理器之間的路徑,從而實作高 I/O 密度,帶來高記憶體頻寬和低存取成本。近記憶體計算主要透過 2.5D 和 3D 堆疊技術實作,並廣泛套用於不同型別的處理器和顯卡。

另一方面,存量處理主要側重於盡可能將計算過程嵌入記憶體。這種實作方式旨在降低處理器的記憶體使用率,因為大部份計算已經在記憶體中進行。這種設計有助於克服馮-諾依曼瓶頸帶來的問題,提高計算速度和效率。

儲存計算是另一種將數據處理和儲存結合到單一裝置中的技術。主要有兩種思路。第一種想法是透過芯片創新,使記憶體本身具有可計算性。通常,這涉及修改 SRAM 或 MRAM 等記憶體,以便在有讀取數據的解碼器的地方執行計算功能。這種方法通常更節能,但可能會限制計算精度。

其中,本地儲存電腦和儲存電腦是實作統一儲存計算技術最常見的途徑。大型制造商需要一種既實用又能快速實作的整合計算架構,由於近記憶體計算是最接近的技術,因此成為大型制造商的首選。近記憶體計算的代表包括 AMD 的 Zen 系列處理器,而 Mythic、奇力軟體、閃盈、知乎、九天瑞芯等國內初創企業則專註於儲存計算,並未考慮先進的計算技術。

三種主要儲存介質

記憶體 整合電腦芯片上主要有兩種儲存介質。一種是揮發性記憶體,如 SRAM 和 DRAM,在系統正常關閉或突然或意外關閉時會遺失數據。

第二類是非揮發性記憶體,包括在上述情況下不會遺失數據的傳統快閃記憶體、NOR 快閃記憶體和 NAND 快閃記憶體,以及新型記憶體,如電阻式 RRAM (ReRAM)、磁性 MRAM、鐵電 FRAM (FeRAM) 和相變記憶體 PCRAM (PCM)。

如何選擇正確的技術路線,這些技術路線的特點、障礙和優勢是什麽?

就裝置成熟度而言,SRAM、DRAM 和快閃記憶體都是成熟的儲存技術。

快閃記憶體是一種非揮發性記憶體件,通常具有成本低的優勢,適用於低計算能力場景。DRAM 具有成本低、容量大的特點,但現有的 eDRAM IP 核心處理器節點不成熟,讀取延遲高,數據需要定期更新;SRAM 具有極大的速度優勢,能效接近最高,容量密度略低,精度更好後可以提供更高的精度。精度高,可廣泛套用於雲端運算等大功率計算場景。

在工藝技術方面,SRAM 可采用 5 奈米等先進工藝生產,而 DRAM 和快閃記憶體可采用 10-20 奈米工藝生產。

根據芯片設計的難易程度,店內計算可分為:店內計算 DRAM;店內計算 SRAM;店內計算快閃記憶體。就店內計算而言,SRAM 和 DRAM 的設計難度較大,它們屬於揮發性記憶體,其工藝偏差大大增加了模擬計算的設計難度;快閃記憶體屬於非揮發性記憶體,其狀態可以連續編程,能夠對編程工藝偏差等進行補償,從而提高精度。準記憶體計算的設計相對簡單,可以利用成熟的記憶體技術和邏輯電路設計技術來實作。

除了成熟的儲存技術,學者們也更加關註在神經網路計算中采用各種型別的 RRAM。RRAM 可以利用電阻調變來儲存數據,讀取電流訊號而不是傳統的負載訊號,並且具有更好的線性電阻特性。然而,RRAM 工藝仍處於起步階段,仍面臨著非揮發性記憶體固有的可靠性問題,因此仍主要用於計算能力較低端的低功耗計算和邊緣的人工智慧計算。

儲存和計算芯片的套用場景有哪些?

低計算能力方案:成本、功耗、延遲和開發難度對外圍裝置非常敏感。

最初,為了解決語音類、健康類和低功耗視覺終端的套用場景,解決人工智慧計算芯片的效能和功耗問題,單個芯片的算力儲存和計算量都很小,從1TOPS以上的小算力開始,作為AIoT套用。

眾所周知,分散的人工智慧物聯網市場對高端處理芯片的需求不大,而更青睞輕量級、低成本、低功耗的芯片。

Storage Compute All-in-One 正是滿足這些要求的理想芯片。

首先,組合儲存和處理技術可以減少儲存和處理裝置之間的數據傳輸量,從而大幅降低能耗。例如,傳統架構在傳輸大量數據時會消耗大量能源,而統一的儲存和處理架構可避免這種不必要的能源消耗,從而使電池供電的物聯網裝置等能夠執行更長時間。

其次,統一儲存計算技術可以透過減少數據傳輸和提高整合度來降低芯片生產成本。對於可以大規模部署的人工智慧物聯網裝置來說,成本的降低可以促進更多套用的部署。

整合記憶體可使電腦芯片提高運算速度並節省空間,這是改善人工智慧物聯網套用的兩個關鍵因素。

高效能計算場景:圖形卡在功耗和能效方面無法與特定的加速芯片競爭。

在雲端運算市場中,GPU 的個人化架構已經不能適應不同人工智慧處理場景中演算法的個性特點,如影像、推薦和 NLP 領域,都有自己的演算法通用架構。

隨著整合儲存芯片計算能力的不斷提高,其使用範圍正逐步擴充套件到具有大規模計算能力的套用領域。針對高計算能力的套用場景,100TOPS 可為無人車、儀表盤機器人、智慧駕駛和雲端運算提供高效能的大規模計算能力和高價效比的產品。

儲存芯片還有其他更廣泛的用途,如認知計算和類腦計算。

與國家儲存和會計一體化有關的技術流程

傳統軸承的國際制造商認識到這一技術的巨大潛力,熱情地進入了這一行業。

在國際上,三星開創了多種技術途徑,如推出全新的 HBM-PIM(店內計算)芯片,以及全球第一個基於 MRAM(磁性隨機存取記憶體)的店內計算實驗。在 ISSCC 2021 大會上,台積電提出了基於數位增強 SRAM 記憶體設計的店內計算解決方案。英特爾提出近記憶體計算戰略也有一段時間了,即在儲存層次中行動資料,使其更接近處理單元進行計算。

國內方面,單芯片企業的儲存和計算也在 "紮堆",並將在2021年後逐步實作量產和產業化。最早成立的公司正在嘗試實作快閃記憶體易、新型儲存技術、蘋果核心儲存技術等較為成熟的技術,而其他公司則在關註物聯網、可穿戴裝置、智慧家居等方面的低功耗計算場景。

隨著技術和套用的不斷成熟,近年來成立的初創企業敢於嘗試高計算能力和新技術的套用。例如,易播科技和千芯科技專註於人工智慧的高計算能力套用場景,如大規模建模和自動駕駛。

冀坤科技成功量產全球首款基於模擬快閃記憶體的低功耗電腦芯片 WTM2101,該芯片能以極低功耗執行大規模深度學習計算,廣泛套用於智慧語音控制、智慧健康可穿戴裝置等場景。該芯片推出不到一年,出貨量已達 100 萬顆。

近日,AppleSeed 推出了 28nm 和 22nm PimChip-N300 節點,整合了用於儲存計算的 NPU,以及支持智慧可穿戴裝置、智慧數據安全、大規模 AI 模型、醫療數據分析等領域的 PimChip-S300 多模智慧傳感芯片,專門支持人工智慧和加速大規模模式推理等計算任務。

在大數據算力方面,赫馬智慧成功推出國內首款AI一體機儲存計算芯片赫馬鴻圖p0,物理算力256TOPS,成功推出國內首款AI一體機儲存計算芯片大數據算力;p0已開始向alpha客戶提供測試,第二代p0正在研發中,將於2024年推出,2025年可支持量產機型。準備中。

去年,EverFoundry 還釋出了基於 ReRAM 的高精度、低功耗、高功率 PoC 芯片,用於人工智慧,並整合了儲存和計算技術。EverFoundry 還開始設計基於超異構芯片概念的下一代芯片,該芯片整合了儲存和計算技術。

隨著技術的不斷發展和套用範圍的不斷擴大,店內電腦的作用在未來將變得越來越重要,並將推動新算術時代的發展。然而,零售業計數技術仍然面臨著許多挑戰和問題。例如,零售業計數裝置的研發必須克服重大技術難題,提高效能和穩定性;同時,零售業計數系統的設計和最佳化必須充分考慮實際套用需求,提高系統的可延伸性和靈活性。

整合儲存和計算芯片大規模落地的時間尚不明確,但我們必須期待這一天的到來。技術進步不會停止,市場需求會發生變化,當一切條件成熟時,儲存和數據芯片將大放異彩。