智芯科顧渝驄：詳解SRAM存算一體技術優勢將研發伺服器和穿戴芯片

2024-10-12科技

編輯

具身智能對低延時、低功耗都有嚴苛的要求，有必要配備高能效的存算一體AI芯片。

2024全球AI芯片峰會（GACS 2024）於9月6日~7日在北京舉行，大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦，在主會場邊緣/端側AI芯片專場上， 智芯科創始人兼CEO顧渝驄以【具身智能的大腦芯片】為題發表了演講。

智芯科從2019年開始研究基於SRAM的存算一體芯片，已有大量專利積累。智芯科創始人兼CEO顧渝驄認為，具身智能是其中最大的落地場景之一，具身智能對低延時、低功耗都有嚴苛的要求，因此有必要配備高能效的存算一體AI芯片。

存算一體芯片的主流技術路徑包括DRAM、SRAM、Flash、Emerging NVM等。其中，SRAM具有讀寫速度快、能效比高、工藝成熟和可整合性佳的優勢，可快速無限次讀寫，很適合Transformer的自註意力機制。憑借這些優勢，SRAM已成為海內外存算一體技術研發的首選。

智芯科基於SRAM的模數混合存內計算芯片，精度高、量產一致性高，並能夠進一步降低功耗。硬件之外，智芯科還打造了通用性、易用性較強的軟件生態。據顧渝驄透露，未來智芯科將推出面向具身智能感知到大算力邊緣伺服器的眾多產品，覆蓋大模型、機器人和自動駕駛等場景。

編輯

▲智芯科創始人兼CEO 顧渝驄

以下為顧渝驄演講內容的完整整理：

我是智芯科的創始人。我們目前主要的研究方向是基於SRAM的存算一體創新技術。我們從2019年就開始研究這個技術，目前正在為這個技術找到各種各樣的落地場景。

我個人認為， 未來具身智能一定是該技術最大的落地場景， 類似於人的發展。人形機器人的出現，可能會改變人們的生活體驗，每個家庭以後都會有1個，甚至多個人形機器人。

01 .

低延時且低功耗，將有效解決

人形機器人的智能和傳感兩大問題

如何解決人形機器人的智能問題，以及它的傳感問題呢？那麽，我們需要提出一些新的芯片。

具身智能的樣式形形色色，有人形的、有類狗型的、有無人機式的。這些都可以叫具身智能。 而具身智能最大的一個特點是要能給出即時反應。

我前兩天看了一個影片，機器人走上演示台的過程中可能要摔角了，像這種情況，機器人必須要有很快的速度才能反應過來。

傳統的芯片雖然也用到了AI，但是反應速度延遲，可能會出問題。它不能夠及時把數據傳到雲端，再快速傳回來。雖然這其中的延遲只是毫秒級別的，但機器人可能已經摔倒了。 因此，為了減少延遲，我們必須要解決不用5G或者6G連雲端，而是讓算力直接「上身」到機器人，成為機器人的「小腦」。

「小腦」問題解決之後，我們就應該提高機器人的續航能力。如果一個機器人在家裏面幹不了幾個小時，又要休息，又要充電，顯然不太合理。

我個人認為，未來大家都會非常關註高能效AI芯片，而存算一體可能是目前看來比較現實的方法。我相信一個好的產品肯定會把各種各樣的先進技術集合在一起。 我們會采用存算一體技術，也會采用Chiplet技術，來真正解決具身智能大、小腦的功耗問題。

02 .

易讀寫、可異構、難替代，

SRAM仍是存算一體技術的最優解

目前，國內外大家都在關註記憶體方面的問題。

輝達走的是相對來說傳統的GPU、NPU的路，這條路終究會到頭。現在輝達正在開發3nm工藝，台積電甚至已著手研發2nm工藝。1nm工藝、小於1nm工藝的芯片，我覺得已經要突破物理理論極限了。

海內外都在推進存算一體技術的研究，主流方向是SRAM。 我們要把儲存和運算有機地結合在一起，突破原來的馮·紐曼架構，這樣才能解決儲存墻、功耗墻問題。

我們通常認為有4類記憶體，包括DRAM、SRAM、Flash等。這3類都是現在比較成熟的儲存工藝，每個都有各自的優缺點。

我們發現，相對來說，SRAM是比較經濟的一種實作存算一體的方式。

首先它的讀寫速度很快，它也沒有讀寫次數限制。 目前還沒有一種新型記憶體可以代替SRAM。

SRAM還有一個最大的好處， 它可以異構， 這也是它和DRAM最大的不同。我可以把SRAM存算一體技術、CPU和GPU等組合成一個SoC芯片。

總的來說，SRAM存算一體技術用在Transformer的自註意力（Self-Attention）機制裏，是非常有優勢的。它可以快速並且無限次地重新整理，而每次的計算結果，又能以非常快的速度存回去，從而準備下一次的計算。對於Attention機制裏Q×K×V這個矩陣基本的運算，想要真正實作低功耗，SRAM可以算是最好的方案了。

03 .

芯片算力最小僅1GOPS，最大有1000TOPS，可針對不同場景客製

下面我們簡單介紹一下智芯科。智芯科早在2019年就開始涉足存內計算領域，研發工作分布在深圳、杭州、合肥多地，期間也拿下不少專利，並且 在SRAM模數混合的存算一體 具備創新優勢。 我們不是采用模擬存內計算，而是采用數碼存內計算，這樣可以達到精度無失真、效能速度非常好和能效比非常高的效果。

同時，我們SRAM存內計算還可以支持矩陣稀疏性。 傳統的NPU一般采用Zero Skip技術，透過在矩陣運算時跳過或忽略矩陣中的零元素，來減少不必要的計算過程，從而提高整體運算效率。

但是存內計算不需要做這些判斷，如果是0的話，會自動省略，甚至裏面有「0」這個位元都可以省略。我們可以實作輸入DIN稀疏和權重Weight稀疏。

最理想的情況下，假設稀疏性利用率為50%，SRAM存內計算在22nm就可以做到23TOPS/w的能效比。 如果采用7nm、5nm等更先進的工藝，其效率隨之提高。

在擁有較好的硬件基礎之上，開發一系列包括編譯器在內的通用軟件工具，這是非常重要的。因此，智芯科的業務除了芯片研發，也將逐步拓展到工具開發。

這是我們芯片的布局，基本上覆蓋 從1GOPS到1000TOPS 算力規模的芯片，並且支持多模態能力。其中，小算力的芯片主要用於語音辨識、語音互動等場景；AT700主要解決具身智能感知問題，比如具身機器人最重要的視覺；AT800用於構建具身智能的「大腦」；AT900則是車規級別的。

除此之外，我們將研發用於 具備多模態能力的邊緣伺服器、大算力推理伺服器和各類穿戴式器材 的芯片。