存算一体芯片带来的创新和惊喜有哪些

2024-08-30科技

存算一体芯片带来的创新和惊喜有哪些

用于存储和处理的一体化芯片有何过人之处？

近年来，随着人工智能应用场景的爆炸式增长，人工智能算法对计算能力的需求急剧增加，其增长速度远远超过摩尔定律所预测的硬件性能提升。传统计算机芯片在计算资源、处理延迟和功耗等方面的局限性逐渐显现，难以满足高度并行化的人工智能计算需求。

在智能芯片领域，传统的冯-诺依曼架构侧重于计算，处理器和存储器的物理分离导致大量数据频繁迁移，进一步限制了人工智能电路的整体性能。因此，传统芯片架构面临着 "内存墙"、"功耗墙 "和 "算力墙 "等严重问题，难以满足人工智能应用在低延迟、高能效和高扩展性方面的迫切需求。

针对这一问题，业界开发了一种名为 "存储和账户 "的解决方案。

究竟什么是存储墙、电源墙和翻译墙？什么是一体化芯片，它如何解决这些问题？一体化技术的出现给业界带来了哪些惊喜？

芯片开发的三大障碍

首先，有必要了解什么是 "挡土墙"。

内存墙是指内存性能严重限制 CPU 性能的一种现象。在过去 20 年中，CPU 性能以每年约 55% 的速度快速增长，而内存性能每年仅增长约 10%。由于长期发展速度不均衡，目前内存的利用率已远远落后于 CPU 的运算速度，内存瓶颈阻碍了高性能处理器充分发挥作用，成为高性能计算发展的一大制约因素。这种严重影响处理器性能的内存瓶颈被称为 "内存墙"。

存储计算机的 "剪刀差" 来源：存储计算机的 "剪刀差"：OneFlow，艾讯泰克研究中心

除了存储墙问题，还有流量墙问题，即在数据传输过程中会消耗大量能量，从而大大降低芯片的能效。

造成电源问题的主要原因是，随着计算机系统对内存带宽的要求越来越高，并努力追求更高的容量和访问速度，传统 DRAM 和其他类型内存的功耗急剧增加，最终达到收益递减点，无法通过简单地增加电源预算来解决。

部分原因是数据必须通过多级存储层次结构（包括 L1、L2 和 L3 高速缓存）从 DRAM 传输到 CPU。在某些情况下，将单个数据从 DRAM 传输到 CPU 所需的能量要比在 CPU 上处理该数据所需的能量高出几个数量级，甚至几个数量级。

英特尔的研究表明，当半导体工艺达到 7 纳米时，数据处理功耗会上升到每比特 35 pJ，占总功耗的 63.7%。数据传输造成的功耗增加，限制了芯片开发的速度和效率。

两者都存在 "编译墙 "问题，因为当编译器在极短的时间内处理大量数据时，不可能以静态可预测的方式优化运算符、函数、程序或整个网络，而手动优化又非常耗时。

在过去，这三座 "大山 "的缺陷可以通过先进的工艺创新快速提高计算能力来弥补。

然而，残酷的现实是，摩尔定律随着物理极限、HBM、3D DRAM、更好的互连和其他传统方式而逐渐失效，而工艺技术的改进在过去几十年中一直在改善芯片的 "老 "算术问题，但 "解决方案 "也是 "治标不治本"，晶体管小型化越来越难以提高算术性能并降低功耗。

随着大规模建模时代的到来，信息技术的普及无疑加大了 "三面墙 "的影响。

部署综合存储和会计技术是应对这些挑战的有效办法。

股票和账户的结合会带来什么惊喜？

从存储与计算一体化技术的原理来看，存储与计算一体化的实质是将存储功能与计算功能集成在同一电路中，直接利用存储设备进行数据处理。通过修改存储计算机结构中的 "读取电路"，可以从 "读取电路 "中获取计算结果，并将计算结果直接 "写入 "存储器中的目标地址，从而省去了处理设备和存储设备之间频繁的数据传输。通过修改存储计算机架构的 "读取电路"，可从 "读取电路 "中获取运算结果，并将结果直接 "写入 "存储器中的目标地址，从而无需在处理设备和存储设备之间频繁传输数据，消除了数据传输开销，大大降低了功耗，并极大地提高了处理效率。这样就无需在处理设备和存储设备之间频繁传输数据，大大降低了功耗，提高了处理效率。

因此，集成存储计算技术可以有效消除冯-诺依曼架构的瓶颈。

在实际应用中，组合存储和计算技术能带来哪些性能优势？

存储计算机芯片在某些领域可以提供更高的计算能力（1000 TOPS 或更高）和更好的能效（10-100 TOPS/W 或更高），这一点明显优于传统的 ASIC 芯片。CCS 技术还可以通过在逻辑计算中使用存储设备来提高计算能力，这相当于在同一区域内增加了计算内核的数量。

在能耗管理方面，统一存储和处理可以将能耗降低到原来的十分之一到百分之一，因为它减少了不必要的数据处理，提高了数据处理效率，降低了能耗；统一存储和处理自然会带来更好的成本效益。

综合存储和计量技术的分类

根据存储和计算之间的接近程度，常见的存储和计算解决方案可分为三大类：近内存处理（PNM）、内存处理（PIM）和内存计算（CIM）。

近内存计算是一条更为成熟的技术路线。通过使用先进的压缩技术将逻辑运算芯片和内存封装在一起，缩短内存和处理器之间的路径，从而实现高 I/O 密度，带来高内存带宽和低访问成本。近内存计算主要通过 2.5D 和 3D 堆叠技术实现，并广泛应用于不同类型的处理器和显卡。

另一方面，存量处理主要侧重于尽可能将计算过程嵌入内存。这种实现方式旨在降低处理器的内存使用率，因为大部分计算已经在内存中进行。这种设计有助于克服冯-诺依曼瓶颈带来的问题，提高计算速度和效率。

存储计算是另一种将数据处理和存储结合到单一设备中的技术。主要有两种思路。第一种想法是通过芯片创新，使内存本身具有可计算性。通常，这涉及修改 SRAM 或 MRAM 等存储器，以便在有读取数据的解码器的地方执行计算功能。这种方法通常更节能，但可能会限制计算精度。

其中，本地存储计算机和存储计算机是实现统一存储计算技术最常见的途径。大型制造商需要一种既实用又能快速实现的集成计算架构，由于近内存计算是最接近的技术，因此成为大型制造商的首选。近内存计算的代表包括 AMD 的 Zen 系列处理器，而 Mythic、奇力软件、闪盈、知乎、九天瑞芯等国内初创企业则专注于存储计算，并未考虑先进的计算技术。

三种主要存储介质

存储器集成计算机芯片上主要有两种存储介质。一种是易失性存储器，如 SRAM 和 DRAM，在系统正常关闭或突然或意外关闭时会丢失数据。

第二类是非易失性存储器，包括在上述情况下不会丢失数据的传统闪存、NOR 闪存和 NAND 闪存，以及新型存储器，如电阻式 RRAM (ReRAM)、磁性 MRAM、铁电 FRAM (FeRAM) 和相变存储器 PCRAM (PCM)。

如何选择正确的技术路线，这些技术路线的特点、障碍和优势是什么？

就设备成熟度而言，SRAM、DRAM 和闪存都是成熟的存储技术。

闪存是一种非易失性存储器件，通常具有成本低的优势，适用于低计算能力场景。DRAM 具有成本低、容量大的特点，但现有的 eDRAM IP 核心处理器节点不成熟，读取延迟高，数据需要定期更新；SRAM 具有极大的速度优势，能效接近最高，容量密度略低，精度更好后可以提供更高的精度。精度高，可广泛应用于云计算等大功率计算场景。

在工艺技术方面，SRAM 可采用 5 纳米等先进工艺生产，而 DRAM 和闪存可采用 10-20 纳米工艺生产。

根据芯片设计的难易程度，店内计算可分为：店内计算 DRAM；店内计算 SRAM；店内计算闪存。就店内计算而言，SRAM 和 DRAM 的设计难度较大，它们属于易失性存储器，其工艺偏差大大增加了模拟计算的设计难度；闪存属于非易失性存储器，其状态可以连续编程，能够对编程工艺偏差等进行补偿，从而提高精度。准存储器计算的设计相对简单，可以利用成熟的存储器技术和逻辑电路设计技术来实现。

除了成熟的存储技术，学者们也更加关注在神经网络计算中采用各种类型的 RRAM。RRAM 可以利用电阻调制来存储数据，读取电流信号而不是传统的负载信号，并且具有更好的线性电阻特性。然而，RRAM 工艺仍处于起步阶段，仍面临着非易失性存储器固有的可靠性问题，因此仍主要用于计算能力较低端的低功耗计算和边缘的人工智能计算。

存储和计算芯片的应用场景有哪些？

低计算能力方案：成本、功耗、延迟和开发难度对外围设备非常敏感。

最初，为了解决语音类、健康类和低功耗视觉终端的应用场景，解决人工智能计算芯片的性能和功耗问题，单个芯片的算力存储和计算量都很小，从1TOPS以上的小算力开始，作为AIoT应用。

众所周知，分散的人工智能物联网市场对高端处理芯片的需求不大，而更青睐轻量级、低成本、低功耗的芯片。

Storage Compute All-in-One 正是满足这些要求的理想芯片。

首先，组合存储和处理技术可以减少存储和处理设备之间的数据传输量，从而大幅降低能耗。例如，传统架构在传输大量数据时会消耗大量能源，而统一的存储和处理架构可避免这种不必要的能源消耗，从而使电池供电的物联网设备等能够运行更长时间。

其次，统一存储计算技术可以通过减少数据传输和提高集成度来降低芯片生产成本。对于可以大规模部署的人工智能物联网设备来说，成本的降低可以促进更多应用的部署。

集成内存可使计算机芯片提高运算速度并节省空间，这是改善人工智能物联网应用的两个关键因素。

高性能计算场景：图形卡在功耗和能效方面无法与特定的加速芯片竞争。

在云计算市场中，GPU 的个性化架构已经不能适应不同人工智能处理场景中算法的个性特点，如图像、推荐和 NLP 领域，都有自己的算法通用架构。

随着集成存储芯片计算能力的不断提高，其使用范围正逐步扩展到具有大规模计算能力的应用领域。针对高计算能力的应用场景，100TOPS 可为无人车、仪表盘机器人、智能驾驶和云计算提供高性能的大规模计算能力和高性价比的产品。

存储芯片还有其他更广泛的用途，如认知计算和类脑计算。

与国家存储和会计一体化有关的技术流程

传统轴承的国际制造商认识到这一技术的巨大潜力，热情地进入了这一行业。

在国际上，三星开创了多种技术途径，如推出全新的 HBM-PIM（店内计算）芯片，以及全球首个基于 MRAM（磁性随机存取存储器）的店内计算实验。在 ISSCC 2021 大会上，台积电提出了基于数字增强 SRAM 存储器设计的店内计算解决方案。英特尔提出近内存计算战略也有一段时间了，即在存储层次中移动数据，使其更接近处理单元进行计算。

国内方面，单芯片企业的存储和计算也在 "扎堆"，并将在2021年后逐步实现量产和产业化。最早成立的公司正在尝试实现闪存易、新型存储技术、苹果核心存储技术等较为成熟的技术，而其他公司则在关注物联网、可穿戴设备、智能家居等方面的低功耗计算场景。

随着技术和应用的不断成熟，近年来成立的初创企业敢于尝试高计算能力和新技术的应用。例如，易播科技和千芯科技专注于人工智能的高计算能力应用场景，如大规模建模和自动驾驶。

冀坤科技成功量产全球首款基于模拟闪存的低功耗计算机芯片 WTM2101，该芯片能以极低功耗执行大规模深度学习计算，广泛应用于智能语音控制、智能健康可穿戴设备等场景。该芯片推出不到一年，出货量已达 100 万颗。

近日，AppleSeed 推出了 28nm 和 22nm PimChip-N300 节点，集成了用于存储计算的 NPU，以及支持智能可穿戴设备、智能数据安全、大规模 AI 模型、医疗数据分析等领域的 PimChip-S300 多模智能传感芯片，专门支持人工智能和加速大规模模式推理等计算任务。

在大数据算力方面，赫马智能成功推出国内首款AI一体机存储计算芯片赫马鸿图p0，物理算力256TOPS，成功推出国内首款AI一体机存储计算芯片大数据算力；p0已开始向alpha客户提供测试，第二代p0正在研发中，将于2024年推出，2025年可支持量产机型。准备中。

去年，EverFoundry 还发布了基于 ReRAM 的高精度、低功耗、高功率 PoC 芯片，用于人工智能，并集成了存储和计算技术。EverFoundry 还开始设计基于超异构芯片概念的下一代芯片，该芯片集成了存储和计算技术。

随着技术的不断发展和应用范围的不断扩大，店内计算机的作用在未来将变得越来越重要，并将推动新算术时代的发展。然而，零售业计数技术仍然面临着许多挑战和问题。例如，零售业计数设备的研发必须克服重大技术难题，提高性能和稳定性；同时，零售业计数系统的设计和优化必须充分考虑实际应用需求，提高系统的可扩展性和灵活性。

集成存储和计算芯片大规模落地的时间尚不明确，但我们必须期待这一天的到来。技术进步不会停止，市场需求会发生变化，当一切条件成熟时，存储和数据芯片将大放异彩。