当前位置: 华文世界 > 科技

存算一体芯片带来了哪些惊喜?详解其独特优势

2024-08-29科技

存算一体芯片带来了哪些惊喜?详解其独特优势

全面的数据存储和管理解决方案会带来哪些惊喜?

近年来,随着人工智能应用场景的快速发展,人工智能算法对计算能力的要求急剧提高,其增长速度远远超过了摩尔定律所预测的硬件性能的提升。传统计算芯片在计算能力、处理延迟和电源管理等方面逐渐表现出局限性,难以满足高度并行的人工智能计算要求。

在智能芯片中,传统的冯-诺依曼架构以计算为主,处理器与内存的物理分离导致频繁的大规模数据迁移,进一步限制了人工智能芯片的整体性能。因此,传统芯片架构面临着 "内存墙"、"功耗墙 "和 "计算墙 "等重大挑战,难以满足人工智能应用对低延迟、高能效和高扩展性的迫切需求。这就难以满足人工智能应用对低延迟、高能效和高可扩展性的迫切需求。

针对上述问题,业界提出了一种名为 "存储和核算 "的解决方案。

什么是 "内存墙"、"性能墙 "和 "编译墙"?什么是一体化系统?它如何解决这些问题?一体化内存技术的出现带来了哪些惊喜?

芯片制造大楼前的三面墙

首先,我们要弄清楚什么是 "储物墙"。

内存墙指的是内存性能严重限制处理器性能的现象。在过去 20 年中,CPU 性能以每年约 55% 的速度快速增长,而内存性能的年增长率仅为 10%。长期累积的不均衡增长速度意味着当前内存的访问速度严重落后于处理器的计算速度,内存瓶颈导致强大的处理器难以充分发挥其性能,成为高性能计算发展的一大障碍。这种严重限制处理器性能的内存瓶颈被称为 "内存墙",又称 "内存瓶颈"。

来源:OneFlow,艾讯泰克研究中心

除了内存墙问题,数据传输过程中还会消耗大量电能,导致芯片能效大幅降低,即所谓的能量墙问题。

造成 "功耗墙 "问题的主要原因是,随着计算机系统带宽需求的不断增加,以及对更大容量和更快访问速度的追求,传统 DRAM 和其他类型内存的功耗正在急剧增加,最终将达到一个临界点,而这不是简单地增加功耗预算就能解决的。

这部分是由于数据必须通过包括 L1、L2 和 L3 高速缓存在内的多个存储层次从 DRAM 转移到处理器。 研究发现,在某些条件下,将 1 位数据从 DRAM 转移到处理器所消耗的能量是处理器处理该位所需能量的数倍到十倍。

根据英特尔的研究,当半导体工艺达到 7 纳米时,数据处理功耗高达 35 pJ/bit,占总功耗的 63.7%。数据传输的功耗不断增加,限制了芯片开发的速度和效率。

这两种情况都隐含着 "编译墙 "问题,因为在极短的时间内处理大量数据,编译器无法以静态可预测的方式优化运算符、函数、程序或整个网络,而手动优化又非常耗时。

过去,得益于先进的突破性工艺,这三座 "大山 "的缺点也可以通过计算能力的快速提升得到弥补。

然而,残酷的现实是,近几十年来,由于工艺技术的改进提高了芯片的计算能力,"老办法 "正在逐渐失效--摩尔定律正在接近其物理极限,HBM、3D DRAM、更好的互连等传统解决方案也在逐渐失效。这种 "解决方案 "也是 "治标不治本",晶体管的小型化越来越难以提高计算能力和降低功耗。

随着大型模型时代的到来和计算机的普及,"三面墙 "的影响无疑越来越大。

综合仓储和会计技术的出现是应对这些挑战的有效措施。

库存与会计的整合会带来哪些惊喜?

根据存储器与计算设备集成技术的原理,存储器与计算设备集成的实质是将存储器功能与计算功能集成在同一芯片上,直接利用存储器设备处理数据--通过修改存储计算设备架构中的 "读 "电路,可以在 "读 "电路中获取运算结果,并将结果直接 "写回 "目标存储器地址,从而无需在计算设备与存储器设备之间频繁传输数据。通过修改存储计算设备架构中的 "读取 "电路,可以在 "读取 "电路中获取运算结果,并将结果直接 "写回 "目标存储器地址,而无需在计算设备和存储设备之间进行频繁的数据传输,从而消除了数据传输造成的损耗,大大降低了功耗,并大大提高了计算性能。这样就无需在计算设备和存储设备之间频繁传输数据,大大降低了功耗,并显著提高了计算性能。

因此,集成存储和计算技术可以有效克服冯-诺依曼架构的瓶颈。

考虑到技术优势,集成存储和计算技术在实际应用中能带来哪些性能提升?

数据存储芯片可在某些领域提供更高的计算性能(超过 1000 TOPS)和能效(超过 10-100 TOPS/W),明显优于现有的专用集成电路。CCS 技术还可以通过利用存储设备参与逻辑运算来提高计算能力,这相当于在保持相同面积的情况下增加了计算内核的数量。

在电源管理方面,集成存储和计算技术可以通过减少不必要的数据处理,将功耗降低到以前的 1/10~1/100,从而提高计算能力,降低功耗,集成存储和计算技术自然也能更好地收回成本。

综合储存和结算技术的分类

根据存储和计算之间的接近程度,存储和计算的通用技术解决方案可分为三大类:近内存处理(PNM)、内存处理(PIM)和内存计算(CIM)。

近内存计算机是一种更先进的技术。它采用先进的封装技术,将计算逻辑和内存结合在一起,通过缩短内存和计算单元之间的路径来实现高密度的输入和输出,进而提供高内存带宽和较低的访问开销。近内存计算主要采用 2.5D 和 3D 堆叠等技术来实现,这些技术广泛应用于各类 CPU 和 GPU。

相比之下,内存处理主要侧重于尽可能将计算过程集成到内存中。这种实现方式的目标是降低处理器访问内存的频率,因为大部分计算已经在内存中完成。这种实现方式有助于消除冯-诺依曼瓶颈带来的问题,提高数据处理的速度和效率。

存储计算也是一种将计算和存储技术合二为一的技术。它有两个主要目标。首先是通过电路升级使存储器本身能够执行计算。通常情况下,这涉及修改 SRAM 或 MRAM 等存储器,以便在读取数据的解码器等地方实现计算功能。这种方法通常具有较高的能效系数,但计算精度可能有限。

其中,近内存计算和店内计算是嵌入式存储技术的主要实现方式。大型制造商要求嵌入式计算架构既实用又能快速实现,作为最接近工程化的技术,近内存计算成为大型制造商的首选。近内存计算的典型代表是 AMD 的 Zen 系列处理器,而国内的创业公司则不拘泥于先进的处理技术,专注于店内计算,代表企业有神话、奇力软件、闪盈、晓存、九天瑞信等。

三种主要存储介质选择

集成内存的计算机系统中的存储介质可分为两大类:一类是易失性内存,即在系统正常或突然或意外关机时数据会丢失,如 SRAM 和 DRAM。

第二类是在上述条件下数据不会丢失的非易失性存储器,如传统的 NOR 闪存和 NAND 闪存,以及新型存储器:电阻式 RRAM(ReRAM)、磁性 MRAM、铁流体 FRAM(FeRAM)和相变存储器(PCRAM)。

那么,我们该如何选择正确的技术途径,这些技术途径又有哪些特点、障碍和优势呢?

就器件工艺成熟度而言,SRAM、DRAM 和闪存都是成熟的存储器技术。

闪存是非易失性存储器件之一,具有成本低的优势,一般适用于低计算能力场景;DRAM 成本低、容量大,但 eDRAM IP 核可用的工艺节点并不先进,读取延迟也较高,需要定期刷新数据;SRAM 在速度方面有很大优势,在容量密度稍低的情况下,能效比几乎是最高的,而且随着精度的提高,可以保证更高的精度。精度高,一般用于云计算等计算密集型场景。

就工艺技术而言,SRAM 可在 5 纳米等先进工艺上制造,而 DRAM 和闪存可在 10-20 纳米工艺上制造。

就电路设计难度而言,DRAM>SRAM>Flash存储器是。在存储计算方面,SRAM 和 DRAM 的设计难度较大,它们属于易失性存储器,工艺偏差会大大增加模拟计算的设计难度,Flash 属于非易失性存储器,其状态是连续可编程的,可以通过编程等方式校正工艺偏差,提高精度。近内存计算机的设计相对简单,可以利用先进的存储器技术和逻辑电路设计技术完成。

除了先进的数据存储技术外,研究人员还更加关注各种 RRAM 在神经网络计算机中的应用。RRAM 使用电阻调制来存储数据,读取电流信号而不是传统的电荷信号,可以实现更好的线性电阻特性。然而,提高 RRAM 工艺性能的工作仍在继续,非易失性存储器固有的可靠性问题也尚未解决,因此它们仍主要用于低端计算和人工智能边缘计算。

存储系统有哪些应用场景?

低计算能力方案:边缘对成本、功耗、延迟和开发问题非常敏感。

早期,单芯片上的存储和算力很小,从1TOPS以上的小算力开始,为了解决声音类、健康类和应用场景侧的省电终端视觉、性能和功耗的AI落地芯片。举例来说AIoT 应用。

众所周知,在碎片化的人工智能物联网市场中,对先进处理器芯片的需求并不多,相反,廉价、高性价比和轻量级芯片更受青睐。

一体化存储计算机正是满足这些要求的芯片。

首先,集成存储和计算技术可以通过限制存储和计算设备之间的数据流来大幅降低能耗。例如,传统架构在传输大量数据时会消耗大量能源,而集成存储和计算架构则可以避免这种不必要的能源消耗,让电池供电的物联网设备(如电池供电的物联网设备)运行更长时间。

其次,集成数据存储技术可以通过减少数据传输和提高集成度来降低芯片制造成本。对于大规模部署的人工智能物联网设备而言,降低成本有助于扩大应用范围。

集成内存和集成计算机芯片还能显著提高计算速度并节省空间,这是支持人工智能物联网应用的两个关键因素。

高性能计算场景:GPU 在性能和能效方面都无法与专用加速芯片相媲美。

在当今的云计算市场中,成像、推荐和 NLP 等不同人工智能应用场景的离散算法功能已无法放在单一的 GPU 架构中,它们都有自己通用的算法架构。

随着集成存储和计算芯片计算性能的不断提升,应用领域逐渐向高性能应用拓展。针对高计算能力场景,100TOPS,在无人车、泛机器人、智能驾驶、云计算等领域,提供高计算能力、低成本的高性能产品。

此外,存储芯片还有其他一些广泛的应用,如感官存储芯片、类脑芯片等。

国家综合存储和核算技术程序

国际传统存储制造商看准了这一技术的广阔发展前景,纷纷踊跃进入这一市场。

在国际上,三星电子正在尝试多种技术,包括推出新的 HBM-PIM(店内计算)芯片,以及全球首个基于 MRAM(磁随机存储器)的店内计算研究。 台积电在 ISSCC 2021 上展示了基于数字增强 SRAM 设计的店内计算解决方案。英特尔也早就提出了近内存计算战略,将数据上移到存储层级,更接近计算单元。

在国内市场,存储器和计算机芯片公司也正在进入这一领域,并将在 2021 年后逐步实现量产和产业化。此前的老牌企业正在利用较为成熟的技术,如易用闪存、新型内存技术、苹果核心技术、知名数据存储技术等,还有一些企业则专注于物联网、可穿戴设备、智能家居等小型计算能力场景的其他部分。

随着相关技术和应用的不断发展,近年来涌现出的初创企业在高计算能力的安排和新技术的应用方面进行了大胆的尝试。例如,亿播科技、钱芯科技等公司都在专注于高计算能力的人工智能场景,如大规模计算机建模、自动驾驶等。

在低算力领域,智存科技成功量产了全球首款基于模拟闪存的存储芯片WTM2101,该芯片以极低的功耗大规模执行深度学习运算,广泛应用于可穿戴设备的智能语音、医疗服务等场景。该芯片在推出不到一年的时间里,出货量已超过 100 万颗。

苹果公司近期推出了面向内存计算的PIMCHIP-N300集成NPU,采用28纳米和22纳米技术制造,以及PIMCHIP-S300多模态智能感知芯片,为智能可穿戴设备、智能安防、大规模人工智能模型、健康数据分析等领域提供支持,特别是支持人工智能和大规模推理模型等各类计算任务场景。

在高算力方面,后马智能推出了首款物理算力高达256TOPS的后马鸿图p0芯片,成为国内首家成功储备高AI算力芯片的企业。目前,p0芯片已开始向Alpha客户发货测试,第二代p0芯片正在研发中,预计2024年推出,为2025年量产机型做好支持准备。 准备工作。

去年,EverFoundry 还推出了基于 ReRAM 的 PoC 芯片,具有高精度和低功耗的特点,可实现高计算性能。此外,它还开始开发基于超异构芯片与存储集成概念的下一代芯片。

随着技术的不断发展和应用场景的不断扩大,店内计算在未来将扮演越来越重要的角色,并推动新计算时代的发展。然而,店内计算仍然面临着许多挑战和问题。例如,店内计算的研发必须攻克关键技术问题,提高性能和可靠性;同时,店内计算的设计和优化必须充分考虑当前的应用需求,提高系统的可扩展性和灵活性。

集成存储和计算芯片的大举推出时间尚不明确,但可以预期会发生。技术发展永不停歇,市场需求也在不断变化,当一切条件成熟时,存储和计算芯片就会大放异彩。