当前位置: 华文世界 > 科技

AI算力系列报告:推理芯片,生成式 AI 驱动,或迎来重大机遇

2024-05-11科技

一、 生成式 AI 推理 需求旺盛 ,量化技术升级降低推理门槛

1.1 生成式 AI 模型 持续迭代 推理需求旺盛

生成式 AI 模型性能不断提升, 或处于 大规模 放量 前夕, 推理需求 有望高速增长 OpenAI 2022 11 月推出生成式 AI 应用 ChatGPT ,在不到两个月的时间内,月活跃 用户数突破 1 亿人。以 ChatGPT 为代表的生成式 AI 应用快速迭代、落地,模型推理的 算力需求逐渐显现。随着生成式 AI 模型参数和 Token 数量不断增加,模型 单次 推理 所需 的算力持续攀升。同时, ChatGPT Gemini Kimi 等聊天机器人的用户数逐步上升, Microsoft Copilot Adobe Firefly WPS AI 等办公助手持续落地, 用户侧的流量不断 推理算力需求有望高速增长。

推理算力 未来 有望 超过训练算力 最终 训练 芯片 推理芯片 数量 之比或达到 2 8 目前 生成式 AI 模型仍处于快速迭代 ,各厂商 相互追赶的阶段 ,随着模型性能的逐步稳定和应 用的陆续落地 算力的 推理需求 有望超过训练 需求。 推理需求与训练需求 计算量、 精度要求 以及 部署位置 上存在差异 一方面, 训练需求的 精度要求较推理需求更高, 训练芯片 也就要求有更高的精度范围,在高精度场景下同样需要具备较强的性能 一方面 训练芯片主要部署 数据中心(云侧),推理芯片则会兼顾云侧与边缘侧的算力 需求 根据施耐德电气的 测算 2028 人工智能 推理负载有望 占比 达到 85% 们认为: 考虑到云侧和边缘侧巨大的推理需求, 训练芯片与推理芯片数量之比或 达到 2 8

1.2 量化技术 有助于降低 推理的 算力 门槛

量化技术 Quantization 是决定 生成式 AI 推理成本的关键因素 量化技术的迭代升级 有望 降低 推理门槛 深度神经网络模型存在参数冗余 问题,所有参数 使用 32 位浮点 型数值 FP32 神经网络模型 实际 使用 的精度远不 FP32 所表示的范围 如果 针对 低位宽的数值计算进行优化,使用低数值进行大规模矩阵运算, 模型推理过程 明显 加速效果

模型量化 指的是 通过降低网络模型参数数值表示所需的位宽,在不影响模型任务性能情 况下达到降低 精度 内存容量的效果 假设 将一个参数全部是 FP32 的神经网络的权值 和激活值全部量化到 16 位整型数值 INT16 8 位整型数值 INT8 ,其内存占用和 精度理论上均可减少至原 的四分之一 如果 部署的 处理器 低精度运算较快 ,则能够 加速 推理 过程 目前 INT8 量化 技术 比较 成熟, Google TensorFlow 英伟达 TensorRT Meta PyTorch 等模型部署框架均已支持 INT 8 量化技术

量化技术快速发展 ,为 CPU+ASIC CPU+FPGA 等技术路线 的发展 ,以及国产算力 放量 提供了技术基础 人工智能模型 的量化技术 从最初的 FP16 量化 快速发展到 目前应 用最成熟的 INT8 量化 ,再到 正在进一步研究中的 INT4 量化 ,呈现出数据精度逐步降低, 内存或显存占用不断减少的趋势 这一趋势有助于 CPU+ASIC CPU+FPGA 等技术路 线通过 软硬件 的优化提高推理能力 也有助于 国产算力 通过增加 低精度 计算单元等方式 成熟的制程 工艺实现 可用的推理算力。

二、 推理芯片 多种 技术路线齐头并进, 推动生成式 AI 落地

2.1 英伟达 AMD 长期 关注 GPU 的推理算力

英伟达和 AMD 的数据中心 GPU 产品 在关注训练场景的同时,也始终关注推理场景的 技术革新 2022 年以来, 英伟达 先后推出了 Hopper Blackwell 两代 GPU 架构,较此 前的 Ampere 架构增强了 FP8 甚至是 FP4 精度下的 吞吐量 ,能够更高效地完成生成式 AI 模型的推理任务。 AMD 推出的 MI300X 也较 p00 提升了 FP 8 精度下的 计算能力 英伟达和 AMD 为代表的 数据中心 GPU 厂商 技术发展趋势,进一步表明 量化技术的迭 发展对 模型推理算力需求 有重要的 影响

另一方面, 英伟达和 AMD 的消费级 GPU 产品,同样具备 接近 千亿参数量级的 生成式 AI 模型的推理能力 ,从侧面说明 推理芯片的 门槛相对较低 根据 公开资料, Llama - 2 7B 13B 模型能够成功 部署在 8 英伟达 RTX 3090 服务器上, Llama - 2 70B 则能够在 8 卡英伟达 RTX 4 090 服务器 进行部署 尽管在推理性能上有一定的损失 ,但消费级 GPU 仍有完成 接近 千亿参数量级的生成式 AI 模型 的能力

2.2 海外 CSP 自研 芯片 ,或 另辟蹊径

谷歌、微软、亚马逊 Meta 等海外 CSP 企业 大规模采购 英伟达数据中心 GPU 的同 时, 也在积极自研用于 模型训练和推理 芯片 有望成为满足推理算力需求的另一种途 与英伟达和 AMD 的数据中心 GPU 类似 海外 CSP 自研芯片同样 关注 算力集群的 规模化和扩展性。 同时, 由于 面向 AI 场景的 算力 芯片与算法间 存在 紧密 联系 海外 CSP 重视 算法 与算力 芯片 间的 协同设计 通过 支持新一代量化技术的数据 精度、 部署 模型关 键算法的直接专用加速器 等方法,进一步 提高 推理 性能

谷歌于 2023 年先后发布了 TPU Tensor Processing Unit v5e TPU v5p 两款 ASIC 芯片,重点提升了训练 速度 和推理的性价比 PyTorch TensorFlow 等先进 框架 进行了 集成 TPU v5e TPU v5p 相较于 TPU v4 训练 速度上都有接近 2 倍左 右的 提升, 单位美元的 推理性能 也都 提升 2 以上 TPU v5p 为例, 每个 Pod 8960 芯片组成, 芯片间 4800 Gbps 传输 速率 进行互连。 Gemini 1.0 在训练时 使用 TPU v4 TPU v5e 我们认为: 随着 TPU 性价比的进一步提升, 有望在推理芯片 市场扩大份额 ,加速生成式 AI 模型的落地进程

微软、亚马逊 Meta 同样 发力 自研芯片, 生成式 AI 训练和推理提供更多的算力选 微软于 2023 11 月推出 Azure Maia 100 目前正在 通过 搜索引擎 Bing Office A I 系列 产品 进行测试 Azure Maia 100 采用台积电 5nm 工艺,拥有 1050 亿颗晶体管, 能够支持 低于 8 位数据类型。 亚马逊于 2023 12 月推出了 Amazon Graviton4 Amazon Trainium2 两款自研芯片 根据亚马逊云科技的测算, Graviton4 目前正在使 用的 Graviton3 处理器相比,性能提升 30% ,独立核心增加 50% 以上,内存带宽提升 75% 以上 Meta 也有望 推新款自研推理芯片 Artemis 2024 年内完成 Artemis Meta 自有数据中心的部署。 我们认为: 海外 CSP 企业 自研 ASIC 芯片的尝试 ,也从侧面 说明 面对生成式 AI 巨大的训练和推理需求,海外 CSP 企业 也期望 另辟蹊径, 探索 更具有性 价比 和计算效率的 算力解决方案 ,从而为多种技术路线的发展创造了可能性

2.3 国产推理芯片 市场潜力大 有望迎来重大机遇

国产 推理芯片快速发展, 已在推理 和部分训练 场景 落地 ,未来 有望 迎来重大发展机遇 Kimi WPS AI 为代表的 C 端和 B 端应用 陆续落地 国内 推理 算力 需求 正在快速 衡量 算力 大小 的维度不仅包括 集群峰值 算力 大小, 要考虑 算力 实际 部署中 的使用效率 和优化 程度。 实际可使用的 算力 工程化 结果, 涉及 从芯片 到开发工具包 的多 层次, 算力 提供者的 工程 能力及案例 经验都有要求 国产推理芯片在多个场景 下的部署, 有助于 国产算力厂商 迭代优化自身产品, 根据实际需求优化 芯片设计及 对应 开发工具包 ,加速形成软硬件一体的 开发生态

运营商 国内互联网厂商为 代表 需求端正在加速建设 AI 算力, 有望推动 国内推理芯 片市场快速 放量 2023 年以来 ,通信运营商 已集中采购超 1.5 万台 AI 服务器, 采购项目 体现了 运营商对智算中心 建设 的重视,同时也反映了国内 推理 和训练 算力 已加速 部署。 在新建成的 AI 算力基础设施 中, 国产 AI 芯片的使用率较高 中国移动智算中心(呼和 浩特)部署的 AI 加速卡国产化率超 85% 中国联通 则基于 华为昇腾 AI 基础软硬件 在北 京建立了 全国产化的智算中心 2023 百度订购了 200 8 服务器 搭配 1600 昇腾 910B

运营商和国内互联网厂商的 持续部署,有助于 支撑 生成式 AI 应用在国内 落地, 从而在实际运用中 不断对推理芯片的性能迭代升级 寒武纪 面向模型训练和推理场景推出了 MLU370 MLU370 采用 7nm 制程工艺 芯粒 C hiplet )技术, 通过 封装多颗 AI 计算芯粒( MLU - Die 增强计算性能 同时, 寒武纪 MLU 370 配备了 Cambricon Neuware 软件栈 推理加速引擎 MagicMind 助力 开发 提升部署效率 目前 MLU 370 阿里云 客户 进行了批量交付 通过 深耕行业客户, 寒武纪 有望推动 MLU370 产品在更多标志性应用场景 实现商业化 落地,进一步拓展业 务覆盖范围和客户覆盖领域。

华为 2019 年发布 昇腾 910 芯片, 此后陆续发布了 升级版本 昇腾 910B 、昇腾 910C 提升了 NPU 之间交换数据的能力, 对网络接口 进行了 升级 昇腾 910 在设计上 较为关注 低精度的 场景 FP16 算力达到 256 T FLOPS INT8 算力达到 512 TOPS 同时,华为 发布了 昇腾 Ascend C 编程语言 昇思 MindSpore AI 框架 配套软件栈 提供系列工 具及套件,支撑模型高效原生开发 ,构建较为完整的 软件生态

海光信息 研发的深算二号 已实现批量出货, 实现 LLaMa GPT Bloom ChatGLM 成式 AI 模型的全面应用,与包括文心一言 在内的 大模型全面适配 沐曦、壁仞、燧原等 厂商也陆续推出了 满足推理 场景 需求的 计算 芯片 部分推理芯片 INT 8 精度下的 计算能 英伟达 对应产品较为接近 其中 部分厂商的推理芯片实现兼容 CUDA 架构 ,进一 步降低了 模型移植成本

我们认为: 生成式 AI 的发展是一个不断迭代升级的过程, 随着 国内 生成式 AI 模型的质 量持续提升,有望出现 更多 优质应用,从而带动 推理算力需求快速上升 在推理 场景下 力的性价比 显得更为重要 在供给端 有所 限制的情况下 国产推理芯片 有望受益于 内生成式 AI 应用的落地,迎来重大发展机遇。

本文仅供参考,不代表我们的任何投资建议。【 幻影视界】 整理分享的资料仅推荐阅读,如需使用请参阅报告原文。