AI算力系列報告：推理芯片，生成式 AI 驅動，或迎來重大機遇

2024-05-11科技

一、生成式 AI 推理需求旺盛，量化技術升級降低推理門檻

1.1 生成式 AI 模型持續叠代，推理需求旺盛

生成式 AI 模型效能不斷提升，或處於更大規模放量前夕，推理需求有望高速增長。 OpenAI 於 2022 年 11 月推出生成式 AI 套用 ChatGPT ，在不到兩個月的時間內，月活躍使用者數突破 1 億人。以 ChatGPT 為代表的生成式 AI 套用快速叠代、落地，模型推理的算力需求逐漸顯現。隨著生成式 AI 模型參數和 Token 數量不斷增加，模型單次推理所需的算力持續攀升。同時， ChatGPT 、 Gemini 、 Kimi 等聊天機器人的使用者數逐步上升， Microsoft Copilot 、 Adobe Firefly 、 WPS AI 等辦公助手持續落地，使用者側的流量不斷上升，推理算力需求有望高速增長。

推理算力未來有望超過訓練算力，最終訓練芯片與推理芯片數量之比或達到 2 ： 8 。目前生成式 AI 模型仍處於快速叠代，各廠商相互追趕的階段，隨著模型效能的逐步穩定和應用的陸續落地，算力的推理需求有望超過訓練需求。而推理需求與訓練需求在計算量、精度要求以及部署位置上存在差異。一方面，訓練需求的精度要求較推理需求更高，因此訓練芯片也就要求有更高的精度範圍，在高精度場景下同樣需要具備較強的效能。另一方面，訓練芯片主要部署在數據中心（雲側），推理芯片則會兼顧雲側與邊緣側的算力需求。根據舒妮達電氣的測算，到 2028 年人工智能的推理負載有望占比達到 85% 。我們認為：考慮到雲側和邊緣側巨大的推理需求，訓練芯片與推理芯片數量之比或將達到 2 ： 8 。

1.2 量化技術有助於降低推理的算力門檻

量化技術（ Quantization ）是決定生成式 AI 推理成本的關鍵因素，量化技術的叠代升級有望降低推理門檻。深度神經網絡模型存在參數冗余的問題，所有參數均使用 32 位浮點型數值（ FP32 ），但神經網絡模型實際使用的精度遠不到 FP32 所表示的範圍。如果針對低位寬的數值計算進行最佳化，使用低數值進行大規模矩陣運算，模型推理過程會有明顯的加速效果。

模型量化指的是透過降低網絡模型參數數值表示所需的位寬，在不影響模型任務效能情況下達到降低精度和記憶體容量的效果。假設將一個參數全部是 FP32 的神經網絡的權值和啟用值全部量化到 16 位整型數值（ INT16 ）或 8 位整型數值（ INT8 ），其記憶體占用和精度理論上均可減少至原先的四分之一，如果部署的處理器低精度運算較快，則能夠有效加速推理過程。目前 INT8 量化技術已比較成熟， Google 的 TensorFlow 、輝達的 TensorRT 、 Meta 的 PyTorch 等模型部署框架均已支持 INT 8 量化技術。

量化技術快速發展，為 CPU+ASIC 、 CPU+FPGA 等技術路線的發展，以及國產算力的放量提供了技術基礎。人工智能模型的量化技術從最初的 FP16 量化快速發展到目前應用最成熟的 INT8 量化，再到正在進一步研究中的 INT4 量化，呈現出數據精度逐步降低，記憶體或視訊記憶體占用不斷減少的趨勢。這一趨勢有助於 CPU+ASIC 、 CPU+FPGA 等技術路線透過軟硬件的最佳化提高推理能力，也有助於國產算力透過增加低精度計算單元等方式，以較成熟的制程工藝實作可用的推理算力。

二、推理芯片多種技術路線齊頭並進，推動生成式 AI 落地

2.1 輝達、 AMD 長期關註 GPU 的推理算力

輝達和 AMD 的數據中心 GPU 產品，在關註訓練場景的同時，也始終關註推理場景的技術革新。 2022 年以來，輝達先後推出了 Hopper 、 Blackwell 兩代 GPU 架構，較此前的 Ampere 架構增強了 FP8 甚至是 FP4 精度下的吞吐量，能夠更高效地完成生成式 AI 模型的推理任務。 AMD 新推出的 MI300X 也較 p00 提升了 FP 8 精度下的計算能力。以輝達和 AMD 為代表的數據中心 GPU 廠商的技術發展趨勢，進一步表明量化技術的叠代發展對模型推理算力需求有重要的影響。

另一方面，輝達和 AMD 的消費級 GPU 產品，同樣具備接近千億參數量級的生成式 AI 模型的推理能力，從側面說明推理芯片的門檻相對較低。根據公開資料， Llama - 2 7B 和 13B 模型能夠成功部署在 8 卡輝達 RTX 3090 伺服器上， Llama - 2 70B 則能夠在 8 卡輝達 RTX 4 090 伺服器上進行部署。盡管在推理效能上有一定的損失，但消費級 GPU 仍有完成接近千億參數量級的生成式 AI 模型的能力

2.2 海外 CSP 自研芯片，或將另辟蹊徑

谷歌、微軟、亞馬遜、 Meta 等海外 CSP 企業在大規模采購輝達數據中心 GPU 的同時，也在積極自研用於模型訓練和推理的芯片，有望成為滿足推理算力需求的另一種途徑。與輝達和 AMD 的數據中心 GPU 類似，海外 CSP 自研芯片同樣關註算力集群的規模化和擴充套件性。同時，由於面向 AI 場景的算力芯片與演算法間存在緊密聯系，海外 CSP 重視演算法與算力芯片間的協同設計，透過支持新一代量化技術的數據精度、部署模型關鍵演算法的直接專用加速器等方法，進一步提高推理效能。

谷歌於 2023 年先後釋出了 TPU （ Tensor Processing Unit ） v5e 和 TPU v5p 兩款 ASIC 芯片，重點提升了訓練速度和推理的性價比，並對 PyTorch 、 TensorFlow 等先進框架進行了整合。 TPU v5e 和 TPU v5p 相較於 TPU v4 ，在訓練速度上都有接近 2 倍左右的提升，單位美元的推理效能也都提升 2 倍以上。以 TPU v5p 為例，每個 Pod 由 8960 塊芯片組成，芯片間以 4800 Gbps 的傳輸速率進行互連。 Gemini 1.0 在訓練時即使用 TPU v4 和 TPU v5e 。我們認為：隨著 TPU 性價比的進一步提升，有望在推理芯片市場擴大份額，加速生成式 AI 模型的落地行程。

微軟、亞馬遜、 Meta 同樣發力自研芯片，為生成式 AI 的訓練和推理提供更多的算力選擇。微軟於 2023 年 11 月推出 Azure Maia 100 ，目前正在透過搜尋引擎 Bing 和 Office A I 系列產品進行測試。 Azure Maia 100 采用台積電 5nm 工藝，擁有 1050 億顆晶體管，能夠支持低於 8 位數據類別。亞馬遜於 2023 年 12 月推出了 Amazon Graviton4 和 Amazon Trainium2 兩款自研芯片，根據亞馬遜雲科技的測算， Graviton4 與目前正在使用的 Graviton3 處理器相比，效能提升 30% ，獨立核心增加 50% 以上，記憶體頻寬提升 75% 以上。 Meta 也有望推新款自研推理芯片 Artemis ，或於 2024 年內完成 Artemis 在 Meta 自有數據中心的部署。我們認為：海外 CSP 企業自研 ASIC 芯片的嘗試，也從側面說明面對生成式 AI 巨大的訓練和推理需求，海外 CSP 企業也期望另辟蹊徑，探索更具有性價比和計算效率的算力解決方案，從而為多種技術路線的發展創造了可能性。

2.3 國產推理芯片市場潛力大，有望迎來重大機遇

國產推理芯片快速發展，已在推理和部份訓練場景下落地，未來有望迎來重大發展機遇。以 Kimi 和 WPS AI 為代表的 C 端和 B 端套用陸續落地，國內的推理算力需求正在快速上升。衡量算力大小的維度不僅包括集群峰值算力的大小，也要考慮到算力在實際部署中的使用效率和最佳化程度。實際可使用的算力是工程化的結果，涉及從芯片到開發工具包的多個層次，對算力提供者的工程能力及案例經驗都有要求。國產推理芯片在多個場景下的部署，有助於國產算力廠商叠代最佳化自身產品，根據實際需求最佳化芯片設計及對應的開發工具包，加速形成軟硬件一體的開發生態。

以營運商和國內互聯網廠商為代表的需求端正在加速建設 AI 算力，有望推動國內推理芯片市場快速放量。 2023 年以來，通訊營運商已集中采購超 1.5 萬台 AI 伺服器，采購專案體現了營運商對智算中心建設的重視，同時也反映了國內推理和訓練算力已加速部署。在新建成的 AI 算力基礎設施中，國產 AI 芯片的使用率較高，中國移動智算中心（呼和浩特）部署的 AI 加速卡國產化率超 85% ，中國聯通則基於華為昇騰 AI 基礎軟硬件在北京建立了的全國產化的智算中心。 2023 年，百度訂購了 200 台 8 卡伺服器，搭配 1600 塊昇騰 910B 。

營運商和國內互聯網廠商的持續部署，有助於支撐生成式 AI 套用在國內落地，從而在實際運用中不斷對推理芯片的效能叠代升級。寒武紀面向模型訓練和推理場景推出了 MLU370 ， MLU370 采用 7nm 制程工藝及芯粒（ C hiplet ）技術，透過封裝多顆 AI 計算芯粒（ MLU - Die ）增強計算效能。同時，寒武紀為 MLU 370 配備了 Cambricon Neuware 軟件棧和推理加速引擎 MagicMind ，助力開發者提升部署效率。目前 MLU 370 已向阿裏雲等客戶進行了批次交付。透過深耕行業客戶，寒武紀有望推動 MLU370 等產品在更多標誌性套用場景實作商業化落地，進一步拓展業務覆蓋範圍和客戶覆蓋領域。

華為於 2019 年釋出昇騰 910 芯片，此後陸續釋出了升級版本昇騰 910B 、昇騰 910C ，提升了 NPU 之間交換數據的能力，對網絡介面進行了升級。昇騰 910 在設計上較為關註低精度的場景， FP16 算力達到 256 T FLOPS ， INT8 算力達到 512 TOPS 。同時，華為還釋出了昇騰 Ascend C 程式語言、昇思 MindSpore AI 框架等配套軟件棧，提供系列工具及套件，支撐模型高效原生開發，構建較為完整的軟件生態。

海光資訊研發的深算二號已實作批次出貨，實作 LLaMa 、 GPT 、 Bloom 、 ChatGLM 等生成式 AI 模型的全面套用，與包括文心一言在內的大模型全面適配。沐曦、壁仞、燧原等廠商也陸續推出了滿足推理場景需求的計算芯片，部份推理芯片在 INT 8 精度下的計算能力與輝達對應產品較為接近。其中，部份廠商的推理芯片實作相容 CUDA 架構，進一步降低了模型移植成本

我們認為：生成式 AI 的發展是一個不斷叠代升級的過程，隨著國內生成式 AI 模型的質量持續提升，有望出現更多優質套用，從而帶動推理算力需求快速上升。在推理場景下，算力的性價比顯得更為重要。在供給端有所限制的情況下，國產推理芯片有望受益於國內生成式 AI 套用的落地，迎來重大發展機遇。

本文僅供參考，不代表我們的任何投資建議。【 幻影視界】 整理分享的資料僅推薦閱讀，如需使用請參閱報告原文。