晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1800个Token

2024-09-01科技

还在犹豫什么？好运的机会稍纵即逝！赶紧关注我，一起开启幸运之旅吧！祝您财运亨通，心想事成！

Cerebras与Nvidia：一场关乎AI未来速度的「 SRAM 对 HBM 」之战

**一场芯片界的「速度与激情」正在上演。**主角是新晋实力选手Cerebras Systems和老牌巨头Nvidia。这两家公司，一个手握着晶圆级AI芯片WSE-3，另一个则拥有GPU王者p00，正围绕着AI推理速度展开着激烈的角逐。这场比赛，不仅仅是技术之争，更是关乎AI未来发展方向的路线之争。

一、 80亿参数模型，每秒生成1800个Token：Cerebras向Nvidia发起挑战

故事要从今年3月说起，Cerebras Systems发布了第三代晶圆级AI芯片WSE-3，其性能较上一代WSE-2翻了一番。最近，在Hot Chips 2024大会上，Cerebras Systems公布了WSE-3在AI推理方面的惊人表现：在Llama3.1-8B模型上，WSE-3的推理速度比使用NVIDIA p00的微软Azure等公司快了20倍！

这怎么可能？

秘密就在于WSE-3采用了44GB的片上SRAM，而p00使用的是HBM3e内存。虽然HBM3e拥有更大的容量，但SRAM的速度优势在AI推理中体现得淋漓尽致。Cerebras Systems首席执行官Andrew Feldman自豪地宣布，WSE-3在运行Llama 3.1 8B模型时，每秒能够生成超过1800个Token，而性能最好的基于英伟达p00的实例每秒只能生成超过242个Token。

这就好比两辆赛车，Cerebras的赛车虽然油箱小，但发动机强劲，加速迅猛；而Nvidia的赛车虽然油箱大，但发动机动力不足，只能望「 SRAM 」兴叹。