当前位置: 华文世界 > 科技

强攻GPU市场,TPU芯片一夜之间迅速蹿红

2024-08-26科技

强攻GPU市场,TPU芯片一夜之间迅速蹿红

强攻图形处理器, TPU芯片一夜成名

自 Chat GPT大火以来,各种大规模人工智能模型的开发层出不穷,而美国芯片企业英伟达更是在"百模大战"中大赚特赚,其中最大的一笔就是 GPU。

然而,苹果最近的一步棋却让英伟达冷静了下来。

苹果在人工智能模型上使用 TPU替代图形处理器

英伟达已经成为人工智能计算基础架构的领导者,在人工智能硬件市场上也有着举足轻重的地位,尤其是英伟达。(nvn?)图形处理器拥有80%以上的培训市场份额,是许多技术巨头,如亚马逊,微软, Meta, OpenAI等,都将其作为人工智能和机器学习的首选。

因此,英伟达在业界仍面临众多挑战,其竞争对手要么是自己研发的 GPU,要么是在探索创新的架构。

谷歌的 TPU也是英伟达强有力的竞争对手。

7月30日,苹果公布了一项调查报告。苹果介绍了两个支持苹果智能的模型,分别是 AFM—on-device (包含30亿个参数)和一个基于服务器的语言模型AFM-server。

苹果公司在文档中称,他们将谷歌公司生产的两种张量处理器(TPU)用于训练自己的人工智能模型,并将其集成到一大堆芯片中。苹果公司用了2048块TPUv5p芯片,来构建适用于 iPhone及其它设备的 AFM设备的人工智能模型。在 AFM伺服器人工智能模型中,苹果公司使用了8192颗TPUv4处理器,这是苹果公司的核心技术。

Apple将英伟达拱手相让?(nvn?)图形处理单元(GPU)采用谷歌的 TPU这一策略,给科技界带来一枚重磅炸弹,令英伟达股价大跌7%,创3个月来新低,市值蒸发193亿美元。

行业专家称,苹果的这一决定暗示着,一些大的技术公司或将寻求英伟达在人工智能培训领域的替代方案。

TPU和 GPU,哪一个更适合做大模型?

在讨论哪一种更适用于较大的模型时,我们需要先了解一下这两种技术。

GPU TPU

TPU的全称是张量处理单元,由谷歌研发,专门用来加速机器学习任务,用于深度学习模型的训练与推理。值得一提的是, TPU同样属于专用集成电路芯片,是根据客户的特殊需要而量身定做的。

GPU最初是为图绘制而设计的处理器,后来被广泛应用于并行计算与深度学习。该算法具有并行处理能力,对其进行优化后,还可用于深度学习、科学计算等并行计算。

正如我们所看到的,这两个不同的芯片是不同于原来的设计目的的。

GPU具有比传统 CPU更强的并行计算能力,因此近年来随着大规模人工智能模型的爆炸式增长, GPU已经成为人工智能训练的首选计算设备。

然而,随着大规模人工智能模型的不断涌现,计算任务呈现指数级增长,对计算资源和计算能力提出了全新的需求。GPU在人工智能计算领域面临着算力利用率低、功耗高的瓶颈问题, Nvidia公司推出的产品价格昂贵且供应量有限,因此,面向深度学习、机器学习的 TPU架构受到越来越多的关注。图形处理单元在该领域中的统治地位已开始受到质疑。

早在2013年,谷歌便开始研发专门用于人工智能机器学习算法的芯片,并于2016年正式对外发布了内部研发的 TPU。2016年3月, AlphaGo战胜了李世石,2017年5月战胜了柯洁,它们都使用了谷歌的 TPU芯片。

如果 TPU在训练大型人工智能模型方面表现得更好,但如果没有明确它的"能力",就难以令人信服。

TPU是怎样用来训练大模型的?

首先, TPU拥有多维运算单元,大大提高了运算效率;相较于 CPU的标量计算单元, GPU的矢量计算单元, TPU采用二维乃至高维计算单元,反复卷积计算,实现数据复用最大化,降低数据传输开销,提升加速效率。

其次, TPU的数据传输时间更短,控制单元效率更高。尽管冯-诺依曼体系结构所带来的内存墙问题在深度学习领域尤为突出,但 TPU采用了更为激进的设计策略,通过减小控制单元的体积,为片上存储与计算单元提供了更大的空间。

最终实现面向设计的人工智能加速,增强 AI/ML计算能力。TPU架构定位精确、架构简单,采用单线程控制与自定义指令集,使得深度学习计算高效、可扩展性好,非常适合大规模人工智能训练。

据称,与英伟达A100相比,谷歌TPUv4的功耗要低1.3-1.9倍。在 Bert、 ResNet等多种工作方式下,其效率比A100提高1.2~1.9倍;同时,其TPUv5/TPU Trillium产品的计算性能比TPUv4提高近10倍。很明显,谷歌的 TPU产品比英伟达的产品具有更高的成本和更低的能耗。

今年五月, Alphabet CEO桑达尔-皮查伊在2024 I/O2024开发者会议上公布了第六代 TPU人工智能芯片 Trillium (Trillium),该芯片预计将于今年年底交付使用,其速度几乎是之前的5倍。

谷歌宣称其第六代 Trillium芯片比v5e TPU高4.7倍,并且比v5e高67%的能量效率。这款芯片被设计用来产生大量的文本或其它内容。谷歌同时表示,到今年底,它的云端用户就可以使用第六代 Trillium芯片了。

谷歌的工程师们提高了高带宽存储能力和总体带宽,从而获得了更高的性能。人工智能模型对高级记忆体的需求,已成为进一步提升性能的瓶颈。

值得一提的是,谷歌并没有将 TPU芯片作为一款单独的产品来出售,相反,它通过谷歌的云计算平台(GCP)为外部用户提供 TPU的计算服务。

在这种情况下,谷歌的明智之处也很明显:直接出售硬件需要高额的行政开支以及复杂的供应链管理。有了云计算的支持,谷歌能够简化安装,实现和管理过程,降低不确定性,降低额外的开销。这一模式也简化了销售过程,不需要增加硬件销售队伍。另外,谷歌在生成人工智能方面与 OpenAI展开了激烈的竞争,如果谷歌开始出售 TPU,那么它将同时面对两大强劲对手英伟达和 OpenAI,这或许并不是一个明智的选择。

看完这篇文章,我们不禁要问:既然 TPU有这么好的表现,它会不会在不远的未来取代 GPU呢?

现在说什么替代图形处理器还为时过早。

这是一个很难回答的问题。

如果只讨论 TPU的优点,而忽略了 GPU的优点,这可能会成为一种盲点。下一步,我们需要了解 GPU相对于 TPU如何更好地适应当前大规模人工智能模型的构建。

我们认为 TPU的优点是高效率、高性价比;但是 ASIC芯片的高试错率也是相当明显的。

另外,从生态系统的成熟程度来看, GPU经过数年的开发,已经形成了一套庞大且成熟的软件及开发工具生态。多年来,众多开发者和科研院所致力于 GPU的开发与优化,积累了丰富的程序库、框架与算法。另一方面, TPU是一个相对新的生态系统,其可利用的资源和工具可能没有 GPU那么丰富,这就给开发者带来了很大的挑战。

从通用角度来说, GPU的设计初衷是为了图形绘制,但是它的架构非常灵活,可以满足除了深度学习之外的各种不同计算任务。这样, GPU就可以更好地适应各种应用场景。相比较而言, TPU针对机器学习任务量身定做,在处理其它不依赖于机器学习的计算任务时,可能不如 GPU高效。

最后,显卡市场上的竞争越来越激烈,厂商们也在不断地进行技术革新与产品更新换代,其中最常见的就是新架构与新性能的提升。尽管 TPU的研发主要是由谷歌主导,但是它的升级和进化可能会比较缓慢。

总的来说,英伟达与谷歌在人工智能芯片上的策略各不相同:英伟达为人工智能模型提供了强大的运算能力,并为其提供了广泛的编程人员支持;另一方面,谷歌利用高效的分布式计算体系结构,提升了大规模人工智能模型的训练效率,为人工智能领域带来了巨大的挑战。这两条不同路径的选择,意味着它们在各自的应用领域有其独特的优势。

苹果选择使用谷歌 TPU的原因可能是:第一,它能很好地处理大规模分布的训练任务,提供高效率,低延时;其次,借助谷歌的云平台,苹果公司能够降低硬件成本,灵活调配计算资源,并优化整个人工智能研发成本。另外,谷歌的人工智能开发生态系统提供了一系列的工具与支持,让苹果公司在人工智能模式的开发与部署上更加有效。

苹果公司就是一个很好的例子。然而,相较于英伟达, TPU在大模型领域的应用还是相对较少,像 OpenAI,特斯拉,字节跳动这样的大模型厂商,其主流 AI数据中心依然采用英伟达的 GPU。

所以,谷歌的 TPU能打败英伟达吗?(nvn?)也许现在还为时过早,但是 TPU将会是一个非常具有挑战性的角色。

图形处理挑战,而非 TPU

中国还有一家专门生产 TPU芯片的企业——中昊芯颖。中昊芯颖创始人杨恭一凡曾任谷歌芯片研发主管,曾深度参与谷歌 TPU 2/3/4的设计与研发工作,他认为 TPU具有大 AI模式的架构优势。

中昊新盈"莎娜"芯片于2023年正式问世。"夏纳"芯片拥有1024个高速片间互连功能,构建了" Taizel"型智能计算集群,其集群性能比传统 GPU提高几十倍,为千亿级参数 AIGC模型构建与推理提供前所未有的算力保证。本项目的研究成果将使现有 GPU性能提升10倍以上,可为千亿级参数 AIGC模型的训练与推理提供前所未有的计算能力保证。这既是中昊半导体在人工智能计算能力方面的深厚积累,更是为中国芯片在世界舞台上赢得了一席之地。

相对于 TPU, GPU面临的挑战更大。

一月份,来自前沿超算集群的一位研究员,利用这些 GPU中大约8%的 GPU,训练出了一个规模为3.5的大规模 GPT模型。本项目还将突破基于 AMD处理器的先进分布式模型训练技术,实现对大规模模型的训练。

同时, CUDA的生态正在逐步瓦解。今年七月,一家名为「SpectralCompute」的英国公司发布了一款程序,该程序可对 AMD的 GPU进行原生编译,从而极大地提升了与 CUDA兼容的 GPU的性能。

英特尔也推出了高迪3,目标直指英伟达的p00。今年4月,英特尔发布了一款名为「Gaudi3」的深度学习算法,该算法适用于大规模深度学习和人工智能建模。英特尔宣称,Gaudi3浮点数格式比BF16AI快4倍,存储带宽增加1.5倍,网络带宽增加3倍,满足大规模系统扩展需求。和英伟达合作?(nvn?)相比于p00芯片,Gaudi3将其应用到 MetaLlama2模型(7 B、13 B)和 OpenAIGPT-3 (175 B)时,训练时间平均减少50%。

另外,对于7 B、70 B参数的 Llama模型,以及180 B参数的开放源码 Falcon模型,预期高迪3的推理性能将高于p00平均50%,推理效率平均提高40%以上。另外,高迪3在长输入输出顺序上具有较强的推理能力。

与英伟达的p00相比,Gaudi3在7 B、70 B参数下的 Llama和180 B参数下的 Falcon模型上的速度要快30%。

英特尔称,「高迪3」将在今年第三季度开始销售,第二季度销售给 OEM厂商,如戴尔, HPE,联想,超微,但是没有透露高迪3的定价区间。

去年11月,微软在 Ignite技术会议上公布了其第一个国产人工智能芯片 AzureMaia100,以及云计算软件服务芯片 Azure Cobalt (Azure Cobalt)。这两种芯片均采用台积电的5 nm制程工艺。

据报道,英伟达的高端产品有时候卖到了3万美元,而 ChatGPT所用的芯片则高达10,000个,这对于人工智能公司而言是个不小的开销。对人工智能芯片有着巨大需求的技术企业都在急切地寻找其他的供应商,微软已经开始自己研发,希望能够在降低成本的情况下,提升像 ChatGPT这样的智能产品的性能。

Cobalt是128核通用芯片, Arm架构,Maia100是一种专用芯片,专门针对 Azure云计算及人工智能工作负载设计,拥有1050亿个晶体管。这两种芯片都将被引入微软的 Azure数据中心,以支持诸如 OpenAI, Copilot之类的服务。

Azure芯片部副裁拉尼-博卡尔说,微软已开始在 Bing Office人工智能产品上测试Maia100芯片, OpenAI是微软的主要人工智能合作伙伴,也是 Chat GPT的创始人。一些市场评论员将微软推出人工智能芯片计划的时间与微软, OpenAI等公司所推动的大规模语言模式的发展十分吻合。

尽管如此,微软相信它的人工智能芯片不会完全取代英伟达。部分分析人士认为,如果微软此次收购取得成功,它还可能有助于其在将来同英伟达进行谈判时处于有利地位。

除了晶片巨头,创业公司也不缺影响。如 Groq公司的 LPU, Cerebras公司的 Wafer Scale Engine 3, Etched公司的 Sohu等。

英伟达目前控制了大约80%的人工智能数据中心芯片市场,剩下的20%则掌握在谷歌不同版本的 TPU上。未来 TPU的市场占有率是否会持续上升?能提升到什么程度?是不是会有另外一种人工智能芯片架构出现,将现在的市场分成三块?这些问题都将在今后的数年中得到解答。