当前位置: 华文世界 > 科技

TPU芯片一夜走红,强攻GPU市场的局面已显现

2024-08-27科技

TPU芯片一夜走红,强攻GPU市场的局面已显现

攻克图形处理器, TPU晶片一夕之间大获成功

随着 Chat GPT的火爆,各种 AI大数据建模的开发也是层出不穷,而美国的英伟达则在"百模大战"中靠着其图形处理器进军大型模式运算领域大获成功,获利颇丰。

然而,苹果近期的一项举措却让英伟达稍稍冷静下来。

Apple用 TPU代替 GPU来培训 AI模式

难道是英伟达的人?(nvn?)它是一家以 AI为核心的公司,同时也是一家以人工智能为代表的公司。

难道是英伟达的人?(nvn?)图形处理器拥有80%以上的培训市场,是许多技术巨人,如亚马逊,微软, Meta, OpenAI等,都将其作为人工智能和机器学习的主要选择。

所以,英伟达在业界依然面对许多的挑战,这些企业要么是自己研发的图形处理器,要么就是在研究一种新型的结构。谷歌拥有独一无二的性能,它也是英伟达一个强劲的竞争者。

7月30日,苹果发布了他们的调查报告。苹果推出了两种苹果的 AI技术,分别是 AFM—on-device (包含30亿个参数)和一种以服务器为中心的语言模式(AFM-on-device),以及一种以服务器为中心的大规模语言模式。

苹果在文件中称,他们将谷歌的两种用于构建大规模集成电路的张力处理模块(TPU)用于培训自己的 AI模式。Apple公司采用2048块TPUv5p晶片来测试 iPhone及其它手机上的 AI型号。其中, Apple公司采用的是8192颗TPUv4芯片。

苹果将英伟达拱手相让?(nvn?)使用谷歌 TPU作为显卡的策略决定引发了技术领域的轰动:英伟达股票当日暴跌7%,创3个月以来最大跌幅,总资产蒸发193亿美金。

根据行业消息,苹果的这一举动暗示了某些大技术企业想要收购英伟达?(nvn?)GPU是用于 AI培训的替代方案。

对于大的型号, TPU还是 GPU?

对于一个较大的型号来说, TPU还是 GPU更好一些,我们必须先理解它们。

The TPU GPU

TPU的全名是「Tensor Processing unit」,是由谷歌研发的一款特殊的人工智能芯片,其目的就是为了加快机器学习进程,对深度学习模型进行学习与推断。需要指出的是, TPU也被归入专用集成电路,也就是根据具体需要而量身定做的芯片。

图形处理器大家都很熟悉。GPU作为一种初始应用于图像绘制的处理器,已经在平行运算与深度神经网络中得到了广泛应用。其高效的并行运算性能,对其进行了进一步的优化,使其能够很好地应用于诸如深度学习、科研等多个领域的并行计算。

可以看到,这两款芯片各有其独特的用途,而非原先的设计。

相对于常规 CPU, GPU因其具有的可并行性,在处理大规模的数据以及复杂的运算方面有着得天独厚的优势。近几年,伴随着海量的 AI数据集的爆发, GPU已经逐渐成为 AI学习的优先选择。

但是,随着大数据时代的到来,其处理的规模与复杂性呈现指数式的增加,对其处理性能与资源的需求也越来越高。GPU面临着算力利用率低和能耗高等问题, Nvidia公司推出的 GPU产品价格昂贵且供应稀缺,因此面向深度学习与机器学习的 TPU体系结构备受重视。图形处理单元在该区域中的支配作用正逐步引起人们的怀疑。

从2013年起,谷歌便已着手开发用于 AI计算的 AI芯片,并于2016年推出了一款独立开发的 TPU芯片。2016年三月, AlphaGo击败了李世石,2017年5月击败了柯洁,使用了谷歌 TPU技术。

要说 TPU对于培养一个大规模的 AI模式来说是一种更好的选择,但若不解释一下其"能力",那就难以令人相信了。

TPU是怎样为一个大的模型提供培训的?

首先, TPU拥有多个维度的运算单位,大大提升了运算速度;相对于 CPU上的标量型和 GPU上的向量型, TPU采用了两个维度乃至更多维度的计算单位,通过循环内的卷积操作,最大化了数据的重用,减少了数据的传递开销,提升了系统的性能。

其次, TPU具有更少的时间传递时间和更高的控制单位。由于冯-诺依曼体系结构所带来的存储墙壁问题, TPU则采取主动式的数据传送方式,通过减小控制器的体积,将更多的存储与运算单元留给了更大的存储空间。

最终实现面向人工智能的高性能计算平台,提升 AI/ML算法的性能。TPU架构具有位置准确、体系结构简单、可定制的单线程控制、可定制的特性,使得其在深度神经网络中具有高效、可扩充的特性,更适合大规模的 AI训练。

谷歌的TPUv4的功率比英伟达的A100要小1.3-1.9,在 Bert, ResNet等多种工作方式中,它的功率是A100的1.2-1.9;与TPUv4相比,其TPUv5/TPU Trillium的运算能力可再提高2/10。可以看出,谷歌的 TPU在价格和能耗上要优于英伟达。

在五月的2024 I/O2024开发会议上, Alphabet CEO桑达尔-皮查伊公布了其第6代 AI芯片(Tensor ProcessingUnit, TPU) Trillium (Total Processing Unit,简称 Total Processor Unit),称其性能比上一款快5倍,有望在年内推出。

根据谷歌的说法,第6代的 Trillium处理器将会拥有4.7倍于 TPUv5e的运算能力和67%的能量效率。这种晶片被设计用来产生大量的文字或其它东西。谷歌也已经公布了它的第6代 Trillium处理器,它的云计算用户将在今年底之前获得它的产品。

谷歌的工程师们已经获得了更好的表现,他们增加了更多的高带宽的存贮能力和总体的带宽。AI模式对存储容量要求很高,已成为制约其性能提升的一个瓶颈。

要知道,谷歌并非单独出售 TPU芯片,相反,它通过谷歌云端系统(GCP),将其用于面向外界的用户。

这个案例也显示出谷歌的明智之举:出售硬件会导致高额的行政开支以及对供应链的复杂控制。有了云端 TPU,谷歌能够简化安装,部署,管理过程,降低了不确定因素,降低了管理成本。该模型也能使营销过程更加简单,不需要增加一个新的硬件销售队伍。另外,谷歌在产生型人工智能方面正在和 OpenAI进行着一场恶战,而一旦谷歌推出 TPU,就会面临英伟达和 OpenAI这两个强劲的对手的挑战,而这样做或许并不是一个聪明的选择。

本文提出了这样一个疑问: TPU在未来的某一天会代替 GPU吗?

也许说替代图形处理器还为时过早。

这并不是一个容易的问题。

如果仅仅强调 TPU的优点,而忽略了 GPU的优点,那就是一种盲区了。其次,我们要知道 GPU相对于 TPU而言有多好,可以用来训练大规模的 AI模式。

我们可以看出, TPU具有优异的能量效率和计算能力,但是它的高测试代价也日益凸显。

从其生态环境来看, GPU历经数年发展,已形成了一套巨大且完善的软体与开发工具生态。众多科研院所和软件开发商长期致力于 GPU平台的研发与优化,积累了大量的程序库、框架与算法。而 TPU的环境则是一个比较新的环境,其所拥有的资源和所需的设备也没有 GPU那么多,这就使得用户在自定义和优化上变得更加困难。

从通用角度来说, GPU的初衷是为了绘制图像,但是它具有足够的弹性来应对除了深度神经网络之外的多种数据处理任务。这样, GPU就可以更好地适用于各种应用程序。相反, TPU是专为机器学习而开发的,它在解决其它与机器学习无关的运算方面,不如 GPU高效。

最终,显卡的市场上充满了竞争,厂商们在持续地推进着新的技术革新与产品升级,同时也在进行着新的体系结构与性能的提升。尽管 TPU的研发大部分是谷歌在做,但是它的升级和后续发展都比较缓慢。

总的来说,谷歌与英伟达在 AI芯片方面的策略各有千秋:英伟达以其超强的计算能力与广阔的研发资源,突破了 AI模式的瓶颈;谷歌以其高效能的分布式计算体系结构,提升了 AI模式的学习速度。这两种截然不同的发展路线使得两个公司在其所处的行业中都具有独一无二的实力。

Apple之所以选择使用谷歌 TPU,主要是因为:第一, TPU可以很好地完成大规模的、分散的培训工作,并且可以在很短的时间内实现高效率的运算;其次,利用谷歌的云端技术,可以减少硬件开销,对运算资源进行弹性调配,从而达到最优的 AI研发费用。另外,谷歌 AI研发的生态圈也为 Apple在 AI模式的发展与配置上带来了大量的工具与支援。

Apple就是一个很好的实例,用 TPU来培养大型号。然而,相对于英伟达而言, TPU在大规模建模方面的运用仍然很有限,而像 OpenAI,特斯拉,字节跳动这样的大厂商,他们的主流 AI数据中心,依然采用英伟达的 GPU。

所以,谷歌的 TPU能打败英伟达吗?(nvn?)也许 GPU还言之过早,但是 TPU肯定是一款非常有挑战性的游戏。

图形处理挑战,而非 TPU

中国还有一家企业在 TPU晶片上押注——中昊芯颖。中昊芯颖的创始人杨恭一凡,曾经是谷歌的一名芯片研发骨干,曾经深入谷歌 TPU 2/3/4的研制工作,他认为 TPU的优点就是针对 AI大模式的构建。

中昊新盈"莎娜"芯片于2023年正式问世。"莎娜"凭借其独特的1024块高速片内连接功能,搭建了" Taizel"大型智慧运算簇,其簇效率较常规 GPU提高几十倍,可为百亿级以上的 AIGC模型的学习与推断提供强大的运算资源保证。本项目提出的算法可实现10倍于常规 GPU的运算速度,可支持百亿级以上的 AIGC模型的学习与推理。这既是中昊半导体公司在 AI运算能力方面的深厚积淀,更是为国内半导体产业打开了一扇通往世界大门的大门。

GPU面临着比 TPU更大的挑战。

在 GPU通路开发领域,英伟达最大的竞争对手是 AMD,一名研究员在一月份的时候,就已经在 Frontier的超算上,利用该处理器的8%的 GPU,对 GPT进行了优化。先锋超算系列全部建立在 AMD的硬件基础上,包括37888颗MI250X图形处理器以及9472颗 Epyc 7A53 CPU。同时,本项目也将解决基于 AMD处理器的先进分布式学习模式难以实现的问题,为基于 AMD的大规模数据建模提供有效的解决方案。

而在这个过程中, CUDA的生态正在逐步瓦解。七月份,英国光谱公司发布了一个程序,将 CUDA源码直接嵌入到 AMD显卡中,从而极大地提升了 AMD显卡与 CUDA兼容的性能。

英特尔在四月份公布了面向深度学习与大规模产生 AI模式的Gaudi3。英特尔表示,「高迪3」在BF16浮点格式下,为其上一代提高了4倍的 AI运算功能,1.5倍的存储带宽和2倍的网络带宽,使其能够满足大规模的应用需求。和英伟达合作?(nvn?)相对于p00,Gaudi3可以将 MetaLlam2 (7 B)、13 B (13 B)和175 B (175 B)的GPT-3 (3)学习速度可降低50%。

另外,对于 Llama模型(7 B、70 B)和开放源码 Falcon (180 B)的情况下,高迪设计的3在推断性能上预期会超过p0050%,并且在逻辑上提高了40%。另外,高迪3在处理长度比较大的数据时,其推理能力更强。

相对于英伟达p00,Gaudi3在将其用于 Llama和 Falcon模式的7 B和70 B的情况下,其计算速度可增加30%。

英特尔称,「高迪3」将在今年第3季开始销售,而在第2季则会销售给戴尔, HPE,联想,超微这样的 OEM厂商,但并未披露高迪3的定价区间。

微软在今年11月的 Ignite科技会议上公布了其自有品牌的第一个 AI晶片, AzureMaia100,以及云计算的软体服务晶片。这两种产品都是在5 nm工艺下,台积电生产的。

据报道,英伟达生产的一些高档设备价格为3万至4万美金,而 ChatGPT则采用了10000个左右的芯片,这对于 AI公司而言是个不小的开销。对于 AI芯片的需求量很大的技术企业,都在疯狂地寻求可供选择的材料,而微软则是选择了自己的技术路线,以提升诸如 ChatGPT之类的产生型 AI产品的效率,从而进一步减少生产成本。

Cobalt是一个128核心的、通用的 Arm体系结构,而Maia100则是一个规模达10十亿个晶体管的专用集成电路,专门针对云计算环境下的云计算和计算任务。这两种产品均将引入微软 Azure的数据中心,以满足诸如 OpenAI, Copilot这样的其他一些应用。

Azure晶片事业部的副总经理瑞尼·博卡尔说,微软公司已在 Bing Office AI系列中对Maia100处理器进行了试验,而微软的另一家人工智能合作伙伴—— Chat GPT开发者 OpenAI也正在进行 Beta版。有些市场观察员把微软提出人工智能芯片计划看作是一个巧合,就像微软, OpenAI这样的公司所宣传的主流语言模式才是一个开端。

尽管如此,微软仍然没有看到它的 AI芯片能够完全取代英伟达的技术。部分分析人士相信,微软此举若获成功,将有助于其在将来同英伟达进行会谈时处于有利地位。

不仅是那些大公司,新兴公司也在忙碌着。比如 Groq公司的 LPU, Cerebras公司的 Wafer Scale Engine 3, Etched公司的 Sohu等。

英伟达占据了大约80%的 AI处理器的市场,剩下的20%被谷歌不同的 TPU所垄断。TPU在将来会不会持续成长?会有多大的提升?是否会有另外一种结构的 AI芯片,将当前的市场分成三种类型?在接下来的数年中,我们将会发现所有的问题。