当前位置: 华文世界 > 科技

三大巨头卡住AI命脉,英伟达、台积电,还有一个是谁?

2024-08-28科技

英伟达

核心的战场是算力,无需质疑,算力的强大如同战争中的弹药,多则强大,胜率更高。目前市场上提供AI算力的主要是英伟达的GPU、AMD的GPU和谷歌的TPU,而英伟达的GPU无疑拥有最强的火力。

GPU取代了CPU,在英伟达的垄断旅程中起到了关键作用。普通的CPU只能同时处理一个任务,相当于大脑在处理大量数据时容易混乱,而GPU则拥有众多计算核心,能同时进行大量相似计算任务,这样可以在很短时间内处理海量数据。此外,传统CPU在训练深度神经网络时效率低下,而GPU能并行计算,显著缩短训练时间,从几十天缩短到几小时。

但你可能对GPU这个名词感到陌生,GPU的全称是Graphics Processing Unit,即图形处理单元。但说到显卡,你应该更熟悉一些,GPU正是显卡的核心组成部分。

GPU这个概念最初由英伟达在1999年提出,后来英特尔和AMD也将其集成进主板,再集成到CPU中,在笔记本和个人电脑市场大获成功,二者因此声名大噪。相比之下,英伟达一直专注于独立显卡的制作,在电子游戏的兴起后才真正开始发挥其强大作用。

但真正的转变发生在2022年底,当OpenAI发布ChatGPT时,人们开始意识到算力和并行处理能力在深度学习和推理任务中的重要性,英伟达的GPU加速卡的效果堪比原子弹,其股价也迅速升至微软、苹果之后的第三位,且差距逐渐缩小,看似有望挑战第一。

尽管英伟达并非唯一制造GPU的公司,AMD也生产GPU,谷歌则开发了专为深度学习设计的TPU,即张量处理单元。但为什么历史的幸运儿会是英伟达呢?

与一般CPU的几个核心不同,GPU拥有成百上千甚至成千上万个计算核心,但仅有核心还不够,还需要组织这些核心以发挥其功能。英伟达因此开发了CUDA技术,这是一种并行计算平台和编程模型,使得开发者能够利用英伟达的GPU进行高效能计算。而关键并非仅仅是CUDA技术,而是英伟达围绕该技术建立的包括深度学习和并行计算库、编译器、调试工具及性能优化工具的全面生态系统,这大大降低了开发和训练AI模型的门槛,吸引了众多研究者和开发者。这就如同微软在电脑上的Windows系统,苹果和谷歌在智能手机上的iOS和Android系统,把用户、开发者与自身紧密绑定。

反观AMD,尽管其GPU性能也不错,但在AI和深度学习领域的软件及生态系统建设上相对滞后。AMD推出了开源的ROCm高性能计算平台,但与英伟达的CUDA相比,其生态系统成熟度和支持程度较低,社区和资源不如英伟达丰富,这在一定程度上限制了AMD在AI大模型训练领域的竞争力。因此AMD常常处于弱势,无论是在CPU领域的竞争中输给英特尔,还是在GPU领域败给英伟达,都显得颇为无奈。

谷歌的TPU则是专为深度学习任务设计的,其性能在某些特定任务上可能超越GPU,但TPU主要通过谷歌云服务提供,这限制了其应用的灵活性和普及度。尽管TPU在效率和性能上具有优势,但与英伟达GPU的广泛可用性和成本效益相比,仍有不小的劣势。

接着,英伟达不断推出新一代的GPU加速卡,如A100、p00、p00至最新的B100,每一代都在性能上实现了革命性提升,让竞争对手难以追赶,不断地巩固其市场的垄断地位,市场似乎也默认了这一点。

台积电

因此,你可以看到英伟达的垄断源自其数十年如一日的专注和持续。而台积电,同样垄断AI核心的另一家公司,将这种专注和持续发挥到了极致。台积电专门从事芯片代工,不与上游芯片设计企业竞争,因此广受欢迎,安全可靠地代工芯片,从而垄断了全球中低端芯片的60%,几乎全部的高端先进芯片。

最关键的不仅是高精尖的芯片生产机器,还包括操作技术和供应链管理。台积电专注于芯片代工几十年,积累了丰富的技术经验,建立了庞大的芯片制造「生态系统」,表现在生产上,即良品率更高,成本更低,从而形成了绝对的垄断地位,稳固地卡在芯片领域的中间,稳稳地获得高额利润。

其中最值得一提的是CoWoS封装技术。前文提到,英伟达p00售价35000美元一个,其成本约为3000美元,其中台积电赚取约900美元。你可能会认为,这种高级芯片目前只有台积电能生产,自然利润颇丰。但你可能不知道的是,台积电生产这颗芯片实际只能赚到155美元,真正赚钱的其实是芯片封装过程,凭借其独家的CoWoS封装技术,台积电在每个p00加速卡上能赚取723美元,远超芯片生产的收入。目前5纳米的p00,尽管其他厂家也许能生产,但封装却只有台积电能做到。

这所谓的CoWoS,即Chip on Wafer on Substrate,意为芯片堆叠到晶圆到基板上。这是一种复杂的「2.5D」封装技术,台积电早在2013年就已研发成功,可以将多个半导体芯片,包括处理器和存储器,集成到一个硅中介层上,然后连接到底层基板上,这样可以缩短芯片间的连接线路,减少芯片间的通信距离,从而降低数据传输延迟,提高整体性能,并在一定程度上降低能耗。

此外,将存储器直接集成到GPU旁边,可以显著提升数据传输带宽,这对于需要处理大量数据的应用,如人工智能、高性能计算尤为重要。事实上,由于CoWoS的高成本,这项技术长期未被市场接受,直到2016年英伟达推出首款CoWoS封装芯片GP100,才真正引领了全球人工智能的潮流,使CoWoS技术大放异彩,成为台积电垄断的重要武器。

因此,台积电垄断AI核心的关键,不仅仅是其先进的芯片生产能力,更是其无与伦比的CoWoS封装技术。你不能因为台积电的高收费而责怪它,因为CoWoS的精确要求极高,制造过程复杂,生产芯片的周期长,因此生产成本也非常高。

至此,你或许已经迫不及待地想知道,英伟达p00的成本3000美元,那么另外2000美元究竟流向了哪里?好了,垄断AI命脉的第三大巨头现在登场,虽然其垄断地位可能岌岌可危,但最终,利润还是落入了这家公司的口袋,这又是怎么一回事呢?

海力士

前文已述,英伟达p00的关键之一在于将存储器集成到GPU旁边,这大大提升了数据传输带宽,这些存储器,正是额外2000美元成本中的一部分,来自韩国的SK海力士,这也是垄断AI命脉的第三大巨头。

所谓的存储器,就是我们通常所说的内存,这是电脑和手机中最重要的三大组件之一,其余两个是处理器(芯片)和硬盘。现在英伟达将芯片和存储器一起集成成加速卡,使其更适合AI训练,p00目前使用的是海力士最新的HBM3E(高带宽内存),这是一种高性能的DRAM。

DRAM和主控芯片一样,对智能设备的运行速度具有决定性作用,HBM是DRAM的一种3D堆叠版本,可以在增加带宽的同时,实现芯片间的高速通信和低能耗,对AI大模型来说,可以说是如虎添翼,尤其是将其与GPU近距离封装在一起,更是形成了强强联合,所向披靡。

然而,HBM的设计和制造极为复杂,需要通过垂直堆叠、制造硅孔(TSV)和微凸点连接等高精尖技术和复杂工艺集成到硅中介层上,最先进的DRAM甚至需要使用EUV光刻机来制造,再加上专利壁垒和高研发成本,HBM已基本被韩国的海力士、三星和美国的美光垄断。根据半导体研究机构SemiAnalysis的最新预测,海力士目前的HBM市场份额约为73%,三星为22%,美光为5%。

那么为什么海力士能够垄断HBM呢?答案仍然是坚持!2013年,海力士制造出首个HBM并设立了行业标准,但由于价格昂贵,市场长时间不认可,客户寥寥无几。但海力士始终坚持不懈,多年来进行了三次技术升级,最终在这轮AI浪潮中一举成名,2024年的所有产能已被预订一空,其股价也翻了一番。

尽管三星凭借自己的晶圆厂和DRAM的深厚积累努力追赶,可能会扩大自己的市场份额,但海力士的垄断地位可能难以持久,尽管如此,利润最终还是会流向韩国。业界预计到2030年,HBM市场将增长10倍达到500亿美元,海力士仍可能占据一半以上的份额。

因此,垄断AI命脉的三大巨头——英伟达、台积电、海力士,都是凭借提前布局,十年隐忍,厚积薄发,最终实现了一飞冲天的壮举。如果是短视的、轻易放弃的,明明有从0到1的突破,却无法坚持到底,也就无法在今日这般「仰天大笑出门去,我辈岂是蓬蒿人」。

想想看,你有没有坚持了十年的事物?如果有,也许你也即将尝到成功的甘甜——坚持便是胜利!