1000亿美元宇宙级豪赌！微软OpenAI星际之门AI超算，电力能耗惊人

2024-03-30科技

最新的外媒报道透露，微软和OpenAI正在筹划一个宏伟的项目——「星际之门」数据中心，旨在为OpenAI提供前所未有的计算能力。

具体来看：

微软的高层已经规划，最早于2028年启动这个超级计算项目。

这台超级计算机的电力需求将达到史无前例的水平。

OpenAI计划在明年初推出它的下一个重大升级。

这个「星际之门」超级计算中心，预计将装备数百万个专用服务器芯片！整个项目的预算高达1150亿美元。

这笔巨额的资金，将由微软负责支付。

据报道，「星际之门」预计在2028年推出，并将在2030年前进一步扩展。

而它所需的电力，可能高达5000兆瓦。

回顾一下，就在本周三，我们还报道了OpenAI使微软电网崩溃的新闻。据悉，当时为了部署GPT-6的10万个p00训练集群，整个电网都发生了崩溃。

看起来，这个10万卡集群，可能是「星际之门」早期的雏形。

而GPT-5的不断延期，也让人开始质疑，微软能否在这个项目上收回成本？

当我们对比当前一些最大的数据中心，「星际之门」的成本是它们的100倍！

在未来六年内，微软和OpenAI计划建设的这系列超级计算设施中，「星际之门」将是最大的一个。

显然，微软和OpenAI对AI技术的未来充满了信心，这将是他们在未来十年中最重要的合作之一。

但仍然存在一个问题：对于1000亿美元的巨额投资，微软真的能收回成本吗？

之前，微软已经向OpenAI投资了超过130亿美元，以确保OpenAI能在微软的数据中心运行ChatGPT。

作为回报，微软获得了访问OpenAI核心技术的权限，并且可以独家向云计算客户（如摩根士丹利）提供这项技术。此外，微软的Office、Teams和Bing的AI Copilot也将整合OpenAI的技术。

「星际之门」能否按计划前进，关键看GPT-5的表现。

那些期待已久的GPT-4.5和GPT-5，一次次的传闻，最终都没成真。

这也让OpenAI对微软的承诺——准时交付新模型——显得有点不靠谱。

一些人开始怀疑，AI的未来真的能预测吗？

但是，Sam Altman站出来强烈反驳这个观点。他认为，GPT-5发展的主要障碍，就是缺乏足够的服务器资源。

电力和芯片：成本惊人

如果「星际之门」成为现实，它提供的算力，将远远超过现在的微软凤凰城数据中心。

不过，这背后的电力和芯片投入也是一笔不小的开销。

初步估算，「星际之门」要运转起来，至少需要数千兆瓦的电力，这相当于几个大型数据中心的电力需求。

再加上，芯片的采购成本也是一大笔开销。

这么巨大的投入，能得到什么样的回报？

答案是：人工智能的最终形态——AGI（Artificial General Intelligence）。

Digital Realty的首席技术官Chris Sharp指出，为了实现AGI，这种规模的投资是必不可少的。

虽然投资规模巨大、前所未有，但一旦建成，这种超级计算机的巨额成本也将被大众接受。

AI超级计算的五个阶段：朝向「星际之门」

Altman和微软团队将AI超算的发展分成五个阶段，其中「星际之门」是最后的阶段。

这个名字的灵感源自一部科幻电影，讲述的是科学家发明了一种可以实现星系间旅行的装置。

尽管OpenAI提出了这个代号，但它可能不会被微软正式采纳。

在「星际之门」之前，尽管所需资金相对较少，但仍远超当前的数据中心建设成本。

目前，微软和OpenAI正处于第三阶段。

第四阶段的超级计算机已经开工建设，预计将在2026年左右完工。

据报道，仅微软扩建数据中心的成本就高达10亿美元，最终可能达到惊人的100亿美元。

而其中，计划使用的英伟达AI芯片将是主要开销。

业内人士分析，目前建设中的以AI为核心的数据中心，其芯片成本通常占总投资的一半。

为了实现这个计划，微软可能需要花费超过1150亿美元。这个数字，比微软去年在服务器和设备上的支出多了3倍还要多。

想象一下，根据2023年下半年的数据，微软2024年的支出预计会达到约500亿美元。

Altman对算力不满：竞争与成本上升

Altman对手头的算力感到非常不满。他公开表示，现有的AI服务器芯片远远不够用，甚至私下里抱怨，谷歌在短期内的算力可能会超过OpenAI。

随着对英伟达GPU的需求激增，微软和OpenAI这样的大客户，不得不面临成本上涨的挑战。

这也是Altman想要创建自己的公司，研发能与英伟达GPU相匹敌的芯片的原因之一。

微软的多重考虑：超越英伟达

除了控制成本，微软支持Altman开发新芯片还有其他原因。

由于GPU市场的繁荣，英伟达成了重要的角色，能决定哪些客户可以获得更多的芯片资源。甚至英伟达自己也开始提供云服务了。

因此，「星际之门」计划不仅是为了给微软和OpenAI提供更多选择，比如AMD的GPU或微软自研的AI芯片，也是为了减少对英伟达的依赖。

技术挑战：芯片、网络和能源

实现「星际之门」的设想，需要克服多项技术难题。

比如，一个提案是在单个机架中安装更多的GPU，但这就需要有效的冷却方案，以避免芯片过热。

此外，如何连接数以百万计的GPU，选择合适的网络电缆，对快速传输海量数据至关重要。

目前，微软在超算中使用的是英伟达的InfiniBand，但OpenAI一直在努力减少对英伟达的依赖。

据说，OpenAI希望在这个项目中采用更通用的以太网电缆，这是为了更高效的连接和传输。

再说能源问题，据内部消息，考虑到巨大的能源需求，公司可能会选择核能作为替代能源。

不久前，亚马逊购买了宾夕法尼亚州一个能接入核能的数据中心地块。微软也对这个地块很感兴趣，甚至参与了竞标。

Altman认为，想要发展超级智能，可能需要在能源领域有所突破。很显然，能源创新，在追求先进AI的道路上，将扮演关键角色，而核能或许是关键之一。

AI计算：成本高、复杂度大

AI计算与传统计算完全不是一个量级，这就是为什么各大公司对AI数据中心的每个细节都格外关注。GPU如何连接和冷却，每一个小细节都可能导致巨大的成本变化。

NVIDIA的创始人黄仁勋（老黄）甚至预测，为了满足未来AI计算的需求，全球在接下来的四到五年内，需要投资高达1万亿美元来建设新的数据中心！

至于芯片的过热问题、网络电缆的选择和能源问题，短期内看起来都还没有完美的解决方案。

「星际之门」的地理位置和构造

还有一个问题：「星际之门」会建在一个独立的数据中心，还是由多个数据中心紧密连接而成？

它会具体建在哪里？

这些问题目前都没有明确答案。

但有行业人士表示，当GPU集群位于同一个数据中心时，效率会更高。

OpenAI推动微软不断进化

事实上，自从2019年向OpenAI投资以来，微软的数据中心就在不断地进化。

为了满足OpenAI日益增长的算力需求，微软建造了第一台包含数千个英伟达GPU的GPU超算。

仅几年时间，这台超算就让微软花费了12亿美元。

而在今年和明年，微软计划为OpenAI提供的新服务器，将包含数十万个GPU！

下一个里程碑：GPT-5

微软和OpenAI的宏大抱负，这些都紧紧围绕着OpenAI在「超级智能」领域的进展。

想象一下，如果OpenAI能解决像癌症治疗、核聚变、全球变暖或火星殖民这类大问题，那么金主自然不会吝惜资金支持。

不过，这种级别的成就目前似乎还有些遥远。

尽管ChatGPT和Sora已经在全球获得了庞大的用户群，但OpenAI如何将这些用户转化为显著的收入，这个问题还待解决。这种变现可能需要比预期更长的时间。

对AI产品的销售预期降低

也正是因为这种情况，像亚马逊和谷歌这样的公司已经降低了对AI产品的销售预期。主要原因之一就是成本实在太高。而且，在大型企业中部署面向百万用户的应用，工作量也非常巨大。

Altman上个月表示，随着研究人员投入更多的算力，AI模型将会变得更好，这被OpenAI称为对话式AI的「缩放定律」。

据内部消息人士透露，OpenAI计划在明年初发布下一代大型语言模型（LLM）。

在此之前，可能还会推出一些小幅改进的版本。

更多的服务器将为OpenAI增添底气，坚信AI模型将取得新的突破。

传闻中的Q*和自我完善的AI

比如，有传闻称Q*模型能够解决之前没有经过训练的数学问题，这一点在面临人类数据即将耗尽的情况下尤为重要。

此外，还有传闻称，这些模型能够识别出现有模型的缺陷，例如GPT-4，甚至提出技术改进——换句话说，就是能够自我完善的AI。

看来，OpenAI越来越接近实现AGI的目标了。