最新的外媒报道透露,微软和OpenAI正在筹划一个宏伟的项目——「星际之门」数据中心,旨在为OpenAI提供前所未有的计算能力。
具体来看:
微软的高层已经规划,最早于2028年启动这个超级计算项目。
这台超级计算机的电力需求将达到史无前例的水平。
OpenAI计划在明年初推出它的下一个重大升级。
这个「星际之门」超级计算中心,预计将装备数百万个专用服务器芯片!整个项目的预算高达1150亿美元。
这笔巨额的资金,将由微软负责支付。
据报道,「星际之门」预计在2028年推出,并将在2030年前进一步扩展。
而它所需的电力,可能高达5000兆瓦。
回顾一下,就在本周三,我们还报道了OpenAI使微软电网崩溃的新闻。据悉,当时为了部署GPT-6的10万个p00训练集群,整个电网都发生了崩溃。
看起来,这个10万卡集群,可能是「星际之门」早期的雏形。
而GPT-5的不断延期,也让人开始质疑,微软能否在这个项目上收回成本?
当我们对比当前一些最大的数据中心,「星际之门」的成本是它们的100倍!
在未来六年内,微软和OpenAI计划建设的这系列超级计算设施中,「星际之门」将是最大的一个。
显然,微软和OpenAI对AI技术的未来充满了信心,这将是他们在未来十年中最重要的合作之一。
但仍然存在一个问题:对于1000亿美元的巨额投资,微软真的能收回成本吗?
之前,微软已经向OpenAI投资了超过130亿美元,以确保OpenAI能在微软的数据中心运行ChatGPT。
作为回报,微软获得了访问OpenAI核心技术的权限,并且可以独家向云计算客户(如摩根士丹利)提供这项技术。此外,微软的Office、Teams和Bing的AI Copilot也将整合OpenAI的技术。
「星际之门」能否按计划前进,关键看GPT-5的表现。
那些期待已久的GPT-4.5和GPT-5,一次次的传闻,最终都没成真。
这也让OpenAI对微软的承诺——准时交付新模型——显得有点不靠谱。
一些人开始怀疑,AI的未来真的能预测吗?
但是,Sam Altman站出来强烈反驳这个观点。他认为,GPT-5发展的主要障碍,就是缺乏足够的服务器资源。
电力和芯片:成本惊人
如果「星际之门」成为现实,它提供的算力,将远远超过现在的微软凤凰城数据中心。
不过,这背后的电力和芯片投入也是一笔不小的开销。
初步估算,「星际之门」要运转起来,至少需要数千兆瓦的电力,这相当于几个大型数据中心的电力需求。
再加上,芯片的采购成本也是一大笔开销。
这么巨大的投入,能得到什么样的回报?
答案是:人工智能的最终形态——AGI(Artificial General Intelligence)。
Digital Realty的首席技术官Chris Sharp指出,为了实现AGI,这种规模的投资是必不可少的。
虽然投资规模巨大、前所未有,但一旦建成,这种超级计算机的巨额成本也将被大众接受。
AI超级计算的五个阶段:朝向「星际之门」
Altman和微软团队将AI超算的发展分成五个阶段,其中「星际之门」是最后的阶段。
这个名字的灵感源自一部科幻电影,讲述的是科学家发明了一种可以实现星系间旅行的装置。
尽管OpenAI提出了这个代号,但它可能不会被微软正式采纳。
在「星际之门」之前,尽管所需资金相对较少,但仍远超当前的数据中心建设成本。
目前,微软和OpenAI正处于第三阶段。
第四阶段的超级计算机已经开工建设,预计将在2026年左右完工。
据报道,仅微软扩建数据中心的成本就高达10亿美元,最终可能达到惊人的100亿美元。
而其中,计划使用的英伟达AI芯片将是主要开销。
业内人士分析,目前建设中的以AI为核心的数据中心,其芯片成本通常占总投资的一半。
为了实现这个计划,微软可能需要花费超过1150亿美元。这个数字,比微软去年在服务器和设备上的支出多了3倍还要多。
想象一下,根据2023年下半年的数据,微软2024年的支出预计会达到约500亿美元。
Altman对算力不满:竞争与成本上升
Altman对手头的算力感到非常不满。他公开表示,现有的AI服务器芯片远远不够用,甚至私下里抱怨,谷歌在短期内的算力可能会超过OpenAI。
随着对英伟达GPU的需求激增,微软和OpenAI这样的大客户,不得不面临成本上涨的挑战。
这也是Altman想要创建自己的公司,研发能与英伟达GPU相匹敌的芯片的原因之一。
微软的多重考虑:超越英伟达
除了控制成本,微软支持Altman开发新芯片还有其他原因。
由于GPU市场的繁荣,英伟达成了重要的角色,能决定哪些客户可以获得更多的芯片资源。甚至英伟达自己也开始提供云服务了。
因此,「星际之门」计划不仅是为了给微软和OpenAI提供更多选择,比如AMD的GPU或微软自研的AI芯片,也是为了减少对英伟达的依赖。
技术挑战:芯片、网络和能源
实现「星际之门」的设想,需要克服多项技术难题。
比如,一个提案是在单个机架中安装更多的GPU,但这就需要有效的冷却方案,以避免芯片过热。
此外,如何连接数以百万计的GPU,选择合适的网络电缆,对快速传输海量数据至关重要。
目前,微软在超算中使用的是英伟达的InfiniBand,但OpenAI一直在努力减少对英伟达的依赖。
据说,OpenAI希望在这个项目中采用更通用的以太网电缆,这是为了更高效的连接和传输。
再说能源问题,据内部消息,考虑到巨大的能源需求,公司可能会选择核能作为替代能源。
不久前,亚马逊购买了宾夕法尼亚州一个能接入核能的数据中心地块。微软也对这个地块很感兴趣,甚至参与了竞标。
Altman认为,想要发展超级智能,可能需要在能源领域有所突破。很显然,能源创新,在追求先进AI的道路上,将扮演关键角色,而核能或许是关键之一。
AI计算:成本高、复杂度大
AI计算与传统计算完全不是一个量级,这就是为什么各大公司对AI数据中心的每个细节都格外关注。GPU如何连接和冷却,每一个小细节都可能导致巨大的成本变化。
NVIDIA的创始人黄仁勋(老黄)甚至预测,为了满足未来AI计算的需求,全球在接下来的四到五年内,需要投资高达1万亿美元来建设新的数据中心!
至于芯片的过热问题、网络电缆的选择和能源问题,短期内看起来都还没有完美的解决方案。
「星际之门」的地理位置和构造
还有一个问题:「星际之门」会建在一个独立的数据中心,还是由多个数据中心紧密连接而成?
它会具体建在哪里?
这些问题目前都没有明确答案。
但有行业人士表示,当GPU集群位于同一个数据中心时,效率会更高。
OpenAI推动微软不断进化
事实上,自从2019年向OpenAI投资以来,微软的数据中心就在不断地进化。
为了满足OpenAI日益增长的算力需求,微软建造了第一台包含数千个英伟达GPU的GPU超算。
仅几年时间,这台超算就让微软花费了12亿美元。
而在今年和明年,微软计划为OpenAI提供的新服务器,将包含数十万个GPU!
下一个里程碑:GPT-5
微软和OpenAI的宏大抱负,这些都紧紧围绕着OpenAI在「超级智能」领域的进展。
想象一下,如果OpenAI能解决像癌症治疗、核聚变、全球变暖或火星殖民这类大问题,那么金主自然不会吝惜资金支持。
不过,这种级别的成就目前似乎还有些遥远。
尽管ChatGPT和Sora已经在全球获得了庞大的用户群,但OpenAI如何将这些用户转化为显著的收入,这个问题还待解决。这种变现可能需要比预期更长的时间。
对AI产品的销售预期降低
也正是因为这种情况,像亚马逊和谷歌这样的公司已经降低了对AI产品的销售预期。主要原因之一就是成本实在太高。而且,在大型企业中部署面向百万用户的应用,工作量也非常巨大。
Altman上个月表示,随着研究人员投入更多的算力,AI模型将会变得更好,这被OpenAI称为对话式AI的「缩放定律」。
据内部消息人士透露,OpenAI计划在明年初发布下一代大型语言模型(LLM)。
在此之前,可能还会推出一些小幅改进的版本。
更多的服务器将为OpenAI增添底气,坚信AI模型将取得新的突破。
传闻中的Q*和自我完善的AI
比如,有传闻称Q*模型能够解决之前没有经过训练的数学问题,这一点在面临人类数据即将耗尽的情况下尤为重要。
此外,还有传闻称,这些模型能够识别出现有模型的缺陷,例如GPT-4,甚至提出技术改进——换句话说,就是能够自我完善的AI。
看来,OpenAI越来越接近实现AGI的目标了。