当前位置: 华文世界 > 科技

1000亿美元宇宙级豪赌!微软OpenAI星际之门AI超算,电力能耗惊人

2024-03-30科技

最新的外媒报道透露,微软和OpenAI正在筹划一个宏伟的项目——「星际之门」数据中心,旨在为OpenAI提供前所未有的计算能力。

具体来看:

  • 微软的高层已经规划,最早于2028年启动这个超级计算项目。

  • 这台超级计算机的电力需求将达到史无前例的水平。

  • OpenAI计划在明年初推出它的下一个重大升级。

  • 这个「星际之门」超级计算中心,预计将装备数百万个专用服务器芯片!整个项目的预算高达1150亿美元。

    这笔巨额的资金,将由微软负责支付。

    据报道,「星际之门」预计在2028年推出,并将在2030年前进一步扩展。

    而它所需的电力,可能高达5000兆瓦。

    回顾一下,就在本周三,我们还报道了OpenAI使微软电网崩溃的新闻。据悉,当时为了部署GPT-6的10万个p00训练集群,整个电网都发生了崩溃。

    看起来,这个10万卡集群,可能是「星际之门」早期的雏形。

    而GPT-5的不断延期,也让人开始质疑,微软能否在这个项目上收回成本?

    当我们对比当前一些最大的数据中心,「星际之门」的成本是它们的100倍!

    在未来六年内,微软和OpenAI计划建设的这系列超级计算设施中,「星际之门」将是最大的一个。

    显然,微软和OpenAI对AI技术的未来充满了信心,这将是他们在未来十年中最重要的合作之一。

    但仍然存在一个问题:对于1000亿美元的巨额投资,微软真的能收回成本吗?

    之前,微软已经向OpenAI投资了超过130亿美元,以确保OpenAI能在微软的数据中心运行ChatGPT。

    作为回报,微软获得了访问OpenAI核心技术的权限,并且可以独家向云计算客户(如摩根士丹利)提供这项技术。此外,微软的Office、Teams和Bing的AI Copilot也将整合OpenAI的技术。

    「星际之门」能否按计划前进,关键看GPT-5的表现。

    那些期待已久的GPT-4.5和GPT-5,一次次的传闻,最终都没成真。

    这也让OpenAI对微软的承诺——准时交付新模型——显得有点不靠谱。

    一些人开始怀疑,AI的未来真的能预测吗?

    但是,Sam Altman站出来强烈反驳这个观点。他认为,GPT-5发展的主要障碍,就是缺乏足够的服务器资源。

    电力和芯片:成本惊人

    如果「星际之门」成为现实,它提供的算力,将远远超过现在的微软凤凰城数据中心。

    不过,这背后的电力和芯片投入也是一笔不小的开销。

    初步估算,「星际之门」要运转起来,至少需要数千兆瓦的电力,这相当于几个大型数据中心的电力需求。

    再加上,芯片的采购成本也是一大笔开销。

    这么巨大的投入,能得到什么样的回报?

    答案是:人工智能的最终形态——AGI(Artificial General Intelligence)。

    Digital Realty的首席技术官Chris Sharp指出,为了实现AGI,这种规模的投资是必不可少的。

    虽然投资规模巨大、前所未有,但一旦建成,这种超级计算机的巨额成本也将被大众接受。

    AI超级计算的五个阶段:朝向「星际之门」

    Altman和微软团队将AI超算的发展分成五个阶段,其中「星际之门」是最后的阶段。

    这个名字的灵感源自一部科幻电影,讲述的是科学家发明了一种可以实现星系间旅行的装置。

    尽管OpenAI提出了这个代号,但它可能不会被微软正式采纳。

    在「星际之门」之前,尽管所需资金相对较少,但仍远超当前的数据中心建设成本。

    目前,微软和OpenAI正处于第三阶段。

    第四阶段的超级计算机已经开工建设,预计将在2026年左右完工。

    据报道,仅微软扩建数据中心的成本就高达10亿美元,最终可能达到惊人的100亿美元。

    而其中,计划使用的英伟达AI芯片将是主要开销。

    业内人士分析,目前建设中的以AI为核心的数据中心,其芯片成本通常占总投资的一半。

    为了实现这个计划,微软可能需要花费超过1150亿美元。这个数字,比微软去年在服务器和设备上的支出多了3倍还要多。

    想象一下,根据2023年下半年的数据,微软2024年的支出预计会达到约500亿美元。

    Altman对算力不满:竞争与成本上升

    Altman对手头的算力感到非常不满。他公开表示,现有的AI服务器芯片远远不够用,甚至私下里抱怨,谷歌在短期内的算力可能会超过OpenAI。

    随着对英伟达GPU的需求激增,微软和OpenAI这样的大客户,不得不面临成本上涨的挑战。

    这也是Altman想要创建自己的公司,研发能与英伟达GPU相匹敌的芯片的原因之一。

    微软的多重考虑:超越英伟达

    除了控制成本,微软支持Altman开发新芯片还有其他原因。

    由于GPU市场的繁荣,英伟达成了重要的角色,能决定哪些客户可以获得更多的芯片资源。甚至英伟达自己也开始提供云服务了。

    因此,「星际之门」计划不仅是为了给微软和OpenAI提供更多选择,比如AMD的GPU或微软自研的AI芯片,也是为了减少对英伟达的依赖。

    技术挑战:芯片、网络和能源

    实现「星际之门」的设想,需要克服多项技术难题。

    比如,一个提案是在单个机架中安装更多的GPU,但这就需要有效的冷却方案,以避免芯片过热。

    此外,如何连接数以百万计的GPU,选择合适的网络电缆,对快速传输海量数据至关重要。

    目前,微软在超算中使用的是英伟达的InfiniBand,但OpenAI一直在努力减少对英伟达的依赖。

    据说,OpenAI希望在这个项目中采用更通用的以太网电缆,这是为了更高效的连接和传输。

    再说能源问题,据内部消息,考虑到巨大的能源需求,公司可能会选择核能作为替代能源。

    不久前,亚马逊购买了宾夕法尼亚州一个能接入核能的数据中心地块。微软也对这个地块很感兴趣,甚至参与了竞标。

    Altman认为,想要发展超级智能,可能需要在能源领域有所突破。很显然,能源创新,在追求先进AI的道路上,将扮演关键角色,而核能或许是关键之一。

    AI计算:成本高、复杂度大

    AI计算与传统计算完全不是一个量级,这就是为什么各大公司对AI数据中心的每个细节都格外关注。GPU如何连接和冷却,每一个小细节都可能导致巨大的成本变化。

    NVIDIA的创始人黄仁勋(老黄)甚至预测,为了满足未来AI计算的需求,全球在接下来的四到五年内,需要投资高达1万亿美元来建设新的数据中心!

    至于芯片的过热问题、网络电缆的选择和能源问题,短期内看起来都还没有完美的解决方案。

    「星际之门」的地理位置和构造

    还有一个问题:「星际之门」会建在一个独立的数据中心,还是由多个数据中心紧密连接而成?

    它会具体建在哪里?

    这些问题目前都没有明确答案。

    但有行业人士表示,当GPU集群位于同一个数据中心时,效率会更高。

    OpenAI推动微软不断进化

    事实上,自从2019年向OpenAI投资以来,微软的数据中心就在不断地进化。

    为了满足OpenAI日益增长的算力需求,微软建造了第一台包含数千个英伟达GPU的GPU超算。

    仅几年时间,这台超算就让微软花费了12亿美元。

    而在今年和明年,微软计划为OpenAI提供的新服务器,将包含数十万个GPU!

    下一个里程碑:GPT-5

    微软和OpenAI的宏大抱负,这些都紧紧围绕着OpenAI在「超级智能」领域的进展。

    想象一下,如果OpenAI能解决像癌症治疗、核聚变、全球变暖或火星殖民这类大问题,那么金主自然不会吝惜资金支持。

    不过,这种级别的成就目前似乎还有些遥远。

    尽管ChatGPT和Sora已经在全球获得了庞大的用户群,但OpenAI如何将这些用户转化为显著的收入,这个问题还待解决。这种变现可能需要比预期更长的时间。

    对AI产品的销售预期降低

    也正是因为这种情况,像亚马逊和谷歌这样的公司已经降低了对AI产品的销售预期。主要原因之一就是成本实在太高。而且,在大型企业中部署面向百万用户的应用,工作量也非常巨大。

    Altman上个月表示,随着研究人员投入更多的算力,AI模型将会变得更好,这被OpenAI称为对话式AI的「缩放定律」。

    据内部消息人士透露,OpenAI计划在明年初发布下一代大型语言模型(LLM)。

    在此之前,可能还会推出一些小幅改进的版本。

    更多的服务器将为OpenAI增添底气,坚信AI模型将取得新的突破。

    传闻中的Q*和自我完善的AI

    比如,有传闻称Q*模型能够解决之前没有经过训练的数学问题,这一点在面临人类数据即将耗尽的情况下尤为重要。

    此外,还有传闻称,这些模型能够识别出现有模型的缺陷,例如GPT-4,甚至提出技术改进——换句话说,就是能够自我完善的AI。

    看来,OpenAI越来越接近实现AGI的目标了。