当前位置: 华文世界 > 科技

价值数十亿美元的AI豪赌:数据中心建设正成为新的高风险游戏

2024-10-03科技

来源:至顶网

在如今这个高度互联的世界当中,数据中心早已成为我们数字经济的神经中枢。微软等超大规模科技巨头以及BlackRock等全球投资巨头正在汇聚其庞大资源,投入数十亿美元建设数据中心,押注这些设施能够支撑起下一波技术创新。随着AI以令人眼花缭乱的速度发展演进,这笔赌注也在不断同步膨胀。一个典型案例就是近期在休斯顿附近建立突破性千兆瓦级数据中心的计划,该处设施将配备专为AI提供支持的离网氢动力发电枢纽。这个庞大的项目再次凸显出AI项目正成为一场场规模巨大、风险极高的豪赌。

美国政府也在密切关注此事。白宫方面成立了一支AI数据中心基础设施工作组,将AI数据中心的开发作为关乎国家安全与经济利益的优先事项。最近全美各大数据中心运营商及科技公司,包括CoreWeave、QTS、谷歌、亚马逊云科技、Meta、微软、英伟达、OpenAI以及Anthropic的CEO还会见了公共事业行业的领导者,以确保美国在AI基础设施方面始终保持竞争优势。

但这些大规模投资背后也伴随着巨大的风险。随着科技投资者开始认真审查这些AI项目的现实回报,人们意识到砸入数十亿美元开发数据中心之前,了解该设施未来将要承载的具体用例将至关重要。数据中心本身有着不可替代性,也很难在缺少大量资本支出的情况下得到重新利用。因此对于这种集机会与风险于一身的基础设施,「三思而后行」的古语显得无比贴切——在百兆瓦级别的设施就拥有14亿美元造价,且规划不善很可能血本无归的残酷现实面前尤其如此。正是面对这样的客观情况,微软和Blackrock等行业巨头才放弃单独行动,决定携手合作、共同推动此类高风险项目。

数据中心为何如此重要

数据中心的意义就是以最低的延迟处理海量数据和流量,因此在各类关键功能当中都扮演着至关重要的角色。但是,这些数据中心在设计之初就必须与其预期用例紧密相关。比方说,加密货币采矿更重视廉价电力的充足供应、而非低延迟,这就对设施的位置、设计与冗余要求产生了直接影响。另一方面,AI推理工作负载则要求高计算能力加极低的延迟,因此需要采取完全不同的设计思路。

时至今日,数据中心在数字经济中的重要地位怎么强调都不为过——甚至堪称决定一切的命脉:

为企业托管私有云应用程序(例如CRM和ERP等系统);

处理大数据并为机器学习和AI提供支持;

支撑大容量电子商务平台;

为在线游戏社区提供支持;

管理数据的存储、备份和恢复;

为股票交易系统提供支持;

实时医学成像、诊断与研究;

支持自动驾驶汽车与实时地图。

这些还只是数据中心融入现代生活各个角落的少数示例。随着数字需求的不断增长,构建和管理这些大规模基础设施的复杂性也在不断增加。

深度剖析数据中心

构建数据中心并非易事。典型的基础设施包含物理服务器机架、先进网络设备与海量存储设备——所有这些都需要配合高度冗余的电源与冷却基础设施,旨在保障近乎完美的正常运行时间。如今的数据中心还越来越依赖于智能控制系统(例如数据中心基础设施管理软件)以优化性能与用电效率。

更重要的是,数据中心领域并不存在百试百灵的解决方案。它们需要大量的前期规划和资金。不同类型的数据中心旨在满足特定需求,而后期使用情况的改变有可能对设施的长期存续能力和盈利能力产生颠覆性的影响。

数据中心的几种常见类型

在构建或投资数据中心时,首先需要明确其拥有几种常见类型:

企业数据中心:这些设施由银行、医疗保健机构以及其他实体组织私人拥有并运营,且支持内部运作。它们通常专为关键任务应用程序而设计,旨在提供高水平的安全性、可靠性与合规性。

主机托管中心:属于多租户设施,由企业租用空间、设备及网络带宽,将数据基础设施的管理和维护任务外包给托管服务商。主机托管中心可提供灵活性与可扩展性优势,使得组织能够轻松扩展业务、又无需自行维护基础设施。

云数据中心:这些数据中心由亚马逊云科技、Google Cloud或者微软Azure等第三方服务商持有和管理,能够为寻求按需访问计算资源的企业提供可扩展的云服务,帮助其承担物理基础设施的管理责任。

边缘数据中心:小型设施大多位于城镇最终用户周边,旨在最大限度降低延迟。这种能力对于需要实时数据处理的应用场景(例如物联网、自动驾驶汽车和实时分析等)尤其重要。

加密货币采矿中心:这类设施优先考虑廉价的电力供应,而非冗余设计或者低延迟。它们通常位于电力成本低廉、土地丰富且往来需求最低的区域,旨在最大限度提高加密货币的采矿运营效率。

电信数据中心:这些数据中心对于电信行业至关重要,负责支持基础网络功能并提供通信服务。

AI数据中心:这些设施专为满足AI工作负载的苛刻计算要求而构建,需要高效且强大的供电基础设施。AI数据中心甚至还可以进一步细分为AI训练数据中心(用于承担密集的数据处理和机器学习训练任务)以及AI推理数据中心(专注于在实际应用中部署训练模型,并实时提供AI驱动的洞察结果)。

数据中心层次体系:正常运行时间与可靠性

在传统上,数据中心会根据其预期正常时间和可靠性等指标,按等级进行排名:

T1级:最低冗余,提供99.671%的正常运行时间(每年停机时间为28.8小时)。

T2级:具备一定冗余,提供99.741%的正常运行时间(每年停机时间为22小时)。

T3级:配备多个电源及冷却路径,允许不停机维护,可提供99.982%的正常运行时间(每年停机时间为1.6小时)。

T4级:具有冗余组件的完全容错能力,提供99.995%的正常运行时间(每年停机时间为26.3分钟)。

AI时代的数据中心:机遇与风险

随着AI与机器学习技术在全球经济中变得越来越重要,数据中心也将在驱动整个数字世界方面发挥愈发核心的作用。但这波扩展趋势也带来了新的巨大风险与复杂性。AI工作负载的快速增长给数据中心运营体系施加了新的压力,要求其以更低的延迟提供更多计算能力,且一量出错将造成巨大代价。也正因为如此,才必须在立项建设之前认真评估数据中心的预期用例、提前做好准备。

也就是说,谁能以战略方式规划并投资数据中心——特别是将技术与特定业务驱动因素完美契合——谁就能在这个快速变化的环境中取得成功。而那些不了解数据中心设计、建设和细微运营差别的企业则可能面临巨大的财务损失,并在AI驱动的新时代之下错失时机、一蹶不振。