来源:飞象网
当前数智化企业已成为经济增长的主要引擎,融入AI算力是企业进行数智化转型的必然路径。2023年10月工业和信息化部等六部门印发了【算力基础设施高质量发展行动计划】,发文中首次提出了入算网络概念,并明确弹性大带宽接入、确定性承载、高安全可靠是算力网络的基本特征。2024年3月上海市通信管理局会同市委网信办、市发展改革委、市数据局等十一部门研究制定了【上海市智能算力基础设施高质量发展「算力浦江」智算行动实施方案(2024-2025年)】,旨在发展以运营商为代表的数据智能产业生态,建成具有区域乃至全国影响力的智能算力创新及应用示范区。
在产业政策和市场需求的驱动下,中国电信上海公司(以下简称「上海电信」)联合华为打造了业界首张端到端400GE的IP智算广域试验网络,部署RDMA(Remote Direct Memory Access)广域无损传输、新型智算业务流级调度算法、网络数字地图等技术,为千行百业提供高弹性、高吞吐、高可靠的一跳入多算网络新服务。同时上海电信大力探索存储和算力资源跨广域部署的「存算分离」新模式,首次实现了120km存算分离拉远场景下,AI大模型训练效率高于95%,攻克了企业租用算力进行模型训练,敏感样本不在园区外落盘的技术难题。
据统计,上海目前已有24款大模型完成备案、可上线提供服务,数量位居全国前列,且还在不断加快大模型的训练及应用。2024年上半年,中国电信在上海建设万卡智算集群,其中单池新建国产算力达万卡,是国内首个单池万卡液冷算力集群。上海电信智算广域网络建设的重要目的是实现「通智超量」算力一体承载,提升算力有效供给,使企业使用算力像使用水电一样便捷。上海电信采用华为的智算广域无损解决方案,将网络运力提升4倍,引入RDMA广域无损、租户级精准流控等技术,从而满足海量样本快速入算、存算分离拉远训练等场景,充分释放了智算中心的算力效率。
海量样本快速入算:经对全国上千家企业的调研显示,科研、交通、影视、医疗等行业对AI训练的算力需求较大,每年PB级海量数据需要从企业园区传至算力中心进行分析处理。另外以SORA为代表的大视频生成应用带来数据爆炸性增长,传统网络或者传统网络的负载均衡技术无法满足大数据训练周期。上海电信将为企业用户提供100Mbps~100Gbps IP弹性伸缩算网专线,基于「时间+数据量」的创新服务模式,满足了企业TB/PB级别样本数据当天达、小时达的快速入算诉求。
存算分离拉远训练:以制造、政务、金融、医疗行业为代表,企业出于敏感数据安全性的需求,在租用算力同时,要求敏感样本在训练过程中,不在园区外落盘,需要广域网络拉通远端算力随训随读。智算中心流量模型以RDMA大数据流为主,传统负载分担技术容易出现大象流的拥塞丢包,导致训练效率直接下降超50%,产生巨大的算力资源浪费。上海电信智算新平面提供存算分离拉远训练服务,实现超120KM广域RDMA无损传输,网络有效吞吐率提升至90%以上,AI大模型拉远训练算力效率损失小于5%。
上海电信通过试点建设智算新平面,为企业用户提供运力+存力+算力的一站式打包服务,满足客户一线入多算,同时访问智算、超算以及通算等多种异构算力资源池的需求,让更多企业和科研机构享受到算力服务带来的便利。上海电信将坚持科技创新引领,不断夯实算力基础能力,提升算力服务水平,以算网筑基,智赋百业。