來源:飛象網
當前數智化企業已成為經濟增長的主要引擎,融入AI算力是企業進行數智化轉型的必然路徑。2023年10月工業和資訊化部等六部門印發了【算力基礎設施高質素發展行動計劃】,發文中首次提出了入算網絡概念,並明確彈性大頻寬接入、確定性承載、高安全可靠是算力網絡的基本特征。2024年3月上海市通訊管理局會同市委網信辦、市發展改革委、市數據局等十一部門研究制定了【上海市智能算力基礎設施高質素發展「算力浦江」智算行動實施方案(2024-2025年)】,旨在發展以營運商為代表的數據智能產業生態,建成具有區域乃至全國影響力的智能算力創新及套用示範區。
在產業政策和市場需求的驅動下,中國電信上海公司(以下簡稱「上海電信」)聯合華為打造了業界首張端到端400GE的IP智算廣域試驗網絡,部署RDMA(Remote Direct Memory Access)廣域無失真傳輸、新型智算業務流級排程演算法、網絡數碼地圖等技術,為千行百業提供高彈性、高吞吐、高可靠的一跳入多算網絡新服務。同時上海電信大力探索儲存和算力資源跨廣域部署的「存算分離」新模式,首次實作了120km存算分離拉遠場景下,AI大模型訓練效率高於95%,攻克了企業租用算力進行模型訓練,敏感樣本不在園區外落盤的技術難題。
據統計,上海目前已有24款大模型完成備案、可上線提供服務,數量位居全國前列,且還在不斷加快大模型的訓練及套用。2024年上半年,中國電信在上海建設萬卡智算集群,其中單池新建國產算力達萬卡,是國內首個單池萬卡液冷算力集群。上海電信智算廣域網路絡建設的重要目的是實作「通智超量」算力一體承載,提升算力有效供給,使企業使用算力像使用水電一樣便捷。上海電信采用華為的智算廣域無失真解決方案,將網絡運力提升4倍,引入RDMA廣域無失真、租戶級精準流控等技術,從而滿足海量樣本快速入算、存算分離拉遠訓練等場景,充分釋放了智算中心的算力效率。
海量樣本快速入算:經對全國上千家企業的調研顯示,科研、交通、影視、醫療等行業對AI訓練的算力需求較大,每年PB級海量數據需要從企業園區傳至算力中心進行分析處理。另外以SORA為代表的大影片生成套用帶來數據爆炸性增長,傳統網絡或者傳統網絡的負載均衡技術無法滿足大數據訓練周期。上海電信將為企業使用者提供100Mbps~100Gbps IP彈性伸縮算網專線,基於「時間+數據量」的創新服務模式,滿足了企業TB/PB級別樣本數據當天達、小時達的快速入算訴求。
存算分離拉遠訓練:以制造、政務、金融、醫療行業為代表,企業出於敏感數據安全性的需求,在租用算力同時,要求敏感樣本在訓練過程中,不在園區外落盤,需要廣域網路絡拉通遠端算力隨訓隨讀。智算中心流量模型以RDMA大數據流為主,傳統負載分擔技術容易出現大象流的擁塞丟包,導致訓練效率直接下降超50%,產生巨大的算力資源浪費。上海電信智算新平面提供存算分離拉遠訓練服務,實作超120KM廣域RDMA無失真傳輸,網絡有效吞吐率提升至90%以上,AI大模型拉遠訓練算力效率損失小於5%。
上海電信透過試點建設智算新平面,為企業使用者提供運力+存力+算力的一站式打包服務,滿足客戶一線入多算,同時存取智算、超算以及通算等多種異構算力資源池的需求,讓更多企業和科研機構享受到算力服務帶來的便利。上海電信將堅持科技創新引領,不斷夯實算力基礎能力,提升算力服務水平,以算網築基,智賦百業。