北京超算參建北京算力互聯互通平台，瞄準算力資源利用最大化

2024-07-11科技

文/梅雅鑫

「盡管 AI 算力資源需求增長迅猛，但算力利用率存在波峰波谷，算力資源的利用並非始終處於滿負荷狀態。」北京超級雲端運算中心營運實體北京北龍超級雲端運算有限責任公司 CTO 甄亞楠一語道出了算力產業發展的關鍵痛點。

為解決算力「供不上、用不起」的困境，在工業和資訊化部指導下，由北京市通訊管理局與北京市經濟和資訊化局聯合部署，工業和資訊化部北京互聯網交換中心和北方算網聯建全國首個互聯互通平台。在2024全球數碼經濟大會期間，北京算力互聯互通和執行服務平台戰略合作簽約儀式舉行，北京超算作為作為參建與接入服務商受邀參加儀式。這標誌著北京市在算力互聯互通和執行服務領域邁出了堅實的一步，也進一步彰顯了北京超算在算力服務方面的實力。未來，北京超算將配合算力互聯互通和執行服務平台完成對接聯調等平台建設工作。

算力資源利用率如何最大化？

大模型訓練作為典型的大規模超算套用，具有異構計算、大規模平行計算等典型超算套用特征，在當下大模型訓練算力需求爆發的時代，如何實作算力資源的最大化利用，成為關鍵問題。

從大模型算力供給來看，存在建設經費投入大、高端算力資源供貨周期不可控、客戶業務規劃預期難以把握等制約因素。在甄亞楠看來，對於大模型而言，基座大模型企業對算力資源總量要求頗高，5000 卡規模的算力集群需求常見，國內能滿足的算力中心較少；而行業或垂類大模型基於基座或開源模型微調，算力需求相對較小，國內許多算力服務單位能夠滿足。

為了讓算力資源利用率實作最大化，北京超算采用超算架構模式構建智算資源，將分布在國內的各大算力中心的資源加以整合，並利用成熟的算力網絡進行排程，以滿足大規模訓練所需的海量算力需求。例如，在與某科研機構的合作中，透過整合資源，成功將大模型訓練時間從原本的數月縮短至數周，切實的幫助使用者降本增效。

甄亞楠介紹，北京超算推出了按需構建算力資源的創新模式，透過算力租賃，讓使用者依據業務需求獲取彈性的計算資源，實作大規模的計算任務。使用者只需支付實際使用所需的計算量與計算時間，大幅降低營運成本，適用於各種大規模計算需求的場景。此外，還能夠在使用者業務執行中提升利用效率，比如某使用者最佳化前利用率為 75%，最佳化後可達 97%，在綜合成本不變的情況下充分發揮機器效能。

值得一提的是，在2024全球數碼經濟大會人工智能專題論壇上，人工智能大模型場景套用典型案例「2024人工智能大模型場景套用典型案例」正式釋出，北京超算與中科聞歌合作推出的「雅意·智學大模型賦能教育領域套用實踐」成功入選。

此外，北京超算已與北京智源人工智能研究院、智譜 AI、瀾舟科技、中科聞歌、深勢科技、智子引擎、中科紫東太初等單位形成了算力合作，為國產大模型如智譜 GLM-4、孟子大模型等提供了算力服務支撐，助力訓練最佳化以及數據分析，為大模型團隊提升效率。

打造高質素、高性價比的算力服務體系

成立於 2011 年的北京超算，起初正如其名，定位以超算為主，服務於氣象模擬、汽車流體力學模擬、材料模擬等科學計算領域，透過數值仿真解決套用問題，並連續四年蟬聯中國 HPC TOP100 排行榜通用 CPU 算力效能（同構眾核 CPU 效能）第一名。

在「東數西算」戰略的推動以及「人工智能+」時代對高質素算力服務的需求下，北京超算從 2019 年開始布局 AI 算力，著力打造高質素、高性價比的算力服務體系。北京超算積極推動「算力市場化」改革，已形成「智算雲」「超算雲」「行業雲」和「設計仿真雲」四大公共算力服務體系，實作了跨區域排程、多算力中心的商業化服務能力。

圖超智融合全景算力服務

從「超算」到「智算」，北京超算是不是「降維打擊」？

甄亞楠表示，超算和智算有很強的相似性，都致力於解決計算密集型問題，且底層都是基於超算架構，在資源池、穩定性和高效性方面有著共性需求。北京超算中心憑借自身的行業背景優勢，透過超算架構結合 GPU 卡服務 AI 計算需求，能夠為使用者帶來顯著的效能提升。

北京超算透過算力預測判斷使用者真正所需的算力資源，基於套用執行特征分析進行算力選型，幫助使用者適配更高性價比的算力資源。那麽，如何讓算力更好用？

「我們為使用者提供的並非單一技術、單一資源，而是一套滿足使用者綜合發展需求的行業解決方案。透過 7×24 小時技術專家服務團隊、平台偏好設定 AI 主流框架、常用數據集等方式，滿足使用者在算力使用中的各種需求。」甄亞楠透露，北京超算具備萬卡集群工程化能力，同時擁有長達十三年的專業服務經驗，有力保障大模型訓練、推理業務的開展，實作算力資源從可用到好用再到降本。