中國式現代化奮進者｜讓大模型跑起來，這個大裝置表現全球領先 - 三農

2024-04-01三農

AI大模型是當前全球最熱的產業，中國大模型企業正飛速發展。而「大模型」離不開「大裝置」，如果沒有以算力為核心的基礎設施作為支撐，大模型根本就跑不起來。

上海有這樣一支團隊，打造了亞洲最大的人工智能計算中心之一——商湯臨港AIDC。它背後的SenseCore商湯大裝置團隊，由400余名多領域人才所組成，分布在上海、北京和深圳等地。

商湯臨港AIDC。受訪者供圖

目前，SenseCore商湯大裝置管理的算力，已實作全國聯網的統一排程，在上海、深圳、廣州、福州、濟南、重慶等地都拓展了新的計算節點，總算力規模已高達12000 petaFLOPS。

這個大裝置的算力，在支持商湯自身大模型研發的同時，也支持外部客戶訓練大模型和套用部署。專業地說，SenseCore商湯大裝置的強大算力，可支撐超過20個千億超大模型同時訓練，並支持萬億參數大模型的全生命周期生成。

更通俗地理解，如今我們在辦公場景、購物、聊天、社交、遊戲等領域享受的生成式AI技術服務，很多都依托SenseCore商湯大裝置提供算力。比如，京東、金山辦公等，都呼叫了商湯的算力和模型。

根據國際知名調研機構弗若斯特沙利文（Frost & Sullivan）聯合頭豹研究院釋出的【2023年中國AI開發平台市場報告】，商湯大裝置已成為AI開發平台的領軍者，市場綜合競爭表現位居國內第一、全球第二，僅次於亞馬遜雲。

基於SenseCore商湯大裝置提供的算力，在四方體的不同立面上呈現出與平面影像一樣的畫面。本文圖片除註明外，均為澎湃新聞記者李佳蔚圖

生成式AI成為核心業務

商湯是中國最早一批投入人工智能基礎設施建設的公司之一，在公司成立的第10個年頭，2023年商湯迎來了生成式AI業務的「爆發式增長」。

2024年3月下旬，商湯披露了其2023年業績。財報顯示，2023年商湯實作總收入34億元，借助「大裝置+大模型」的協同布局，其生成式AI業務創造了11.8億元的收入，收入增長率達200%，占該集團總收入的35%。

也就是說，生成式AI業務已成為商湯從無到有並超過10億元收入體量的核心業務。而在這背後，SenseCore商湯大裝置的貢獻至為關鍵。

商湯科技董秘辦董事總經理盛世偉介紹，2018年前後，商湯開始每年投入到專為AI原生打造的智算雲服務平台——SenseCore商湯大裝置，並建設上海臨港超算中心。

經過5年的努力和發展，目前商湯大裝置的總算力規模已突破性地增長至12,000 petaFLOPS，上線GPU數量高達45,000卡，這在國內大模型基礎設施中非常稀缺。

與此同時，2022年，作為商湯大裝置重要載體的人工智能計算中心（AIDC）在上海臨港正式投入營運，這裏也成為亞洲最大人工智能計算中心之一。

得益於大裝置算力和數據規模的支持，商湯研發的底座大模型「日日新」得以持續最佳化。以「日日新」4.0版本為例，目前其在程式碼編寫、數據分析和醫療問答等多個場景中展現的能力，已超過ChatGPT-3.5。

目前，SenseCore 商湯大裝置沈澱了整套大模型基礎設施能力，不僅可服務於眾多企業和科研院所的開發者，很快也會向個人開發者全面開放。

盛世偉表示，站在AI 2.0的最前沿，商湯進一步推出「模型即服務」商業模式，使客戶能夠輕松微調和使用各類生成式AI功能，無需承擔建設和管理底層基礎設施的負擔，這也為商湯在市場中帶來眾多正面評價。

商湯大裝置+大模型，根據文字生成高畫質圖片。

實作「萬卡互聯」超30天穩定訓練

大模型時代，計算量、模型參數和數據集規模都在快速增長從而不斷推升模型的「智能」水平，其背後遵循的就是尺度定律。

同時，隨著AI在各行各業的落地向深水區挺進，人工智能基礎設施化已成為必然趨勢。這也讓商湯大裝置有了更加廣闊的發展天地。

「現在大家都知道，模型的參數都是動輒幾千億、上萬億，如果沒有一個大的集群，根本沒有辦法做這件事情，所以能夠把這些卡連起來是一個非常硬的功夫。」盛世偉說，目前商湯的工程化能力做到了國內領先。

盛世偉表示，SenseCore商湯大裝置是國內訓練大模型最為先進的基礎設施之一，2023年實作了對萬億參數大模型的生產支持，還在互聯規模、加速效率和穩定性上保持業界領先水平。

目前，商湯大裝置已最大實作了萬卡的超大集群互聯，並保持90%的加速效率。在訓練穩定性上，這個大裝置實作了超30天穩定訓練不間斷的能力，而出現訓練間斷時的診斷恢復時長也最佳化到了半小時。

此外，在推理側，商湯的自研的推理引擎在大語言、多模態模型上的效能表現提升了2倍，資源利用率提升了40%，為使用者提供極致性價比服務。

值得關註的是，商湯推出的「日日新」4.0，於2024年2月在程式碼編寫、數據分析和醫療問答等多場景中達到了與GPT-4相匹配的能力，同時開源了7B和20B兩種參數規格的基模型，效能超Llama2和Gemma。

「在即將到來的4月下旬，我們會有一個技術交流日，屆時將展示我們更新的‘日日新’5.0大模型的能力。」盛世偉提前預告，預計4月份釋出「日日新5.0」版本，效能全面對標GPT4-Turbo。

商湯國產化算力機房一角。

構建智能計算新生態

盛世偉介紹，SenseCore商湯大裝置團隊由400余名多領域人才所組成，他們分布在上海、北京和深圳等地。

「在大裝置團隊當中，不乏身懷藝術細胞、音樂天賦，但又擁有對學術執著的科學家，」盛世偉說，他們能夠以獨特的視角和激情，為商湯大裝置的發展註入創新活力。

SenseCore商湯大裝置的首席科學家為林達華教授，在深度學習和神經網絡領域具有很高的學術地位和成就。林達華師從湯曉鷗教授，也是商湯聯合創始人，香港中文大學資訊工程碩士、美國麻省理工學院電腦科學博士。林達華在AI開源社區有顯著貢獻，主導了商湯的多個開源專案，同時也是大模型研發的牽頭人。

接下來，商湯大裝置團隊還將加速大模型能力下沈，構建智能計算新生態。

第一，加速國產算力布局。透過與眾多國產算力廠商合作，商湯與上下遊產業夥伴共同推動國產生態建設，完成多款芯片與框架適配，落地多個千卡級別的國產算力集群，積極推進芯片評價標準和體系的完善，加速整個國產算力商業化行程。

第二，持續探索尺度定律邊界（Scaling laws）。隨著大模型的參數量朝向萬億以上級別激增，穩定、高效的超大規模算力排程和訓推引擎成為核心基石。

第三，建設面向開發者友好的AI基礎設施。面對愈發高頻次、高效率的模型叠代需求，SenseCore商湯大裝置擁有領先的AI原生雲算力產品體系，為客戶打造0門檻、一站式的極致開發體驗，縮短大模型開發周期。