當前位置: 華文世界 > 三農

中國式現代化奮進者|讓大模型跑起來,這個大裝置表現全球領先

2024-04-01三農

AI大模型是當前全球最熱的產業,中國大模型企業正飛速發展。而「大模型」離不開「大裝置」,如果沒有以算力為核心的基礎設施作為支撐,大模型根本就跑不起來。

上海有這樣一支團隊,打造了亞洲最大的人工智能計算中心之一——商湯臨港AIDC。它背後的SenseCore商湯大裝置團隊,由400余名多領域人才所組成,分布在上海、北京和深圳等地。

商湯臨港AIDC。受訪者 供圖

目前,SenseCore商湯大裝置管理的算力,已實作全國聯網的統一排程,在上海、深圳、廣州、福州、濟南、重慶等地都拓展了新的計算節點,總算力規模已高達12000 petaFLOPS。

這個大裝置的算力,在支持商湯自身大模型研發的同時,也支持外部客戶訓練大模型和套用部署。專業地說,SenseCore商湯大裝置的強大算力,可支撐超過20個千億超大模型同時訓練,並支持萬億參數大模型的全生命周期生成。

更通俗地理解,如今我們在辦公場景、購物、聊天、社交、遊戲等領域享受的生成式AI技術服務,很多都依托SenseCore商湯大裝置提供算力。比如,京東、金山辦公等,都呼叫了商湯的算力和模型。

根據國際知名調研機構弗若斯特沙利文(Frost & Sullivan)聯合頭豹研究院釋出的【2023年中國AI開發平台市場報告】,商湯大裝置已成為AI開發平台的領軍者,市場綜合競爭表現位居國內第一、全球第二,僅次於亞馬遜雲。

基於SenseCore商湯大裝置提供的算力,在四方體的不同立面上呈現出與平面影像一樣的畫面。本文圖片除註明外,均為澎湃新聞記者 李佳蔚 圖

生成式AI成為核心業務

商湯是中國最早一批投入人工智能基礎設施建設的公司之一,在公司成立的第10個年頭,2023年商湯迎來了生成式AI業務的「爆發式增長」。

2024年3月下旬,商湯披露了其2023年業績。財報顯示,2023年商湯實作總收入34億元,借助「大裝置+大模型」的協同布局,其生成式AI業務創造了11.8億元的收入,收入增長率達200%,占該集團總收入的35%。

也就是說,生成式AI業務已成為商湯從無到有並超過10億元收入體量的核心業務。而在這背後,SenseCore商湯大裝置的貢獻至為關鍵。

商湯科技董秘辦董事總經理盛世偉介紹,2018年前後,商湯開始每年投入到專為AI原生打造的智算雲服務平台——SenseCore商湯大裝置,並建設上海臨港超算中心。

經過5年的努力和發展,目前商湯大裝置的總算力規模已突破性地增長至12,000 petaFLOPS,上線GPU數量高達45,000卡,這在國內大模型基礎設施中非常稀缺。

與此同時,2022年,作為商湯大裝置重要載體的人工智能計算中心(AIDC)在上海臨港正式投入營運,這裏也成為亞洲最大人工智能計算中心之一。

得益於大裝置算力和數據規模的支持,商湯研發的底座大模型「日日新」得以持續最佳化。以「日日新」4.0版本為例,目前其在程式碼編寫、數據分析和醫療問答等多個場景中展現的能力,已超過ChatGPT-3.5。

目前,SenseCore 商湯大裝置沈澱了整套大模型基礎設施能力,不僅可服務於眾多企業和科研院所的開發者,很快也會向個人開發者全面開放。

盛世偉表示,站在AI 2.0的最前沿,商湯進一步推出「模型即服務」商業模式,使客戶能夠輕松微調和使用各類生成式AI功能,無需承擔建設和管理底層基礎設施的負擔,這也為商湯在市場中帶來眾多正面評價。

商湯大裝置+大模型,根據文字生成高畫質圖片。

實作「萬卡互聯」超30天穩定訓練

大模型時代,計算量、模型參數和數據集規模都在快速增長從而不斷推升模型的「智能」水平,其背後遵循的就是尺度定律。

同時,隨著AI在各行各業的落地向深水區挺進,人工智能基礎設施化已成為必然趨勢。這也讓商湯大裝置有了更加廣闊的發展天地。

「現在大家都知道,模型的參數都是動輒幾千億、上萬億,如果沒有一個大的集群,根本沒有辦法做這件事情,所以能夠把這些卡連起來是一個非常硬的功夫。」盛世偉說,目前商湯的工程化能力做到了國內領先。

盛世偉表示,SenseCore商湯大裝置是國內訓練大模型最為先進的基礎設施之一,2023年實作了對萬億參數大模型的生產支持,還在互聯規模、加速效率和穩定性上保持業界領先水平。

目前,商湯大裝置已最大實作了萬卡的超大集群互聯,並保持90%的加速效率。在訓練穩定性上,這個大裝置實作了超30天穩定訓練不間斷的能力,而出現訓練間斷時的診斷恢復時長也最佳化到了半小時。

此外,在推理側,商湯的自研的推理引擎在大語言、多模態模型上的效能表現提升了2倍,資源利用率提升了40%,為使用者提供極致性價比服務。

值得關註的是,商湯推出的「日日新」4.0,於2024年2月在程式碼編寫、數據分析和醫療問答等多場景中達到了與GPT-4相匹配的能力,同時開源了7B和20B兩種參數規格的基模型,效能超Llama2和Gemma。

「在即將到來的4月下旬,我們會有一個技術交流日,屆時將展示我們更新的‘日日新’5.0大模型的能力。」盛世偉提前預告,預計4月份釋出「日日新5.0」版本,效能全面對標GPT4-Turbo。

商湯國產化算力機房一角。

構建智能計算新生態

盛世偉介紹,SenseCore商湯大裝置團隊由400余名多領域人才所組成,他們分布在上海、北京和深圳等地。

「在大裝置團隊當中,不乏身懷藝術細胞、音樂天賦,但又擁有對學術執著的科學家,」盛世偉說,他們能夠以獨特的視角和激情,為商湯大裝置的發展註入創新活力。

SenseCore商湯大裝置的首席科學家為林達華教授,在深度學習和神經網絡領域具有很高的學術地位和成就。林達華師從湯曉鷗教授,也是商湯聯合創始人,香港中文大學資訊工程碩士、美國麻省理工學院電腦科學博士。林達華在AI開源社區有顯著貢獻,主導了商湯的多個開源專案,同時也是大模型研發的牽頭人。

接下來,商湯大裝置團隊還將加速大模型能力下沈,構建智能計算新生態。

第一,加速國產算力布局。透過與眾多國產算力廠商合作,商湯與上下遊產業夥伴共同推動國產生態建設,完成多款芯片與框架適配,落地多個千卡級別的國產算力集群,積極推進芯片評價標準和體系的完善,加速整個國產算力商業化行程。

第二,持續探索尺度定律邊界(Scaling laws)。隨著大模型的參數量朝向萬億以上級別激增,穩定、高效的超大規模算力排程和訓推引擎成為核心基石。

第三,建設面向開發者友好的AI基礎設施。面對愈發高頻次、高效率的模型叠代需求,SenseCore商湯大裝置擁有領先的AI原生雲算力產品體系,為客戶打造0門檻、一站式的極致開發體驗,縮短大模型開發周期。