當前位置: 華文世界 > 科技

商湯大裝置:打造人工智慧算力「樣板間」,從AI 1.0跨越到2.0時代

2024-04-01科技
在上海臨港新片區,中國AIDC建設的「樣板間」——商湯科技上海新一代人工智慧計算與賦能平台(商湯臨港AIDC)正以驚人的速度,不斷挑戰自我。目前,算力規模已高達8100 petaFLOPS,遠遠超出立項規劃算力。
以「堅持原創,讓AI引領人類進步」為使命,人工智慧軟體公司商湯科技長期致力於原創技術研究。前瞻打造的高效率、低成本、規模化的新一代AI基礎設施 SenseCore商湯大裝置,以AI大模型開發、生成、套用為核心,賦能人工智慧生產新範式。2022年,作為大裝置重要載體的商湯臨港AIDC正式投入營運,成為亞洲最大的人工智慧計算中心之一,推動人工智慧產業的規模化落地。
商湯科技大裝置事業群智算中心總經理林海日前接受采訪時表示,經過兩年多的營運,商湯臨港AIDC已取得比較重大的進展,實作了萬卡的超大集群互聯,並列效率達90%,可在園區裏實作萬億參數模規的模型訓練。在訓練穩定性上,具備了超30天穩定訓練不間斷的能力。
林海 商湯科技大裝置事業群智算中心總經理
商湯科技董秘辦董事總經理盛世偉介紹說,2023年商湯迅速順應技術發展趨勢進行轉型升級,從AI 1.0時代跨越到AI 2.0時代,以生成式AI技術為核心,實作了顛覆性變化。去年,生成式AI相關收入達到12億元人民幣,在國內率先實作該領域的規模化收入。
盛世偉 商湯科技董秘辦董事總經理
數位經濟時代,算力是新質生產力。構建全國一體化算力網,是應對新一輪科技革命和產業變革的戰略舉措,是發展新質生產力、做強做優做大數位經濟、推動區域協調發展、推進數據要素流通、落實「雙碳」戰略的關鍵一步。今天,我們的鏡頭就跟隨「中國式現代化奮進者」——商湯大裝置團隊的科研大咖,去探訪「樣板間」裏的奧秘。
AI開發平台領軍者
走近商湯臨港AIDC的一間硬核機房,耳邊是低沈的機器轟鳴聲,柔和的白色燈光灑落在整齊排列的伺服器架上,空氣中彌漫著電子元件的特有氣味。這些尖端伺服器執行著商湯多年積累的人工智慧訓練框架,從算力層、平台層到演算法層全面打通,能夠快速響應各種客製化需求。
商湯科技大裝置事業群智算中心技術總監宋祎寓介紹說,「千卡並聯、萬卡並聯,指的是規模,真正落到底層就是相應的一個個集群,這間房間跑的是一個國產化的小集群。大裝置團隊是一個整體架構,從基礎工程師到中層研發數據的AI工程師、市場端的套用工程師,將整個套用形成一個產業端的價值閉環。」
宋祎寓 商湯科技大裝置事業群智算中心技術總監
作為上海國際科創中心建設的標桿計畫,商湯臨港AIDC一期投資56億元,主要建設園區智算大樓與科研行政大樓,用於AI智算中心平台硬體搭建、平台軟體、平台管理系統與大模型套用等多方向研發。計畫占地87畝,整體規劃建築面積13萬平方米,一期已建成7萬平方米。
「2020年策劃AIDC計畫時,整個市場裏並沒有這麽一個開放、高效、集約化、規模化的算力平台。」林海說,以開放的算力平台去支撐整個產業發展,商湯是第一波吃螃蟹的人。大裝置的模式本身就是一個創新,它的客製程度,以及整體的效率、成本,都達到了前所未有的水平,加快了行業發展速度,也降低了行業成本。
目前,SenseCore商湯大裝置管理的算力實作全國聯網的統一排程,在上海、深圳、廣州、福州、濟南、重慶等地都拓展了新的計算節點,總算力規模高達12000 petaFLOPS ,已有超4.5萬塊GPU。在支持商湯自身大模型研發的同時,也支持外部客戶訓練大模型和套用部署。強大算力可支撐超過20個千億超大模型同時訓練,並支持萬億參數大模型的全生命周期生成,成為國內訓練大模型最為先進的基礎設施,在互聯規模、加速效率和穩定性上保持業界領先水平。全新推出的「模型即服務」商業模式,使客戶能夠輕松地在大裝置微調和呼叫各類生成式AI能力。
根據國際知名調研機構弗若斯特沙利文聯合頭豹研究院釋出的【2023年中國AI開發平台市場報告】,商湯大裝置成為AI開發平台領軍者。盛世偉表示,商湯大裝置的算力「基礎設施」可謂供不應求,在用於自研的同時,為互聯網頭部企業和金融類、醫療類等企業提供服務,與各行各業的「燈塔客戶」形成生態合作,與清華 、上海交大等高校和科研院所開展科研合作。而To C端的一些產品如商量、秒畫、如影等,也都取得了好成績,文生視訊模型在研發上也取得了重要成果。
「新質生產力」孕育者
新質生產力具有高科技、高效能、高品質特征,以全要素生產率大幅提升為核心標誌。算力、演算法是AI核心要素。SenseCore商湯大裝置透過重構算力、演算法的供給或服務模式,實作了AI生產要素的創新性配置,大幅提高了AI技術的生產效率和品質,為AI發展打造「新質生產力」。
例如,在算力層面,大裝置重構了算力的供給體系。透過提供規模化、高效率、集約化的算力基礎設施服務,能夠大幅提高各行各業算力的利用能力,降低傳統自建算力方式的使用成本,實作了算力這一要素供給效率的提高。
在林海看來,透過算力服務、模型服務,提升整個人工智慧行業的發展效率,從這個意義上來講,大裝置是很典型的新質生產力的代表。「實作國產化集群的並列規模,是我們的核心任務。未來我們會做全國的一張算力網,以上海臨港為一個核心點,向全國各地鋪開,在東數西算的過程中,起到更大的作用。」
目前,商湯大裝置支持了商湯「日日新」大模型體系的高速叠代,大裝置+大模型深度協同,促使「日日新」能力每隔三個月就會顯著提升。各行各業的使用者只需要在基礎模型上進行微調或增量訓練,就可以高效率地開發出符合自己需求的高品質行業模型。今年2月推出的「日日新」4.0,在程式碼編寫、數據分析和醫療問答等多場景中達到了與GPT-4相匹配的能力。
「大模型離不開大裝置,從訓練到推理,如果沒有以算力為核心的基礎設施作為支撐,大模型根本就跑不起來,就是無本之源。」盛世偉透露,商湯將於 4月技術交流日上,推出「日日新」5.0大模型,見證中國人工智慧發展史上又一個裏程碑。
擁有無盡激情的創新者
「大裝置是商湯的底座平台,是一個非常復雜系統的工程,團隊組成跨度也很大。」林海介紹說,大裝置團隊由400余名多領域人才組成,分布在上海、北京和深圳等地。目前臨港園區的團隊包括基礎設施建設及運維、IT基礎設施、基礎軟體IaaS、AI雲產品、AI大模型訓練與推理平台服務等團隊。
面對一項項挑戰,大裝置團隊攻堅克難、不懈奮鬥,以無盡的激情擁抱創新,展開了「從0到1」原始創新探索,開啟了算力商業化行程。林海說,臨港園區投運前,建設期非常短,公司舉全力建設,團隊日夜奮戰,18個月的建設過程中,重新整理了很多建設速度的標桿,包括在政府部門支持下,同一天完成竣工備案和產權證。
宋祎寓記得,園區建成前,這裏還是一片瓜田,「後來西瓜都被我們吃掉了,它就變成了這樣的園區。」他說,2022年1月執行後的第一年,要把整個集群的裝置搭建起來,團隊上百人接受了非常大的壓力和挑戰。「從運輸到搭建,再到連線完成、測試完成,年底時,我們已經將全國3000P左右算力運載回了主基地,完成了上線。」
在大裝置團隊當中,不乏身懷藝術細胞、音樂天賦,但又擁有對學術執著精神的科學家,他們以獨特的視角,為商湯大裝置的發展註入源源不斷的創新活力。這種跨界的思維碰撞與靈感迸發,正是商湯大裝置團隊在AI基礎設施領域實作持續領先的關鍵所在。商湯大裝置首席科學家林達華教授在深度學習和神經網路領域具有很高的學術地位和成就。林達華師從湯曉鷗教授,也是商湯聯合創始人,在機器學習及電腦視覺領域的頂級國際會議與期刊發表近50篇學術論文。
「對於科學家來說,永遠保持著好奇心,驅動我們的科研往前奮進。」盛世偉說,「期待未來能夠讓AI進入到千家萬戶,服務老百姓,在產業開發中提升生產力效率,這是我們追求的一個目標。」
作者:
文:王蔚攝影:張挺 陳彥鍇 邢千裏剪輯:沐多編輯:陳雲峰責任編輯:王蔚
轉載此文請註明出處。