當前位置: 華文世界 > 科技

千卡集群每年降本2000萬!騰訊雲推出AI Infra品牌

2024-09-06科技

作者 | 香草
編輯 | 李水青

智東西9月5日報道,今日,騰訊雲在騰訊全球數碼生態大會上釋出AI Infra(AI基礎設施)品牌「騰訊雲智算」,將旗下高效能計算HCC、星脈網絡、AIGC雲端儲存等單項產品能力整合,提供集算存網一體的高效能智算底座。

騰訊雲智算目前已服務了90%的國內大模型頭部使用者,包括百川智能、智譜AI等。據騰訊公司副總裁、雲與智慧產業事業群COO兼騰訊雲總裁邱躍鵬介紹,騰訊雲的集群千卡單日故障數是行業水平的1/3,數據讀寫效率是業界10倍,千卡集群通訊時間是業界一半。

在大會之前,智東西與少數媒體對話了騰訊雲副總裁、雲端運算資深技術專家沙開波,深入交流了智算產業的市場趨勢、技術難點等。

談及AI對雲端運算的影響,沙開波認為長期來看,生成式AI的發展是具有確定性的,大模型對智算產業來說是一塊很大的增量,未來一定會有一個比較大的爆發節點。

之所以選擇在這時成立騰訊雲智算的品牌,也與客戶需求有很大的關系。另一方面,大模型計算、推理等場景對雲基礎設施提出高要求,騰訊雲作為解決方案提供方需要不斷打磨產品能力,從而更好地支持這一類客戶的業務需求。

一、集算存網一體,從器材上架到啟動訓練僅1天

整體來看,騰訊雲智算是一個集算、存、網於一體的高效能智算底座,整合了騰訊雲高效能計算HCC、高效能網絡IHN星脈、高效能雲端儲存、加速框架、容器、向量數據庫、智算套件等產品,提供效能領先、多芯相容、靈活部署的智算產品能力。

互聯網企業、大模型廠商、本地智算IDC、金融企業等是騰訊雲智算現階段的主要客戶,具體到場景中除了公有雲,還有私有雲、專有雲的一些套用,其中大模型廠商是最主要的客戶之一。

騰訊雲智算在訓練啟動時效上大幅提升,從器材到位到開始訓練,相較業界平均的30天時間縮小到僅1天。

在集群穩定性方面,騰訊雲智算千卡單日故障卡數0.08,只有業界的1/6;數據讀寫效率上,Checkpoint聚合寫入的峰值性達到業界10倍以上,1分鐘就能完成萬卡Checkpoint讀寫;網絡交換效率方面,透過伺服器、網絡端、交換機和通訊庫的整體自研最佳化,千卡集群的通訊時間占比為6%,是業界平均時間占比12%的一半。

▲騰訊雲智算訓練效率

隨著市面上的大模型參數不斷增長,從百億、千億,逐漸擴充套件到萬億,模型訓練對底層算力集群的要求也不斷提升。騰訊雲是如何破解集群升級難點的?

沙開波談道,大規模計算集群的打造也是騰訊雲智算產品矩陣最想解決的問題。其中,HCC高效能計算產品是專門用於高效能、穩定、大規模計算集群的構建,而如何將GPU等算力高效利用起來,則用到星脈網絡來提供卡之間的高效互聯,模型訓練過程中的Checkpoints高效讀寫對應的是高效能儲存產品。

基於這些產品整體構建的計算儲存網絡全棧解決方案,才能幫助客戶實作大規模集群的高效利用。

二、4天訓完萬億參數模型,網絡故障5分鐘解決

具體來看騰訊雲智算的產品矩陣,包括高效能計算、網絡、儲存產品,加速框架、向量數據庫以及智算套件等。

▲騰訊雲智算解決方案

騰訊雲HCC高效能計算集群釋出於去年4月,是行業最早釋出的面向大模型訓練、推理的算力集群。

HCC底層采用騰訊雲自研星星海伺服器,可以提供3.2T的超高互聯頻寬,算力效能比上一代提升3倍。萬億參數的混元NLP大模型訓練,最快4天就能訓練完成。在穩定性方面,HCC千卡單日故障卡數為0.08,無中斷訓練時長達到300小時,是業界平均市場50小時的6倍。

騰訊雲星脈網絡是其自研的高效能計算網絡IHN,支持超10萬卡大規模組網、多型號異構GPU接入,網絡通訊效率比上一代提升60%,大模型訓練效率提升20%。

星脈網絡具備高效的故障處理能力,在萬卡集群下,網絡故障可實作1分鐘發現,3分鐘定位,5分鐘解決。

據沙開波介紹,這是因為星脈網絡透過一些流量和拓撲的自動感知,進行流量替換中心的排程,從而提升整個網絡的吞吐,並在發現故障的時候迅速定位到是哪個鏈路出的問題,對鏈路進行排程、例外處理,讓整個訓練可以不中斷或者少中斷。

騰訊雲的AIGC雲端儲存解決方案包括CFS Turbo、物件儲存COS、數據加速器GooseFS以及數據處理CI等,針對AI大模型數據采集清洗、訓練、推理、數據智理全流程,提供全面高效的雲端儲存支持,可將大模型的數據清洗和訓練效率提升一倍。

三、千卡集群每年降本2000萬,助力傳統企業AI轉型

目前,騰訊雲智算可以靈活地支持公有雲、私有雲以及分布式雲的輸出,成為了國內90%頭部大模型廠商的選擇,也幫助一大批IDC廠商實作了AIDC轉型。

沙開波解讀了騰訊雲智算具體的落地案例,公有雲的一些大模型的客戶在使用其完整的智算解決方案後,一個千卡集群每年的成本相比過去傳統的方式可以降低2000萬。

例如某社區電商的企業,在評論分析、影像分類等OCR、CV業務上套用騰訊雲智算解決方案,在去年下半年從海外的芯片更換成了騰訊雲公有雲上的國產芯片。在主要業務指標不變的前提下,只用了21天就完成了替換,其中兩周左右用來適配模型,一周左右改造推理框架,對不同芯片的適配非常高效靈活。

▲騰訊雲智算客戶價值

在私有雲的落地上,騰訊雲智算主要的客戶是傳統的IDC公司,它們原本具有機房、硬件、網絡優勢,但是缺少雲、軟件解決方案。

具體案例是,某傳統IDC企業透過與騰訊雲智算合作,組建新一代具備AI Infra基礎能力的智算平台,並透過租戶、計費管理等能力,為終端使用者提供一站式自主用雲服務,實作到AIDC的轉型。該客戶還獲得了今年的可信雲大會使用者最佳實踐獎。

四、談智算產業五大趨勢,保持相容、開放、公私一體

縱觀整個智算產業,正處於快速發展的階段,從產業規模、套用場景到技術創新都在不斷拓展。沙開波與我們分享了騰訊雲對未來趨勢的看法,主要有五個層面。

首先是大模型的規模仍在持續增加,這對AI Infra要求也越來越高,需要更大的算力集群,如何在更大集群下確保穩定性、套用性可以滿足要求是主要命題。

其次是多芯的能力。多芯一方面來源於供給端的挑戰,需要AI Infra產品去適配各種芯片的能力,比如金融等行業的一些央國企會有國產化訴求,需要雲廠商去相容、適配國產化的芯片。

第三是現在整體AI套用,處於一個快速發展的階段,在套用落地層面仍處於前期,未來可能會越來越快。從這個角度看,未來的推理比重可能也會逐步增加。

第四是AI場景變得越來越廣泛,很多行業還在探索的階段。從騰訊雲智算和很多客戶的交流中,可以看出他們在這方面都有很強的訴求,未來肯定會有一些創新的業務套用落地。

最後是對數據安全的需求強烈。對很多國內企業來說,用於訓練推理的業務數據,只能在自己的機房裏面完成,這對產品能力的部署提出比較多訴求。

談及騰訊雲智算的整體戰略目標,沙開波稱騰訊雲從ChatGPT出現後就一直在打磨產品,在原來的通用計算、雲上去演進,讓原有的雲基礎設施能更加滿足大模型時代對訓練、推理場景的訴求。

此次釋出騰訊雲智算品牌,主要還是出於把過去一系列的工作群組合起來,變成一個整體解決方案對外提供,向行業傳遞更準確、更完整的資訊。

相較其他友商,騰訊雲智算品牌的主要戰略是整體的相容性、開放性,以及公私一體。

結語:生成式AI推動智算產業飛速發展

憑借集算存網一體的高效能智算底座,騰訊雲智算整合了多項優勢產品,展現了在智算領域的技術能力和潛力。

隨著生成式AI的持續發展,智算產業也許會乘著這股大模型的風「起飛」。騰訊雲智算以其相容性、開放性以及公私一體的戰略,不僅靈活地支持公有雲、私有雲以及分布式雲的輸出,同時也成為了國內大量大模型廠商的選擇,幫助一大批IDC廠商實作向AIDC的轉型。