百模大戰，需要標配怎樣的萬卡？

2024-07-17科技

眾所周知，大語言模型的快速發展離不開強大的算力支持，但目前全球範圍內算力資源仍然非常有限。即便是財力最雄厚的公司，所擁有的算力也無法滿足日益增長的需求。

根據上半年產業鏈的訊息，Llama 38B和70B的訓練需要24000多塊p00組成的集群；而據稱有1.8萬億參數的GPT-4則是在10000—25000張A100的集群上完成的訓練；就連參數僅30億的Sora，也用4200—10500塊p00訓練了1個月的時間。

這正好印證了摩爾執行緒創始人張建中日前的一個觀點：「在AI模型訓練的主戰場上，萬卡還僅僅只是標配」。7月3日，摩爾執行緒在AI DAY上宣布了其誇娥（KUAE）萬卡智算集群解決方案的重大升級，這不僅是摩爾執行緒技術創新的裏程碑，更是國產GPU技術發展的一次重要飛躍。

萬卡智算，無縫擴充套件

萬卡集群指的是由一萬張及以上的計算加速卡（如GPU）組成的高效能計算系統，用以訓練基礎大模型。這種集群充分整合高效能GPU計算、高效能RDMA網絡、高效能並列檔儲存、智算平台等關鍵技術，將底層基礎設施整合成為一台「超級電腦」，可支持千億級甚至萬億級參數規模的大模型訓練，有助於大幅壓縮大模型訓練時間，以實作模型能力的快速叠代。

張建中說：「構建萬卡集群並非一萬張GPU卡的簡單堆疊，而是一項高度復雜的超級系統工程。」其面臨的主要挑戰包括如何實作超大規模組網互聯、如何提高集群有效計算效率、保證訓練高穩定與高可用以及擁有故障快速定位能力和可診斷工具等。

據張建中介紹，全新一代誇娥智算集群能實作單集群規模超萬卡，浮點運算能力達到10Exa-Flops，視訊記憶體總容量達到PB級，卡間互聯總頻寬和節點互聯總頻寬均達到每秒PB級。同時，誇娥萬卡集群的平均無故障執行時間超過15天，最長可實作大模型穩定訓練30天以上，希望可以對標行業最高水準。

此外，在最佳化方面，誇娥萬卡集群透過系統軟件、框架、演算法等層面的一系列最佳化，實作了大模型的高效率訓練，MFU最高可達60%。此外，誇娥萬卡集群是一個通用加速計算平台，支持多種不同架構和模態的大模型，具有高效易用的MUSA程式語言和完整相容CUDA的能力，加速新模型的遷移和生態適配。

產業協同：共建大模型套用生態

摩爾執行緒的誇娥萬卡智算集群不僅僅是一項技術成果，更是一個產業協同的典範。在AI DAY釋出會上，摩爾執行緒與多家企業進行了戰略簽約，共同構建國產GPU集群。張建中提到：「我們希望摩爾執行緒的加速平台能夠加速一切計算，只是和計算相關的都可以在上面加速。」

釋出會現場，摩爾執行緒攜手中國行動通訊集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司（排名不分先後），分別就青海零碳產業園萬卡集群專案、青海高原誇娥萬卡集群專案、廣西東盟萬卡集群專案進行了戰略簽約。

借助摩爾執行緒先進的誇娥全棧智算解決方案，各方將攜手共建強大的全國產智算平台，以加速產業數碼化轉型和高質素發展。誇娥萬卡智算集群專案標誌著國產AI算力基礎設施的又一重大進展，將為各地的數碼經濟發展註入新活力。

釋出會後，無問芯穹、清程極智、360、京東雲、智平方等五家合作夥伴代表紛紛登台，分享了誇娥智算集群在不同場景和領域的創新套用，展現了其在實際套用中的巨大潛力與廣泛適用性。

在接受采訪時，張建中提出，GPU產業的自主生態建設是必須的，但相容國際主流生態也同樣重要，只有兩條腿走路才能讓產品更快地走向市場。而生態的適配、生態的發展能不能做得很好，則是全行業上下遊的生態合作夥伴們一起努力的結果。

百花齊放，資源共享

自ChatGPT顛覆式創新引爆生成式大模型發展後，全球數百個大模型爭先恐後地走向市場，形成百模大戰之態勢。但也有人認為，通用大模型的重復性建設是群模亂舞，未來將僅有個位數通用大模型存活下來。

對此，張建中認為，正如人類不應該只有一個大腦一樣，Foundation Model還是越多越好。「人類每個人都有自己的觀點，有自己的看法和認知，人類才得以不停地進步和發展，這對於大模型也一樣，」張建中如是說。

張建中強調，隨著人類大腦的進步，對各種各樣資訊的攝入量不斷增長，千行百業的專業知識都在逐漸轉變為「常識」。另外，由於一些需要私密保護的行業數據無法共享，這些行業都需要自己的Foundation Model，因此未來通用大模型一定會是百花齊放的狀態。

目前，許多成熟的大模型雖然已經開始投入到人們的生活和工作中，但仍然無法滿足人們的要求，這正是因為訓練側算力不夠所導致。至於什麽量級的算力集群能夠讓一個大模型做到足夠「聰明」呢？張建中認為或許應是百萬卡級別。

不過，如果張建中所言，目前百模大戰的背景下，萬卡是標配。顯然算力資源正因Foundation Model過多而被分散，這將導致很難有足夠的GPU能夠集中訓練出完美的大模型，或者說，這一天會更晚到來。

對此，張建中也表示：「大規模的算力資源應該由建設方和營運商對全社會開放使用，而不是被據為己有。且當集群發展到百萬卡級別時，將沒有任何一家企業能夠獨自負擔。」

摩爾執行緒打造的誇娥是一個通用加速的計算平台，其目標也是希望透過誇娥智算集群，以規模夠大、計算更通用、生態相容好的加速計算平台，為美好世界加速。這種理念很好地順應了算力資源集中的發展趨勢，隨著技術的不斷最佳化和生態的不斷完善，誇娥萬卡智算集群必將在AI產業的發展中發揮越來越重要的作用。