Stephen Feng：應對AI發展挑戰，以套用為導向，系統為核心解題

2024-10-12科技

開源模型和硬體開放成創新動力。

2024全球AI芯片峰會（GACS 2024）於9月6日~7日在北京舉行，大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社群智猩猩發起舉辦。在9月6日的主會場數據中心AI芯片專場上，浪潮資訊開放加速計算產品負責人Stephen Feng以【多元開放系統激發生成式AI創新活力】為題發表演講。

Stephen Feng分享道， 大模型發展和 AIGC 套用的創新離不開開源模型和硬體開放 。且隨著大模型參數規模增加，生成式AI的發展面臨四大挑戰： 集群擴充套件性不足、芯片功耗高、集群部署難、系統可靠性低 四大挑戰。

針對生成式AI面臨的幾大挑戰，Stephen Feng提出了他的解決思路，即：

1、單機維度考慮更大的超節點互聯，集群維度采用更強、更開放的網路交換機，解決集群擴充套件性不足。

2、整機維度做到極致的能效設計，提前布局液冷，解決芯片功耗高的問題。

3、進行算力的統一池化管理加快硬體部署，透過端到端的開發平台實作套用的快速部署。

4、建立標準監控管理規範，加速先進算力的上線部署，實作GPU快速叠代和部署；具備自適應分布式訓練系統實作故障時的快速定位和斷點續訓。

▲浪潮資訊開放加速計算產品負責人Stephen Feng

以 下是Stephen Feng演講內容的完整整理：

01 .

開源模型成創新動力，

硬體開放推動完善AI算力生態

激發創新活力的核心就是開源開放。

我們首先來回顧大模型的發展歷程，在過去的幾年間不管是基於上層的套用還是底層技術的進步，開源模型的能力可以與閉源模型能力相媲美。

在今年Meta釋出了Llama 3，是一個405B的大模型，而它的能力達到了世界領先的水平。在國內，像通義千問、百川和浪潮資訊的「源2.0-M32」也是開源模型。

在去年全球釋出的大模型中，2/3以上的大模型都是開源模型，而且80%以上的大模型都選擇了開源的框架做相應的開發。

開源模型的總下載量已經超過3億次，並且已經衍生了超過3萬多個新模型。

綜上所述， 開源模型成為創新的動力 。

除了大模型，在硬體層面， 硬體開放也是完善AI算力生態非常重要的特征 。在套用的發展可以看到，大模型的發展也為AI芯片產業帶來了多樣化的需求特征。在最初，高端AI芯片存在硬體介面、互聯規範不統一等問題，導致其在整機適配相容時容易出現很多問題，投入非常大。

2019年浪潮資訊在OCP峰會上展示了全球第一塊UBB，由此拉開了OAM整體序幕；2020年，我們釋出了第一款參考系統MX1，基於此系統，推動相應的上遊芯片廠商在大模型芯片上的開發和落地；2021年和2022年，基於OAM1.0規範做了基於Gen4液冷和風冷伺服器。在此伺服器上推動完善整個OAM的產品生態。在去年，所釋出的【開放加速規範AI伺服器設計指南】，給新興的AI芯片創新提供堅實的系統平台支撐，加速多元算力產業發展。

去年基於Gen4 1.5的規範釋出了全新Gen5 OAM伺服器，並在這個產品上跟業界20多款高端AI芯片得到相關的適配。明年我們會基於OAM2.0繼續釋出相關的參考設計，持續引領高端AI芯片的設計以及其與我們的整機系統相容。

整體來看，OAM的開放標準在硬體層面正加速推動硬體設計與先進算力的部署。這一標準可以幫助AI芯片大幅縮短OAM加速卡研發和系統適配周期，節省超過6個月以上的研發時間與上千萬的投入成本，有效縮短硬體開發和產業賦能周期。

從以上兩個角度來看，不管在模型的開源，還是硬體的開放上，大模型的發展和AIGC的套用，其整體的叠代離不開開源和開放。今天重點基於開放來分享這個主題。

02 .

大模型參數量和所需算力大幅增加，

生成式AI發展面臨四大挑戰

回顧大模型的發展歷程，深度學習大模型起源於二十世紀八九十年代，最初大模型整體的發展速度以及叠代速度是較慢的。

2017年Google釋出了一篇文章【Attention Is All You Need】，提出了Transformer架構。Transformer架構發展之後，加速了大模型叠代的速度。尤其在2022年 ChatGPT 釋出，把大模型套用推上頂峰。國內外大模型層出不窮，Sora大模型再次出現，又讓多模態大模型得到了激烈討論。

大模型從簡單的深度學習模型到現在大語言模型或者多模態大模型，還有今年火熱的混合專家模型。最近幾年因為大模型的叠代速度在飛速提升。我們觀察到，當前大模型的參數量和所需算力的增長速度已經遠遠超過了莫耳定律的發展速度。

大模型未來的發展趨勢：參數量更大，往混合專家、長訓練模型以及多模態大模型去發展，並列訓練會引入新的範式。

傳統的大語言模型就是Tensor並列、數據並列和流水線並列，到混合專家模型之後引入了專家並列，長訓練模型引入序列並列。引入新的並列模式，像專家並列和序列並列，所需要的通訊量會大振幅增加。

在大模型訓練過程中，對於通訊速度要求是比較高的。引入新的訓練範式之後，對整機的需求是什麽？一方面需要更大的GPU Domain，不能局限於單機8卡的整機系統，需要更大GPU Domain滿足大模型發展所需要互聯的速度。另外，需要更大的互聯頻寬，大模型的發展遵循Scaling Law，參數量大振幅增加，所需要的算力也在大振幅增加。此前訓練一個模型需要的可能是百卡、千卡集群就可以了。

而當前以及未來大模型的發展，需要的集群即是萬卡起步甚至十萬卡的level。

再到伺服端也就是推理側。我們總結來看的話，大模型在推理的過程中首先會有first token，整體是一個算力敏感型，再往後的token都是一些視訊記憶體敏感型。隨著模型的參數量大振幅增加，像Llama 3總體的參數量達到4050億，未來的推理其實從單卡推理向多卡推理演進，還有向量資料庫等推理模型新範式，所引發的對CPU、互聯、整體的視訊記憶體頻寬都有了更高的挑戰。

基於上述特征，總結未來生成式AI發展所面臨的巨大挑戰。

大模型的發展在遵循Scaling Law，模型的參數量、訓練的時長和訓練的數據集都在持續增加。未來訓練一個全新的基礎大模型， 萬卡已經成為新起點，對於整機的擴充套件性提出新的要求 。

另外，AI芯片功耗在大振幅提升，從兩年前的400W到現在的700W，明年更會達到1200W。 短短三年間， G PU芯片的功耗已經提升了三倍左右 。一些新的產品形態，像輝達推出的Oberon架構單機功耗超過120kW 。 因為芯片算力的提升以及單機櫃功耗的提升，會給整體基礎設施帶來新的變革 。在單機維度上需要解掉這麽多GPU功耗的散熱，投入是非常大的。

另外， 未來數據中心基礎設施的建設上，我們也要考慮一些新的部署模式 ，如何快速部署單機櫃還能滿足這麽大功率十分重要。

基於GPU發展的功耗提升現狀下，總結未來大模型的發展， 到最後都是能源的爭奪 。我們如何在單機維度、集群維度能夠實作更高、更優的能耗是十分重要的。

集群部署難。 在大模型集群的部署上除了硬體上包含CPU、GPU、網路、儲存等裝置，還涉及上層軟體和硬體裝置的問題。我們如何快速地將這些基礎設施進行部署，再到業務層將這些相關的算力能夠轉化成套用，這是十分重要的。

Llama 3在60多天的訓練過程中，故障400多次，平均1天有7次的故障。80%的故障都是發生在硬體的故障，60%是GPU的故障，剩下是軟體適配的故障。 如何在模型的訓練當中保證它的可靠性、穩定性 ，是大模型能夠迅速叠代的一個重要因素。

03 .

考慮更大Domain解決集群擴充套件性不足，

監控管理標準化提高模型穩定性

基於以上的挑戰之下，可以有 以套用為導向，以系統為核心 的套用之道，具體為以下四個方面：

1、針對 集群擴充套件性不足 ，我們在 單機維度要考慮更大的超節點互聯 ，要做到超級互聯方案去實作千卡集群的Scale-up。在 集群維度 還要考慮 采用更強的網路交換機 去做到更多的萬卡甚至十萬卡的GPU Scale-out。

在單機維度，我們會推出創新的OAM互聯方案來滿足萬億模型通訊需求。一方面會推出基於OAM2.0的多機互聯方案標準，相比此前直聯的拓撲OAM，P2P頻寬提升7倍左右，實作更大OAM的Domain，支持八千張以上的加速卡超級互聯。我們也會基於交換拓撲推出OAM的超節點互聯方案，是一個完全解耦的整機櫃形態；並基於此拓撲形成OAM整機櫃標準，解決擴充套件性不足並加速OAM的算力叠代；

在集群層面，浪潮資訊推出X400超級AI乙太網路交換機，也是完全開放的產品。專門為AI大模型設計，是國內首款基於Spectrum-4打造的產品，最高吞吐達到51.2T，超級AI乙太網路交換機與傳統的乙太網路交換機最大的不同就是采用交換機和智慧網卡整體的排程解決方案，在交換機上實作對網路包細粒度的路由排程，在網卡側提供保序服務，實作交換機和網卡更加緊密耦合的配合。基於此方案，我們能夠實作16K計算節點，10萬+以上的加速卡互聯，滿足GPU之間的互聯通訊需求。同時，頻寬的利用率高達95%以上。

2、針對 計算芯片 ，一方面 在整機維度做到極致的能效設計 ，把整機的能效做到最優，把效能發揮到極致。另外， 提前布局液冷 ，浪潮資訊一直是 ALL IN液冷的策略 ，單機櫃成本非常高，整機櫃交付的模式，基於開放、快速交付的液冷整機櫃交付形態去滿足計算芯片功耗高帶來的挑戰。

針對GPU功耗的飛速發展，在單機維度采用極限的設計，去實作極致的效能。我們在面向全球最大的AI伺服器使用者的工程實踐當中總結了設計方案，不斷突破單機算力密度和單機的效能。NVLink伺服器我們已經做了四代，OAM伺服器已經做了三代的產品，整體伺服器上透過全鏈路仿真、分區的散熱調控去實作了極致的散熱和最佳的效能。在保障產品極致效能的同時，把整體的能效發揮到最優。

另外一方面，首創像風扇的智慧聽音診斷技術，透過相關的智慧診斷去保障大模型訓練過程中總體的功耗和噪音的極致最佳化。在液冷方面，剛才提到我們ALL IN液冷戰略，很早布局液冷，包含冷板式散熱、浸沒式等液冷方面的技術。

在基礎設施層面，透過開放液冷技術標準推動液冷加速普及。一方面制定相關的液冷技術標準，推動液冷的加速普及。打造標準介面的液冷元件，滿足單機的Scale-up。基於以往的數據風冷機房改造，透過風液式CDU，實作一天零改造快速落地和部署。基於冷鏈的架構革新推出單機櫃120千瓦的整機櫃形態，滿足未來更大的超節點互聯方案，實作快速落地部署。基礎設施維度，透過開放的生態，建立預制化可延伸、可生長的數據中心交付形態，來加快算力的部署。

3、在 整機維度 ， 把GPU的監控管理標準化加速叠代 。並在訓練過程中基於自適應的分布式訓練系統，保障訓練的穩定。

穩定性是高效完成大模型發展的必備條件。

一方面我們對整體的監控管理標準化，從OAM的固件管理規範，定義了管理的標準，包括從數據的更新頻率、異常數據處理，還有等級的數據處理機制以及整機預告警、分區分層診斷機制，我們都去定義了相應的標準，加速不同GPU芯片在整機系統的相容。另外，我們基於OpenBMC開放了管理平台，原生架構相容了像AI伺服器、通用伺服器、專業伺服器、儲存伺服器等多元異構的計算平台。透過模組化的解耦實作ARM、X86、CPU等以及GPU、ASIC等加速卡的相容，能夠實作快速叠代。

另一方面，在模型訓練過程中，如何在監控層面，有效應對訓練中出現的故障等突發情況？我們透過 AIStation人工智慧開發平台 ，構建自適應分布式訓練系統。一方面可以實作多租戶資源的管理，去提高集群資源的利用率和降低集群管理的復雜度。另外一方面，當出現斷點的時候，能夠透過在訓練池中快速地拉通備機，實作快速恢復訓練和訓練的自愈，保障大模型在訓練過程中長時間、高效的穩定執行。透過AIStation能夠將故障的處理時間縮短90%以上。

4、最後，在模型的部署落地上，透過 「元腦企智」EPAI加速大模型業務部署和套用創新 ，為企業AI大模型的落地套用提供高可用，以及安全端到端的開發平台，提供相應的像數據準備、知識檢索、模型微調和訓練，以及套用框架的系列工具支持排程多元算力和多模演算法，幫助企業高效地部署生成式AI套用。

綜上所述，浪潮資訊始終堅持以套用為導向，以系統為核心，透過開元開放的系統激發生成式 AI 創新活力。在硬體開放方面，透過建立OAM（開放加速模組）規範，加速先進算力的上線部署，支撐大模型及AI套用的叠代加速。在軟體開放方面，透過大模型開發平台「元腦企智」EPAI，為企業打造全流程套用開發支撐平台；透過AIStation人工智慧開發平台，提供穩定的保障系統，實作從模型開發、訓練、部署、測試、釋出、服務的全流程一站式高效交付。我們始終秉承開放包容的生態，加速生成式AI的快速發展。