AMD王宏強：全產品線推動大模型從雲到端落地解讀下一代AI PC平台

2024-10-13科技

從雲端到PC，AMD打造全方位智慧生態。

2024全球AI芯片峰會（GACS 2024）於9月6日~7日在北京舉行，大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社群智猩猩發起舉辦。在大會第一天的主會場開幕式上，AMD人工智慧事業部高級總監王宏強以【推進大模型從雲到端部署，打造變革性未來】為題發表演講。

AMD在端到端的AI基礎設施領域打造了全面的產品線，覆蓋從數據中心伺服器、AI PC到智慧嵌入式和邊緣裝置，並提供領先的AI開源軟體及開放的生態系。AMD基於先進ZEN4架構設計的CPU處理器平台、基於CDNA3架構面向AI推理&訓練的MI系列加速器，已被微軟等巨頭采用。

據AMD人工智慧事業部高級總監王宏強分享，AMD還在推動數據中心高效能網路基礎設施（UALink，Ultra Ethernet），這對AI網路結構需要支持快速切換和極低延遲、擴充套件AI數據中心效能至關重要。AMD即將釋出下一代高效能AI PC芯片，其基於第二代XDNA架構的Ryzen AI NPU，可提供50TOPS算力，將能效比提高至通用架構的35倍。

在AI PC對私密、安全和數據自主性的推動下，重要的AI工作負載開始部署在PC上。作為全球領先的AI基礎設施提供商之一，AMD願意攜手廣大客戶與開發者共建變革性未來。

目前，為了推進AI從雲到端部署，AMD重點主要集中在提供豐富多樣的高效能和自適應硬體和軟體解決方案組合、建設開放式生態系、將復雜的工作負載簡化為引人入勝的使用者體驗這三大關鍵領域。

▲AMD人工智慧事業部高級總監王宏強

以下為王宏強 演講內容的完整整理：

自去年以來，人工智慧（AI）領域實作了顯著的發展，尤其是在大模型和生成式AI方面。AMD在這些技術產品方面逐步推出了 從硬體平台到軟體，從端到端 的解決方案。

AMD擁有非常全的產品線，從數據中心伺服器，到邊緣側的Edge&Embedded，還有AI PC，都有非常全面的硬體AI平台。

AMD公司真正做到針對不同數據中心業務需求進行最佳化，以滿足各種工作負載。這包括使用 CPU處理器進行輕量級AI推理 ，或者 利用MI加速器處理大規模任務 ，尤其是當前生成式AI大模型的推理和訓練。

同時，我們知道在數據中心，除了推理和訓練，特別是在訓練裏面，我們需要有Scaling Out（橫向擴充套件）和Scaling Up（縱向擴充套件）。 在同一個節點裏面有多卡互聯，在不同節點之間則是需要有Scaling Out擴大整個處理的能力。

針對這方面，我們 集中發展開放的高速互聯 ，如UALink和Ultra Ethernet，我們在計算和跨節點互聯方面都提供了重要的技術支持。AI網路有一個很重要的需求，就是需要一個 極低的延時和響應的時間 ，AMD找的是開放的UALink和Ultra Ethemet，更好地與業界其他客戶一起構建我們整個的計算加速平台。

01 .

加速器輕松處理上萬億參數模型

AMD的EPYC系列 新一代CPU擁有多達192個核心和384個執行緒 ，這是基於我們最新的 ZEN5架構 設計的，它相比上一代也有非常大的效能提升， 不僅是從Instruction Bandwidth（指令頻寬），還有數據的Bandwidch（頻寬），比如L2到L1的，還有L1到浮點數據的頻寬都有提升2倍。

同時，我們的AVX-512技術是完整的，它在數據的buffer（緩沖區）也有頻寬，從而能夠更有效地支持AI推理服務。

自去年12月以來，我們在數據中心也推出了一系列新的MI加速器，這些產品已經被包括微軟在內的大型互聯網公司采用。

我們加速的板卡已經被伺服器制造商，包括OEM（原始裝置制造商）和ODM（原始設計制造商）整合到他們的伺服器中。

對於使用者而言，只要購買了這些伺服器，就可以獲得內建我們的CPU和MI加速器的系統，並用於執行AI推理和訓練任務。

目前，在大模型生成式AI領域，ADM也是一直在提升我們的架構。我們原來是Llama3的架構，對此我們也將繼續演進。

在儲存容量和儲存頻寬方面，我們也取得了快速的發展。預計到今年年底，大家將會看到一些相關的更新產品的釋出。

我們將更有效地 支持當前在大模型的推理，例如Llama和GPT 等。讓所有的這些模型都能輕松地在我們的加速器上執行。更為重要的是， 我們的加速器甚至能夠處理具有上萬億參數的模型 。

02 .

GPU設計完全開源，

人人都可對程式碼進行修改

在GPU軟體設計上，我們有ROCm，它是一個開源的加速器軟體。我們不僅設計是開源的，而且整個架構也是模組化的， 對使用者完全開放、開源 。

使用者和社群成員都可以存取這些開原始碼，你甚至可以對程式碼進行修改。我們鼓勵更多地去把AI整個社群的貢獻整合在我們整個ROCm平台裏面。

我們針對當下最熱的生成式AI也做了很多創新，比如像對 RADEON 這個開源推理引擎的支持。此外，我們還積極支持了像SGlang這樣的新型開源推理引擎。

SGlang和RADEON之間存在一些差異，特別是在排程上。與CUDA這個相對閉源的環境不同，我們支持不同的開源推理引擎，使使用者、社群，整個生態處在一個環境裏面。

為了支持生成式AI的大模型，我們 對FlashAttention-2和FlashAttention-3進行了最佳化，包括對FP8這些算子的支持 。這些都是用在推理裏面非常典型的數據型別，在訓練裏面， 我們也能夠支持BF16的數據型別 。

除了提供算子支持，我們還支持通訊，包括 RCCL 最佳化和虛擬化技術的支持等。

03 .

AI發展不僅在於硬體，

軟體和基礎設施投入同樣重要

我們堅持在AI的軟體及基礎設施上的投入。除了加大自己內部的投入，我們還會收購一些業界比較有名的公司。

最近我們收購了SILO.ai，這是一家擁有眾多傑出AI案例的公司。

透過收購SILO.ai，我們不僅能夠進一步提供AI最佳化技術，還獲得了他們在AI開源領域積累的豐富專業知識。

我們也收購了ZT Systems。作為行業領先的數據中心，ZT Systems專註於AI基礎設施。

我們不僅從軟體、硬體平台，還從整個機框、機架這一整套來提供AI加速的能力。

開源加速的發展速度在不斷加快，每天都有新的開源算子和框架被推出。

AMD本著開源開放的戰略，積極在開源社群進行部署和推廣新模型。我們借助整個生態系的力量，迅速推動AI技術的發展，這與相對封閉的CUDA環境完全不一樣。

我們與 HuggingFace 的合作也是非常緊密的。HuggingFace上有70多萬個模型，每天我們都會進行一些測試，保證它的這些模型都是可以直接執行在我們加速器的平台上，包括在數據中心裏面，還有在個人筆記本Ryzen平台上。

我們還與OpenAI Triton合作，它提供了更高層次的AI語言抽象，使我們能夠在更高層次的語言抽象上更容易地實作功能。此外，我們很早就開始支持像PyTorch這樣的推理框架。

04 .

XDNA2架構下的 NPU ，

算力與儲存提升

剛剛介紹了我們在數據中心的投入，實際上我們在AI PC的投入也非常大。

我們一直在RyzenAI平台引領AI PC。

現在越來越多的套用可以跑在個人膝上型電腦裏面，比如一些即時的協同都可以在個人電腦裏面跑一些大模型，透過這些大模型作為基座，去開發各種套用，這就使得各種套用真的可以落地到端側。

我們AMD要釋出的下一代高效能AI PC芯片，它也是基於我們Zen5 CPU的架構，加上了第2代XDNA，Ryzen是升級到3.5的版本，能夠提供50TOPS的算力。

在AI PC領域，使用者越來越重視私密保護、數據安全和數據自主性。隨著重要的AI工作流程逐步在個人電腦端部署，對專用處理器的需求也隨之增加。

在PC部署上，大家對PC機的耗電需求非常大，因此非常需要NPU的處理器。NPU在效能功耗比具有非常大的優勢，相比通用的處理器，它能夠擴大35倍以上的能效，所以我們在AI PC裏面有整合這個NPU。

NPU是基於我們XDNA2最新的架構，它的底層是AI處理引擎，相比之前，從算力，包括儲存都有一點幾倍的提升。

我們在數據型別上也進行了很多創新， 例如對Block FP16的支持。與第一代XDNA相比，我們實作了更高的能效比，計算能力提升了5倍，功耗效率也提高了2倍。

關於關鍵數據型別的創新，就是塊狀浮點的支持。 塊狀浮點的優勢在於它結合了8-bit數據型別的高效能和16-bit精度的優點，從而在數據位寬、精度以及儲存需求之間實作了理想的平衡 。它在效能上與8-bit相近，同時在模型大小上僅需9-bit表征。此外，它在精度上非常接近16-bit，能夠達到與16-bit數據型別幾乎相同的99.9%的準確度。

另外一個在AI PC上的套用就是RAG推薦系統。它包括前處理步驟，其中一些處理在CPU上執行，而核心計算則在NPU，這種設計使得整個系統能夠即時處理RAG推薦系統的任務。

剛剛介紹的這些功能都是透過AMD的Ryzen軟體達到的，RyzenAI的軟體架構包括從浮點模型開始，透過內建的量化器進行最佳化，最後透過ONNX的表示執行到NPU裏面。

我們也支持通用架構，並正在開發 Unified AI software stack（軟體棧） 。這一軟體棧 能夠智慧地辨識系統中的CPU、NPU和iGPU這三種加速引擎，並自動分配最適合的引擎來處理相應的工作流程 ，從而實作最優效能。

我將很快分享一下AMD基於Edge&Embedded，在嵌入式和邊緣的套用。

在AMD，這個平台是真正的一個異構計算平台，它不僅包括可編程邏輯，也包括XDNA和ARM CPU。它能夠處理AI中的關鍵模組，包括前處理，如LiDAR數據處理，這些都可以由可編程模組來執行。

AI的Inference可以在XDNA架構中進行，而一些後處理、決策和Dedision Making則可以在後處理器，如CPU裏面去進行。

我介紹一個Demo，它是基於AI的立體網路攝影機實作的，沒有用雷達，也沒有用地圖，可以看到只是用了立體網路攝影機做AI相應的處理，就能實作自動駕駛的功能。

最後我總結一下我們的優勢，我們能夠定義新的AI時代端到端的基礎設施，我們整個產品的路線是最全的， 從數據中心、從邊緣，到端側，都有一整套的硬體 。

我們在AI軟體上一直有非常大的投入，包括對軟體的支持，我們一直走的是開源開放的生態，讓所有的AI開發者、客戶、使用者，包括整個社群，大家都可以在我們開放的軟體平台上貢獻，去推進整個AI軟體的快速發展，去支持在不同平台上的各種新的模型。

我們正處在一個AI推動的社會變革中，AI的影響已經深入到我們的日常生活之中。AMD會繼續推進大模型，從雲邊端的部署，以真正幫助到使用者，基於AI技術去打造一個更加方便、更加便捷的生活。