阿裏雲全新升級AI推理系列產品，加速大模型套用落地

2024-07-19科技

7月19日，阿裏雲推出全面升級的GPU雲服務，透過全新最佳化GPU套件，多GPU推理服務效能可最大提升100%。針對呼叫GPU算力最常用的容器技術，阿裏雲推出ACK雲原生AI套件，幫助開發者及企業更高效地開發和部署AI套用，加速大模型套用落地。

隨著AI大模型的體量變大、套用變廣，單GPU已難以承載推理套用的全部需求，多GPU推理時代已經到來。如何在GPU資源緊缺的當下，實作GPU高效互聯，是提升多GPU推理效能的關鍵。阿裏雲透過進一步最佳化底層的AI通訊加速庫DeepNCCL，讓GPU雲服務在推理場景下有更好的效能表現：在同等硬體環境下，Token輸出吞吐至少提升14%，首Token時延降低15%。透過深度最佳化，推理加速效能也提升顯著，Token處理能力提升100%，相同的資源可以支持2倍的業務需求。

用Kubernetes容器集群技術呼叫GPU算力，已成為執行AI大模型任務的主流選擇。ACK容器服務可提供自動化編排及GPU高效管理和排程的能力，讓模型部署、擴充套件變得更簡單。為進一步提升AI套用運維效率，阿裏雲推出 ACK雲原生AI套件，可實作 Kubernetes 在 GPU 排程和細粒度共享、AI 任務排程、訓練數據載入以及大模型推理服務啟動等關鍵領域的能力增強和加速，相較開源均有大幅能力提升。比如，針對AI任務頻繁載入遠端儲存數據的需求，ACK雲原生AI套件可提升訓練數據讀取效能30%以上，降低大模型推理服務冷啟動時延70%以上。

在全球累計超過1000萬活躍使用者的國產AI繪畫工具海藝AI，就是透過ACK呼叫阿裏雲GPU雲服務的先行者。此前，使用者透過海藝AI生成一張圖片平均耗時20秒，遇到佇列等待延遲可上升至分鐘級；采用阿裏雲GPU雲算力及ACK容器服務後，海藝AI的模型切換完全無感，推理耗時降低至3.95秒，整體效能提升至少50%以上。

在最新的Forrester 全球AI基礎設施解決方案研究報告中，阿裏雲綜合產品能力指標位居全球第二，已成為中國AI大模型的公共底座。零一萬物、百川智慧、智譜AI、昆侖萬維、vivo、復旦大學、巨人網路等大批企業和機構在阿裏雲上訓練大模型，並透過阿裏雲對外提供服務；小鵬汽車、聯想、德勤、微博、完美世界、喜馬拉雅等已接入阿裏雲通義大模型，在阿裏雲上為消費者和客戶提供豐富的AI套用服務。