當前位置: 華文世界 > 數位

阿裏雲彈性計算新升級:CPU上跑推理,模型起建成本降低50%|最前線

2024-01-16數位

作者|武靜靜

編輯|鄧詠儀

1月11日,阿裏雲升級第八代企業級通用計算例項ECS g8i產品。新產品依托於英特爾在2023年12月釋出的第五代至強可延伸處理器,以及阿裏雲自研的「飛天+CIPU」架構體系所搭建。

升級之後,新產品的在算力、網路、效能、套用場景方面有能力提升:

  • 算力層,ECS g8i例項的ECS g8i例項的L3緩存容量提升到320MB,記憶體速率提升至5600MT/s;
  • 效能方面,整機效能提升了85%,單核效能提升25%;
  • 網路方面,PPS達3000萬,時延低至8微秒;
  • 場景上,新的ECS g8i例項可將MySQL資料庫的效能提升至60%,Redis和Nginx的效能分別提升40%和24%。
  • 面對目前火熱的大模型需求,新升級的ECS g8i例項進行了升級最佳化 ,讓大模型跑在CPU上,並有效降低了模型搭建成本。

    這對於大模型的商業化落地意味著全新的嘗試。一般而言,CPU在浮點、並列維度和記憶體寬頻上都與GPU能力相差甚遠,讓模型跑在CPU上是一件困難的事。

    在技術,ECS g8i上做了一次新的嘗試。為了解決首包延遲和吞吐效能技術難題,ECS g8i例項進行了針對性的技術最佳化,其內建指令集從AVX512升級到了Intel AMX高級矩陣擴充套件加速技術,可以加速模型執行。

    有了加速能力之後,模型推理過程在CPU上也能跑通,大大降低了大模型搭建和推理成本。此外,CPU相較GPU而言,更容易獲取,成本也更低,所以,這也為解決算力短缺難題開啟了新可能。

    阿裏雲彈性計算產品線總經理張獻濤表示 「g8i可更迅速地響應中小規模參數模型,執行知識檢索、問答系統及摘要生成等AI工作負載時, 起建成本相比A10 GPU雲伺服器下降50% 。」

    阿裏雲新釋出的ECS g8i產品

    目前,在CPU上,ECS g8i不僅能支持中小模型的推理計算,還可以支撐72B參數級別的大語言模型分布式推理。以阿裏雲通義千問開源的Qwen-72B大模型為例,它可在g8i例項eRDMA網路構建的集群實作高效執行,輸入小於500字時,首包延時小於3秒,每秒可生成7個Token。

    此外,ECS g8i還能支持超過32batchsize的超大參數規模的AI模型負載,涵蓋目前市面上的文生圖、AI生成程式碼、虛擬助手以及創意輔助工具等多類模型。

    在實際的模型落地中,要結合場景端的需求,綜合考量效果和成本。根據阿裏雲的測試,透過CPU做超高並行,可以充分利用算力,進行長時間計算和推理。目前,ECS g8i在一些對即時性要求不高的離線場景,比如創意廣告生成、離線視訊摘要生成等AI功能方面,已經有良好的效果。