當前位置: 華文世界 > 科技

MLPerf Storage揭榜,「儲存」掛帥,驅動AI上演「飛馳人生」

2024-10-28科技

文 | 智能相對論

作者 | 陳泊丞

AI產業鏈各個核心要素的「含金量」還在不斷提升,其中儲存的價值就在強勢增長。

日前,MLCommons協會釋出最新MLPerf™ Storage v1.0 AI儲存基準測試成績。浪潮資訊分布式儲存平台AS13000G7表現出眾,在3D-UNet和CosmoFlow兩個模型共計8項測試中,斬獲5項效能全球第一。

且不說本土廠商成功「打榜」的事情,光是MLPerf™ Storage v1.0 AI儲存基準測試成績的釋出就釋放出不少重磅資訊。

MLPerf™是影響力最廣的國際AI效能基準評測,由圖靈獎得主大衛·帕特森(David Patterson)聯合谷歌、史丹福大學、哈佛大學等頂尖學術機構共同發起,2023年首次推出儲存基準效能測試。這是全球首個且唯一的AI/ML儲存基準測試,旨在透過準確建模ML工作負載所產生的I/O模式來幫助解決存算平衡問題,為ML/AI模型開發者選擇儲存解決方案提供權威的參考依據。

現階段,隨著AI產業走向深實,市場既重視儲存,也對儲存解決方案提出了新的技術需求。以今年MLPerf™ Storage v1.0的評測標準來看,區別去年的v0.5版本,v1.0版本做了諸多技術相關的調整,一方面更註重儲存頻寬的峰值承載能力,重點考察在滿足高效能GPU一定利用率的前提下,儲存系統能夠為AI集群提供的總頻寬和每節點頻寬。另一方面則是強化了分布式訓練,重點關註每儲存節點能支持的GPU數量,從而評估使用者的AI儲存投資回報。

總的來說,在全球範圍內,儲存比過去更註重與AI產業的結合與協同,「存力」在AI場景中的價值突顯。而以浪潮資訊為代表的本土廠商在此次評測中脫穎而出,也說明了中國AI行業的風向同樣如此——市場對儲存的重視和創新正在加速中國AI的發展行程,讓本來就註重套用落地的中國AI產業具備了更完備的核心要素。

AI狂飆,存算協同

今天,人工智能向千行百業滲透,大數據、大模型的相繼迸發不斷加速智能時代的到來。隨之而來的還有萬卡算力集群、萬億參數規模的大模型訓練。在這個過程中,市場對算力的關註持續高漲,各大AI廠商首要追求的莫過於高效的算力資源。

然而,在算力之外,以儲存解決方案為代表的存力也同樣深刻地影響著AI產業的發展。存力不僅要提供足夠的儲存容量,還需要保證高效的數據存取能力。因此,如果存力不足,即便是擁有高效能的計算資源(算力),也無法高效地完成模型訓練任務,勢必會造成算力浪費。

存力與算力相輔相成,兩者之間的平衡至關重要,缺一不可,極大地影響著大模型訓練的效率以及AI產業發展的命脈。具體來看,現如今模型訓練的數據載入、模型訓練過程中的斷點續訓要盡可能地降低對計算時間的占用,那麽儲存就不能「掉鏈子」,必然要提供高效、穩定的解決方案予以支持。

浪潮資訊儲存產品線副總經理劉希猛在與「智能相對論」交流中提到,「隨著算力規模達到千卡萬卡規模的時候,其實它對儲存的效能要求,存取頻寬達到了TB級。在一些小模型的訓練當中,對時延的要求更高,儲存系統需要提供百萬級的IOPS的要求。」

算力的升級帶動著存力的進階,現階段AI想要跑起來,算力是關鍵,存力也同等重要。隨著AI產業發展所湧現出來的諸多場景問題越來越深入,對儲存提出的新要求也更加具體——不管是以MLCommons協會為代表的行業機構,還是以浪潮資訊為代表的行業廠商,都在致力於探索更強大、高效並符合AI場景需求的儲存解決方案,以讓存力跑在前面,協同算力升級,支撐AI產業加速發展。

當AI上演「飛馳人生」

事實上,新的儲存解決方案之所以備受重視,其背後意味著整個行業對AI系統性認知越來越成熟。

今天的AI如同一輛高速行駛的汽車,上演著智能時代的「飛馳人生」,而這輛汽車能提速的關鍵則在於汽車內各個核心要素或子系統的共同驅動。具體來看,數據相當於「燃料」,燃燒充分進而驅動「動力系統」工作,讓汽車加速動起來。算力的利用程度則決定了「動力系統」工作的效率,進而影響汽車快慢——這是算力的價值所在。

而存力的價值在哪?在「燃料」與「動力系統」之間,兩者如何碰撞出火花,則取決於以油箱、輸油泵、燃油軌等核心零部件組成的「燃料供給系統」。在AI產業鏈中,儲存就相當於「燃料供給系統」,而存力的效率直接影響著「燃料」與「動力系統」(算力)之間的轉化,就如同汽車系統中油箱是否夠大、輸油泵是否給力、燃油軌是否通暢等問題,直接決定了汽車的燃料供給情況,影響著汽車的動力大小。

這是一個相當完整的系統,在這個「系統」中,也就是AI場景下,存力所面臨的具體需求也將完全不同於傳統儲存,具體呈現在效能、效率以及韌性三大層面。

一、效能:大存力時代到來,協同大數據、大模型、大算力強勢驅動AI產業高速發展。

不管是單獨拎出算力與存力的關系來看,或是聚焦AI的系統性認知,都可以看到現階段儲存處於一個「牽一發而動全身」的位置,如同汽車裏「燃油供給系統」和「動力系統」之間的關系,存力的大小決定著算力的效率,進而影響AI的發展。

因此,當AI產業高速發展,進入大數據、大模型、大算力湧現的時代,市場所需要的同樣是大存力。基於這個趨勢,業內正在不斷去提升頻寬、IOPS,降低時延等,透過這些最佳化直接提高存力的效率。

其中,基於自研的分布式軟件棧優勢,浪潮資訊就在采用全新的數控分離架構,透過將I/O的控制面和數據面解耦合,實作了分布式一致性等復雜的控制面與數據流直通數據面分離處理架構,解決了分布式儲存數據流在節點間流轉的轉發問題,減少東西向(節點間)數據轉發量80%。在本次MLPerf測試中,浪潮資訊儲存達到120 GB/s的單儲存節點的超高效能——如此優異的單節點效能套用到實際AI場景中,將可以為企業客戶節省大量的儲存成本,從而以更高的性價比讓AI充分跑起來。

二、效率:儲存與AI產業鏈主動耦合,其價值定位愈發強調「以大局為重」。

對於存力「牽一發而動全身」的價值定位,浪潮資訊分布式儲存產品部副總經理安祥文向「智能相對論」提供了更具體的解析視角。他以大模型的訓推落地舉例,以數據為第一視角講述了在不同的階段,儲存都將面臨著截然不同的工作任務。對比傳統的儲存,現階段的儲存需要實作以存促算、以存強算的目標,從被動到主動、從分離到耦合,最終綜合加快大模型訓練的效率。

不難理解,儲存正積極融入AI產業鏈中,其效率提升不只是關註自身,更在於如何全域性地、連續性地推動整個大模型訓練甚至是AI產業的加速發展。這種從單節點到整體性的進階,則需要儲存協同好AI場景中各種問題,註重提升整體效率,就像在汽車系統中,駐車後再啟動,「燃料供給系統」需要及時地提供「燃料」給「動力系統」以確保汽車能連續地行駛。

在這方面,以浪潮資訊為代表的本土廠商考慮到實際落地的場景問題,正透過儲存支持檔、物件、大數據等非結構化協定融合互通,全域名稱空間等方式,從而減少多份數據重復儲存,以及數據跨協定、跨區域、跨系統排程檢索的管理問題,提升儲存的全域效率。

三、韌性:儲存的地位不斷提升,行業創新高度聚焦存力的安全可靠體系建設。

過去,大眾對儲存的認知可能只是一個U槽,負責儲存資料的載體,但是當儲存融入AI產業鏈,其定位在變化,價值在提高,相應的所承擔的責任也在增強。儲存出了問題,將影響整個大模型訓推落地流程,就如同「燃料供給系統」故障了,整個車子都將無法行駛。因此,儲存的安全可靠也同步受到市場更大的關註,只有有韌性的儲存解決方案才能適應現階段以及未來高強度、高價值的AI產業發展。

那麽,儲存的「韌性」應該如何提升?浪潮資訊從傳統中醫理論入手設計保障儲存安全可靠的體系,正所謂「上醫治未病,中醫治欲病,下醫治已病」,一方面從網絡安全、器材安全、系統安全、管理安全、數據安全多維度構建了儲存安全體系,另一方面則是采用可靠性主動管理技術,實作儲存亞健康管理,對硬件、網絡、系統等進行亞健康檢測,確保系統故障可以快速恢復。此外,透過AIOps演算法實作容量趨勢、效能趨勢、SSD壽命、HDD和SDD硬碟故障的精準預測,防患於未然,滿足客戶AI業務連續性需求。

結語

現如今,AI歷經多年發展,已經成長為一個大產業。在這條龐大的產業鏈之上,核心要素也在不斷趨於「大」發展,數據量激增迎來大數據時代,緊隨而來的還有大模型、大算力。越來越「大」的發展,讓各大核心要素之間愈發協同,儲存進入大存力時代,也與大數據、大模型、大算力之間的聯系更加緊密。

在這個節點上,行業權威機構開創基準評測,為市場提供參考標準。以浪潮資訊為代表的本土廠商不斷以優質的產品和解決方案強勢打榜,由此可見,不光是儲存的含金量在提升,本土AI的專業解決方案也在崛起。

只要以數據、算力為代表的核心要素相關解決方案持續強化,中國AI產業終將「狂飆」起來,上演本土化的「飛馳人生」。

*本文圖片均來源於網絡