據行業分析機構 Trendfocus釋出的數據,2024年第一季度,全球機械硬碟(HDD)出貨量達2970萬塊,環比增長3%,出貨總容量達262EB,環比增長22%。面向企業儲存的HDD出貨量和出貨容量雙雙增長,其中出貨容量增幅高於出貨量的增幅, 這表明HDD依然是企業容量需求型場景的主流選擇。
企業數據儲存大致可分 為效能需求型和容量需求型兩大類場景,前者的典型代表是計算類應 用,通常以512B、4K等小數據塊的隨機讀寫為主,關註點聚焦在IOPS效能;而容量需求型儲存則重點考量64K、128K及以上數據塊的順序讀寫效能(即頻寬,MB/s),典型套用場景包括關鍵業務數據備份、檔共享、日誌儲存等,使用HDD為AI套用儲存海量訓練數據也是企業的主流選擇。
雖然SSD的順序讀寫效能高於HDD,但對於企業使用者來說,實際的使用需要結合各種綜合因素,除效能外,還有穩定性、可靠性、投入成本等多種因素。所以企業依然青睞使用HDD來滿足海量數據增長引發的儲存容量需求。而HDD是如何滿足企業套用所需的呢?
本文將基於東芝的MG10-D系列空氣封裝硬碟,從實際測試出發,分析HDD在企業儲存市場的優勢特點。
1 基準測試:可預測的效能,簡化企業儲存復雜度
MG10-D系列是東芝最新釋出的傳統磁記錄格式 (CMR) 空氣硬碟產品家族,有SATA和SAS兩種介面,容量從1TB到10TB。據東芝官網資訊,MG10-D系列硬碟的效能和電源能效均有明顯提升,同時還提供即時清理擦除(SIE)和自加密驅動器(SED)等數據安全功能。本次測試用的HDD為3.5英寸外形規格的SATA介面硬碟,容量8TB。
圖1:用於本次測試的東芝MG10-D系列磁盤,容量8TB
圖2:硬碟背面;
圖3:硬碟介面為SATA 3.0規格,最大速率6Gb/s;
圖4:主軸電機,帶動內部盤片高速旋轉(7200轉/分鐘),並「托」起磁頭實作數據存取;
圖5:主軸電機上方的通氣孔,用以保持內外部氣壓平衡,旁邊有英文提示「請勿遮擋」。
基準效能測試的目的是用於評估HDD自身所能發揮出的效能,即 「裸盤效能」。根據海量檔儲存、數據備份、雲歸檔等場景的數據存取特點,測試選擇用64K、128K及以上尺寸的數據塊,透過常用的硬碟基準效能測試工具Iometer下發順序讀寫負載來評估HDD的頻寬表現。圖6為東芝MG10-D系列8TB硬碟在128K數據塊下的順序讀寫效能。
圖6:東芝MG10-D系列8TB硬碟的128K順序讀寫效能
本節測試使用單一執行緒對東芝MG10-D系列8TB硬碟下發讀寫負載,從測試結果可以看出,在單執行緒、1佇列深度時,硬碟達到最大讀寫頻寬,均在290MB/s左右,此時的平均響應時間僅為0.46ms。
此測試結果表明了以下多層含義:
1、 順序讀寫效能均衡,不管是順序讀(綠色柱狀)還是順序寫(橙色柱狀),在不同佇列深度下的吞吐率都近乎相似,保持在290MB/s左右;
2、 在佇列深度為1時,硬碟已達到最大的讀寫頻寬290MB/s,套用體驗穩定流暢。
3、 在達到最大頻寬後,隨著負載(佇列深度)的增加,吞吐率保持平穩,響應時間隨負載的增加而增長,這表明即使在密集負載情況下,東芝MG10-D 8TB硬碟依然能夠發揮出最大頻寬效能,且保持平穩,具有很好的效能可預測性,以便企業儲存系統能更好地匹配業務需求。
值得註意的是,東芝官網公布的MG10-D系列HDD的順序讀寫頻寬為268MiB/s,為二進制。而本測試中的290MB/s使用十進制,換算成二進制大約為278MiB/s。
圖7:不同數據塊大小的順序讀寫效能(吞吐率與響應時間)
上圖7是東芝MG10-D系列8TB硬碟在使用64K、128K、256K、512K、1024K等不同大小數據塊下的順序讀寫頻寬和響應時間表現。其效能表現趨勢與上一測試結果近乎相似,在1佇列深度時可達到最大吞吐率,且隨著負載的繼續增加,吞吐率保持不變,響應時間隨數據塊大小而變化。
圖8:東芝MG10-D系列8TB硬碟穩定性測試結果
上圖8為128K數據塊在持續讀寫下的響應時間散布,在1分鐘持續的讀寫負載下發中,響應時間大多散布在0.4~0.5ms之間,只有極少數分散在0.5ms之外,但均未超過0.6ms,這從另一方面顯示了東芝MG10-D系列硬碟的效能穩定性與可預測性。
從基準測試的結果數據來看,東芝MG10-D系列8TB硬碟僅需單執行緒單佇列的情況下就能達到最大吞吐率,即使在密集讀寫負載情況下也能保持穩定的最大頻寬效能,所具備的效能可預測性,有助於企業使用者簡化儲存系統的最佳化與管理工作。
基準效能測試反映的是東芝8TB硬碟本身所能發揮的最大效能,並不代表其在實際套用中的效能表現。接下來進行的檔效能測試將展示東芝8TB硬碟的實際套用效能表現。
2 如何讓海量小檔儲存更有效率?
檔儲存是企業最常見的套用場景,典型如日誌儲存、檔共享、雲數據備份與歸檔等,隨著大數據分析技術的發展,海量檔儲存也逐漸成為企業的典型套用場景,尤其是近幾年掀起的又一輪AI狂潮,為AI模型訓練所需的海量數據提供儲存能力也是HDD的重要套用場景。
我們使用VDbench建立模擬企業實際數據環境,來測試東芝10-D系列8TB硬碟,評估在處理海量小檔場景下,硬碟的每秒檔讀寫數,每秒吞吐率,以及響應時間等多項表現。將東芝MG10-D系列8TB硬碟用作企業檔案系統,並建立兩層目錄,每層10個目錄,在第二層的所有目錄中都建立2000個半/非結構化檔,總計20萬個檔(即2000x10x10)。在不同的測試環節,VDbench會重新生成不同大小的20萬個檔(如64K、128K、256K、512K、1024K),用以評估東芝MG10-D系列8TB硬碟在不同檔大小情況下的每秒檔讀寫數量和頻寬吞吐。
圖9展示的是64K、128K、256K及以上不同尺寸大小檔的順序讀取與寫入效能:
圖9:海量小檔的順序讀取/寫入效能測試結果
從上圖展示的測試結果來看,在64K和128K小檔測試中,MG10-D每秒可成功開啟並傳輸的檔超1000個以上,隨著檔尺寸的增大,每秒檔傳輸數開始下降,頻寬則快速提升,在256K時達到最大頻寬171MB/s;之後隨著檔尺寸的增加,每秒檔傳輸數逐漸下降,頻寬隨之對應下降。
在檔順序寫入測試中(實際是重寫),64K檔每秒可寫入近950個,隨著檔尺寸的增大,每秒寫入數量逐步降低,寫入頻寬則隨之提高。在1MB檔時達到最大頻寬111MB/s。
在企業數據中心內,更多套用場景的數據傳輸特點是檔隨機讀寫,圖10展示的是不同尺寸大小檔的隨機讀取與寫入效能測試結果:
圖10:海量小檔隨機讀取/寫入效能測試結果
圖10測試結果顯示,在20萬小檔隨機讀取效能測試中,東芝MG10-D系列8TB硬碟在128K尺寸大小檔時,每秒成功開啟並傳輸的檔數量最多,達到137個,對於HDD而言,這是一個極出色的效能成績。隨後,隨著檔尺寸的增大,每秒開啟數量降低,但頻寬隨之提高,在1MB尺寸檔時獲得最大頻寬38MB/s。
同理,在隨機寫入測試中,東芝MG10-D系列8TB硬碟在64K尺寸檔獲得最大檔寫入數量——每秒寫入519個檔,隨著測試檔尺寸的增大,每秒寫入數量下降,但寫入頻寬逐漸上升,到1MB尺寸檔時獲得最大頻寬——97MB/s。
為何在檔效能測試中,隨機寫入效能遠超隨機讀取效能?這是因為在測試中啟用了硬碟寫入緩存(Write Cache)。通常情況下,為了防止突然掉電導致緩存數據遺失,硬碟中的寫入緩存大多處於關閉狀態。而在本次測試中之所以開啟寫入緩存,這是因為東芝MG10-D系列硬碟中整合了持久寫入緩存技術,即使突然掉電,該技術也能保證硬碟緩存中的數據安全。並且,該系列硬碟緩存都為512MB,更大容量意味著可以緩存更多數據,也意味著更好的效能。
以上兩個測試結果顯示,東芝MG10-D系列8TB硬碟對檔隨機讀取的加速效果低於隨機寫入,這是因為測試數據全部都是重新寫入的新數據,沒有呼叫到讀緩存。而在檔隨機寫入測試中,下發的負載首先寫入硬碟的寫緩存(並經過排序),然後以類似順序寫入的方式寫入硬碟,從測試結果來看,其加速效果非常明顯,在64K檔大小時,每秒隨機寫入的檔數量約為順序寫入的55%,隨著檔尺寸的增大,加速效果越發明顯,在1MB檔大小時,隨機寫入頻寬接近順序寫入頻寬的90%(87%)。
在海量小檔儲存系統中,儲存的檔數量也會對檔讀寫效能帶來影響(其他配置不變的情況下),此測試將評估128K尺寸檔大小下,不同檔數量對讀寫效能帶來的影響,圖11為測試結果:
圖11:不同檔數量對儲存效能的影響
在檔隨機讀取測試中,隨著檔案系統中檔數量的增加,每秒成功開啟並傳輸的檔數量會隨之下降,在超過10萬個檔後,讀取效能趨於平緩,響應時間也維持穩定。而在檔隨機寫入測試中,由於寫入緩存的加速,雖然檔案系統內檔數量顯著增加,但每秒成功寫入的檔數量依然平穩,響應時間也沒有很大起伏,得益於緩存顯著提升了企業檔案系統的效能,尤其是寫入效能。
上述結果均基於單機環境下對單塊東芝MG10-D系列8TB硬碟進行測試獲得,在企業實際環境中,儲存系統通常有著數量多得多的硬碟。比如分布式儲存,即使最小3節點也有多達36塊硬碟,如果按上述測試數據推算,其能支持每秒最多3.6萬個檔的並行存取。即使部署在傳統雙控陣列(12塊硬碟)中,也能支持每秒最多近1.2萬個檔的並行存取。更何況還有儲存系統的記憶體/緩存加持,實作的系統綜合實際性可高於上述數值。
本測試綜合考慮HDD的效能後選擇使用的是單機環境(i5-13600,[email protected],32G記憶體)進行測試,在測試中排除了系統記憶體、網路等因素的影響。在企業實際環境,如檔共享套用中,檔案系統(NAS)緩存將會對檔讀寫效能帶來利好,但不同的儲存網路(GbE vs FC、10GbE vs 25GbE等)則會對測試結果帶來較大影響,同時,客戶端並行數量、讀寫負載混合比例等都會不同程度上影響檔案系統效能。
3 除了效能,硬碟還有其他優點
東芝MG10-D系列硬碟是東芝專為企業儲存而研發改進的傳統磁記錄格式(CMR)硬碟家族,除了上述測試中所反映出的效能穩定性、可預測性外,為滿足企業儲存需求,東芝MG10-D系列硬碟還有著很多特點及可選擇的附加功能,比如:
即時清理擦除(SIE)和自加密功能(SED)。 很多企業,尤其是有著大規模數據中心的企業,因故障更換硬碟、報廢硬碟後,如何處理被淘汰硬碟通常是一個難題,其上可能存放著企業敏感數據。而利用這兩項安全功能,能幫助企業更好地處理數據安全風險。東芝MG10-D全容量系列硬碟均支持這兩項功能。
持久寫入緩存技術。 可在保證最優寫入效能(Write Cache啟用)的基礎上防範由於突然掉電導致緩存數據遺失的風險,幫助企業在保證數據安全的同時更好地應對突發業務波峰。
儲存選擇更靈活。 東芝MG10-D系列硬碟不僅提供用於構建分布式儲存的SATA介面硬碟,還提供滿足企業儲存陣列需求的SAS介面硬碟;企業還可根據業務所需靈活選擇512e/4Kn或512n等不同磁區格式的硬碟,可無縫融入企業各種業務場景;1TB起步、最高10TB的容量規格也讓企業擁有更靈活的選擇。
圖12:東芝MG10-D系列提供不同規格型號的硬碟,供企業按需求靈活選擇
除上述特點以外,東芝MG10-D系列硬碟每年額定工作負載總傳輸率可達550TB;同時還具有很好的電源能效,在活躍待機模式下的功耗降至5.74W,相比上一代產品能耗節省方面也有很大提升。對於聚集了數萬台伺服器的企業數據中心,每一瓦的能耗節省都能為使用者帶來更好的成本管控制。
在很多企業數據中心的主流套用場景,HDD以其可預測的效能、更具價效比的投入、經驗證的可靠性、更靈活的容量與介面選擇,以及優異的相容性等特點,能夠更好地支撐企業業務的正常穩定執行。