?

基于SMART數據模式的HDD硬盤狀態預測方法*

2024-02-26 02:23萬成威
電訊技術 2024年2期
關鍵詞:硬盤機器狀態

萬成威,王 霞,王 猛

(北京航天飛行控制中心,北京 100094)

0 引 言

數據存儲子系統是各類信息系統或設備必不可少的組成部分之一,硬盤是數據存儲子系統的核心部件。然而,硬盤也是影響信息系統或設備性能和工作狀態的重要因素[1]。固態硬盤(Solid State Disk,SSD)可極大提高硬盤的數據讀寫性能,然而硬盤的經常性失效問題仍不可避免,業界普遍采用獨立冗余磁盤陣列(Redundant Array of Independent Disk,RAID)技術實現硬盤失效時的數據完整性保護。同時,硬盤健康狀態的預測研究也日漸受到業界的重視[2-4],期望通過硬盤自身的狀態日志、設備運行狀態、機房位置等信息,準確預測硬盤的健康狀態[5],最終實現硬盤剩余壽命的準確預測,為實現數據管理、設備運維等提供相應的支撐手段。

機械硬盤(Hard Drive Disk,HDD)在大規模數據中心、大容量數據存儲系統中廣泛應用,其故障一般分為兩種:可預測的和不可預測的。不可預測的硬盤故障偶爾發生,如芯片突然失效、機械振動或撞擊等,但如磁盤磁頭磨損、盤片磁介質性能下降等,均屬于可預測情況,通過磁盤監控技術,檢測磁盤某些重要的狀態參數實現磁盤健康狀態的預警。1995年,康柏公司聯合多家硬盤生產商提出該技術方案,并于1996年正式成為行業技術標準。然而,準確地實現硬盤健康狀態預測仍然具有很強的挑戰性,主要原因來自兩個方面[6]:一是軟件系統優化設計后可較好地適配硬件系統部分功能失效情況,導致系統操控管理人員對包含硬盤故障在內的硬件系統部分功能失效情況的重視程度不夠;二是各種不同品牌和型號規則的硬盤在數據中心內部廣泛使用,但考慮到商業利益因素,大量的研究僅公開了少量的采樣獲取的自我檢測分析與報告(Self Monitoring Analysis and Reporting Technology,SMART)數據,難以支撐大規模的開放性研究,而且研究重點也主要著眼于不同類型硬盤的某些特性,如結構、器件或等對異常產生原因的分析。

近年來,隨著BackBlaze、Alibaba等云服務商逐步開放其超大數據中心硬盤的SMART數據,基于機器學習、深度學習等方式的硬盤健康狀態預測研究[7-11]也隨之逐年增加,針對硬盤失效問題的深度分析也逐步展開。清華大學交叉信息研究院的徐葳團隊[6]聯合百度公司對百度數據中心2012—2016年以來的290 000個硬件失效問題進行了研究,從失效問題發生的時間、產品線、空間位置、部件以及用戶的響應等5個維度進行了分析。從部件維度看,HDD硬盤故障占硬件系統故障的82%,其中約30%的故障直接由SMART屬性值反應出來,其他部分故障也可由相關的SMART屬性與之對應,同時,研究結果表明,HDD失效與高負載、人員操作等均具有一定的潛在關聯性。Lu等人[5]針對HDD硬盤的SMART數據、硬盤的性能數據、硬盤的空間位置信息等3類數據,采用樸素貝葉斯分類、隨機森林[12]、梯度增強決策樹(Gradient Boosted Decision Tree,GBDT)[13-14]、長短時記憶網絡(Long Short Term Memory Network,LSTM)等深度學習方法,實現對HDD硬盤工作狀態的預測,并詳細比較了上述3類信息不同組合條件下的預測準確性,結果表明,3類信息聯合情況下可獲得最優的預測性能,原因在于硬盤的性能數據體現了其工作負載,硬盤的空間位置體現了其運行環境,這些因素均會影響硬盤的工作狀態。

隨著SSD硬盤在數據中心應用的逐步深入,針對其工作狀態的預測研究也逐步展開[15-16],這些研究方法對HDD硬盤工作狀態預測具有較好的借鑒意義。

本文將HDD作為研究對象,基于BackBlaze公布的HDD硬盤SMART日志數據,采用機器學習方法,完成硬盤健康狀態的分類預測。

1 SMART數據

SMART技術為硬盤行業標準,依托該技術,硬盤會自動檢測其磁頭、盤片、馬達、電路等運行狀態,并通過不同的屬性值記錄下來,實現其工作狀態的記錄,當屬性值超出安全值范圍時,就會自動向用戶發出告警。一般而言,硬盤會周期性產生SMART記錄數據??紤]到硬盤大部分時間均處于正常工作狀態,已有研究表明,對硬盤工作狀態預測而言,每天一條SMART數據記錄即可滿足應用 要求[5]。目前,Alibaba、BackBlaze等大型云服務提供商均開源了其部分數據中心硬盤的SMART數據。典型的SMART屬性如表1所示。

表1 典型SMART屬性值 Tab.1 Typical SMART attributies

SMART屬性數據以二進制代碼的形式記錄于硬盤的系統保留區內,除標準屬性外,廠商可根據自己產品的特性提供不同的SMART屬性數據。目前公開的SMART數據集中,除SMART屬性的原始數據外,同時包含每個屬性的歸一化值,聯合起來作為硬盤的SMART屬性。單條SMART記錄包含日期、序列號(或ID)、硬盤型號、工作狀態及屬性值等。一般情況下,硬盤的大部分屬性值為空,不同廠商、不同型號規格的硬盤,為空的屬性值也有所不同。為此,根據硬盤SMART屬性是否非空,定義SMART數據模式如下:給定的SMART數據記錄中,若某一屬性非空,則該屬性的數據模式為“1”;否則,該屬性的數據模式為“0”,由所有屬性數據模式組成的二進制字符串即為該SMART記錄的數據模式。

從已開放的SAMRT數據看,盡管不同廠商、不同型號規格硬盤的SMART數據各不相同,但仍體現出明顯的特點,具體如下:

1)SMART數據具稀疏特性。盡管最新標準中定義了多達256項SMART屬性,然而,一般硬盤在日志中僅記錄了其中幾十項屬性值,且其中大部分屬性為空,形成典型的稀疏特性。

2)SMART數據模式類型有限。SMART數據模式指硬盤所有非空SAMRT屬性的組成規律。大型數據中心中存在不同品牌、不同型號規格的硬盤,然而,這些硬盤的SMART數據模式類型較為有限,如本文后文所述,并非如直觀印象中有大量不同的數據模式類型。

3)SMART數據具有明顯的不均衡性。SMART數據的不均衡性主要表現在硬盤狀態正常與失效的SMART數據數量相差極大。硬盤技術和制造工藝的進步,使得硬盤失效概率明顯降低,大部分時間內硬盤處于正常工作狀態,因此SMART數據中失效數據比例也較低。

考慮SMART數據模式類型有限的特點,且同一數據模式下硬盤SMART屬性完全一致,更趨于表現出一致的運行狀態,基于此,本文提出基于SMART數據模式分類的HDD硬盤工作狀態預測方法。

2 硬盤工作狀態預測

現有研究主要以SMART屬性值及其歸一化屬性值作為特征,采用各種機器學習、深度學習算法,實現硬盤工作狀態的預測。盡管針對大型數據中心硬件系統故障問題的長期統計分析表明,硬盤負載、機房環境等對其工作狀態具有一定的影響[5],從表1也可以看到,上述信息在SMART屬性數據中也有一定的體現。另外,現有基于SMART數據的硬盤工作狀態預測研究中,一般考慮算法的通用性,期望算法可廣泛適用于所有類型的硬盤,通常僅選擇十幾項典型的屬性值作為硬盤工作狀態預測算法的特征,然而,除常用的典型屬性外,不同型號規格的硬盤可定義不同SMART屬性,這將導致部分信息的丟失[16]。為此,本文在深入分析SMART數據特點的基礎上,提出相應的HDD硬盤工作狀態預測算法。

2.1 算法思想

為了避免現有算法選擇少量典型SMART屬性作為特征引起的信息丟失問題,結合SMART數據的特點,本文提出基于SMART數據模式的機器學習(SMART Data Mode Based Machine Learning,SDM-ML)算法,以實現HDD硬盤工作狀態的準確預測,其基本思想如下:

SMART技術作為硬盤行業標準,反映了硬盤的各種工作狀態,其屬性的設計均具有一定的針對性。直觀理解,選取的屬性越多,包含的硬盤信息也相應增多,利于機器學習算法更充分識別硬盤的工作狀態,對其做出更加準確的預測。經統計分析,硬盤SMART數據模式較為有限,為此,SDM-ML算法先根據數據模式類型,將SMART數據分為不同的子集,不同子集的數據分別采用有監督機器學習算法進行訓練和驗證測試,綜合多種機器學習算法測試結果,選擇性能最優算法的輸出結果作為最終預測結果。

2.2 算法流程

如圖1所示,算法分為數據預處理、數據模式分類、按數據模式分類機器學習預測。實際過程中,根據數據模式類型,將預處理后的SMART數據輸入訓練好的機器學習組件中,即可完成HDD硬盤狀態的預測。

圖1 基于數據模式分類的HDD硬盤工作狀態預測

數據預處理主要完成原始SMART數據的規范化處理,包含:以序列號為關鍵字,將單個硬盤的SMART數據按照日期先后順序歸檔整理;僅以SMART屬性的實際值作為研究對象,不考慮數據提供方給出的歸一化屬性值;將屬性值為空的SMART屬性統一填充0,若硬盤當日SMART屬性均為空,即表示當日未成功獲取SMART日志記錄,則刪除當天SMART記錄。

數據模式分類主要根據硬盤SMART記錄中的原始屬性數據,確定該硬盤的SMART數據模式類型。所有數據模式類型中均包含該SMART數據的所有屬性,不對其進行篩選、過濾、聚合等處理。

并行訓練主要將分類后的SMART數據分別按照數據模式輸入監督機器學習算法進行算法的訓練。對于每塊硬盤,均選擇N天的SMART記錄依次拼接組合作為機器學習的輸入數據。其中,對于發生失效問題的硬盤,選擇從失效當天起的前N天SMART數據作為故障類數據(類型為“1”);對于未發生失效問題的硬盤,隨機選擇連續N天的SMART數據作為正常數據(類型為“0”)。所有數據根據對應屬性值,按式(1)進行歸一化處理:

(1)

2.3 算法性能評估

2.3.1 數據集

本文以BackBlaze開放的2020年3季度云存儲系統中硬盤SMART日志作為數據集,用于評估SDM-ML算法性能。該數據集包含2020年7月1日—9月30日期間共151 166塊HDD硬盤的SMART日志,其中發生失效問題的硬盤324塊。按照SMART數據模式,上述記錄中共包含18種不同的數據模式,各類SMART數據模式統計信息如表2所示。

表2 SMART數據模式統計

表2中主要統計工作時間不少于10(N=10)天的HDD硬盤,考慮到發生失效的硬盤數量遠小于正常硬盤數量,為進一步增加失效硬盤SMART樣本數量,對于SMART記錄多于10天的失效硬盤,依次從失效前第10,15,20…天開始,并取連續10天的SMART數據,均作為失效硬盤SMART數據??紤]到HDD硬盤狀態預測的應用場景,擴充的失效硬盤SMART數據最長不超過失效前30天。盡管如此,仍有部分SMART數據模式的失效樣本數量過少,如第4,8,9,10,11,12,13,15類數據模式,難以形成有效的訓練、測試數據集,本文暫不將其作為HDD硬盤工作狀態預測研究的數據集。

2.3.2 測試結果

本文采用K近鄰(K-Nearest+Neighbor,KNN)[12]、線性回歸(logreg)[10]、支持向量機(Suppot Vector Machine,SVM[8]等3種機器學習算法,分別按照不同的SMART數據模式類型,從預測準確率、F1指數、馬修斯相關系數(Matthews Correlation Coefficient,MCC)等3個方面對HDD硬盤工作狀態預測性能進行了評估。M根據預處理后正常樣本與失效樣本的比例關系確定。測試結果如圖2所示。

圖2 SDM-ML算法評估結果

可以看到,SDM-ML算法普遍可實現80%以上的分類準確率,達到與現有強分類器相同的預測精度。從F1指數和MCC系數看,SDM-ML算法表現出相同或類似的測試性能,即按照SMART數據模式分類后,再采用常見的機器學習算法,即可獲得強分類器相近的預測結果。從機器學習算法看,線性回歸和SVM算法針對不同類型的SMART數據模式均表現出較為一致的預測性能,且優于KNN。從SMART數據模式看,第1和17類數據模式的MCC系數測試結果相對較差,這也反映出不同型號規格硬盤產品在SMART屬性上的差異及其對機器學習算法特征選擇的影響,與文獻[16]中針對SSD硬盤SMART屬性的研究結果一致。同時,這也說明特征選擇對機器學習算法性能的影響。本文提出在SMART數據模式分類后再進行機器學習預測HDD硬盤工作狀態,主要目的也是為了盡可能簡化眾多SMART屬性條件下的特征選擇過程,測試結果也表明了本文方法的有效性。同時,本文方法在通用機器學習算法下即可獲得較好的預測效果,可有效降低因使用強機器學習算法帶來的計算、存儲等資源消耗,具有較好的實際應用效果。

3 結 論

本文研究了基于SMART數據的HDD硬盤工作狀態預測算法,針對現有算法普遍以少量通用SMART屬性作為機器學習特征,存在信息丟失現象的問題,提出先按照數據模式對SMART數據進行分類,然后采用機器學習算法進行硬盤工作狀態預測,在保證SMART信息完整性的同時,簡化了機器學習算法的特征選擇過程,有效降低了算法的資源消耗。實際測試結果表明,在這種數據處理方式下,采用常用的機器學習算法即可獲得與強分類器相近的預測結果,充分證明了算法的有效性。

猜你喜歡
硬盤機器狀態
機器狗
機器狗
HiFi級4K硬盤播放機 億格瑞A15
Egreat(億格瑞)A10二代 4K硬盤播放機
狀態聯想
未來機器城
生命的另一種狀態
熱圖
堅持是成功前的狀態
我區電視臺對硬盤播出系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合