?

基于機器學習的大規模并行計算機系統硬件故障檢測分析

2023-08-09 06:39劉照霞
計算機應用文摘·觸控 2023年15期
關鍵詞:故障檢測機器學習

摘 要:作為多個領域重要的生產工具,計算機若出現硬件故障,則會直接影響其工作狀態,因此需要對這方面開展詳細研究。文章首先將大規模并行計算機系統硬件故障檢測作為研究對象,枸建硬件故障檢測模型,再探究硬件故障分析原理與特征選擇過程,提出幾種常見的基于機器學習的故障檢測算法,最后對不同故障檢測算法的實驗結果進行詳細分析,旨在提升大規模并行計算機系統硬件故障檢測效率,助力相關領域的發展。

關鍵詞:機器學習;并行計算機系統:硬件故障:故障檢測

中圖法分類號:TP181文獻標識碼:A

1 引言

大規模并行計算機系統( Massively ParallelComputer,MPC)是一種以數百、萬個處理單位構成的并行處理系統,可以有效提高計算機運行速度,處理大規模數據信息,以及縮短數據處理的響應時間,對于提高各個領域生產效率與質量有較大幫助。但是,大規模并行計算機長時間保持高速運轉狀態,容易發生硬件故障,造成系統癱瘓,因此有必要對大規模并行計算機系統的硬件故障檢測進行深入研究。

2 大規模并行計算機系統硬件故障檢測模型

大規模并行計算機系統硬件故障檢測是提升其主動容錯水平的重要方法,可以使其更穩定地運行,提升其功能的擴展性?,F階段采用的大規模并行計算機系統硬件故障檢測方式基于機器學習以及學習采集后的運行狀態數據,再對未來可能出現的硬件故障進行檢測,可以理解為學習預處理結點狀態數據,再利用學習成果反向檢測。但大規模并行計算機系統在運行過程中會不斷生成結點運行狀態數據,可能會產生新的故障信息,導致采用機器學習的方式可能無法有效檢測新硬件故障,因此需要對這方面進行深入研究。在整理大量相關文獻后,設計大規模并行計算機系統硬件故障檢測模型,首先將原始狀態數據輸入功能模型中,再對數據進行預處理,即有效去除數據中的噪聲以及沒有實際意義的無效值,然后使用狀態向量對不同時刻的狀態信息進行可靠描述,通過特征選擇技術完成精簡化處理,獲得精簡化的數據集,并將其作為機器學習模塊并對其進行輸入。此外,通過機器學習方法對數據集做故障挖掘處理,將分類器整理為分類器庫,并將其作為實時檢測的工具,對當前大規模并行計算機系統是否發生硬件故障進行有效檢測。若狀態數據未被選擇,則不會在故障檢測階段進行二次采集[1] 。結合實際故障信息反饋,對分類器庫相關內容進行評估,不斷對相關數據進行優化,以提升機器學習效率,提高故障檢測質量。需要注意的是,在對大規模并行計算機系統硬件故障進行檢測時,各個結點獲得的原始狀態數據即為精簡處理后的數據集,通過檢測模塊調取分類器庫中的分類器,完成故障檢測任務。若檢測到大規模并行計算機系統硬件故障,則會立即啟動報警程序,大規模并行計算機系統會同步啟用主動容錯方式,以避免發生更大規模的硬件故障。

3 大規模并行計算機系統硬件故障分析原理

機器學習的重要內容即為分類與檢測,其可以對大規模并行計算機系統硬件故障檢測模型的后續數據進行詳細描述。分類即根據數據類別設計相應的分類模型,代表分類器設計過程,需要對已經具有類別標簽的樣本進行機器學習獲得;檢測即利用分類學習生成的分類器對不清楚的類別數據進行判定的過程。分類與檢測可以細分為2 個環節,分別為學習、檢測。學習是利用已擁有類別標簽的數據集建立與之匹配分類器的一個過程,其將攜帶類別標簽的樣本集劃分為訓練集、測試集2 個部分,利用合適的分類算法,通過訓練集完成機器學習,獲得相應的分類器,再利用測試集對分類器的性能進行合理評估[2] 。若分類器錯分樣本數量低于預設值,則證明分類器可以進一步使用。檢測則是利用學習階段獲得的可用分類器對沒有設置標簽的數據集做分類處理,進而檢測數據集真實類別。常用的分類算法如下。

(1)決策樹。其利用樹形結構完成對象的決策處理,非葉結點代表樣本屬性特征,葉結點代表樣本類別,分支代表特征取值,根結點到葉結點路徑代表分類應用的決策。決策樹算法的核心是選擇根屬性,需要利用特征屬性完成決策樹分裂處理。

(2)支持向量機。在統計理論基礎上設計的分類器結構是將線性無法有效區分的兩種類別數據從平面映射到多維空間,以構建分類超平面,并完成數據的分類任務。支持向量機的操作重點就是找到2 種類別數據最易被區分的最優超平面。

4 特征選擇過程

特征選擇是從原始特征屬性集合中選擇擁有最佳分類效果的屬性子集。雖然可以通過窮舉法完成特征子集的驗證工作,但若增加特征維數,則窮舉法所需的時間復雜度會快速上升,從而無法開展實際應用。作為一類貪心算法,雖然啟發式搜索法在復雜度方面低于窮舉法,但是仍然會產生局部僵局的特殊情況,造成特征集無法獲得最優解。本文將特征選擇框架應用到特征選擇中,基于特征選擇框架的特征選擇過程如下。

(1)子集產生。在已有的特征空間尋找最優子集,可以在窮舉法基礎上增設分支界限,若某個分支無法搜索更優解,則對該分支做剪枝處理,以提升搜索效率,或是對特征進行增添、刪減,以獲取最優特征集合。

( 2)子集評價。利用評價函數對子集產生的各種特征組合進行評價,進而分析哪些特征組合可以為現有數據分類提供更大收益[3] 。比如,采用一致性度量評價函數,判斷樣本的特征屬性、所屬類別,從而快速識別特征子集。

(3)停止準則。子集搜索行為可以得到有效管控,避免出現特征子集組合持續生成的情況,可以限定特征子集規模,以達到子集規模閾值,從而停止子集搜索行為。

(4)子集驗證。通過評價獲取特征組合性能,再將評價結果和通過初始特征集評估結果進行比較,分析特征子集在性能方面是否超過原始數據集。一般會從評估時間、子集規模等方面評價特征子集的性能情況。需要注意的是,若評估準則評價子集獲得更優的結果,則將當前獲得的子集取代之前獲得的最佳子集,通過這種方式完成最佳特征子集的尋找任務。

5 基于機器學習故障檢測算法對比

通過訓練集對若干分類器模型進行訓練,再將其和若干擁有良好性能的分類器進行結合,完成樣本分類檢測,這便是集成學習模式。相較于單個分類器,將分類器整合為一個整體,可以獲得更好的檢測效果?;谠摾砟钛苌鋈缦拢?種算法。

(1)流集成算法(Streaming Ensemble Algorithm,SEA)。該算法通過預設固定容量的分類器庫,將數據流劃分為若干擁有相同規格的數據塊。在學習分類器后,將按順序生成的分類器歸納到分類器庫內,在抵達分類器庫容量后停止。在生成新分類器后,會通過預先設定的分類器性能替換啟發模式,對分類器庫已有的分類器做可靠評價,然后剔除一部分使用性能偏差的分類器,以實現分類器庫數量穩定。該算法對一些具有周期性概念漂移特點的數據流有良好效果。若數據流出現突然性的概念漂移,則會導致在較長一段時間內無法有效更新概念,進而輸出錯誤內容。

( 2) 精度加權系綜算法( Accuracy WeightedEnsembles,AWE)。在SEA 算法基礎上設計AWE 算__法。該算法利用賦權方式取代基分類器的輸出模式,即所有基分類器都會獲得一個比重,讓分類誤差偏小的分類器獲得更大的投票比重。在抵達分類器庫容量時,會提升投票比重小的分類器的性能。

(3)自適應分類器集成算法(Adaptive ClassifiersEnsemble,ACE)。若要在AWE 算法中有效解決突變概念漂移導致的分類效果偏差問題,則需要設置足夠小的數據塊。但是,小數據塊會讓基分類器性能降低,從而產生ACE。ACE 利用概念漂移監測器有效應對概念波動。在沒有監測概念波動時, 會啟用與AWE 算法相同的方法檢測新樣本類別[4] 。若監測概念波動,則會在即將抵達分類器庫容量時,將學習新分類器作為樣本類別檢測工具,采用追蹤分類器分類誤差的方式有效降低突發的概念漂移對系統造成的影響。

( 4)用于數據流挖掘的具有回憶和遺忘機制的集成模型與算法(Ensemble Model and Algorithm withRecalling and Forgetting Mechanisms for Data StreamMining,MAE)。該算法是將回憶遺忘機制應用在基分類器學習領域中,在記憶分類器MS 庫中設置子集,即ES 回憶分類器庫,再將基分類器作為算法機器學習的知識,先將其存放在記憶庫中,再將與當前處理的數據塊擁有最強相關度的N 個基分類器復制到回憶庫中,其中N 為回憶庫最大容量。在完成回憶操作后,再對記憶庫保存的基分類器進行評價,完成各個基分類器的記憶權重更新任務。在基分類器被回憶時,其記憶強度會隨之增強,反之則會減弱。若數據流生成新樣本分類,則通過回憶庫存儲的基分類器完成分類預測。通過MAE 算法可以在短時間內有效地消除概念漂移現象。

(5)用于數據流挖掘的具有回憶和遺忘機制的改進集成模型與算法( Revised Ensemble Model andAlgorithm with Recalling and Forgetting Mechanisms forData Stream Mining,ReMAE)。應用MAE 算法可能出現當前正在執行機器學習命令的數據塊僅有保持正常狀態的數據,但沒有表示硬件故障狀態的數據,這導致該數據塊通過機器學習獲得的基分類器無法有效檢測后續發生的硬件故障。因此,本文在MAE 的基礎上提出改進算法,即ReMAE 算法。該算法通過改進數據集獲取模式,對基分類器進行優化訓練;通過設置和數據塊規格相同的樣本庫存儲數據塊樣本信息。在一個類別滑動窗口保持充滿狀態后,若仍有新的同類型樣本信息,則會剔除最先進入滑動窗口的樣本信息,進而實現更新樣本庫的效果。最后,使用樣本庫數據并通過機器學習方式獲得新的基分類器,這可以將不均衡數據分類順利轉化成均衡數據分類,讓ReMAE 算法獲得更強的機器學習能力,從而有效提高分類器對硬件故障的檢測效果[5] 。

6 故障檢測算法實驗結果分析

大規模并行計算機系統在多數時間可以保持正常的工作狀態,即采集的大多數結點狀態數據處于正常范圍內,僅在硬件即將發生故障時才會獲得故障數據,這導致使用準確率無法有效體現出故障數據不均衡的特點。本文從精確度、召回率、F 值對不同故障檢測算法的檢測效果進行分析[6] 。采集大規模并行計算機系統近3 個月的工作狀態數據,其中非故障數據占比89.22%、故障數據占比10.78%。在使用SEA,AWE,ACE,MAE 等算法外,加入本文提出的ReMAE算法。首先利用不同算法檢測數據塊獲取預測指標,再通過在線學習方式驗證數據塊是否發生故障。不同算法故障檢測性能如圖1 所示。

由圖1 可知,ReMAE 算法在檢測準確率方面和AWE 算法、MAE 算法相仿,并高于SEA 算法、ACE 算法的檢測準確率。同時,ReMAE 算法在召回率、F 值要遠高于其他算法,如ReMAE 算法的召回率比其他算法的召回率高37%~50%。作為大規模并行計算機系統容錯性能的重要表現,其召回率越高,代表算法檢測的故障就越多,在后續應用中也可以開展相應的故障處理作業,可以有效降低大規模并行計算機系統被動容錯概率,進而提升其運行可靠性。F 數值越高,代表算法擁有更好的檢測效果。ReMAE 算法在召回率、F 值方面表現良好,代表在開展大規模并行計算機系統硬件故障檢測時,可以檢測到其他算法無法有效檢測的潛在故障,也不會將正常數據誤判斷成故障數據,因此可認為在實用性方面ReMAE 算法要超過其他算法[7] 。而在大規模并行計算機系統硬件故障檢測的機器學習訓練時間中,ReMAE 算法需要22.92×10-3 s,是用時最長的算法;在硬件故障檢測時間中,ReMAE 算法需要19.96×10-6 s,僅低于ACE 算法的29.35×10-6 s,高于其他算法,可以認為在大規模并行計算機系統硬件故障檢測中,ReMAE 算法在機器學習訓練時間、檢測時間方面并不是最優選擇??墒?,現階段使用的數據采集體系是以1 條/10 s 的頻率收集的,意味著將數據整合成一個基本數據塊需花費5000 s 的時間。但是,ReMAE 算法利用數據塊基分類對應方式所需時間僅為22.92×10-3 s,即在下一個數據塊還未形成時,已經準備好用于該數據塊檢測活動的基分類器,并完成機械學習的訓練任務,可以有更充裕的時間檢測下個數據塊。ReMAE 算法檢測數據塊用時19.96×10-6 s,即檢測現有數據塊時,若出現硬件故障影響因素,則結點也可以正常采集數據。而在下個數據塊完成準備工作時,ReMAE 算法已經獲得下個數據塊的檢測結果[8] 。若下個數據塊存在故障,則大規模并行計算機系統可以通過主動容錯模式對該結點做相應的進程遷移處理,以避免產生更大規模的次生型硬件安全風險??梢哉J為,ReMAE 算法在機器學習訓練時間、硬件檢測時間方面需要花費比其他算法更長的時間,但是在故障機器學習、硬件檢測的實時性需求中,仍然可以完成大規模并行計算機系統硬件故障檢測任務。

7 結束語

基于機器學習的大規模并行計算機系統硬件故障檢測涉及多個專業領域,在實際應用中需要以大規模并行計算機系統硬件運行情況為準,設計一套結構更完善、內容更詳細的基于機器學習故障的檢測方案,以確保故障檢測資源得到最大化的應用,以提升大規模并行計算機系統硬件運行的可靠性,從而推動相關行業的可持續發展。

參考文獻:

[1] 王明芬,鄭驊.基于機器學習的網絡故障檢測[J].電信快報,2022(12):24?28.

[2] 陳天熙,費葉琦,王吉平,等.基于機器學習的齒輪故障診斷研究現狀和發展前景[J].林業機械與木工設備,2022,50(8):4?7.

[3] 彭輝.基于機器學習的列車故障診斷應用研究[J].現代計算機,2022,28(12):81?85.

[4] 趙亞琴,蔡曉騮.計算機硬件故障檢測與維修維護策略探討[J].常州工學院學報,2021,34(6):41?46.

[5] 王子鑒,秦瑜瑞,李景麗.采用機器學習的變壓器分層故障診斷[J].電力系統及其自動化學報,2022,34(7):20?25.

[6] 鄭重虎,張彬,董高云.TSP 軌旁安全平臺硬件功能故障檢測平臺的研究與實現[J].電子世界,2021(10):95?97.

[7] 申狄秋,盧雯興,王榮超,等.支持向量機下基于機器學習優化的繼電保護故障診斷技術研究[J].電子設計工程,2021,29(8):53?57.

[8] 翟嘉琪,楊希祥,程玉強,等.機器學習在故障檢測與診斷領域應用綜述[J].計算機測量與控制,2021,29(3):1?9.

作者簡介:

劉照霞(1972—),大專,工程師,研究方向:辦公自動化應用。

猜你喜歡
故障檢測機器學習
基于詞典與機器學習的中文微博情感分析
基于定子逆序的電機同步速變換故障檢測算法
優化網絡設備維護提高數據通信傳輸質量
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
新型探測線圈淺析
基于支持向量機的金融數據分析研究
暖通空調系統故障檢測與診斷技術探討
機器學習理論在高中自主學習中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合