?

基于CBM的信息設備狀態檢修研究與嘗試

2016-09-23 07:19張杰
現代計算機 2016年4期
關鍵詞:檢修神經網絡規則

張杰

(四川大學計算機學院,成都 610064)

基于CBM的信息設備狀態檢修研究與嘗試

張杰

(四川大學計算機學院,成都610064)

故障預測;CBM;規則集合;BP神經網絡

0 引言

進入云計算時代,依托于云服務構建的企業級應用越來越多。為滿足客戶的需求,云提供商部署了大規模不同用途的集群,而隨著計算機體系結構日趨復雜、計算規模不斷擴大,集群內部出現故障的可能性遠高于單一計算節點,出現故障也已成為常態[1]。2002年,Google分析了其部署在不同地域的幾十個站點的一年內運行數據,指出每年節點故障率為2-3%,即每36小時,就有一個節點發生故障[2]。

云提供商必須保證系統的高可用,才能避免給客戶帶來損失。主動冗余技術,是公認的保證系統高可用的唯一方式。通過主動冗余,可及時對集群內故障節點進行隔離,并完成失效轉移,將業務處理轉移到正常節點進行處理[3-5]。在主動冗余技術中,如何判斷集群內計算節點的工作狀態是否正常,是非常重要的,它直接關系到主動冗余策略的有效性。故障預測技術,就是用來判斷、預測節點工作狀態的。

上世紀70年代以來,設備維護得到了大量研究,并在機械、航天、電力等領域得到了大量的實踐,積累了寶貴的經驗和教訓[6-7]。近10年來的研究與實踐,CBM在故障預測方面的巨大潛力,更是得到了學術界、工業界的充分認可。然而,經實踐、研究發現,在信息設備領域(如主機、存儲、網絡設備等),CBM的研究仍處于起步階段,企業級的軟件產品(如zabbix、cacti、openstdb等),仍存在明顯不足,如不易部署、預測精度差。

因此,針對信息設備領域的狀態檢修進行了研究,提出了適用于信息設備領域故障預測的相關定義、評估標準,并提出了一種基于規則集合、BP神經網絡相結合的企業級狀態檢修應用、開發、部署方案,滿足企業易部署、易擴展、故障預測精度高的需求。

1 信息設備狀態檢修概述

信息設備狀態檢修,指的是對主機、存儲、網絡等信息設備進行基于狀態的維護。設備運行期間的狀態,可通過SNMP、IPMI、SysLog等手段獲取,經過數據分析模型的計算、評估,對潛在故障進行預測,并做出科學的維修決策。通過這種方式,將信息設備檢修的時間點前移,在真正故障出現之前完成對設備的檢修、維護,為設備安全可靠運行提供保障。

基于CBM技術進行設備檢修的前提,是要求設備的狀態劣化過程存在一個“潛在故障-功能故障”間隔,簡稱為P-F間隔期,如圖1 所示。

圖1 設備狀態 “P-F間隔期”

P-F間隔期,其中的“P”點是潛在故障點,即故障可被檢測到的最早時間點,在“P”點之前,故障的副作用不明顯,故障無法檢測;經過“P”點之后,如不維護設備,設備會以較快的速度劣化到故障點“F”點,此時設備出現明顯故障,已不可用?!癙-F間隔期”的存在,是進行基于狀態維護的前提條件[8]。

信息設備的狀態劣化過程,存在明顯的“P-F間隔期”,因此可以對其進行基于狀態的維護。信息設備狀態檢修的范圍包括主機、存儲、網絡設備,主機類設備主要包括小型機、PC服務器等,網絡類設備主要包括路由器、交換機等,存儲類設備主要包括磁盤陣列、磁帶庫等。

2 信息設備故障分級

信息設備在狀態劣化的過程中,存在明顯的“P-F間隔期”。在不加維護的情況下,設從“P點”到“F點”需要經過△t的時間,為了能夠更加形象地描述設備在劣化過程中的不同階段,并針對不同的劣化階段提供更加精確的故障預測能力,有必要對“P-F間隔期”進行更加細致的劃分。根據設備故障的嚴重性,將故障等級劃分為“良好、異常、警告、嚴重”4個級別。

3 信息設備狀態提取

對設備進行基于狀態的故障預測,其實質是建立一個用于故障預測的數學模型,通過該模型對表征設備狀態的特征量進行計算,根據模型的計算結果來判斷、預測設備的故障等級。表征設備狀態的特征量的選擇尤為重要,因為不同的設備類型,在運行期間存在不同的特點,表征其運行狀態的特征量存在差異,相同特征量在不同故障等級情況下的取值范圍也存在差異。

針對信息設備的運行特點,選擇了一系列關鍵指標,作為表征設備狀態的特征量。以主機設備類型為例,選擇的有效特征量多達幾十個,可以歸納為性能、設備生命周期、供電系統、環境情況、安保運維、供應商6個類別。

這里選擇與性能相關的部分特征量作為重點描述對象,選擇的部分性能特征量如表1所示。

表1 信息設備特征參量選擇

4 設備故障預測模型

考慮到企業級信息設備狀態檢修的應用場景,要求滿足易部署、易擴展、預測精度高的需求,因此采用基于規則集合、BP神經網絡相結合的的故障預測方法。

基于規則集合的故障預測模型,提供了一套規則集合模板,實際運維過程中可以創建派生模板對規則集合加以調整,以適應不同設備類型、不同業務場景的需要,滿足易擴展的需求;該模型可以在不依賴歷史故障數據的情況下,完成對狀態檢修任務,滿足易部署的需求[9]。

但是,針對產自不同廠商、不同型號、歷經不同上線時間、處于不同故障級別的設備制定一個近乎完備的規則集合,對運維管理人員來說,是非常困難的。在制定具體的規則集合的時候,如不能全面地了解設備的狀況,就難免存在試錯的可能性,制定出的規則集合有可能會損失預測精度,甚至造成嚴重的誤判,給設備帶來致命的損壞。

為了在易部署、易擴展的基礎上提高故障預測的精度,在基于規則集合故障預測的基礎上,結合基于BP神經網絡的故障預測。系統部署后首先基于規則集合進行故障預測,運維人員可以將預測結果與設備具體健康狀況進行對比,并對預測結果進行校準。歷史故障數據及校準記錄,可作為BP神經網絡模型的訓練數據,經訓練后,BP神經網絡模型可以接管對信息設備的故障預測任務,提高預測精度。

4.1基于規則集合的故障預測模型

基于規則集合的故障預測模型,是根據實踐經驗和知識庫,人工制定的一系列故障預測規則。規則集合中的每條規則,都存在對應的分值表達式,將某一時刻采集到的設備狀態特征量,輸入到規則集合,規則集合就可以對當前輸入計算出一個分值,以表征設備的健康狀況。

下表是主機相關的部分性能特征量的權重、規則表達式、分值表達式的相關說明。

表2 部分性能特征量的規則、分值表達式說明

表2中該部分性能評價的得分情況為,各個特征量的分值表達式的和。狀態評價結果分4個等級,“良好、異常、告警、嚴重”,評級與對應分值如表3所示。

表3 信息設備狀態檢修評價標準

上述狀態評價評級與設備所處的故障等級一一對應,在不同的故障等級階段,可以在知識庫或決策支持系統的輔助下,制定出詳細的狀態檢修策略和狀態檢修計劃,保障設備正常運行。

4.2基于BP的神經網絡的故障預測模型

如表1所示,各性能相關特征量之間關系密切,如高CPU利用率易導致核心溫度升高、風扇轉速增加,且它們間的關系大部分是非線性關系,考慮到BP神經網絡恰能以任意精度逼近任何非線形函數,所以基于BP神經網絡構建故障預測模型來提高預測精度的方法是可行的。

BP神經網絡故障預測模型,其狀態評價維度是規則集合故障預測模型評價維度的子集,即,其關注的特征量僅限于相互之間存在非線形關系的部分。表4列出了所關注的特征量。

表4 BP神經網絡故障預測模型的參考特征量

(1)神經網絡結構設計

神經網絡包括輸入層、隱層、輸出層,各神經元層包含一定數量的神經元,每個神經元有多個輸入和1個輸出,神經網絡模型的構建,其實質就是對神經元各輸入引腳的權值的訓練。針對性能特征量的故障預測,構建神經網絡結構,包括輸入層、隱層、輸出層。輸入層、輸出層神經元的數量,可以根據實際情況進行調整,隱層神經元的數量,根據如下經驗公式進行計算:

式(1)中,m為隱層節點數量,n為輸入層節點數量,l為輸出層節點數量,a為1-10之間的常數。

輸出層神經元傳遞函數選用log-sigmoid型函數,中間層神經元的傳遞函數,依據BP神經網絡的一般原則設定為S型正切函數tan-sigmoid。

(2)訓練樣本確定及分級

訓練樣本,是通過基于規則集合的故障預測所得到的?;谝巹t集合的故障預測結果,運維人員根據設備實際健康狀況對其進行了校準,校準的原則如下:

①對比確認結果為“故障預測值準確”,對預測結果不予調整;

②對比確認結果為“故障預測值偏高”,預測結果降低一個故障等級,例如從“嚴重”降為“警告”;

③對比確認結果為“故障預測值偏低”,預測結果升高一個故障等級,例如從“良好”升高到“異?!?;

上述校準后的故障預測結果可用于構建BP神經網絡故障預測模型的訓練樣本,對應的故障等級保持不變。訓練樣本中,輸入向量定義為InputX=[x1,x2,x3,x4],代表當日的設備狀態特征量的值,其中各分量x1、x2、x3、x4依次表示 CON_FAN、CON_CPU、CON_ RAM、CON_TEMP;輸出向量OutputY=[y1,y2,y3,y4],代表次日的設備特征量的值,其中各分量y1、y2、y3、y4依次表示CON_FAN、CON_CPU、CON_RAM、CON_ TEMP;故障級別代表在當日、次日這個時間窗口內設備所處的故障等級。

4.3規則集合、BP神經網絡相結合的故障預測模型

將基于規則集合、基于BP神經網絡的故障預測模型相結合,為實現易部署、易擴展、預測精度高的企業級狀態檢修提供了一個有效方案。狀態檢修系統中,兩種故障預測模型的協作關系如圖2 所示。

5 結語

針對信息設備領域狀態檢修研究及企業級實踐現狀,提出了一種新的思路,即,將易實現、易部署、易擴展的基于規則集合的故障預測模型,與預測精度高的BP神經網絡故障預測模型相結合,利用前者在狀態檢修中積累下的數據以及運維人員的校準,構建后者的訓練樣本,便于訓練一個適應具體設備類型、業務場景的可靠的故障預測模型,在后期的設備檢修過程中提高預測精度。

圖2 兩種故障預測模型協作檢修流程

[1]Chakravorty S.,Mendes C.L.,and Kale L.V.Proactive Fault Tolerance in MPI Applications Via Task Migration[M].High Performance Computing-HiPC,2006:485-496.

[2]Bosila G.,Etal.MPICH-V:Toward a Scalable Fault Tolerant MPI for Volatile Nodes[C].In Supercomputing.ACM/IEEE 2002 Conference,2002.

[3]Chen G.,Jin H.,Zou D.Q.,Zhou B.B.,Qiang W.Z.A Lightweight Software System in the Cloud Environment[J].Concurrency and Computation-Practice&Experience,2015,27(12):2982-2998.

[4]Dai H.J.,Zhao S.L.,Zhang J.T.,Qiu M.K.,Tao L.X.Security Enhancement of Cloud Servers with a Redundancy-Based Fault-Tolerant Cache Structure[J].Future Generation Computer Systems-The International Journal of Grid Computing and Science,2015,52:147-155.

[5]Liu Dong.A Fault-Tolerant Architecture for ROIA in Cloud[J].Journal of Ambient Intelligence and Humanized Computing,2015,6(5): 587-595.

[6]彭穎.基于退化隱式半馬爾科夫模型的設備健康預測及系統性維護策略研究[D].上海:上海交通大學機械與動力工程學院,2011.

[7]徐皚冬,于海斌,郭前進.基于狀態的設備維護-CBM技術研究[J].工程機械,2005(6):9-13.

[8]侯曉凱,李師謙,王杰瓊,胡彬,鄧晶.一種基于神經網絡的網絡設備故障預測系統[J].山東理工大學學報(自然科學版),2014,28(6):29-34.

[9]嚴然,孟由,錢德沛,欒鐘治.故障預測技術研究綜述[J].高性能計算發展與應用,2013(2):38-49.

Fault Prediction;CBM;Rules Set;BP Neural Network

Research and Trying of Information Devices Status Maintenance Based on CBM

ZHANG Jie
(College of Computer Science,Sichuan University,Chengdu 610064)

張杰(1990-),男,山東濱州人,碩士研究生,研究方向為網絡與信息安全

2015-12-22

2016-02-01

隨著計算機體系結構、計算規模的不斷擴大,相比于單一計算節點,集群內部出現故障的可能性顯著提升,故障已經成為一種常態。主動冗余技術,是保證系統可靠性的常用方式。故障預測,在主動冗余技術中起著至關重要的作用。通過故障預測,可以對集群中計算節點的運行狀態進行評估、判斷,保證計算節點在真正的故障出現之前,完成節點的失效轉移,從而提高系統的可靠性。提出適用于信息設備的故障預測的相關定義、評估標準,并提出一種適用于企業級應用部署的狀態檢修方案。

With the enlargement of computing scale,faults are more likely to appear in computing factory compared with single computing node,and faults have been becoming a common problem.Active Redundancy is the most effective method to guarantee the robustness of system. Faults prediction is of vital importance in active redundancy.By faults prediction,devices'health status can be evaluated and side effects of faults can be detected before the real faults appear in order to failover.Describes the relevant definition,evaluation standard of faults prediction in information devices area,puts forward a CBM based scheme adapt to enterprise level application,development and deployment.

猜你喜歡
檢修神經網絡規則
基于遞歸模糊神經網絡的風電平滑控制策略
撐竿跳規則的制定
數獨的規則和演變
神經網絡抑制無線通信干擾探究
雨中檢修
基于神經網絡的中小學生情感分析
檢修
讓規則不規則
基于Q-Learning算法和神經網絡的飛艇控制
TPP反腐敗規則對我國的啟示
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合