?

協同訓練算法在滾動軸承故障診斷中的應用

2020-06-18 05:59王得雪陳俊杰
計算機工程與應用 2020年12期
關鍵詞:置信度正確率分類器

王得雪,林 意,陳俊杰

1.江南大學 數字媒體學院,江蘇 無錫214122

2.江蘇省媒體設計與軟件技術重點實驗室,江蘇 無錫214122

3.西門子中國研究院,北京100102

1 引言

滾動軸承是旋轉機械中最常見、最容易損壞的部件之一。在工程實踐中,滾動軸承的失效會造成巨大的生產損失和人員傷亡。因此,研究滾動軸承的故障診斷,對于防止意外發生具有重要的意義[1]。

滾動軸承的故障診斷主要包括特征提取和狀態識別。針對原始振動信號,往往從時域、頻域或時頻域等方面提取反映機械設備運行狀態的量化指標。然而特征指標的增多會造成特征空間維數災難,特征集不可避免地包含干擾甚至噪聲特征[2],使診斷效果變差。并且在傳統的軸承故障診斷中,需要使用大量標記樣本訓練模型以預測未知樣本的標記,數據的標記需要消耗大量的人力、物力,實際應用中往往會出現少量“昂貴的”有標記數據與大量“廉價的”未標記數據共存的情況[3]。

近年來,特征向量維數高和標記樣本稀缺問題引起廣泛的關注。李軍利等[4]提出SVDD-KFCM算法,該算法通過支持向量數據描述(SVDD)方法,利用已知的正常樣本建立超球邊界,再對未知樣本進行判斷。選擇正常和潛在故障樣本在輸入空間的中心作為模糊核聚類(KFCM)的初始聚類中心,克服了無監督模糊核聚類算法初始聚類中心隨機確定導致分類盲目性的不足。然而該算法是針對在故障樣本缺失情況下,如何進行故障檢測,不能做進一步的故障診斷;李磊等[5]提出半監督線性局部切空間排列算法(SS-LLTSA),利用部分標簽信息來調整樣本點與點之間的距離以形成新的距離矩陣,通過新的距離矩陣進行鄰域構建,實現了數據本質流行結構和類別標簽信息的結合,能夠提取區分度更好的低維特征。但該算法在選擇合適的目標維數d和鄰域參數k時,需要通過多次實驗才能確定;楊望燦等[6]提出基于改進半監督局部保持投影算法(ISS-LPP),自適應地調整鄰域參數,充分利用帶有標簽的樣本,重新構建原始特征空間中樣本間的權值矩陣,從而得到有利于分類的低維特征向量和投影轉換矩陣。該算法提高了低維特征向量的辨識度,且利用參數尋優為最小二乘支持向量機(LS-SVM)分類器設置了合適的參數,提高了軸承故障診斷正確率。但對原空間的降維,依然需要設置合適的目標維數和初始鄰域參數,不同工況的數據集,設置的參數不同,這給實際應用帶來不便。

鑒于Co-Forest算法是以隨機樹(Random Tree)作為基分類器的集成分類器,隨機樹是基于特征集中少數幾個特征而構建的,這可以避免“維數災難”問題的發生[7]。且隨機森林有一個重要的優點是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計,它在內部進行評估,在生成的過程中就對誤差建立一個無偏估計[8]?;贑o-Forest的軸承故障診斷算法,改善了維數災難和標記樣本稀缺問題,提高了故障診斷的正確率,不需要進行維數約簡參數和分類器參數的尋優操作,給實際的應用帶來便利。

2 半監督學習和基于分歧的算法

2.1 半監督學習

半監督學習是在數據集上尋找最優的分類器,目的是利用帶標簽數據和未標記數據學習設計分類模型,使得該模型比僅使用帶標簽數據分類性能更好[9]。

2.2 基于分歧的算法

按學習方式的不同,常見的半監督分類算法可大致分為四類:基于生成模型的算法、基于支持向量機、基于圖的算法以及基于分歧的算法[10]?;诜制绲乃惴ㄓ捎谄涫艿侥P图僭O影響少、學習方法簡單、理論基礎堅實等優點,被廣泛地應用于文本分析、網絡入侵檢測、圖像識別等領域?;诜制绲乃惴ㄆ鹗加?998年Blum等人提出的Co-Training算法[11],當滿足充分視圖和冗余視圖的要求時,分類器在未標記數據上的一致性最大化,泛化誤差較小[12]。此后,為解決視圖不充分、置信度估計、分類準確率等問題,出現了一系列的改進算法。周志華等人先后提出的基于三個和多個基分類器進行協同訓練的Tri-Training算法[13]和Co-Forest算法[14]最具有代表性,后來的研究人員將這兩種算法應用到不同領域[15-17]。

周志華等(2005)提出了Tri-Training算法:在原始數據集上抽取出有差異的子集,通過訓練得到有差異的分類器。Tri-Training采用了三個基分類器(hi,hj,hk,其中i≠j≠k),未標記樣本的標記由簡單投票法則確定。詳細情況是:如果分類器hi和hj對未標記樣本xi的標記是相同的,那么就把未標記樣本xi及其標記結果y加入到分類器hk的標記訓練樣本集中。

Tri-training算法通過判斷分類器的預測一致性來隱式地對不同未標記樣本的標記置信度進行比較,這一做法使得該算法不需要頻繁使用耗時的統計測試技術,但與顯式地估計置信度的方法相比,這一隱式處理往往不夠準確,特別是如果初始分類器較弱,未標記樣本可能被錯誤標記,從而給第三個分類器的訓練引入噪音[18]。周志華等對Tri-training進行了擴展,提出了可以更好發揮集成學習作用的Co-Forest算法。

3 Co-Forest算法

Co-Forest算法擁有多個基分類器,對于單個分類器hi( i ∈{1,2,…,N}),它的協同分類器集合是Hi(除hi之外的所有的基分類器)。Hi將高置信度的未標記樣本加入到已標記訓練樣本中,以迭代更新的基分類器hi,從而提高分類器的整體性能[19]。核心步驟如下:

步驟1采用隨機子空間和抽樣方法,利用已標記數據集L抽取出多個子集L*={l1,l2,…,lN} ,初始化多個基分類器,由此構成初始分類器集合H*={h1,h2,…,hN}。

步驟2對于每一個基分類器hi,利用袋外數據(out of bag)估計Hi在第t輪訓練后的分類誤差ei,t。若ei,t<ei,t-1,Hi挑選出未標記樣本集U中的高置信度樣本集Li,t,并將其加入到hi的原訓練集中,利用L?Li,t訓練更新基分類器hi。

步驟3重復步驟2,直到所有基分類器都不再滿足更新條件。

步驟2中協同分類器集合Hi對未知樣本xi(xi∈U)的標記置信度wxi計算如下:

其中,y∈{1,2,…,M},M表示故障的類別數,N表示Co-Forest中樹的數目,也是基分類器的個數。表示Hi中對樣本xi的標記類別為y的分類器個數。標記后的未知樣本xi是不是高置信度樣本,判斷如下:

置信度閾值θ(0~1)不宜設置太大,防止過擬合,一般設置為0.75。

高置信度的新標記樣本的錯誤標記是不可避免的,周志華等在Co-Forest算法中加入了在噪聲環境下確保分類錯誤率收斂的控制條件??紤]一個關于訓練樣本集容量m,分類器的預測錯誤率ε與數據噪聲率η的關系式如下:

其中,c是固定常數。式(1)中wxi表示樣本xi的置信度,為了降低使用大量無標記樣本帶來的負面影響,使用置信度對訓練樣本進行加權,則L中所有樣本的權重之和:

其中,m0表示L中樣本個數。同樣Li,t的權重之和:

其中,mi,t表示在t輪迭代中Li,t的個數,wi,t,j表示在t輪迭代中未知樣本xj的標記置信度。

第t輪,hi是在大小為m0的初始標記樣本集L和大小為mi,t的新標記樣本集Li,t上進行更新。令ei,t表示Hi在Li,t分類錯誤率,加權后的樣本集Li,t中被錯誤分類的個數是ei,twi,t。令ηL表示L的噪音率,加權后的樣本集L中噪音數據的個數是ηLw0。求第t輪訓練樣本集 |Li?Li,t|上的噪音率:

將式(7)代入式(4)得出:

步驟2中不斷地更新訓練hi,要保證hi在第t輪的預測錯誤率小于上一輪的預測錯誤率,即εi,t<εi,t-1,由式(4)知在訓練過程中就必須滿足μi,t>μi,t-1,得到:

考慮到L的噪音率η0很小,當式(9)左邊第一項大于右邊第一項,即wi,t>wi,t-1,同時左邊第二項大于右邊第二項時,即ei,twi,t<ei,t-1wi,t-1時,公式(9)不等式關系必成立。進一步精煉得到的約束條件:

根據式(10)要確保ei,t<ei,t-1和wi,t>wi,t-1同時成立。對于wi,t?wi,t-1,導致ei,twi,t>ei,t-1wi,t-1這一情況,需要抽取Li,t的子集L′i,t作為新標記樣本集:

Hi對子集L′i,t中每一個數據遍歷,保留高置信度的樣本,同時更改新標記樣本的置信度之和wi,t,使得:

4 基于Co-Forest的軸承故障診斷

4.1 SQI-MFS實驗平臺

如圖1所示,SQI-MFS實驗平臺由電機、變頻器、軸承、底座支撐架組成。其中軸承型號為MBER-16K,實驗平臺利用PCB公司生產的608A11型號加速度傳感器和NI公司的數據采集卡NI9234采集軸承的振動信號。該平臺可以模擬健康或各類故障軸承在不同轉速和不同負載下的運行狀態。

圖1 SQI-MFS實驗平臺

如圖2所示,從左至右、從上至下,分別為混合故障軸承、內圈故障軸承、外圈故障軸承以及滾珠故障軸承的實物圖。

圖2 四種故障狀態的軸承實物圖

4.2 SQI-MFS實驗平臺采集的數據

實驗采集了不同轉速,不同負載下的振動數據,分別為:3種負載(0、1、3個轉子負載)×3種轉速(10 Hz、20 Hz、30 Hz)×5種類型。這5種類型分別是:健康、滾珠故障、內圈故障、外圈故障軸承以及混合故障(故障軸承的故障點大小為19.05 mm)。其中轉子負載數為3個,轉速為30 Hz的混合故障數據缺失,但并不影響實驗。將數據分別按負載(3種)和電機轉速(3種)分成9組(采樣頻率為25.6 kHz)。

首先,利用窗口大小是2 048,步長是1 024的滑動窗口劃過軸承數據,得到多段非平穩的時間序列;然后,再對每一段時間序列求得時域特征和頻域特征。選擇的時域和頻域特征指標如表1所示。9組數據經過特征提取后,特征數、數據大小和數據類別如表2所示。

表1 特征表

表2 實驗數據

4.3 實驗

將每一組數據分為訓練集train和測試集test,比例為1∶1,其中train分為已標記樣本集L和未標記樣本集U。

實驗1上述9組數據中隨機選擇一組數據,觀察Co-Forest算法診斷正確率、算法的運行時間與樹的數量之間的關系,這里選擇第4組數據做實驗,結果如表3所示。

表3 正確率、運行時間與樹的數量之間的關系

實驗2從表3可以看出,隨著樹的數量增加,Co-Forest算法在軸承故障診斷中的正確率提高不明顯,但是算法的運行時間顯著地增加。將Co-Forest算法中樹的數量設置為100棵,在已標記數據(L)占訓練集(訓練集∶測試集=1∶1)20%、50%、80%情況下,比較同類型的三種協同訓練半監督學習算法的故障診斷正確率。

通過進行多次分類器選擇嘗試,其中為了讓Co-Training算法具有較好的置信度估計依據,基分類器選擇樸素貝葉斯分類器,后驗概率作為置信度估算依據。Tri-Training的基分類器選擇以信息增益率作為劃分屬性的決策樹,實驗結果如表4所示。

實驗3進一步將Co-Forest算法與當前針對特征向量高維、標記樣本稀缺問題的ISS-LPP算法[6]、SS-LLTSA算法[5]作比較,實驗結果如表5所示。表中目標維數d值、鄰域參數k值經過大范圍尋優,然后縮小范圍,最后多次實驗確定,對應的是較理想的故障診斷精度。

實驗4表4、表5顯示的是已標記數據集在訓練集的占比為20%、50%、80%的情況下,幾種算法的診斷正確率對比情況。實驗結果顯示:Co-Forest算法具有較高的診斷正確率,參數配置簡單。接下來模擬幾種算法在連續占比為0.05~0.8下的正確率情況,隨機選擇第1、6這兩組數據做實驗,實驗結果如圖3、圖4所示。

4.4 實驗結論

綜合以上4個實驗,可得出以下結論:

由于Co-Forest算法的分類器是隨機森林,隨機森林的基分類器是串行的,故會隨著樹的數量增加,算法的運行時間增加。表1中正確率并沒有因為樹的數量增加而顯著增加,不建議將樹的數量設置很大。

表4 幾種協同算法的診斷結果比較

圖3 第1組數據的診斷正確率情況

表4在不同的L/(L+U)情況下,Co-Forest算法結合了協同訓練和集成學習的思想,故障診斷正確率較高于Co-Training、Tri-Training算法。表5中的ISS-LPP、Co-forest都具有較好的診斷效果,但ISS-LPP算法使用最小二乘支持向量機(LS_SVM)分類器進行故障診斷,LS_SVM分類器的參數選擇需要進行參數尋優操作,且該算法需要對特征空間進行降維,過程中的參數選擇需要多次試驗才能確定。

圖3、圖4顯示隨著標記樣本的增多,Co-Forest、ISSLPP算法的診斷正確率提高,最后趨于穩定,但Co-Forest算法在第1組數據上診斷效果優于ISS-LPP算法,且Co-Forest算法在標記樣本非常少的情況下,也有較好的診斷效果。

表5 Co-forest算法與ISS-LPP、SS-LLTSA算法對比

圖4 第6組數據的診斷正確率情況

5 結束語

基于Co-Forest的軸承故障診斷算法利用SQI實驗平臺的軸承數據,進行多種算法的對比性實驗。與同類型的算法Co-Training和Tri-Training相比:在已標記數據占訓練集20%、50%、80%情況下,Co-Forest的診斷正確率有所提高;與用標記訓練樣本協助維數約簡的半監督學習算法(SS-LLTSA、ISS-LPP)相比:Co-Forest算法具有較好診斷效果,參數配置簡單,且不需要復雜的維數約簡處理。在特征提取方面,這里提取了時域和頻域中常見的、易得到的特征,Co-Forest算法直接對樣本的特征空間進行分析和預測,實驗顯示Co-Forest算法具有很高的診斷正確率。因此,Co-Forest算法在滾動軸承故障診斷方面有著較好的實際推廣意義。軸承狀態的變化是漸變的過程,能敏感識別出軸承故障狀態突變點是今后努力的方向。

致謝 感謝西門子中國研究院提供的幫助。

猜你喜歡
置信度正確率分類器
一種基于定位置信度預測的二階段目標檢測方法
硼鋁復合材料硼含量置信度臨界安全分析研究
門診分診服務態度與正確率對護患關系的影響
系統可靠性評估與更新方法
正負關聯規則兩級置信度閾值設置方法
基于差異性測度的遙感自適應分類器選擇
基于實例的強分類器快速集成方法
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合