?

基于LightGBM的滾動軸承故障診斷研究

2024-01-14 10:17翔,蔡
關鍵詞:波包時域軸承

程 翔,蔡 俊

(安徽理工大學 電氣與信息工程學院,安徽 淮南 232001)

0 引言

在現代工業生產環境中,旋轉機械是常用的機械設備之一.滾動軸承作為旋轉機械的重要部件,一旦發生故障,會極大影響生產,造成嚴重的經濟損失,甚至會導致重大的安全事故.因此,及時準確地識別軸承的故障狀態,降低重大事故發生率有重要的意義[1].

滾動軸承在其工作生產過程中常會受到沖擊、磨損及腐蝕等因素的干擾,且滾動軸承振動信號本身具有非平穩與非線性特點,因此,如何獲取到滾動軸承的故障信息是解決滾動軸承故障檢測的難點之一.近年來,隨著信號處理技術和機器學習的發展,小波包算法[2]和集成學習[3]也被應用于工業故障診斷領域中.呂作鵬等[4]采用小波包變換(Wavelet Packet Transforin,WPT)和EMD-HHT結合的方法對軸承故障頻率進行診斷.姚峰林等[5]將小波包變換與極限學習機結合,通過對軸承數據消噪處理,為滾動軸承的診斷拓展了新思路.王蘭蘭等[6]基于信號的時域統計指標構建特征空間,并結合隨機森林算法對不同轉速下的軸承進行故障分類識別,其分類精度較好.以上研究方法未充分考慮實際情況中的數據量和數據不均衡問題,也未考慮到模型訓練的時間問題.因此,在實際診斷過程中,必須精簡數據量并保留有效的數據特征.

基于上述分析,提出一種基于LightGBM算法(LGBM)[7]的滾動軸承故障模式辨識方法.LGBM算法是機器學習中集成模型的優秀代表算法之一,具有更快的訓練效率和更高的準確率等優點,可應對數據不均衡問題.首先,提取出滾動軸承振動信號的時頻統計指標;然后,采用小波包算法處理振動信號并提取特征指標;其次,融合時頻統計指標和小波包特征指標構建數據樣本的特征空間,并利用LGBM算法對滾動軸承故障進行診斷;最后,采用美國凱斯西儲大學(CWRU)故障模擬實驗臺的軸承數據進行實驗,采用F1分數對模型的識別結果進行分析評估,驗證了該模型在軸承故障診斷上具有良好效果.

1 理論基礎

1.1 振動信號統計學特征

(1)時域特征

時域統計特征反映了時間與信號幅值之間的關系,主要分為有量綱和無量綱兩大類,其中有量綱的時域特征與設備的轉速、載荷等工作狀態有著直接關系,而無量綱的時域特征則對以上工作條件不太敏感,僅僅與設備狀態相關聯.有量綱統計特征主要有均值、峰峰值和標準差等,無量綱時域統計特征包括峭度、偏斜度,波形因子、裕度因子和峰值因子,脈沖因子等.時域統計指標在一定程度上能夠反映軸承的健康狀態并包含一定的物理意義.

(2)頻域特征

軸承故障會導致軸承振動頻率的變化,通過對軸承振動信號做快速傅里葉變換(FFT)獲得的頻譜圖中可以看出各頻率成分的幅值占比情況,觀察頻域特征的變化可以粗略判斷出軸承的故障種類.一些故障種類在時域統計指標中可能沒有充分體現,但是在頻域分析中故障種類的差異性特別明顯.

1.2 小波包變換(WPT)

小波變換是一種信號的時間和頻率(尺度)局部變換的時頻分析方法,在時域和頻域都具有表征信號局部特征的能力,因而適用于非平穩信號的分析.小波包變換繼承了小波變換的時頻分析特性,且對小波變換中未能充分分解的高頻頻帶信號進一步分解,填補了小波分析中對高頻信號分解較為粗糙的缺陷.小波包能將信號全頻帶進行多層次劃分,可對小波變換中沒有細分的高頻部分進一步分解,小波包量提取過程為①先使用小波包分解原始軸承信號;②再計算不同頻帶的小波包分量.假設信號頻帶為0~fs,原始信號經過i層小波包分解后,頻域將被分成2i段,各小波包分量對應的頻段分別為:

(1)

(2)

當分解層數為i,百分比能量譜構建為該信號的小波包能量譜特征空間.

1.3 LGBM算法

輕量級梯度提升機(LGBM)是微軟基于梯度提升決策樹[8](Gradient Boosting Decision Tree,GBDT)改進提出的分布式決策模型.

(3)

式中,T為決策樹數量,gt(x;Θt)表示第t個決策樹;Θt表示第t個決策樹的參數,參數值通常由經驗風險極小化公式:

為有效降低模型損失且考慮到不同任務常采用不同的損失函數,通常選定損失函數負梯度在當前函數f(x)=ft-1(x)處的值近似代替殘差,公式為:

(5)

進而在第m棵決策樹的節點區域計算使損失函數最小化的輸出值,公式為:

(6)

模型進一步更新為:

(7)

最終將初始化決策樹與每輪迭代的決策樹進行累加,可以得到最終學習器為:

(8)

LGBM 算法模型相比XGBoost而言,采用基于梯度的單邊采樣(Gradient-based One-side Sampling,GOSS)和互斥特征捆綁(Exctusive Featur Bundling,EFB)兩種技術來分別進行樣本采樣和降低特征維度.

GOSS算法的主要思想是梯度大的樣本點會貢獻更多的信息增益,因此為保持信息增益的評估準確度,對樣本進行下采樣時對梯度小的樣本點按照比例進行隨機抽樣,同時保留所有梯度大的樣本點.

EFB使用貪婪算法將幾個互斥的特征捆綁成一個特征,它以一種近乎無損的方式結合了互斥的特征,從而有效地降低了特征空間的稀疏性,避免了對零特征值進行不必要的運算,加快了計算速度的同時保留了信息量最大特征.

2 故障診斷流程

故障診斷框架的試驗流程包括:①通過滾動軸承故障模擬試驗收集軸承的振動信號;②對采集得到的信號首先運用小波包算法提取百分比能量譜和構建時頻統計特征及特征提取處理,初步構建樣本特征空間;③隨后將提取的樣本特征向量輸入到算法中進行訓練和測試,最終獲取最優算法模型并對故障類別進行診斷,整體框架流程如圖1所示.

圖1 故障診斷流程

診斷具體步驟如下:

(1)滾動軸承數據獲取.試驗中滾動軸承數據來源于美國凱斯西儲大學的軸承數據庫,采用斯凱孚公司6205-2RS JEM SKF深溝球軸承[9]作為研究對象.試驗臺由一個1.5 kW馬力電機、一個扭矩傳感器/譯碼器、一個功率測試計和控制電子設備組成,使用電火花加工將單點故障引入測試軸承.試驗中使用加速度傳感器采集振動信號,振動信號由16通道的DTA記錄器采集.采用的數據為驅動端軸承(SKF6205),采樣頻率為12 kHz.

(2)樣本特征空間構建.對獲取到的不同故障類型的一維振動信號采用小波包算法獲取其能量特征譜,分別構建其時域統計特征和其頻域統計特征.綜合各個特征維度構建原始數據的樣本特征集,并對樣本特征空間進行歸一化處理.

(3)基于機器學習的故障診斷.對歸一化的樣本數據劃分訓練集與測試集.在訓練集上通過對樣本各特征和故障類型進行斯皮爾曼(Spearman)相關性分析,對樣本特征進行篩選.斯皮爾曼(Spearman)相關系數計算公式為:

(9)

式中:X=(x1,x2,x3,…,xn),Y=(y1,y2,y3,…,yn);n為樣本數量;xi和yi分別為第i個樣本對應特征;ρ(X,Y)是X和Y的斯皮爾曼相關系數.

篩選后的訓練樣本集送入集成學習類算法(DT,XGBT[10],LGBM)進行預訓練,繪制學習曲線比較各算法性能,得到最優算法并對訓練集樣本數量進行分析篩選.

(4) 最后采用最優算法按“N折平均分類器”對測試集進行評估.該法是建立在N折分層抽樣交叉驗證法基礎上,并采用網格搜索算法對參數進行調節.首先采用N折交叉驗證來訓練N個模型,并保存這些模型;然后將測試集輸入到N個模型中,生成N個預測概率矩陣并求其平均值,對于每個測試樣本,將其隸屬于概率最大的標簽作為預測結果標簽.這種方法可以減小單個分類模型的過擬合風險,提高分類模型的泛化能力.同時,取概率均值的方法也可以減少隨機性,提高預測結果的準確性和穩定性.

3 實驗分析

實驗數據均在負載狀況下,且涵蓋了12種單點故障類型.選取部分時域信號和頻譜信號如圖2所示,采樣點數為1 200,采樣頻率為12 kHz.故障信號為內圈故障,其直徑為0.1778 mm,滾動體故障信號直徑為0.3556 mm,外圈故障信號直徑為0.5334 mm.

圖2 時域和頻域波形圖

(1)分析圖2可以發現不同故障類型的振動信號在時域圖中的峰值和稀疏程度表現出顯著差異,且在頻域圖上呈現出不同的頻率分布和能量集中程度.因此,采用時域和頻域統計量可以很好地反映不同故障類型信號的獨特特征.

(2)對時域和頻域圖譜分析,構建時域特征統計量均值、峰值、標準差和波形因子等共19種特征.其中小波包分解層數為3層,能量譜特征為p0~p7.劃分訓練集樣本數為1 706,測試集樣本數為427.具體的樣本分布情況如表2所列.

表2 故障類型及其樣本分配數

表2中呈現的數據分布情況是基于實際工業狀況而定.在滾動軸承實際作業中,正常軸承歷史數據的數量遠遠多于故障軸承歷史數據.因此,設置訓練集和測試集中正常樣本數量遠多于故障樣本數量.

(3)計算訓練集各個特征以及標簽之間的斯皮爾曼相關系數如圖3所示.

圖3 Spearman相關系數

從圖4可得峭度特征和標簽之間相關系數小于0.30,屬于弱相關.裕度因子、脈沖因子和峰值因子特征相關度均大于0.99,形成了特征冗余,其中峰值因子與標簽相關性最高.因此綜合考慮保留峰值因子,剔除峭度、裕度因子和脈沖因子3個指標,重構訓練集和測試集樣本特征空間.

圖4 各算法學習曲線對比

(4)對重構的訓練集按比例進行隨機抽取,并分別采用決策樹(DT)、極端梯度提升樹(XGBT)和輕量級梯度提升樹(LGBM)進行訓練和驗證,其中訓練集和驗證集的比例為8∶2,結果如圖4所示.

分析圖4數據可知,在驗證集上,LGBM算法的準確率均高于決策樹和XGBT算法.當抽取的樣本比例超過0.7時,LGBM算法的準確率開始收斂.因此選擇LGBT算法,并抽取訓練集樣本總數的70%,即1 194個樣本進行后續訓練.

(5)將1 194組訓練樣本數據輸入LGBM模型,為保證故障診斷模型在測試集的準確性,以及解決樣本數據不均衡問題,對訓練數據進行分層隨機劃分交叉驗證,并采用F1分數評估.本文分別選取3~10折分層隨機劃分交叉驗證,數據分為A組和B組,其中A組是未經過斯皮爾曼相關系數法優化特征的訓練集,B組是則經過斯皮爾曼相關系數法優化特征的訓練集.將訓練集的1/5作為驗證集,分割比例為8∶2,參數調優采用網格搜索法,優化后的部分參數如表3所列.訓練集、驗證集和測試集F1分數評估結果如圖5和圖6所示.

表3 LGBM優化參數

圖5 A組數據模型得分

圖6 B組數據模型得分

從圖5和圖6分析可得,經過斯皮爾曼相關系數法優化特征后驗證集分數均有提升,模型在測試集上的表現僅有折數等于7時分數略有下降,折數等于10時分數上升,其它折數測試集分數保持不變.因此經過斯皮爾曼法剔除弱特征和冗余特征后,模型泛化能力略有增強.采用“N折平均分類器”在測試集上均有不錯的效果,其中采用N=10時測試集F1分數最高為99.65%,其混淆矩陣如圖7所示.

圖7 N=10測試集混淆矩陣

從圖7可看出僅有一例診斷錯誤,其他均分類正確,可知“N折平均分類器”模型分類效果較好.

不同折數下,A組數據和B組數據的“N折平均分類器”模型訓練時間如表4所列.

表4 A/B組訓練時間對比

從表4中時間數據對比可知,經過斯皮爾曼相關系數法優化后的訓練集特征空間,“N折平均分類器”模型訓練時間在不同折數下相比未優化的訓練集均有減少.

4 結語

本文提出一種基于LGBM算法并結合信號時頻處理算法的滾動軸承故障診斷手段.采用時域和頻域相關統計量以及小波包能量譜構建了信號特征.在算法預處理階段,通過構建樣本學習曲線來比較不同算法的性能,并確定最佳訓練集樣本大小.在數據特征預處理階段,采用斯皮爾曼相關系數篩選出弱特征和冗余特征,從而提高了模型的效率和泛化能力.在算法訓練階段,采用分層隨機劃分交叉驗證法建立了“N折平均分類器模型”,并獲得測試集的F1分數.研究結果表明采用斯皮爾曼相關系數剔除弱特征和冗余特征有助于模型加速訓練和提高模型泛化能力;通過觀察學習曲線的收斂變化確定最佳樣本數,更加精確地利用有限數據快速完成模型訓練,減少了訓練成本,通過不同算法的學習曲線對比,選出效率最好的算法;采用“N折平均分類器”可以提高模型的泛化能力.

猜你喜歡
波包時域軸承
軸承知識
軸承知識
軸承知識
軸承知識
基于時域信號的三電平逆變器復合故障診斷
基于小波包Tsallis熵和RVM的模擬電路故障診斷
基于極大似然準則與滾動時域估計的自適應UKF算法
基于小波包變換的電力系統諧波分析
基于時域逆濾波的寬帶脈沖聲生成技術
小波包理論與圖像小波包分解
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合