?

基于指定聚類數目AP算法的滾動軸承故障診斷*

2021-05-06 03:27楊慶勇劉雪濤蔣占四
組合機床與自動化加工技術 2021年4期
關鍵詞:數目故障診斷聚類

楊慶勇,劉雪濤,倪 偉,徐 飛,蔣占四

(桂林電子科技大學機電工程學院,廣西 桂林 541004)

0 引言

旋轉機械故障診斷是機械故障診斷十分重要的內容。由于旋轉機械設備復雜,機械系統的故障研究受到了很大的限制,當前旋轉機械的故障診斷研究大多針對其關鍵零部件軸承和齒輪[1]。傳統的旋轉機械故障診斷是基于信號時頻分析,如快速傅里葉變換、短時傅里葉變換、Wigner-Ville分布、小波變換、經驗模態分解等信號時頻分析方法都具有各自的適用范圍[2]。近十幾年來,隨著大數據和人工智能技術的發展,基于模式識別的故障診斷技術得到了充分的發展,支持向量機、BP神經網絡[3]、深度學習[4-5]、聚類分析[6-7]等方法廣泛的應用到機械故障診斷領域,推動了智能故障診斷技術的發展。

仿射傳播聚類算法(AP)是2007年由Frey B J等提出的聚類算法[8],經過十幾年的發展和研究,已有很多改進的AP算法被提出。但AP算法具有局限性,在處理某些數據集會出現振蕩不收斂,處理高維數據計算速度慢的情況[9]。眾多學者對AP算法的研究和優化主要集中在偏向度(P)[10]、阻尼系數[11]和相似度矩陣(S)三方面[12-14],有學者研究AP算法與其他聚類算法相結合的復合聚類算法[15-16 ]。Wang K等[17]提出一種自適應的AP算法,該算法首先生成不同數目的聚類結果,再比較各聚類結果的輪廓系數,選出輪廓系數最佳的聚類結果。Wei Z等[7]把AP算法應用到滾動軸承故障診斷中,取得了很好的效果,但AP算法中的P值需要人為調整來達到最佳的聚類精度。上述對于AP算法中P值的改進主要是如何快速地找到正確聚類數目下的P值,讓聚類的過程耗時更短。根據研究可以發現,在很多數據集中不同的P值可以得到相同的聚類數目,對于如何在不同P值取得相同聚類數目的聚類結果集中選出最佳聚類結果少有研究。因此研究了一種指定聚類數目AP算法(SNAP)并應用在滾動軸承故障診斷領域中,該算法首先找出所有不同P值下聚類數目相同的聚類結果,通過對比聚類結果的輪廓系數,再挑選出輪廓系數大的聚類結果作為最終的聚類結果。

1 仿射傳播聚類算法AP

1.1 AP算法原理

與一般聚類方法不一樣的是,AP算法把所有的數據樣本都看作潛在的聚類代表點,所有樣本的初始權重都設置為一樣。AP算法主要有相似度矩陣S、偏向度P、歸屬度A、吸引度R以及阻尼因子λ[18]。相似度矩陣S是樣本間特征點之間的相似度,以歐式負距離來衡量,公式如下:

(1)

P是與聚類數目相關的參數,AP算法不需要事先知道樣本類數,改變P就可以控制聚類數目;歸屬度A和吸引度R是兩個傳遞信息的參數,AP算法的分類就是根據這兩個參數來作為依據,先計算出候選類代表k能夠作為數據i的類代表的吸引程度R(I,k) 和數據i認同數據k為類代表的歸屬程度A(i,k),然后根據式(5)來判斷,值越大,表明數據k作為最終聚類中心的可能性越大,不斷循環迭代,直到超過初始化時設定的迭代次數最大值或者吸引度和歸屬度的值趨于穩定即收斂( 聚類數目確定),只要滿足其中一個條件即可停止。下面是歸屬度A和吸引度R的一些計算公式:

(2)

(3)

(4)

E(i,k)=A(i,k)+R(i,k)

(5)

阻尼因子是為了防止算法迭代不收斂,取值范圍為[0.5,1]。

Rnew(i,k)=λRold(i,k)+(1-λ)Rnew(i,k)
Anew(i,k)=λAnew(i,k)+(1-λ)Anew(i,k)

(6)

運用AP算法進行聚類時,輸入的是S與P,而且需要預先設置最大迭代數、阻尼因子等參數的初值,輸出的是聚類的個數及索引向量。

1.2 AP算法中偏向度P存在的問題

由AP算法的原理可知,P是與聚類數目密切相關的一個參數,改變P,則得到的聚類數目可能會改變。圖1是研究三類樣本數據在不同的P值與聚類數目、聚類精度的關系。實驗用到的AP算法相關參數設置:maxits=200;convits=50;lam=0.85;plt=0;details=0;nonoise=0。圖中的橫坐標是P取S的均值倍數,實驗迭代了20個倍數,所用到的數據集由表1列出,Iris和Wine數據集由UCI機器學習數據庫中下載得到,Bearing為機械綜合故障模擬實驗平臺(MFS-MG)采集的滾動軸承數據集,在3.1節有詳細介紹。

表1 實驗數據集

由圖1可知P的確影響著聚類的數目,不同P值得到相同聚類數目得聚類結果,其精度也有差異。以滾動軸承數據為例,偏向度倍數取2~6時,聚類的數目都為5類,與樣本的實際分類一致,但分類的正確率有所變化,如表2所示。如何找出指定聚類數目下的最佳聚類結果,這是研究的重點。

圖1 P值與聚類數目、聚類精度的關系

2 指定聚類數目AP算法

2.1 輪廓系數(SC)

在實際的聚類過程中,特征數據集的類別往往是未知的,基于內部簇類有效性指標是檢驗聚類結果最常用的方法[19],采取輪廓系數(SC)來評價聚類的結果具有一定的優勢。SC適用于實際類別信息未知的情況,取值范圍[-1,1],取值越大,簇的密度越高,聚類結果越好。計算公式如下:

(7)

(8)

式中,a(i) 表示樣本i與它同類別中其它樣本的平均距離,b(i)表示樣本i與它距離最近不同類別中樣本的平均距離。對于一個樣本集合,所有樣本輪廓系數的平均值就是這個樣本的整體SC值。

2.2 指定聚類數目的AP算法(SNAP)

針對指定聚類數目的條件下,如何找到聚類數目與指定數目相等并且聚類精度最高的對應P的問題,設計出SNAP算法,該算法輸入的是指定的聚類數目number及樣本特征數據data,輸出的是聚類精度最高的聚類結果。算法偽代碼如表3所示,T表示P取幾倍的相似度矩陣均值,即P=T×mean(S),AP算法默認P=mean(S)。算法可以分為三步走:第一步為不斷改變P值,T每迭代一次加1,即P迭代的步長為S的均值。當聚類結果恰好等于指定的聚類數目時,記錄下當前的T。第二步是找出聚類數目等于指定聚類數目的聚類結果,并且記錄下每次聚類結果的SC值,當聚類結果數目小于指定聚類數目時,停止迭代。第三步是比較第二步記錄下的SC值,選擇SC值最大的聚類結果作為最終聚類結果。AP算法流程圖見圖2。

表3 算法偽代碼

圖2 指定聚類數目AP算法流程圖

3 實驗驗證

3.1 滾動軸承故障實驗數據與特征提取

實驗數據采用美國Spectra Quest公司生產的機械綜合故障模擬實驗平臺(MFS-MG)采集,主要結構如圖3所示。

實驗數據的獲取、處理以及聚類特征的提取主要用文獻[7]中提到的方法,在12.8 kMHz采樣頻率下采集了5種工況下的軸承振動數據,這5種工況分別是內圈故障、外圈故障、滾動體故障、保持架故障和正常的軸承。首先把5種工況的振動信號中間部分穩定信號各取30個樣本數據,每個樣本數據為2048個采樣點的信號段,得到150個樣本數據。再對每個樣本數據提取時域、頻域和能量3個方面的特征,首先對每個樣本提取14種時頻域特征,得到150×14的特征樣本矩陣。

圖3 機械綜合故障模擬實驗平臺

每個樣本進行小波包(WP)分解,對前8個分量進行時頻域特征提取,得到150×112的特征樣本矩陣;再對小波包分解的8個分量進行能量特征提取,得到150×8的特征樣本矩陣;最后把三種特征整合到一起,得到150×134的總特征樣本矩陣,這個特征矩陣就是聚類的輸入特征矩陣。

圖4 滾動軸承5個工況的部分振動信號圖

3.2 滾動軸承故障數據聚類結果

由3.1節得到滾動軸承5個工況下的聚類特征樣本矩陣150×134,總共150個樣本,134個特征。把特征矩陣作為原AP算法的輸入,相關參數maxits=200;convits=50;lam=0.85;plt=0;details=0;nonoise=0;偏向度也設置為默認P=mean(S);得到的聚類結果如圖5所示,實際樣本只有5類,圖示結果分類混亂,聚類數目明顯增多。

當指定類數為5時,把指定類數5和特征矩陣作為SNAP算法的輸入,當聚類數目小于指定聚類數目時,迭代停止,根據表4可知,P取2~6倍數的相似度均值時,聚類數目等于指定數目,P取3~4時,輪廓系數最大,其聚類準確度也最高,最佳聚類結果如圖6a所示。當把滾動軸承5個工況下的樣本數據劃分為有故障的樣本數據和正常的軸承數據時,即指定分類數目為2,輸入分類數目2和特征矩陣,經過運算,不同的P得到的聚類結果一樣,如圖6b所示,類間差距明顯,經過驗證其準確率也是100%。

圖5 默認偏向度下AP軸承數據聚類結果圖

表4 相似度均值倍數(T)對聚類結果影響

(a) 指定聚類數目為5 (b) 指定聚類數目為2圖6 指定聚類數目最佳聚類圖

3.3 不同聚類算法結果的比較

為了驗證所提算法的有效性,對三類數據集分別用K-means、K-medoids和AP進行處理,得出結果與SNAP處理所得結果進行比較。聚類結果的評價指標有ACC(精度)、SIL(輪廓系數)、AMI(互信息)和Num(聚類數目),如表5所示。

表5 不同聚類算法對數據集處理結果比較

4 結論

針對指定聚類數目的AP聚類問題,研究了如何在指定聚類數目下,運行算法得到最佳聚類結果。提出指定聚類數目的AP算法(SNAP),該算法需要輸入所指定的聚類數目和樣本特征矩陣,輸出相對應的聚類數目的樣本的標簽。該算法的主要原理是首先找到指定聚類數目下不同偏向度的所有聚類結果,再通過比較所有聚類結果的輪廓系數,把輪廓系數最大的聚類結果作為最終聚類結果。通過三種真實數據在K-means、K-medoids 、AP和 SNAP不同聚類方法下的聚類結果比較,證明指定聚類數目AP聚類算法可行且準確率較高,并適用于未知標簽的滾動軸承故障數據分類。聚類分析是機械智能故障診斷的一類重要方法,但并不是所有的聚類方法都可以直接應用到故障診斷上,SNAP算法為其他聚類分析方法在智能故障診斷上的應用提供新的改進思路。

猜你喜歡
數目故障診斷聚類
基于包絡解調原理的低轉速滾動軸承故障診斷
移火柴
基于K-means聚類的車-地無線通信場強研究
基于高斯混合聚類的陣列干涉SAR三維成像
《哲對寧諾爾》方劑數目統計研究
牧場里的馬
因果圖定性分析法及其在故障診斷中的應用
一種層次初始的聚類個數自適應的聚類方法研究
基于LCD和排列熵的滾動軸承故障診斷
高速泵的故障診斷
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合