何高清,肖 健
(合肥工業大學 機械工程學院,安徽 合肥 230009)
在軸承形廓質量檢測中,尺寸檢測是重要的檢測環節。本文采用多激光傳感器并行高速自動化軸承檢測設備,在連續尺寸檢測過程中,其采樣檢測點數量眾多,檢測數據存在異常值與數據波動是不可避免的。正確地識別與處理異常值、降低數據的波動性,對軸承檢測結果的準確性與穩定性有重要意義。檢測數據發生波動與產生異常值有以下幾個主要原因:
(1)由于選用激光傳感器進行檢測,其檢測靈敏度高,外界易對其造成干擾,造成檢測數據不穩定;
(2)由于采用類三爪卡盤式固定軸承,當檢測到卡盤處時,超出傳感器檢測量程,會產生異常數據點;
(3)由伺服電機帶動卡盤高速旋轉,進而對軸承進行檢測,高速旋轉所帶來的振動也會影響檢測結果。
異常檢測也叫異常挖掘,是指從大量數據中找出其行為明顯不同于預期對象的過程[1]。目前,異常數據檢測的方法大體可分為基于統計的異常檢測方法[2]、基于距離的異常檢測方法[3]、基于密度的異常檢測方法[4]和基于聚類的異常檢測方法[5]等幾種。各方法的優缺點分述如下:
(1)基于統計的異常檢測方法,通過統計學理論,確定數據的分布模型,分析數據的離散程度和相應模型的評價指標來確定數據的異常程度,這種方法用于分析只包含單種屬性的數據;
(2)基于距離的異常檢測方法,通過設定距離閾值,計算各數據點與數據集的距離,將大于距離閾值的數據確定為異常數據。該方法不需要數據的具體分布模型,但其算法復雜度較高,不適用于大數據集和密度不均勻的數據集;
(3)基于密度的異常檢測方法,能夠檢測出基于距離異常算法不能識別的一類數據——局部異常,打破了固有的絕對異常的觀點,更符合實際應用,但其結果對參數的選擇敏感,異常因子閾值的選取需要一定的先驗知識;
(4)基于聚類的異常檢測方法,一般利用K-Means算法將整個數據集聚類成多個簇,根據假設(異常點不屬于任何的簇、異常點一般離最近的簇較遠、稀疏簇中的點都被認為是異常的)確定異常數據,但其分類結果依賴于分類中心的初始化,對類別規模差異太明顯數據的處理效果不好[6-9]。
本文中檢測數據僅關于軸承尺寸屬性,而且其數據量大,對系統實時性要求高,因而需要降低檢測算法時間復雜度;綜合以上異常檢測方法的優勢與不足并結合軸承尺寸檢測數據的分布特點,筆者采用統計學箱型圖理論對異常值進行檢測,對于異常值用中位數暫代,再利用最小二乘多項式擬合法對原數據異常點處進行校正,且通過該方法對檢測數據重新估計,提高檢測結果的精度。
軸承檢測系統主要由硬件系統與軟件系統組成,設備實物圖如圖1所示。
圖1 軸承尺寸檢測設備
其硬件系統主要包括:激光傳感器、光柵尺、HMI觸摸屏、伺服驅動器及電機等。
其中,檢測系統的硬件:激光傳感器選用德國米銥1420型號,檢測精度1 μm,完成對軸承的尺寸采樣;光柵尺用以記錄傳感器的位置,并將位置信號送入到DSP中;HMI觸摸屏,用以控制整個檢測設備,并對不同種類軸承選擇相應的測量方案;伺服驅動器及電機,用以將激光傳感器移動到檢測位置,并帶動軸承的旋轉運動。
軟件系統主要包括DSP(數字信號處理器),完成對電機的控制、與HMI觸摸屏的信息交互、檢測參數的處理、檢測結果的輸出等工作。
軸承產品的合格與否,根據檢測結果的最大值、最小值是否在軸承的極限尺寸范圍之內判斷。
基于正態分布的3σ準則是以假定數據服從正態分布為前提的,但實際數據往往并不符合正態分布模型,其以均值和方差為基礎來判定數據的異常,受異常值本身的影響較大。而箱形圖理論無需對數據做出限制,不受異常值的影響,可以直觀地描述數據的離散分布情況,并且提供了一個識別異常值的標準,即大于箱型圖設定的上界或小于下界的數值即為異常值。
箱型圖如圖2所示。
圖2 箱型圖
將檢測數據按照從小到大的順序依次排列X1,X2,…,Xn,得到有序數列,則其中位數M記為:
(1)
異常值的判定標準為:
Xi>U+K·IQR|Xi (2) 式中:U—上四分位數,區間[M,Xn]的中位數,表明樣本中只有1/4的數值大于U;L—下四分位數,區間[X1,M]的中位數,表明樣本中只有1/4的數值小于L;IQR—四分位距,IQR=U-L;K—步長系數,取K=1.5。 選取中位數暫代異常值,數據集的中位數比平均值具有更強的魯棒性,理論上可以“容忍”不超過總數據量50%的異常值[10],并且保證了數據的完整性,有助于對整體數據的最小二乘多項式擬合,即: Xi=M(Xi>U+K·IQR|Xi (3) 原始檢測數據經過異常值檢測與替代,繼而需要對替換值進行校正。使用最小二乘法多項式擬合的方式,可以根據整體數據的分布趨勢對替換值進行校正。同時,利用擬合的方式重新處理數據,降低其波動性。 2.3.1 最小二乘法基本原理 最小二乘法(最小平方法)是一種數學優化技術,通過最小化誤差的平方和尋找數據的最佳函數匹配[11]。 對于一組實驗數據(xi,yi)(i=0,1,…,m),要求在某個函數類,Φ=span{φ0(x),φ1(x),…,φn(x)}中尋求一個函數,即: (4) 使φ(x)滿足條件: (5) 由多元函數極值必要條件可知: (6) 即: (7) 記: (8) 則上式可表示為: α0(φj,φ0)+α1(φj,φ1)+…+αn(φj,φn)=(φj,y) (9) 寫成矩陣形式為: (10) 式(10)即為最小二乘法求解的法方程組。 2.3.2 擬合函數的選取 合適的φ(x)可以增強模型對檢測數據的解釋能力。 以軸承內徑尺寸檢測為例,本文選用擬合函數為多項式函數,是根據在MATLAB的Curve Fitting工具箱中[12],利用有理函數、三角函數和多項式函數對篩選和替換后的檢測數據擬合后所得到的。 各擬合函數效果如圖3所示。 圖3 各擬合函數效果 對于曲線擬合效果是否最佳,MATLAB有具體的評價指標SSE和R-square。其中,SSE為誤差平方和,該參數計算擬合參數后的回歸值與原始數據對應點的誤差平方和,SSE越小說明模型選擇和擬合得更好;R-square為確定系數,其值越接近1,表明方程的自變量對因變量的解釋能力越強,模型對數據的擬合程度越好。 各曲線擬合程度評價指標如表1所示。 表1 各曲線擬合程度評價指標 根據表1中SSE與R-square綜合考慮,筆者選擇七次多項式函數為擬合函數,即: φ(x)=α0+α1x+α2x2+α3x3+ (11) 筆者以公稱內徑尺寸為Φ150.7 mm軸承檢測為例,進行實驗。 檢測數據分布與頻率分布直方圖,如圖4所示。 圖4 檢測數據分布與頻率分布直方圖 根據圖4,通過計算可得到檢測數據的均值μ=150.947 0和標準差σ=0.942 2,則正態分布的概率密度曲線f(x)為: (12) 檢測數據箱型圖和概率密度曲線f(x)如圖5所示。 圖5 檢測數據箱型圖和概率密度曲線f(x) 當傳感器檢測到卡盤處時,會得到如圖4(a)中的上部異常數據。由圖5(a)觀察可知,箱型圖可以檢測出這類異常數據以及其他原因所造成的異常值。由圖4(b)與圖5(b)對比可知,檢測數據的實際分布模型不符合正態分布。 筆者分別使用箱型圖法與3σ準則法識別數據的異常值,異常數據檢測結果如表2所示。 表2 異常數據檢測結果 由表2結果對比可知:箱型圖法的異常值識別率高于3σ準則法2.3%,而且箱型圖法的異常值識別區間小于3σ準則法,表明箱型圖法對異常值的識別準確率更高;主要由于3σ準則法要求數據服從正態分布,然而實際數據分布并不能滿足要求。 因此,在大數據量的檢測系統中,箱型圖法更具有優勢,故在本研究中選用箱型法作為檢測異常值的方法。 筆者分別用檢測數據的中位值與平均值替換異常值。異常值替換后數據分布如圖6所示。 圖6 異常值替換后數據分布 由圖6可知:用中位值替代異常值數據分布更為集中化,均值由于受異常值影響較大,而且其在箱型圖法中屬于異常值,不適合選作替換值。 綜上所述,筆者認為選取中位數更為合適。 筆者對用中位數替換后的數據進行擬合。七階多項式最小二乘擬合結果如圖7所示。 圖7 七階多項式最小二乘擬合 由圖7可知,未經擬合時數據的波動范圍約為0.1 mm,七階多項式擬合后數據的波動范圍約為0.05 mm,明顯地降低了數據的波動性;擬合的數據分布相比較直接用中位值替代的數據分布,更符合實際測量趨勢。 針對軸承檢測系統中出現的異常值與數據波動問題,筆者采用統計學箱型圖理論對異常值進行檢測,對于異常值用中位數暫代,再利用最小二乘多項式擬合法對原數據異常點處進行校正,且通過該方法對檢測數據重新估計。 實驗及研究結果表明: (1)箱型圖法異常值識別率高于3σ準則法2.3%,可準確、快速地識別異常值; (2)中位值替換的方式受異常值影響較低,保證了檢測數據的完整性; (3)通過最小二乘多項式擬合的方式,數據波動降低為原來的50%,使數據分布更為合理化。 此方法的時間和空間復雜度低,易于實現編程,可保證檢測系統的實時性和準確性。因此,對于使用位移傳感器測量零件尺寸的系統具有一定的參考價值。2.2 中位數暫代
2.3 最小二乘法多項式擬合
α4x4+α5x5+α6x6+α7x73 軸承檢測實驗及結果分析
4 結束語