?

基于核主元分析與核密度估計的非線性過程故障監測與識別①

2022-11-07 09:08鄭天標肖應旺
計算機系統應用 2022年10期
關鍵詞:特征值變量樣本

鄭天標,肖應旺

(廣東技術師范大學 自動化學院,廣州 510665)

近年來,關于多元統計過程的監控策略可謂百花齊放,早期由于主成分分析方法(principal components analysis,PCA)擁有良好的降維能力被普遍應用,但由于PCA 不適用于非線性系統,Sch?lkopf 等人[1]提出了核主元分析法(kernel principal components analysis,KPCA),KPCA 通過非線性映射函數將原始輸入空間映射到高維特征空間,然后再利用特征空間中映射數據點的內積就可解決非線性問題.吳天昊等人[2]將KPCA 引入核電廠設備在線監控領域中,使監測手段提供更為早期的預報警.呂寧等人[3]提出一種改進的多向核主元分析故障診斷模型,使得非線性主元能夠在高維特征空間中被快速提取.吳洪艷等人[4]提出了基于小波的KPCA 故障監測方法,降低了KPCA 計算的復雜性,縮短了計算時間.霍特林的T2統計量和Q統計量(也稱平方預測誤差,squared prediction error,SPE)是PCA 與KPCA 在過程監控中常用的兩個統計量指標.T2統計量用于監控模型空間的變化,而Q統計量用于監控剩余空間的變化.然而,T2和Q統計量僅適用于高斯分布過程的監控.借鑒文獻[5-8]提出的算法,本文采用核密度估計(kernel density estimation,KDE)方法推導核主元分析的控制限; 然后,比較了基于高斯分布統計量控制限的KPCA 和KPCA-KDE 在田納西伊斯曼(TE)過程中的故障檢測性能.結果表明,基于KPCA-KDE 的監測方法比基于高斯假設的KPCA 具有更好的性能.

1 基于KPCA-KDE 的過程監控

1.1 KPCA 算法

給定m個訓練樣本Xk∈Rn,k=1,2,···,m,由非線性映射可以映射到高維特征空間.特征空間中的協方差矩陣為:

其中,λ是CF的特征值,滿足λ ≥0,a∈RF是對應的特征向量(a≠0).特征向量可表示為映射數據點的線性組合如下:

用φ(X)兩邊同時左乘式(2):

將式(1)、式(3)代入式(4),得:

不直接對式(1)中CF的進行特征值分解并找到特征值和主成分,而采用核技巧,定義一個m×m的核矩陣,如式(6):

對于所有i,j=1,···,m引入核函數的形式k(x,y)=(φ(x),φ(y))在式(5)使內積的計算〈φ(xi),φ(xi)〉在特征空間中作為輸入數據的函數.在特征空間中不需要進行非線性映射和計算內積.對于核矩陣,將式(5)重寫為:

注意,k=1,···,m,因此,式(7)可以表示為:

式(8)等價于特征值問題:

更進一步,核矩陣可以表示為式(10):

其中,U是一個m×m矩陣,其中每個元素都等于1/m.Kctr的特征值分解相當于 ?F中的PCA.本質上相當于解決式(9)中的特征值問題,它產生特征向量為α1,α2,···,αm,相應的特征值為λ1≥λ2≥···≥λm.

由于核矩陣Kctr是對稱的,故導出的主元是標準正交的,即:

應用內核技巧,這可以表示為:

1.2 故障檢測指標

特征空間中第j個樣本的霍特林的T2,其KPCA故障檢測表達式為:

其中,Zi,j,i=1,···,q表示第j個樣本的主元得分,q為保留主元的數量,Ω-1表示保留主元對應的特征值矩陣的逆.從T2的分布可估計其控制極限.如果所有采樣都是高斯分布的,那么F 分布的控制限對應于一個顯著性水平 α,T2,可以表示為:

其中,Fq,m-q,α為顯著性水平 α對應的自由度為條件下的F 分布臨界值.Choi 等人[9]還提出了對Q統計量的簡化計算.對于第j個樣本:

如果所有分數都是正態分布,Q統計量在100(1-α)%置信水平的控制極限可以推導如下:

1.3 核密度估計

KDE 是從一組隨機樣本中使用合適的平滑概率密度函數對數據集進行擬合的過程.它被廣泛應用于概率密度函數(probability density functions,PDFS)的估計,特別是單變量的隨機數據[10-13].盡管這些統計特征的過程是多變量的,因為兩者都是單變量的,所以KDE可應用于T2和Q統計.給定一個隨機變量y,從其m個樣本中獲得它的概率密度函數g(y),yj,j=1,···,m如下:

其中,k為核函數,h為帶寬或平滑參數.基于Cheng 等人[14]提出的選擇帶寬的最佳方法,本文在連續范圍內對密度函數積分得到概率.因此,假設PDF 在指定的顯著水平上,y小于c的概率為:

T2Q

因此,監測統計量(和 )的控制限可由各自的概率密度函數估算值計算:

1.4 在線監測

對于一個以均值為中心的觀測樣本,使用訓練例子計算相應的核向量Xj,j=1,···,m如下:

然后將測試核向量標準化,如式(23)所示:

u1=1/m[1,···,1]T∈?m.計算相應的得分向量(核主元)Ztt:

也可寫成:

用向量形式表示為:

其中,A=[α1,···,αm].

2 KPCA-KDE 故障監測算法過程

2.1 離線監控模型的建立

TR1.獲取正常運行條件下的數據(NOC),使用數據集中代表不同變量的列的均值和標準差對數據進行規范化;

TR2.決定內核函數的類型并確定內核參數;

TR3.構造NOC 數據的核矩陣并將其中心化;

TR4.獲得特征值及其對應的特征向量,并將其按降序排列;

TR5.使用式(11)對特征向量進行正交化;

TR6.使用式(13)得到非線性得分向量;

TR7.根據核化NOC 數據,利用式(14)和式(16)計算監控性能指標(T2和Q);

TR8.用式(20)、式(21)確定T2和Q的控制限值.

2.2 在線監控模型的建立

TT1.獲取測試樣本Xtt并使用離線步驟1 中的均值和標準差進行規范化;

TT2.用式(22)獲得樣本的核向量;

TT3.據式(23)對核向量進行中心化;

TT4.據式(25)求出測試樣本的主元值;

TT5.將測試樣本的T2和Q與模型建立階段得到的各自控制極限進行比較;

TT6.如果T2和Q都小于它們的監控統計數據,則過程處于控制之中.如果T2或Q超過控制限度,則過程失控,進行故障識別,識別故障的來源.基于核主元分析與核密度估計的非線性過程故障監測與識別流程圖見圖1.

圖1 基于KPCA-KDE 的故障監測流程圖

2.3 故障變量識別

在檢測到故障之后,重要的是要識別與故障關聯最緊密的變量,以便于確定故障發生的原因.

貢獻圖是一種常用的故障識別方法,它顯示了各變量對故障區域的高統計指標值的貢獻.然而,由于轉換后的過程變量與原始過程變量之間存在非線性關系,基于非線性PCA 的故障識別不像線性主成分分析那樣簡單.

在本文中,使用Petzold 等人[15]提出的敏感性分析原理識別故障變量.該方法基于Deng 等人[16]研究的方法,計算因參數變化而引起系統輸出變化的變化率.給定一個測試數據向量Xi∈?n,第i個變量對監測指標的貢獻定義為:

其中,ai=?T2/?xi,bi=?Q/?xi.

在使用多元統計方法的故障識別中,一種獲得變量貢獻的有效方法,即通過對定義T2和Q的函數在參考故障瞬間進行階躍微分得到偏導數的方法來識別故障[17].

3 應用程序

3.1 田納西伊斯曼過程

TE 過程是基于真實工業過程的模擬[18],具有較強的非線性和動態特性,Chiang 等人[19]把它用作評價和比較過程監控的基準過程.該過程由分離器、壓縮機、反應器、汽提器和冷凝器5 個關鍵部件和編碼為A 到H 的8 個部件組成,共采樣960 個,變量53 個,其中連續變量22 個,3 個成分分析器采樣的成分測量值19 個,TE 過程中的操縱變量為12 個.采樣每隔3 分鐘進行一次,而每個故障在采樣數160 處引入.McAvoy等人[20]闡述了干擾和基線操作的信息工藝條件.

T2Q

由于 和 數據具有互補性,因此聯合使用它們進行故障檢測.由于可檢測到的過程變化并不總是同時發生在模型空間和剩余空間中,故當任一監控統計數據檢測到故障時,即檢測到故障.

3.2 計算監控性能指標

由于從化學過程獲得的測量通常是有噪聲的,統計量可能會隨機地超過其控制限.這相當于在沒有實際發生故障的情況下統計量可能超過控制限,即虛假警報.換句話說,一個統計量可能會超過它的控制限一次,但是如果沒有出現故障,在隨后的監控中,統計量可能不會總是保持在它的控制限之上.相反,如果在連續的測量中統計量保持在其控制限以上,則可能發生故障.van Sprang 等人[21]使用故障檢測規則解決了假警報的問題.檢測規則也為比較不同的監測方法提供了統一的依據.在本文中,當一個統計量在至少兩個連續監控中超過其控制限時,即認為發生了故障.所有實驗在使用基于此準則的數據進行測試時,都記錄了一個零的誤報率的數據來用于評估不同技術的監視性能.性能監控基于3 個指標: 故障檢出率(fault detection rate,FDR)、誤報率(false alarm rate,FAR)和檢測延遲(detection delay,DD).故障檢出率是正確識別的故障樣本的百分比:

其中,nfc為正確識別的故障樣本數,ntf為故障樣本總數.FAR是指在工廠正常運行期間,正常樣本中被確定為故障(或異常)的百分比:

其中,nnf表示被識別為故障的正常樣本的數量,ntf為正常樣本的總數量.檢測延遲為檢測到引入故障之前經過的時間.

3.3 應用結果

使用TE 流程的故障11 顯示了基于KPCA 的故障檢測.故障11 是反應堆冷卻水入口溫度的隨機變化,圖2 顯示了故障的監控圖.實線代表監測指標,紅線和綠線分別代表基于高斯分布和基于KDE 的99%置信水平的控制限值.在T2控制圖中,基于KDE 的控制限值都低于基于高斯分布的控制限值.即與基于高斯分布的控制限相比,監測指標超出基于KDE 的控制限的程度更大.意味著使用基于KDE 的KPCA 技術的控制限比使用基于高斯分布的控制限具有更高的監控性能.

圖2 故障11 的監視圖

圖3 顯示了故障14 在ω=40時KPCA 和KPCAKDE 的監視圖表.該故障表現為反應堆冷卻水閥卡死,大多數統計過程監測方法都能很容易地檢測出該故障.在ω=40時,KPCA 和KPCA-KDE 結果一樣,在ω=10時,KPCA 記錄的誤報率為8.13%,而KPCA-KDE 的仍為零.此外,當保留25 個主元個數時,KPCA 記錄的誤報率也同樣高.相反,KPCA-KDE 方法仍然沒有記錄任何假警報.通過研究KPCA 和KPCA-KDE 所有20 個故障的檢出率,結果表明,與相應的基于高斯分布的方法進行比較,KDE 具有較高的故障檢出率; 此外,基于KDE 的檢測延遲等于或低于其他方法.這意味著基于KDE 控制限的方法比基于高斯分布的同類方法更早地檢測出故障.因此,相對于使用基于高斯假設的控制限,將基于KDE 的控制限方法與基于KPCA 的故障檢測方法相結合,可提供更好的監控效果.

圖3 ω=40故障14 基于KPCA 的監視圖

以故障11 為例,顯示了基于KPCA-KDE 的故障識別.故障11 的出現引起反應堆冷卻水流量的變化,從而導致反應堆溫度波動.在圖4 中所示的樣本300處,基于T2和Q的貢獻圖均正確識別了兩個故障變量.變量9 是反應堆溫度,變量32 對應于反應堆冷卻水流速.盡管控制回路有可能在經過較長時間后補償反應堆溫度的變化,但是通過貢獻圖可以正確識別出在引入故障后早期受影響的兩個變量的波動.

圖4 故障11 的貢獻圖

為了測試KPCA-KDE 技術的性能,通過改變兩個參數進行故障檢測: 帶寬和保留的主元數量.表1 顯示,當保留25 個主元時,KPCA 記錄的FAR 值也同樣高.相反,KPCA-KDE 方法仍然沒有記錄任何假報警.因此,除了提供更高的FDR 和更早的檢測外,KPCAKDE 比基于高斯假設的KPCA 方法監控性能更好,當故障及早發現時,操作人員將有更多的時間找出故障的根本原因,以便采取補救措施.其次,雖然有方法可獲得開發過程監控模型的最優設計參數,但不能保證最優值一直使用.造成這種情況的原因可能是人員缺乏經驗,以及對流程本身缺乏了解.因此,監控方法性能越好,就更利于過程監控.

表1 在保留不同數量主元時的監測結果

4 結論與展望

本文研究了基于KPCA-KDE 技術的非線性過程故障檢測與識別.在這種方法中,用于構建控制圖的控制限是直接從監測指標的概率密度函數得到的,而不是基于高斯分布的控制限.將該方法應用于田納西伊斯曼過程,并與基于高斯假設的核主成分分析方法進行了性能比較.結果表明,基于KPCA-KDE 比基于高斯分布的KPCA 檢測到的故障更多、更早.研究還表明,基于KDE 的控制限比基于高斯假設的控制限更符合監測統計量的實際分布,因此具有更好的監控性能.接下來的研究工作是設計更優化的方法,既在復雜的環境中更能迅速準確的檢測出故障,此外,將KPCAKDE 結合自適應算法也是一個有價值的研究方向.

猜你喜歡
特征值變量樣本
高中數學特征值和特征向量解題策略
直擊高考中的用樣本估計總體
求矩陣特征值的一個簡單方法
隨機微分方程的樣本Lyapunov二次型估計
球殼區域上二階橢圓特征值問題的一種高精度數值逼近
一類非線性矩陣方程組性質的研究
基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
分離變量法:常見的通性通法
七年級數學下冊期末檢測題(B)
不可忽視變量的離散與連續
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合