?

基于改進PCA的復雜多階段過程故障檢測

2024-02-27 12:43馮立偉郭少鋒吳弋飛
關鍵詞:動態性標準化變量

馮立偉,郭少鋒,吳弋飛,邢 宇,李 元

(1.沈陽化工大學理學院,遼寧沈陽 110142;2.沈陽化工大學計算機科學與技術學院,遼寧沈陽 110142;3.沈陽化工大學信息工程學院,遼寧沈陽 110142)

為滿足人們對系統安全性、可靠性的不斷增長的期望和需求,基于數據驅動的過程控制和故障檢測技術得到了廣泛的應用[1-2]。

過程的多階段、動態性和非線性特征都是常見的導致故障難以檢測的重要原因[3-4]。具有動態性的過程變量隨時間變化,靠前時刻的樣本影響靠后時刻的樣本,前后時刻的樣本間存在時序上的相關性。為此Ku等人提出了動態主元分析(dynamic principal component analysis,DPCA)[5],RATO等人對時滯參數的選取進行了進一步的研究[6]。DPCA利用構造時滯矩陣的方式來減弱前后時間點樣本之間的時序關聯,部分克服了動態性的影響。但未考慮多階段和非線性問題。針對非線性和多階段特征的影響,He等提出了基于k 近鄰規則(k nearest neighbor rule,kNN)[7]的故障檢測方法,但該方法無法處理疏密程度不同的多階段問題。Breunig 等提出基于局部離群因子(local outlier factor,LOF)[8]的故障檢測方法克服了此問題。此外,Ma 等人提出了基于局部近鄰標準化和主成分分析(local neighbor standardization and principal component analysis,LNS-PCA)[9]的故障檢測方法。LNS 能夠轉化多階段過程數據為近似服從標準正態分布的單一階段的數據,成功克服多階段和非線性的影響。但上述故障檢測方法又未考慮動態性的影響。

針對上述問題,提出了基于時空近鄰標準化和主成分分析(time-space nearest neighborhood standardization and principal component analysis,TSNSPCA)的故障檢測方法。通過TSNS 處理使該過程數據近似服從單一階段的多元高斯分布,并分離故障樣本,然后再使用PCA對過程進行故障檢測。

1 主成分分析

設X∈Rm×n,m表示樣本個數,n表示變量個數,對X進行Z-score標準化后為X0。PCA可以將X0分解為:

其中T∈Rm×r和P∈Rn×r分別是X0的得分矩陣和負載矩陣,r是選取的主元個數。是殘差矩陣。

T2和SPE統計量是用于檢測異常情況的常用過程監控指標。對于新樣本g∈R1×n,計算其T2和SPE統計值。

采用核密度估計技術來計算T2和SPE統計量的控制限,并基于測試樣本的統計值是否大于控制限的值來判斷過程是否發生異常。

2 時空近鄰標準化和主成分分析的故障檢測

2.1 時空近鄰標準化

TSNS 能夠將多階段數據高斯化為單一階段的數據,分離故障樣本,同時去除前后時刻樣本間的時序相關性[10-11]。

TSNS 的主要步驟以一個樣本u為例進行說明。首先,計算u的時間上前N 近鄰集Nt(u),該近鄰集中的樣本按照時序距離大小升序排列。

計算Nt(u)中每個樣本的空間上前K 近鄰集Ns(ut),ut代表u的時間上第t 近鄰樣本,t∈[1,N]。Ns(ut)中的樣本按照空間中歐式距離的大小升序排列。

求出N 個空間近鄰集Ns(ut)的均值m(Ns(ut))和標準差s(Ns(ut))。

使用N 個空間近鄰集的均值和標準差對樣本u進行時空近鄰標準化。

通過TSNS將具有動態性和非線性特征的多階段過程數據轉化為近似服從單一階段的多元高斯分布的數據,并剔除過程的動態性,使故障更容易被檢出。

2.2 時空近鄰標準化和主成分分析故障檢測步驟

過程正常運行時采集數據作為訓練集,過程運行時引入故障獲得測試集。TSNS-PCA 對過程進行故障檢測的步驟如下:

離線建模:

①計算每個訓練樣本時間和空間上的近鄰信息,并求出空間上近鄰信息的均值和標準差,通過(8)式分別對各階段的訓練樣本進行標準化。

②使用PCA通過(1)式將TSNS處理后的訓練數據進行分解,求出負載矩陣和得分矩陣。

③通過(2)和(3)式分別計算出每個訓練樣本的T2和SPE統計值,并使用核密度估計確定T2和SPE的控制限。

在線檢測:

①使用相同時刻訓練樣本的近鄰信息對測試樣本進行時空近鄰標準化。

②使用建模過程中得到的負載矩陣和得分矩陣通過(2)和(3)式計算每個測試樣本的T2和SPE統計值。

③將測試樣本的統計值與建模時得到的控制限進行對比判斷過程是否出現故障。

3 青霉素發酵過程的故障檢測

使用Pensim 仿真平臺[12]模擬青霉素發酵過程產生實驗數據,多項研究[13-14]已經證明該平臺實用性非常出色。該平臺共給出了18個變量來控制仿真,選取其中12個重要的變量[15]進行實驗,變量選取見表1。

表1 青霉素發酵過程選取變量

設置仿真時長400h,采樣間隔1h。過程正常狀態下采集一批數據作為訓練集。通過在前3 個變量上添加階躍、斜坡兩種擾動設置6 種故障,起止時間皆為51-400h,故障描述見表2。對應生成6個批次的測試集。

使 用PCA、DPCA、kNN、LOF、LNS-PCA 和TSNS-PCA 方法分別對青霉素發酵過程進行故障檢測,置信度都取97%。PCA、DPCA、LNS-PCA和TSNS-PCA 根據得分貢獻率不低于90%的要求分別選取主元個數為5、6、8、7。DPCA 設置時滯參數l為3。kNN 和LOF 均設置近鄰數k 為4。LNSPCA 設置近鄰數K 為7。TSNS-PCA 設置時間近鄰數N 為4,空間近鄰數K 為7。測試集的故障檢測率見表3。

表3 測試集的故障檢測率 單位/%

從表3 可以看出所有方法對f1-f3 批次中的故障檢測率均較高,對于f4-f6 批次中的故障,TSNSPCA 具有最高的故障檢測率。

以f4 批次為例分析所用方法故障檢測效果好壞的原因,f4 批次的故障發生在攪拌功率上。從圖1(a)部分變量的空間散點圖可以看出青霉素發酵過程是一個具有非線性特征的多階段過程。圖2(a)空氣流量的自相關系數圖表明過程前后時刻樣本間存在顯著的時序相關性。PCA、DPCA 的故障檢測都假設過程數據服從單一階段的多元高斯分布,且要求過程數據必須是穩態的,實驗數據不符合條件,故檢測率低。kNN 和LOF 分別使用與近鄰樣本的歐式距離平方和以及相對密度作為統計量,都能對具有非線性特征的多階段過程進行故障檢測。LOF 考慮了疏密程度因素的影響,所以故障檢測率要高于kNN。但兩者均未考慮時序相關性的影響問題,故檢測率欠佳。

圖1 TSNS前后部分變量的空間散點圖

圖2 TSNS前后空氣流量的自相關系數圖

TSNS 相較于LNS 在標準化時加入了時間信息,能夠幫助分離空間上正常而時間上發生偏離的故障樣本。故TSNS-PCA 的故障檢測率高于LNS-PCA。圖1(b)為TSNS 后部分變量的空間散點圖,多階段數據被轉化為了單一階段的數據,且故障被明顯分離了出來。圖2(b)為TSNS 后空氣流量的自相關系數圖,時序相關性被顯著降低了。TSNS 后底物濃度、溶解氧濃度、菌體濃度的頻率分布見圖3。TSNS 后的數據近似服從單一階段的多元高斯分布,滿足了PCA 故障檢測方法對過程數據的假設條件,所以TSNS-PCA 的故障檢測率很高,如圖4。

圖3 TSNS后變量8、9、10的頻率分布圖

圖4 TSNS-PCA對f4批次測試集的故障檢測圖

TSNS 將復雜多階段過程數據轉化為近似服從單一階段的多元高斯分布的數據,并剔除過程的動態性特征,能夠提升PCA在故障檢測方面的能力。

4 結論

在實際工業生產中,生產過程往往變得越來越復雜,不再具有單一特征。傳統的故障檢測方法往往無法有效監控這種復雜的多階段過程。TSNSPCA 方法采用了TSNS 預處理技術來使得過程數據更符合PCA 方法的要求,從而顯著提高了故障檢測率。TSNS-PCA 能夠更好地保證過程的安全性和可靠性。

猜你喜歡
動態性標準化變量
標準化簡述
離群動態性數據情報偵查方法研究
抓住不變量解題
也談分離變量
交際中模糊語言的動態性闡釋
國土資源績效管理指標體系的動態性探討
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
基于CDM系統的航班動態性調度研究
SL(3,3n)和SU(3,3n)的第一Cartan不變量
論汽車維修診斷標準化(上)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合