?

基于深度學習的風洞天平測力試驗數據異常檢測方法研究

2022-02-06 03:14張靖孫文舉尼文斌魏巍張江楊武兵李清勇
實驗流體力學 2022年6期
關鍵詞:車次風洞試驗迎角

張靖,孫文舉,尼文斌,魏巍,張江,楊武兵,李清勇, *

1.北京交通大學 智慧高鐵系統前沿科學中心,北京 100044 2.中國航天空氣動力技術研究院,北京 100074

0 引 言

飛行器的氣動外形是決定飛行器氣動性能的重要因素。目前,國內外進行空氣動力試驗的方法主要有數值模擬、風洞試驗和飛行試驗等。其中,風洞試驗作為一種操作便捷、準確率較高且成本可接受的試驗方式,廣泛應用于航空航天、機械制造等諸多領域。然而,作為一種實物試驗,風洞試驗會受風洞設備故障、試驗人員操作失誤等諸多因素影響產生異常數據。其中,風洞設備故障和人員操作失誤是導致風洞異常數據的主要原因,據統計,二者導致的風洞異常數據分別占異常數據總數的70%和25%。針對風洞天平測力試驗異常數據,目前皆采用人工檢測的方式。這種方式雖然具有較高的準確率和可靠性,但十分依賴分析人員的專業知識和處理經驗,且時間成本較高。為了彌補人工檢測方式的不足,本文提出將人工智能技術用于風洞試驗天平測力數據監測,實現自動化異常識別,提高風洞試驗的整體效率。

國內外已有很多將人工智能技術引入風洞試驗領域的研究。謝艷等[1]嘗試在風洞常規試驗中構建起大數據采集、收集和分析處理平臺,并利用大數據較強的洞察能力,助力風洞試驗中的疑難問題分析。Belmahdi等[2]借助人工智能中的模糊邏輯推理系統,對風洞試驗中的高斯山峰前、中、后的風散速度進行建模,預測風洞中的風速。美國NASA Lanley研究中心在亞聲速風洞中安裝了神經網絡數據分析系統,該系統可以高效地執行模型結構優化、流動參數研究等諸多任務[3]。Vlachas等[4]借助深度學習中的長短時記憶模型(LSTM)來預測高維混沌系統的演變,并取得了比高斯過程模型更優的效果。Mifsud等[5]利用不連續本征正交分解(POD)和受限最小二乘法來融合CFD模擬數據和稀疏的風洞試驗數據。這些工作證明了人工智能與風洞試驗相結合的可行性,但根據調研,目前還沒有利用人工智能技術對風洞天平測力試驗數據進行異常檢測的先例。

在人工智能領域中,異常檢測問題是一個經典問題,相關技術廣泛應用于欺詐檢測[6]、故障診斷[7]、醫療輔助[8]等領域。傳統的異常檢測算法包括基于統計特征的方法、基于近鄰的方法、基于聚類的方法和基于分類的方法等。例如Barnett等[9]提出將符合某個特定分布或概率模型的數據視為正常數據,否則視為異常數據。Sch?lkopf等[10]利用單類支持向量機學習正常樣本與異常樣本之間的最佳超平面,提出了單類支持向量機算法(One–Class Support Vector Machine,OC–SVM)。Liu等[11]利用異常樣本相對密度低、易被分割孤立的特點提出了基于規則樹結構的孤立森林算法(Isolation Forest,IF)。傳統方法的優點是運行時間快、可解釋性高,但大部分方法依賴于數據的特征設計,無法進行自主學習。深度學習方法引入了神經網絡。Akcay等[12]利用正常數據訓練自編碼重構模型,將測試時重構誤差較大的樣本視為異常樣本。Ruff等[13]提出深度支持向量數據描述算法(Deep Support Vector Data Description,Deep SVDD),引入神經網絡完成特征學習和映射,并用軟邊界損失約束訓練過程。深度學習方法的優點是準確率高、特征自學習,缺點則是可解釋性和魯棒性較差。

不同于普通的異常檢測任務,本文要解決的風洞天平測力試驗數據異常檢測有兩大難點:1)無真實異常數據;2)不同車次的迎角個數不同導致數據維度不同。為解決這2個難點,本文提出一種基于深度學習的異常檢測框架,通過針對風洞異常數據的仿真策略來解決異常零樣本問題。首先,設計了基于統計特征的標準化特征表示,將數據處理為統一尺度;然后,利用神經網絡提取深度特征,增強對數據的判斷能力。以此為基礎的檢測系統已部署于實際生產環境,為現場分析人員進行異常檢測提供幫助。

1 風洞天平測力試驗異常數據仿真

對風洞異常數據進行分析有利于及時發現異常原因、排查設備問題、改進試驗方案。但在實際的生產環境中,異常數據產生頻率極低,且通常被視為垃圾數據而丟棄,這給異常檢測模型的訓練和驗證帶來了挑戰。為解決異常數據零樣本的問題,歸納了常見的風洞數據異常類型,并根據專家知識形成了異常數據規則,以此來生成異常數據。具體而言,根據異常的主要特征,將異常類型分為3類:孤立跳點異常、多點異常和整組試驗異常。

1)孤立跳點異常

導致風洞試驗出現孤立跳點的原因包括天平虛焊、采集系統故障、模型內有碎屑等。此類異常表現為在某車次的試驗數據中,某個迎角下的力分量值脫離真實值,形成跳點。

2)多點異常

天平內外引線不絕緣、激波返回、模型碰到支桿、測壓模塊異常、雜質沖擊等都可能導致多點異常。此類異常多發生于法向力數據,表現形式為:在某車次的試驗數據中,連續或離散的多個(≥2個)迎角下的力分量值產生異常。

3)整組試驗異常

導致整組試驗異常的原因有很多,如天平零飄、迎角不準、總壓管故障、迎角機構異常、模型加工問題、模型抖動、模型安裝、壓力滯后等。此類異常表現為某試驗車次所有數據發生了偏移,特征不明顯,識別難度較高。

以上3類異常在法向力(N)和軸向力(A)上都有體現,本文選擇最常見的6種異常作為檢測目標。表1記錄了這些異常的基本信息。其中,Nnormal,αi和Nabnormal,αi分別表示法向力正?;虍惓G€在迎角為αi時 的值,Anormal,αi和Nabnormal,αi分別表示軸向力正?;虍惓G€在迎角為αi時的值。a為異常變化率,取值在0到1之間隨機變化。kN,normal和kN,abnormal分別表示法向力正?;虍惓G€的斜率。在生成異常數據時,本文將以正常數據為基礎,按照隨機的原則選擇表1中的異常類型,并根據異常規則對正常數據進行變化。

表1 風洞天平測力試驗數據異常信息Table 1 The information of wind tunnel balance force anomaly data

2 模型方法

2.1 問題定義

在本文中,以X={x1,x2,...,xn}表示風洞天平測力試驗數據集,其中xi表 示第i個 車次的數據,n表示車次的總數量。在每一個車次的風洞試驗中,試驗人員通常固定其他參數,僅改變迎角α,獲取氣動模型在不同姿態時的受力變化情況。因此,每個車次的數據xi又可以表示為:

本模型的任務目標是利用真實的風洞試驗數據和少量的仿真異常數據,訓練一個異常數據判別器f。當給定某個車次的試驗數據xi時 ,f需要判斷該車次的數據是否存在異常,表示為:

式中:yi∈{-1,1}表示第i個 車次的異常檢測結果,1表示異常,-1表示正常。

2.2 總體流程

圖1展示了本文所使用的異常檢測算法的整體框架。首先,給定真實的正常數據和異常規則,生成部分異常數據,為后續模型的訓練和驗證提供數據基礎。然后,為解決不同車次迎角個數可能不同而導致的數據尺度不同的問題,設計了針對風洞天平測力數據的特征表示,從而將所有的車次數據轉化為等尺度的標準化數據。在完成標準化處理之后,所有樣本將通過一個深度神經網絡映射到一個特征空間中。在此空間中,要求真實的正常樣本盡可能靠近中心點,而仿真異常樣本盡可能遠離中心點c,并使用基于距離的損失對神經網絡進行訓練。

圖1 基于深度學習的異常檢測算法框架圖Fig.1 The framework of our deep learning-based anomaly detection method

在測試階段,給定某個車次的數據,對其同樣進行標準化特征處理,并輸入到訓練好的模型中。測試數據將被映射到特征空間中,其與中心點的距離將作為該測試數據的異常分數并與一個異常閾值進行比較。若大于該閾值,則判定為異常;否則為正常。

2.3 標準化特征表示

不同車次迎角個數不同,導致無法用相同尺度(長度)的向量表示所有的試驗數據,也就無法將其輸入到全連接神經網絡中。因此,設計了標準化特征表示模塊,對尺度不一的車次數據進行標準化處理。具體而言,從統計學角度選取13個特征來描述每個車次數據的變化趨勢,其中包括7個法向力特征和6個軸向力特征。具體設計如下:

1)法向力特征

法向力特征包括法向力曲線的均值、方差、突變率、大迎角變化率和曲線分斜率的均值、方差、突變率。均值和方差為常見的統計特征;突變率為曲線所有迎角下突變率的最大值,其中,迎角為αj時的突變率δ為該迎角下的力分量值與期望值的相對偏差:

曲線分斜率是指曲線中相鄰兩個迎角之間的斜率。若某車次數據共有11個迎角,則可以計算得到10個分斜率。以ki表示第i個分斜率,則分斜率的突變率為 m ax|ki-ki+1|,利用此特征可以檢測斜率的突變,對孤立跳點異常檢測非常有效。

2)軸向力特征

軸向力特征包括軸向力曲線的均值、方差、突變率和曲線分斜率的均值、方差、突變率。這些特征的計算方式與法向力特征中的同名特征相同。

給定某個車次的試驗數據,計算該車次數據的上述特征,并按照固定的順序將其拼接成維度為13的特征向量,這個過程可以表示為:

式中:T表示特征計算及拼接過程;x?i表示標準化特征向量,維度為13。

2.4 深度異常檢測方法

由于異常數據的多樣性和復雜性,簡單利用基于統計的特征表示無法實現理想的異常檢測功能。因此,受深度神經網絡強大的特征提取能力啟發,選擇使用一種基于深度學習的異常檢測方法來進行更深入的特征學習。

具體而言,在訓練階段,輸入第i個 車次的標準化特征向量x?i,使用一個3層的全連接神經網絡將其映射到一個特征空間中,并得到該車次的嵌入特征表示。此過程表示為:

式中:Φ為神經網絡所實現的特征映射函數;W為神經網絡的參數;x?i為x?i通過映射之后在目標特征空間中的特征表示。

將所有的訓練數據映射到同一個特征空間后,真實的正常數據應盡可能靠近給定的中心點,而仿真異常數據應盡可能遠離中心點。為實現這一目標,可通過下式計算每次迭代的損失:

式中:c為中心點,由隨機初始化獲得并固定不變;n為 真實風洞試驗數據個數;m為仿真異常數據個數;η為異常數據損失權重;λ為正則化項的權重。損失函數第一項為正常樣本懲罰項,要求正常樣本與中心點的歐氏距離要盡可能??;第二項為異常樣本損失項,為異常樣本與中心點距離的倒數,要求異常樣本盡可能遠離中心點;最后一項為正則化項(下標F表示Frobenius范數),約束神經網絡參數W的復雜度,避免參數過于精細而導致對訓練數據過擬合。每一次迭代計算得到的損失將通過鏈式法則進行反向傳播,通過隨機梯度下降法[14]對神經網絡中的參數進行更新,直至模型收斂。

在測試階段,對于每一個測試樣本x,利用訓練好的神經網絡對其進行映射,并將該樣本與中心點c的距離作為異常分數,表示為:

式中:s(x)為該測試樣本的異常分數;W*為訓練完成的模型參數。若s(x)大于閾值σ,則判定該樣本為異常;否則為正常。異常閾值σ是一個超參數,通過對所有數據的異常分數進行排序后,再根據數據集的異常比例進行確定。

3 試 驗

3.1 數據集

試驗使用的數據包括真實正常數據和仿真異常數據。真實正常數據取自于某風洞在2017—2018年進行的真實風洞試驗,包含了120多個不同型號氣動模型的共11 675個車次的數據。仿真異常數據則通過對正常數據施加表1中的異常規則獲得,共生成了3 000個車次的數據。正常數據與異常數據共同組成了試驗數據集,并按照3∶1∶1的比例劃分為訓練集、驗證集和測試集,分別用于模型訓練、超參數調優和性能測試。為驗證模型對數據的依賴性,按隨機原則制作了5份不同的數據集,最后用模型在這些數據集上的均值和方差來驗證方法的穩定性。

3.2 參數設置

深度神經網絡共有3層,神經元個數分別為128、256和128,激活函數選擇ReLU[15]激活函數。模型訓練設置的迭代次數為300,學習率為0.000 1,正則化權重λ設置為0.000 01。

本文異常檢測方法中共包含2個超參數:異常數據損失權重η和異常閾值σ。前者的取值范圍為[0.1,0.2,…,2.0],通過交叉驗證試驗確定。后者與數據集的異常比例有關,按照由高到低對所有數據的異常分數進行排序,并按照異常比例確定異常閾值。

3.3 評價指標

在本任務中,將異常作為正類、正常作為負類,表2為異常檢測混淆矩陣。其中,TP表示正確地將異常判定異常,FN表示錯誤地將異常判定為正常,FP表示錯誤地將正常判定為異常,TN表示正確地將正常判定為正常。

表2 異常檢測混淆矩陣Table 2 Anomaly detection confusion matrix

在本任務中,選擇準確率(Pprecision)、召回率(Precall)以及 F1 分數(F1-score)作為評價指標。準確率Pprecision表示預測為異常的數據中實際為異常的比例:

召回率Precall表示被檢測出的異常數據占總異常數據的比例:

F1分數為準確率和召回率的調和平均數,表示模型在準確率和召回率上的整體性能:

3.4 結果及分析

我們選擇了3種經典的異常檢測方法作為對比方法,分別是:單類支持向量機算法(OC–SVM)、孤立森林算法(IF)和深度支持向量數據描述算法(Deep SVDD)。其中,單類支持向量機算法和孤立森林算法為傳統方法,深度支持向量數據描述算法為深度學習方法,三者的基本原理已在引言部分進行了簡要介紹。需要說明的是,由于在測試階段正常數據不可知,無法直接利用表1中的異常規則進行異常檢測。在試驗過程中,所有方法使用相同的標準化特征表示。表3展示了不同方法在風洞天平測力試驗數據集上的異常檢測結果(5個數據集上檢測結果的均值及標準差)。

表3 風洞天平測力試驗數據異常檢測結果Table 3 The performance of anomaly detection methods for wind tunnel test data

在準確率、召回率和F1分數這3個指標上,本文方法的性能全面優于另外3種方法,比性能次優的方法分別高30.6%、4.1%和18.4%。在模型穩定性方面,孤立森林算法表現最為穩定,對數據依賴性較低;本文的方法和單類支持向量機算法次之;深度支持向量數據描述算法方差最大,穩定性最差。除此之外,觀察到2種傳統方法的性能優于深度支持向量數據描述算法,但弱于本文方法。這是因為深度支持向量數據描述算法雖然利用了神經網絡來學習樣本特征,但沒有異常監督信息,導致神經網絡無法學習到正常數據與異常數據之間的辨別性特征,因此效果不如直接使用規則化統計特征表示的傳統方法。與3種對比方法相比,本文方法以基于統計的標準化特征為基礎,以仿真異常數據作為監督信息,充分結合了基礎統計特征和深度區分特征,因此檢測效果更好。

圖2為訓練過程中的損失收斂曲線??梢钥吹剑涸诮涍^約30次迭代后模型基本完成收斂,最后的損失值收斂于0.23左右。

圖2 訓練過程損失收斂曲線Fig.2 Loss convergence curve in the training period

圖3展示了4種異常檢測方法在風洞天平測力試驗數據集上的準確率-召回率曲線。從圖中可以看出:本文的方法在整體性能上最優,單類支持向量機算法次之,另外2種方法性能較差。

圖3 異常檢測方法準確率-召回率曲線圖Fig.3 The precision-recall curve of anomaly detection methods

表4展示了表1中各類異常的具體檢測召回率。圖4為本文方法的具體檢測實例,包括正確檢測(異常數據被檢測為異常,即TP)、錯誤檢測(正常數據被檢測為異常,即FP)以及漏檢(異常數據被檢測為正常,即FN)的車次數據樣例。

表4 各種類異常識別率Table 4 The detection results of all anomaly types

圖4 異常檢測實例Fig.4 Anomaly detection examples

檢測結果顯示本文的方法對孤立跳點異常和多點異常識別效果較好,對整組試驗異常識別效果較差。這是因為相較于另外2類異常,整組試驗異常特征不明顯。整組數據發生偏移后,雖然與該車次的正常值差距較大,但可能與其他車次的數據分布十分相似,導致模型難以對此類異常進行識別。在實際的生產環境中,整組試驗異常本身就是一種難以檢測的異常。為了識別這一類異常,風洞數據分析人員通常需要結合氣動模型具體外形數據和同模型不同車次數據進行分析處理。

4 結 論

1) 針對風洞天平測力試驗數據,基于標準化特征表示和深度學習的異常檢測方法性能優于單類支持向量機算法、孤立森林算法和深度支持向量數據描述算法。

2) 深度異常檢測模型能夠快速識別大部分異常類型(孤立跳點異常、多點異常),但對異常特征不明顯的整組試驗異常識別效果較差。在實際生產環境中,能夠幫助風洞數據分析人員進行數據初篩,提高檢測效率。

下一步將拓展模型可檢測的風洞異常類型,從特征學習、對比學習角度入手,提高模型的精度,進一步探索人工智能在風洞試驗中的應用。

猜你喜歡
車次風洞試驗迎角
調度集中系統車次號技術的研究
連續變迎角試驗數據自適應分段擬合濾波方法
動車所車次號處理邏輯存在問題分析與對策
Folic acid attenuates high-fat diet-induced steatohepatitis via deacetylase SlRT1-dependent restoration of PPARα
飛翼布局飛機陣風減緩主動控制風洞試驗
八月一日夜車次徐州口占
滾轉機動載荷減緩風洞試驗
飛機全動平尾顫振特性風洞試驗
失速保護系統迎角零向跳變研究
高速鐵路接觸線覆冰后氣動力特性的風洞試驗研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合