孔晨亦,李學仁,杜 軍
(空軍工程大學航空工程學院,西安,710038)
排氣溫度(Exhaust Gas Temperature,EGT)是表征航空發動機健康狀態和確定發動機可用性的重要時間序列參數之一[1],高精度的EGT預測模型可為維修決策提供重要支持。由于航空發動機是一個典型的復雜系統,排氣溫度又與多種因素呈現復雜非線性關系[2],因此難以構造精確數學模型來描述EGT的變化規律。
目前使用的預測方法有最小二乘法、支持向量機、人工神經網絡等[3-5]。近年來,隨著人工智能技術的不斷發展,由于人工神經網絡對復雜非線性系統具有高度的擬合性,其在排氣溫度預測方面應用廣泛。Yusuf等[6]研究了發動機轉速、燃料流量、進氣管平均溫度等參數作為輸入層,排氣溫度作為輸出的人工神經網絡預測模型。陳慶貴等[7]使用徑向基過程神經網絡來實現航空發動機排氣溫度預測。Kumar等[8]利用自回歸神經網絡并結合移動平均技術對燃氣渦輪發動機排氣溫度進行建模和預測。隨著循環神經網絡(RNN)的不斷發展,衍生出長短期記憶網絡(LSTM)、門控循環網絡(GRU)等變體,廣泛應用于時間序列數據處理。楊洪富等[9]使用長短期記憶網絡構建發動機排氣溫度預測模型,探究了排氣溫度的變化規律。張帥等[10]設計了一種輸出層增強的LSTM模型,進一步提高了預測精度。
時間卷積神經網絡(Temporal Convolutional Network,TCN)是由Bai S等[11]2018年提出的處理時間序列模型的神經網絡新架構,并且在幾類數據集中取得了比RNN更為準確的結果。TCN網絡在文本、視頻、時序圖等時間序列數據的分析中提高了預測的準確性[12-14]。飛行數據是一類典型的時間序列數據,數據的時間關聯性較強,對模型的時域信息提取能力有更高的要求。TCN網絡則是利用一維卷積變形成可用于處理時間序列數據,采用多層網絡結構學習長時間跨度信息。
同時,飛行數據具有數據量大、維度高的特點,約減維度可以有效降低計算的復雜度,減少訓練難度。Hilton等[15]利用自編碼器進行數據降維實驗,實驗效果相比主成分分析法(Principal Component Analysis,PCA)有明顯提高。宋亞等[16]整合自編碼器和雙向短期記憶神經網絡,構建渦扇發動機剩余壽命預測模型,有效降低了模型訓練難度。
由此本文提出了Autoencoder-TCN混合預測模型,利用自編碼器(Autoencoder)降低TCN網絡的輸入數據維度,將EGT作為TCN網絡的輸出,使用真實飛行數據訓練模型,可以深入挖掘飛行數據的時間關聯性特征,并且分別與BP(反向傳播)神經網絡和LSTM神經網絡預測模型作對比實驗,驗證了預測模型的有效性。
Autoencoder神經網絡利用自監督學習方式,可對輸入數據進行有效降維,提取相關特征。Autoencoder由輸入層、隱藏層、輸出層組成,結構分為編碼器和譯碼器兩部分,其拓撲結構見圖1。
圖1 自編碼器結構圖
給定原始飛行數據x=(x1,x2,…,xn),其中xi是輸入數據的第i維度(i=1,2,…,n)。給定特征空間H=(h1,h2,…,hm),其中hj是第j維特征向量(j=1,2,…,m,m f:x→h g:h→x (1) 采用非線性激活函數,可求解得兩者映射f,g以及輸出低維特征H。自編碼器可學習從高維到低維的非線性映射,獲得原始數據的顯著特征,因此可用于深度學習網絡輸入數據的預訓練,減少輸入數據維度,降低訓練難度。 卷積網絡的算法關鍵在于利用卷積操作跨區域提取特征[14]。卷積網絡普遍應用于圖像領域,在時間序列數據的處理上,大多采用循環神經網絡(RNN)和長短時間記憶網絡(LSTM),但在RNN框架上很難再找到新的模型可以超越LSTM的學習效果。因此,Bai Shaojie[11]將卷積神經網絡改造成可用于處理時間序列數據的TCN,直接利用卷積的強大特性,跨時間提取特征信息。 為了更好地適應時間序列數據的處理要求,TCN網絡引入了一維全卷積(1-D FCN)和膨脹因果卷積(Dilated Casual Convolutions): Step1利用1-D FCN結構,保證每一個隱層的輸入輸出時間長度都相等,對于第一個沒有任何歷史信息的時間步,使用zero padding操作。 Step2為了不漏接歷史信息,以及應對網絡長歷史信息問題,引入膨脹因果卷積,增大感受野(receptive field)的同時降低計算量,使模型能夠學習到更長時間段內的信息。膨脹卷積作用在s元素上,可描述輸出F(s)如下: (2) 式中:*d為卷積操作運算符;f(i)為卷積核,i=0,1,…,k-1。 TCN模型整體架構見圖2。 圖2 TCN模型結構圖 本文建立的深度學習混合預測模型首先將Autoencoder神經網絡作為特征提取工具,將每一時間點與排氣溫度相關的11個參數降至5維后,再進行時序連接,得到5×t的時序數據,輸入到TCN網絡進行時間信息的學習,輸出排氣溫度的時間序列值,如圖3所示。 圖3 混合模型結構示意圖 圖中,x=(x(1),x(2),…,x(t))表示Autoencoder的輸入空間,x(j)為m維輸入向量,本文中m=11;h=(h(1),h(2),…,h(t))表示特征空間,由Autoencoder輸出后經過時序連接形成,作為TCN網絡的時間序列輸入數據,h(j)為n維特征向量,本文中n=5;y=(y(1),y(2),…,y(t))表示輸出空間,y(i)為排氣溫度數值,t表示時間序列長度。 本文建立的Autoencoder-TCN混合預測模型訓練過程分為特征提取、TCN網絡訓練、網絡性能測試3個階段。 首先將飛行數據使用Zscore歸一化處理方法,然后將歸一化的數據輸入Autoencoder網絡,經過編碼層進行編碼,與解碼層輸出數據生成損失函數,自編碼器的連接權值和偏置采取自適應性動量估計法(Adam)進行學習。 對于Autoencoder網絡,本文采用線性整流函數(ReLU)作為編碼層激活函數,采用Sigmoid函數作為解碼層激活函數。 (3) (4) (5) (6) 式中:n為輸入數據的維度,m為隱藏神經元的個數,即降維后的維度;Wi,j為輸入層神經元與隱藏層神經元的連接權值;W'j,i為隱藏層神經元與輸出層神經元的連接權值;bi、bj均為偏置;隱藏層中,hj為第j個神經元的輸出值;輸出層中,ri為第i個神經元的輸出值。 損失函數如式(7)所示: (7) 式中:k為批處理的總數目;x(p)和r(p)分別為第p個樣本的輸入和重構向量。本文選用Adam優化器訓練網絡中的參數,使重構誤差,即損失函數值最小。 使用訓練好的Autoencoder網絡提取數據集的低維特征后,作為TCN網絡訓練樣本,利用Adam優化器訓練TCN網絡參數。 對于TCN的網絡結構,使用ReLU函數作為激活函數,能夠有效避免深度學習網絡梯度消失問題,增加擬合精度。但由于多卷積層的網絡結構容易學習到訓練數據中的過度依賴關系,導致出現過擬合現象,TCN網絡結構引入隨機丟棄(Dropout)優化方法,通過隨機丟棄局部神經元的方式(灰色部分為丟棄神經元)來減少不同神經元之間的過度依賴關系,有效防止過擬合,見圖4。 圖4 Dropout示意圖 為了提高模型的泛化能力,解決較深的網絡結構可能引起的梯度彌散或者梯度爆炸問題,引入殘差神經網絡(ResNet)中的殘差塊結構。殘差塊結構將輸入x與經過非線性變換后的F(x)進行求和操作,形成短路連接: H=x+F(x) (8) 這種結構能夠優化深層網絡,較好地擬合輸入發生的變化。而TCN網絡感受野的擴大依賴于卷積網絡層的增加,而殘差結構可以很好地抑制網絡層增加帶來的梯度消失或者梯度爆炸問題。 圖5 使用殘差塊的TCN網絡流程圖 保存2.3節中訓練好的TCN網絡結構,使用測試集數據驗證網絡預測精度,得到均方誤差和平均百分比誤差,作為衡量網絡性能的量化指標??傮w訓練流程如圖6所示。 圖6 Autoencoder-TCN混合預測模型 本文選取某型軍用運輸機性能良好發動機的150個架次真實飛行數據作為研究對象,140個架次作為訓練集和驗證集數據,10個架次作為測試集數據,每個架次選取與EGT相關的11個參數。由于不同飛行階段下,發動機的工作狀態的影響因素有所差異,對預測模型的精確度有一定的影響。為減小飛行階段對模型預測精度的影響,本文選取每個架次飛機巡航階段的3 000個時間點,各個時間點的11維向量依次輸入Autoencoder網絡進行維度壓縮,輸出3 000個5維特征向量,時序連接后作為TCN網絡的輸入。以左發為例,11個輸入參數分別為:α1(低壓轉子導流葉片角)、α2(高壓轉子導流葉片角)、N1(低壓轉子轉速)、N2(高壓轉子轉速)、進氣道斜板高度、燃油消耗量、大氣機高度、噴口直徑大小、油門桿位置、滑油壓力、大氣機速度。 本文采用均方誤差(MSE)和平均絕對百分比誤差(MAPE)來衡量預測精度。 均方誤差公式如下: (9) 平均絕對百分比誤差公式為: (10) 本文模型在配備Intel i5以及NVIDIA GTX 1080Ti CPU的計算機上進行訓練與測試,集成開發環境為Anaconda,采用深度學習框架PyTorch。由于深度學習模型中超參數的不同對實驗結果影響較大,本文采取實驗結合經驗的方式對提出的網絡結構進行調整,使混合預測模型能夠更好地適應飛行數據特點。本文調整的超參數包括TCN隱藏層數、卷積核大小(kernal size),學習率(learning rate)等。不同的超參數設置對網絡性能有如下影響: 1)理論上說,隱藏層數越多,TCN網絡結構的非線性表達能力越強。但層數過多增加了過擬合風險,同時也增加了訓練難度。 2)卷積核的大小影響TCN對時域跨度信息的提取能力。當卷積核太小時,一維卷積運算能夠提取到的時間關聯性較小,無法深入挖掘飛行數據的時域信息;當卷積核太大時,容易將無關信息納入計算,增加噪聲,破壞網絡對數據特征的學習。 3)學習率控制著模型訓練參數的更新速度,過小的學習率會降低模型的收斂速度,過大的學習率則會導致訓練參數在最優解附近震蕩。 為驗證不同的超參數設置對網絡性能的綜合影響,本文采取正交實驗法(Orthogonal Experiment)在最小試驗次數下確定最優超參數組合。 本文為3因素4水平正交實驗,隱藏層數為因素A,范圍為[2,3,4,5];卷積核大小為因素B,范圍為[6,7,8,9];學習率為因素C,范圍為[0.1,0.2,0.3,0.4]。選取正交表為L16(43)正交表,共需要進行16次試驗。16次試驗的組合方式見表1。 表1 試驗參數組合表 測試評價指標為均方誤差(MSE)和訓練時間(time)。最終測試結果如表2所示。 表2 正交實驗法測試結果 由16組正交測試結果分析可以得到:NO.10的均方誤差最小,但其訓練時間較NO.1~NO.5偏大,主要是由于NO.1~NO.5的隱藏層數較小,模型結構較為簡單,降低了訓練難度,但導致其非線性化表達能力不足,均方誤差較大,因此在訓練時間上不具有可比性;NO.10在同等訓練難度的組別中(NO.9~NO.12),均方誤差與訓練時間均為最優,因此可考慮NO.10為本試驗最優組合,核心參數配置TCN隱藏層數為4,卷積核大小為7,學習率大小為0.4。最終實驗參數配置見表3。 表3 TCN網絡模型參數配置 為驗證Autoencoder-TCN預測模型的有效性,分別建立BP和LSTM網絡作對比實驗。為控制其他變量對網絡性能的影響,設置相同的網絡超參數進行試驗。 前140個架次飛行數據以9∶1的比例設置訓練集和驗證集,分別測試3種不同模型。取后10個架次飛行數據作為測試集,第3架次的部分擬合曲線和預測絕對誤差比見圖7~8。 圖7 不同模型排氣溫度擬合曲線 采用均方誤差(MSE)和平均絕對百分比誤差(MAPE)作為模型性能測試指標。3種模型的測試結果見表4。 表4 3種模型預測誤差 為衡量混合模型的有效性及其泛化能力,取3種模型10個架次誤差指標的平均值作為最終指標,見圖9。 圖9 3種模型預測誤差對比圖 從圖7和圖8直觀上來看,Autoencoder-TCN模型在測試集上的擬合曲線優于BP和LSTM模型,其擬合誤差較BP和LSTM模型有所降低。由圖9量化指標上看,Autoencoder-TCN混合預測模型較BP、LSTM模型的MSE和MAPE均有所降低,MAPE由13.035%和9.593%降低至3.369%。綜上說明,本文提出的混合預測模型能夠針對航空發動機排氣溫度的時間積累特性,深入挖掘飛行數據序列的時間維度信息,使用Autoencoder提取相關特征,利用TCN網絡處理時間序列數據的優勢,可以搭建多層網絡結構學習長時間跨度信息,建立發動機排氣溫度和歷史數據的關聯模型,采用多組數據對混合模型進行測試,驗證了模型的可行性和有效性,提高了預測精度。 圖8 不同模型預測絕對誤差比圖 針對航空發動機排氣溫度預測模型精度不高、傳統RNN類網絡對飛行序列數據時間維度信息挖掘不充分的問題,本文提出了一種結合自編碼器和時間卷積神經網絡的Autoencoder-TCN預測模型。利用Autoencoder提取與排氣溫度相關的特征,降低輸入TCN網絡的數據維度,利用TCN挖掘歷史數據的關聯性,針對飛行數據特點,采取實驗的方式配置模型參數,使模型性能最優化。經過實驗驗證,利用多架次數據分別對BP、LSTM、Autoencoder-TCN模型進行驗證,Autoencoder-TCN預測模型較BP、LSTM均方誤差和平均絕對誤差百分比均有所降低,證明本文提出的混合預測模型能夠有效提高預測精度。但測試結果表明,3種模型在不同架次飛行數據上的預測誤差均有一定差距,如何提高模型的泛化性能需要進行進一步研究。1.2 時間卷積神經網絡(TCN)
2 Autoencoder-TCN混合預測模型
2.1 總體框架
2.2 特征提取階段
2.3 TCN網絡訓練階段
2.4 網絡性能測試階段
3 實驗驗證
3.1 數據準備
3.2 性能評價指標
3.3 實驗環境和參數配置
3.4 實驗結果與分析
4 結語