基于改進混合密度網絡的毀傷效應預測方法

2024-02-17 10:39張人中孔德鋒

鄭州大學學報（理學版） 2024年1期

佘維, 張人中, 田釗, 劉煒, 孔德鋒

(1.鄭州大學網絡空間安全學院河南鄭州 450002; 2.鄭州市區塊鏈與數據智能重點實驗室河南鄭州 450002; 3.軍事科學院國防工程研究院工程防護研究所河南洛陽 471023)

0 引言

武器毀傷效應是現代軍事和作戰研究的基礎性問題。常用的毀傷效應預測方法包括理論計算法、計算機仿真法、試驗法[1-3]。

近年來,支持向量機[4]、神經網絡[5]等機器學習方法由于計算效率較高、環境適應性較強,已經在毀傷效應預測領域中得到初步應用[6-9]。袁輝等提出了基于最小二乘支持向量機的坑道工程動荷段的毀傷仿真實驗訓練樣本約簡模型,其利用粒子群算法選取較優的參數,模型具有較好的可行性和分類精度[10]。李建光等針對彈體對混凝土材料侵徹深度問題,通過徑向基函數神經網絡建立了彈體侵徹深度與網絡輸入量之間的非線性映射關系[11]。張磊等針對毀傷實驗數據少、不均勻、不連續、范圍窄等帶來的計算精度不高的問題,運用K-近鄰算法、BP神經網絡建立基于數據融合的“三階段”毀傷效應計算模型進行毀傷效應計算[12]。

上述基于機器學習與數據挖掘的毀傷效應預測方法存在以下兩個問題。

1) 缺乏不確定性量化能力,不能描述預測值可能的上下限以應對使用過程中存在的決策風險。

2) 使用單值目標函數難以適應毀傷效應預測結果存在的多峰分布情況。

針對上述兩個問題,本文提出一種基于改進混合密度網絡的毀傷效應預測方法。本文的主要貢獻如下。

1) 通過改進混合密度網絡生成的基于混合分布的概率密度函數可以反映毀傷效應預測結果,并能很好地適應毀傷效應預測中存在的多峰分布情況。

2) 改進的混合密度網絡可以通過所得概率密度函數量化預測結果的不確定性。經過處理后,既可以得到點預測結果,也可以根據給定置信水平得到相應置信區間。

3) 本文提出的改進混合密度網絡采用魯棒性更好的t分布作為混合分量,降低了離群點和異常點對模型性能的影響。

1 相關知識

1.1 混合分布

混合分布是多個不同統計特性的分布函數(混合分量)的凸組合,從而達到擬合復雜分布的效果[13-14]?；旌戏植几怕拭芏群瘮当硎緸?/p>

(1)

1.2 混合密度神經網絡

混合密度神經網絡是混合分布模型與前饋神經網絡的結合,其中前饋神經網絡的輸出被用來確定混合模型的參數。對于給定輸入樣本x,輸出目標值為y的條件概率密度函數表示y分布上的不確定性,記為f(y|x)[15-16]。

在混合密度網絡(mixture density network,MDN)中,通常采用高斯分布作為混合分量,輸出的混合高斯分布表示為

(2)

然而對于厚尾分布或存在噪聲的數據集,基于高斯混合分布的混合密度網絡存在魯棒性較差的情況。

原始混合密度網絡輸入是高維的向量,包含兩個隱含層,輸出是具有多個分量的混合高斯分布。對于輸出層的不同類型參數須采用不同的處理方式,即

(3)

(4)

(5)

混合密度神經網絡使用最大似然法構造損失函數,MDN的損失函數定義為

(6)

1.3 T Location-Scale分布

T Location-Scale分布是含有尺度參數和位置參數的t分布,t Location-Scale分布概率密度函數表示為

(7)

其中:μ、σ2分別為位置參數和尺度參數所對應一般高斯分布的均值和方差;v為t分布的自由度;Γ為gamma函數。

如圖 1所示,給出了方差為1,均值為0,不同自由度下t Location-Scale分布的不同形狀?？梢钥吹絫分布與高斯分布相似,隨著自由度v的增大,分布形態逐漸接近高斯分布,其極限分布為高斯分布,當v>120時,可近似為高斯分布處理。

圖1 不同自由度下t分布形態Figure 1 The shape of t distribution under different degree of freedom

鑒于混合高斯分布和混合t分布在處理異常值時表現出的魯棒性差異,混合t分布常常作為混合高斯分布的替代選型而被使用[17]。

2 基于TDMDN的毀傷效應預測方法

本節提出一種改進的t分布混合密度網絡(t distribution mixture density network, TDMDN),并基于TDMDN提出一種毀傷效應預測方法,首先對效應數據庫中的數據進行預處理,再將處理后的數據輸入TDMDN得到混合分布參數,最后根據混合分布參數生成概率分布函數,得到點預測和區間預測結果。其框架如圖 2所示。

圖2 毀傷效應預測方法框架Figure 2 Damage effects prediction framework

2.1 TDMDN網絡

TDMDN在混合分量類型和網絡結構兩個方面對MDN進行了改進,并采用極大似然法構造損失函數。在混合分量類型的選擇上,TDMDN使用t Location-Scale分布作為混合分量來解決高斯混合密度網絡中存在的魯棒性問題。對于有n個輸出混合分量的TDMDN,有4n個輸出節點,可以分為π、μ、σ2、v四個部分,每個部分有n個節點,其中π為各個混合分量的權重,μ、σ2、v分別對應各個t Location-Scale分布的分布參數。對于π、μ、σ2的處理方式與原始MDN相同,t Location-Scale分布中的自由度v采用

(8)

在網絡結構方面,TDMDN是由隱含層塊組成的深度結構,每個隱含層塊由多個全連接層、批歸一化層、激活層組成。其中:全連接層是神經網絡中最常見的層;批處理歸一化層是用來減少初始化的影響,加速網絡訓練;激活層是為模型提供非線性計算,提高網絡非線性擬合能力。TDMDN的結構細節如圖 3所示。

圖3 TDMDN網絡結構Figure 3 TDMDN network structure

TDMDN使用最大似然法構造損失函數,損失函數定義為

(9)

2.2 基于TDMDN的毀傷效應預測

基于TDMDN的毀傷效應預測由以下幾個步驟組成。

1) 數據預處理。首先對效應數據庫中的數據進行異常數據處理和歸一化處理,得到標準數據。

2) TDMDN訓練。將處理得到的標準數據輸入TDMDN進行訓練,采用正向傳播和反向傳播得到訓練好的TDMDN網絡。

3) 毀傷效應預測。將處理得到的標準數據輸入訓練好的TDMDN,得到毀傷效應分布所對應混合分布參數。根據混合分布參數生成毀傷效應分布函數,經過處理得到點預測和區間預測結果。

2.2.1數據預處理數據預處理首先是對異常數據處理,接著進行數據歸一化處理。

訓練數據集中如果存在異常數據,不僅會降低預測成功率,甚至會導致預測結果與真實值的偏差較大。為了保證在輸入模型前數據的規范性和正確性,采用拉伊達準則(3σ準則)來對效應數據庫中的樣本集進行異常值檢驗和剔除。

對訓練數據進行異常值檢驗后,在構建毀傷預測模型之前,對數據集進行歸一化處理,以加快模型的收斂,本文采用線性函數歸一化方法對數據進行歸一化處理。所用公式為

(10)

其中:x為原始數據;xmin和xmax分別為原始數據中的最小值和最大值;y為歸一化后的數值。

2.2.2TDMDN模型訓練 TDMDN模型的訓練過程由正向傳播與反向傳播兩部分組成:正向傳播時,樣本以向量形式從輸入層傳入,經過隱含層、批歸一化層、激活層的計算,從輸出層輸出;在反向傳播時,通過公式(9)計算誤差梯度,然后沿著梯度下降的方向逐層返回,修改每一層神經元的權值和偏置值。當誤差減少到可以接受的程度或訓練達到指定的次數時,訓練停止。

由于在模型訓練過程中,常常出現梯度爆炸問題,本文針對梯度爆炸對損失函數做了一定改進。在文獻[18]中,總結了MDN出現梯度爆炸問題的常見原因,并指出梯度爆炸問題主要來自兩個方面。

1) 最大似然估計值接近0時,損失計算在取對數時會出現非常接近于零的值,導致梯度爆炸問題。

2) 自由度過大時,損失計算會有一個較大的指數,導致梯度爆炸問題。

當梯度爆炸損失出現時,整個訓練過程就會失敗。針對上述原因,在TDMDN的訓練過程中,提出以下解決方案:① 采用一個大于0的小浮點數與對數相加解決情況1);② 采用截斷法解決情況2),當自由度大于120時,將自由度截斷,令其等于120,避免損失計算中出現極大指數導致梯度爆炸問題。改進后的損失函數為

(11)

其中:ε為大于0的小浮點數;fk(x)為混合分量的似然,其定義為

(12)

2.2.3毀傷效應預測在TDMDN模型訓練完成后,采用訓練好的TDMDN模型進行毀傷效應預測。給定彈藥參數、目標參數以及彈目交匯參數,使用TDMDN模型得到毀傷效應結果的概率分布情況。根據概率分布情況得到點預測結果和區間預測結果。

點預測結果可由混合分量期望值給出,

(13)

由于混合密度網絡所得概率分布是一種不規則分布,很難直接根據不同置信水平得到區間預測結果。為了獲得更加可靠有效的區間,我們按如下方式構造預測區間。

1) 考慮到混合權重過小的混合分量的生成區間不具參考性,故在生成置信區間時選取混合權重πk(x)>(1/n)的混合分量,n為混合分量個數。

2) 對每個混合分量按照置信水平取雙側置信區間。

3) 將由2)得到的置信區間取并集得到預測區間。

3 仿真實驗及分析

3.1 實驗設置

本文利用文獻[19-20]提出的工程毀傷算法,仿真實驗模擬“某型號動能穿甲彈”,采用五點瞄準法對機槍堡目標的破壞過程獲得仿真數據集,數據如表1所示。本文只展示部分實驗數據,剩余數據用省略號表示。該數據集包含工程長度、工程寬度、工程高度、鋼板厚度、墻體厚度、覆土厚度、頂蓋厚度、彈藥數量和入射速度9個輸入特征,1個輸出特征為震塌比例。

表1 毀傷仿真實驗訓練樣本Table 1 Damage simulation experiment training samples

如圖4所示,為一組確定參數,利用仿真模型進行多次仿真,得到目標震塌的概率分布直方圖?？梢钥吹接捎谀繕烁鞑课徊馁|、厚度等物理性質的不同,對于多瞄準點的打擊,其結果呈現多峰分布的情況。

TDMDN由1個輸入層、3個隱含層、4個批處理歸一化層和1個輸出層組成,輸入層節點數為9,隱藏層節點數為84,使用了自適應學習率優化算法AdamW,初始學習率為0.001。

3.2 評價指標

對于點預測結果,我們采用平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)、平均絕對誤差(MAE)進行評價。定義為

對于概率預測結果,需要評估獲得的預測區間。首先對區間可靠性進行評估,預測區間覆蓋概率(PICP)被廣泛應用于評價區間可靠性,定義為

其中:當真實值落入預測區間,即yi∈[Li,Ui]時,ci=1,否則ci=0;Li、Ui分別為預測區間的上界和下界。

狹窄的預測區間往往比寬大的預測區間更有價值,我們采用歸一化平均寬度指標(PINAW)評價區間質量,PINAW越小,表示預測區間越窄,預測性能越好。定義為

其中:D是基礎目標范圍上、下界之間的差值,在本文中為震塌比例的上、下界之間的差值。

為了綜合考慮預測區間的覆蓋率和區間寬度,采用平均區間銳度(average interval sharpness,AIS)來評價區間整體質量,區間銳度越大,生成的區間質量越好。第i個預測區間的區間銳度S(xi)定義為

其中:a是置信度;AIS的定義為

3.3 點預測實驗結果分析

該部分實驗選擇決策樹、隨機森林、支持向量回歸、BP神經網絡模型及MDN模型與本文TDMDN模型進行點預測對比實驗。實驗分別對各模型進行了MAPE、RMSE、MAE評估,結果如表2所示,黑體數據為最優結果。由表2可知TDMDN采用魯棒性更好的t分布作為混合分量,降低了離群點和異常點對模型性能的影響,故性能優于MDN模型。相較于點預測模型中表現最好BP神經網絡模型,TDMDN的MAPE降低了0.67%,RMSE降低了0.02,MAE降低了0.01,這是由于TDMDN使用多個隱含層塊組成的深度結構,具有比BP神經網絡、決策樹、隨機森林更好的函數逼近和密度估計能力。

表2 點預測結果Table 2 Point prediction result

3.4 區間預測結果分析

該部分實驗選擇基于隨機森林的分位數回歸模型(QRF)、均值方差估計模型(MVE)、MDN模型與所提TDMDN模型在統一置信度下進行對比實驗,置信度設置為95%。實驗結果如表3所示,黑體數據為最優結果。QRF采用分位數得到區間預測結果,而不是根據具體的分布情況,故其效果不如基于混合密度網絡的方法。而MVE由于僅采用單個高斯模型,不符合真實分布情況,在訓練過程中會試圖通過增大方差來擬合多峰分布,故MVE的PICP僅比TDMDN提高了0.003,但其PINAW和AIS遠不如其他方法。由于異常值干擾,TDMDN在各個指標上都好于采用高斯核的MDN網絡。

表3 區間預測結果Table 3 Interval prediction result

3.5 蒙特卡洛模擬結果對比

我們設定一組固定參數,利用仿真模型進行蒙特卡洛模擬,得到目標震塌的概率分布直方圖,即輸出震塌比例的真實分布情況。對比TDMDN、MDN、MVE三個概率模型的輸出概率分布對仿真模型真實分布的擬合情況。如圖5所示,直方圖為仿真模型進行500次模擬得到的結果,MVE由于僅采用單個高斯模型,模型很難擬合真實分布情況,效果最差,由于異常值干擾,與TDMDN相比采用高斯核的MDN網絡效果較差。TDMDN對于異常值有很好的魯棒性,由于采用混合分布模型,所以能較好擬合真實分布情況,效果最好。

圖5 分布擬合情況Figure 5 Distribution fitting results

4 結論

本文針對傳統毀傷效應預測模型缺乏量化不確定性及高斯混合模型存在的魯棒性較差問題,提出了基于改進混合密度神經網絡的毀傷效應預測方法,實驗表明相對于傳統數據挖掘方法,所提出方法更符合毀傷評估的實際需要,其生成概率密度曲線基本擬合仿真模型多次蒙特卡洛模擬結果。與傳統點模型的單值輸出相比,概率預測的結果具有一定的容錯率,可以更好地指導作戰籌劃。因此,未來有可能將概率預測有效地應用于決策問題,將各種決策活動轉化為概率決策。