?

基于多標簽學習的探索性仿真實驗因素篩選方法*

2023-12-06 03:15張雪超
指揮控制與仿真 2023年6期
關鍵詞:特征選擇標簽特征

安 靖,張雪超,張 雷,劉 偉

(1. 國防大學 研究生院,北京 100091; 2. 國防大學 聯合勤務學院,北京 100858;3. 國防大學 聯合作戰學院,北京 100091; 4. 中國人民解放軍61660部隊,北京 100081)

作為一種認識、研究戰爭的重要手段,探索性仿真實驗通過在可控條件下模仿軍事行動,觀察規律,獲得認知。運行過程中,要充分考慮作戰體系的整體性、體系內部的動態交互性,以及體系間的對抗性,將面臨實驗因素數量多,因素水平范圍大,實驗因素之間、實驗因素和仿真結果之間多對多交互,仿真想定樣本空間復雜程度高,空間維度爆炸等問題[1-3]。因此,需要研究實驗因素的篩選問題,確保探索性仿真樣本空間既規??山邮苡志哂械湫痛硇?。對于這一問題,文獻[4-6]采用改進的序貫分支(SB)算法對實驗因素進行篩選,文獻[7]提出Morris法,完成不確定因素的分析篩選,文獻[8]基于回歸分析和方差分析提出逐步回歸方法,文獻[9]根據輸出相對于輸入的梯度選擇重要特征,但這些方法通常不能用于非線性問題分析。文獻[10]提出的方法實現了非線性問題的特征選擇,但由于不限制單樣本的搜索空間,導致計算成本較高,文獻[11]通過特征提取壓縮空間,但由于空間轉換,無法保留現實意義,可解釋性差。

本文提出了一種基于定性定量相結合的多標簽學習方法,該方法的核心是在設計與實施仿真預實驗的基礎上,構建深度神經網絡,通過多標簽學習過程[12-13]中的特征選擇,完成實驗因素的篩選。關鍵技術包括:一是訓練數據集的生成與預處理,聚焦實驗目的,基于定性分析設計并實施仿真預實驗,對預實驗輸出結果進行采集和標準化等預處理,生成學習過程所需的訓練數據集,解決軍事數據缺失問題。二是神經網絡的構建和訓練,輸入控制層和稀疏正則化搭建深度神經網絡,將特征選擇(Feature Selection)過程與多標簽(Multi-label)模型訓練過程結合,同時關注預測和特征選擇兩個目標,得到擬合效果較好又保留軍事意義關鍵特征的回歸預測模型。三是特征的輸出和分析,對篩選特征進行定性分析,結合軍事經驗,基于全局敏感性分析補充完善實驗因素。

1 相關定義和形式化描述

本節給出方法相關的定義,并形式化描述如下:

定義1 仿真想定是在軍事想定的基礎上,面向仿真系統,根據仿真實驗的目的、邊界條件、實驗模式、仿真系統需求等,對初始戰場態勢、交戰各方作戰力量、武器裝備、作戰行動、交戰規則、仿真規則等進行的設定。

定義2 仿真想定數據是仿真想定的數據化表現,是對仿真想定進行抽象轉化形成的數據集合,支撐仿真系統的初始化和運行。

定義3 特征選擇(Feature Selection)是通過一個特定的評價標準(Evaluation Criterion),對原始特征集M各個特征的相關度進行衡量,完成從M中尋找最優特征集N(N?M)的過程,是大數據特征工程的重要方法之一。其目的是刪除原始特征集合中的冗余(Redundant)特征和不相關(Irrelevant)特征,保留有用特征。

定義4 實驗因素篩選本質是一個特征選擇問題,是根據特征相關度(評價標準),采用一定的搜索策略(特征選擇方法),從高維特征實驗因素向量集合(原始特征集M)選擇最能代表向量空間的實驗因素子集(最優特征子集N),也稱屬性選擇或變量子集選擇。

定義5 多標簽特征選擇(Multi-Label Feature Selection,MLFS)

基于上述假設,本文定義多標簽特征選擇是關注多標簽回歸預測和特征選擇兩個目標,訓練映射函數f:X→Y的過程。即將多標簽學習(Multi-Label Learning,MLL)過程與特征選擇相結合,在學習過程中完成特征選擇。

2 基于定性分析的仿真預實驗設計

數據是機器學習的核心支撐,考慮到作戰數據不易獲取,本方法在采用機器學習進行特征選擇前,基于定性分析,設計并實施仿真預實驗,通過仿真系統推演,為學習訓練生成所需的訓練數據集。

首先,基于軍事想定,采用專家研討、影響圖分析等定性工具方法,初步篩選出相對重要的實驗因素。實驗因素的選擇依據主要包括:一是作戰行動典型性,采用專家研討的方法,逐層分解,篩選確定影響或代表各作戰主體、重要行動、作戰規則的典型因素;二是實驗因素可控性,盡量選取可控因素;三是因素水平定量化,盡量選擇能夠定量化的實驗因素。

隨后,確定各實驗因素的因素水平,完成實驗設計。實驗因素的確定需重點考慮:一是兼顧現在和未來,作戰問題研究具有一定的前瞻性,實驗因素在取值時不僅要考慮現階段情況,還要考慮未來發展情況下的取值。二是關注敏感臨界值、極端情況值,仿真預實驗的目的在于對定性分析的實驗因素進行篩選,因此因素水平將重點考慮對某作戰行動效果和仿真實驗結果的影響較大的臨界值、極端值。三是仿真實驗可行性,確定實驗因素水平數量時,應在滿足實驗需求的基礎上,充分考慮仿真系統的支持度、計算能力等實驗條件的現狀。

最后,基于實驗設計,運行仿真系統,并采集想定仿真結果。對采集到的仿真結果數據進行特征歸一化(Normalization)或標準化(Standardization)等特征縮放預處理。歸一化是將所有特征值映射到[0,1]或[-1,1]之間,實現原始數據的等比例縮放;標準化是將所有數據變換至均值為0,標準差為1的分布。

3 基于多標簽學習特征選擇的實驗因素篩選

3.1 基本思路

按照訓練數據集的情況,特征選擇方法可以分為有監督(Supervised Feature Selection)、半監督(Semi-supervised Feature Selection)和無監督(Unsupervised Feature Selection)[14]。按照與機器學習算法的關系,又可以分為過濾式模型(Filter)、包裹式模型(Wrapper)和嵌入式模型(Embedded)[14-16]。

根據研究目標和數據集的特點,本方法采用有監督的嵌入式模型進行特征選擇,特征選擇和多標簽學習訓練在同一個優化過程中完成?;舅悸肥?引入輸入控制層構建深度神經網絡,通過多標簽學習訓練,得到擬合度較高的回歸預測模型。根據文獻[17-19]的實驗驗證、結果分析,在對網絡結構進行一定稀疏化處理的基礎上,模型權值參數代表了特征對于模型的貢獻度和重要性,越是重要,就會越大,反之,與輸出無關,對應的系數則接近于0。因此,根據訓練得到的權值參數,從大到小對相應的特征進行排序,就能夠自動完成特征選擇。

3.2 引入輸入控制層的深度神經網絡構建

多層神經網絡擁有較強的復雜非線性函數處理能力,能夠提高模型的擬合度,因此,本文根據訓練集的數據結構,將數據集映射到特征空間,搭建如圖1所示的DNN。

圖1 引入輸入控制層的深度神經網絡結構Fig.1 Deep neural network structure with input control layer

為保證權重的有效輸出和選擇,該網絡f:X→Y主要由以下三部分組成。

1)control_input輸入控制層

(1)

2)多個ANN網絡隱層

3)輸出層

網絡的輸出可表示為

(2)

其中,F(·)是含有超參數Θ={W,b}的多個隱層函數的疊加。

3.3 引入稀疏正則化的多標簽學習訓練算法

融合單個標簽的特定特征空間和所有標簽的共享特征空間,對上述網絡進行訓練??紤]本文數據來源,即訓練集特征標簽實際值的可用性,采用人在環的干預,確定單個標簽的特定特征空間。對于共享特征空間的確定,基于經典的兩階段訓練過程[20],將第一階段的預測值作為附加特征擴展到原始特征空間,強化特定特征和單個標簽之間的相關性。

訓練過程如下:

4)訓練模型fq,數據從輸入層通過隱層沿一個方向將計算出的輸出傳遞到下一層,直到輸出層;在輸出層將這些計算用于反向傳播算法,根據誤差最小化的原理,采用SDG隨機梯度下降優化器來推導每個特征權重參數,確定下降方向,并更新每個權重參數[21]。優化算法如下:

算法1:模型參數優化算法輸入:訓練數據集D′j;回歸模型fq;特征數t輸出:特征權重ωj1,…ωjt 1. initial X′TR02.g0(X′TR0)=fq(X′TR0;Yj)(3)3. fori←1 to t do4. comput ωjt=-[δl(Yj,gt-1(X′TRt-1))δgt-1(X′TRt-1)](4)5. giX′TRt()=func(fq(X′TRt;ωjt))=gt-1(X′TRt-1)+fq(X′TR;ωjt) (5)6. end for

其中,fq是回歸函數,作為機器學習的基學習器,公式(3)g0(X′TR0)表示采用基學習器在輸入空間X′TR0中對目標Yj進行學習的預測值。公式(4)求出當前模型的權重梯度值,并將梯度值作為殘差估計,其中l是添加L1范式正則化(Regularization)的均方誤差損失函數。添加L1范式正則化的損失函數l計算公式如下:

l=l0+λ∑ω|ω|

(6)

其中,l0為原始平方誤差損失函數,ω為權重,λ為正則化參數,對權重的取值增加了限制。正則化的目的是使模型稀疏化,將無關特征的系數估計(Coefficient Estimate)朝0的方向進行約束、調整或縮小。

5)將殘差估計作為目標,根據式(5)利用梯度值對模型進行更新,并作為下一輪迭代的目標。

3.4 基于折交叉驗證的模型評價

常用的回歸預測指標包括平均絕對誤差(Mean Absolute Error,MAE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方誤差(Mean Square Error,MSE)、均方根誤差(Relative Root Mean-Squared Error,RRMSE)等,降低這些誤差將意味著模型的預測結果更精確[22]。以均方根誤差(RRMSE)為例,計算公式如下:

(7)

3.5 基于訓練模型的特征輸出

根據模型綜合評價,選擇擬合效果較好的回歸預測模型。該模型輸入控制層的特征權重代表了特征參與模型的程度,按照對應權重大小進行排序并輸出。

同時,為了更好地保留實驗因素的軍事價值,可進一步結合軍事經驗,基于定性分析和判斷,對實驗因素進行適當的補充。

4 實例:某作戰樣式“立體投送”行動仿真實驗因素篩選

以某作戰樣式“立體投送”行動為背景,對本文所提方法進行可行性、有效性驗證。

4.1 仿真預實驗設計

該行動中,紅方的作戰目的是盡快利用火力壓制藍方,并綜合利用平面、空中、超越等多種投送方式將兵力投送至藍方陸地,同時,綠方以低、中、高三種強度進行干預。整個過程中追求戰損盡可能小,投送成功率盡可能高,同時上陸兵力能夠在一定時間內完成固守任務。

上述行動構想涉及多類裝備平臺、多支作戰力量以及多種行動指令,實驗因素較多,仿真實驗易陷入維度爆炸問題,需要對實驗因素進行重要程度排序,忽略部分次要因素?;趯娛聠栴}的理解和經驗進行定性分析,初步篩選49個實驗因素,設計1個基準想定,29個焦點實驗想定,實施仿真預實驗。預實驗的參數設置如表1所示。

表1 仿真實驗參數表Tab.1 Simulation experiment parameters

采集到的仿真預實驗結果包含620條樣本數據,來自620次仿真實驗,每條樣本由輸入輸出兩部分組成,一是預實驗的實驗因素([24,21,4])和過程數據([24,21,4])形成的X的24*6矩陣,二是結果分值數據Y。對其進行整理,形成多標簽學習的訓練集。如下:

n=620

(8)

(9)

(10)

4.2 網絡構建、訓練和評估

基于Pythorch深度學習環境搭建8層全連接神經網絡。包括:輸入控制層1層,relu激活層和liner全連接層各3層,輸出層1層。以仿真預實驗的數據樣本為訓練數據集,采用SDG優化器、MSELoss損失函數(L1正則化),按照學習率lr=0.01、Epochs=500、Batchsize=8的參數訓練該網絡。訓練過程的收斂曲線、MAE曲線、MAPE曲線、RRMSE曲線如圖2所示。

圖2 模型訓練收斂曲線及模型評價曲線Fig.2 Model training convergence curve and model evaluation curve

4.3 實驗因素的篩選確定

在神經網絡的訓練學習過程中,模型控制層的特征權重參數經過了sigmoid激活函數進行轉換,采取特征熱圖進行輸出。圖3所示為Epoch=499的特征熱圖,將該圖對應于樣本集X的24*6矩陣,對特征權重由大到小進行排序。

圖3 特征集熱圖Fig.3 Feature heat map

選擇排名靠前的12個特征,包括綠方兩型戰斗機數量、某型登陸艦數量、某型戰斗機數量、某型護衛艦數量、某型武裝直升機數量、各集群出發時間、空中輸送編隊飛行速度等。

為確保對重點關注的投送實驗因素考慮得更加全面充分,我們結合軍事經驗,補充了運輸直升機高度、固定翼運輸機高度和登陸艦速度三型投送平臺的3個實驗因素。

最終從原始的49個實驗因素中選定關鍵實驗因素15個。

4.4 實驗結果評估與分析

從模型預測性能、特征集有效性兩方面進行實驗評估,并對實驗結果進行定性分析。

1)預測性能評估

以RRMSE值為指標評估預測性能。對本文算法、SST(Stacked Single Target,單目標堆疊)、SVRCC(SVR-correlation Chains,支持向量回歸鏈)共3種算法,分別計算RRMSE值,對比結果如表2所示??梢钥闯?由于該算法添加了人工的特定特征分組,在預測性能上有一定的優勢,但差異不明顯,三種算法均能夠得到較好的預測性能。

表2 RRMSE值對比Tab.2 Comparison of RRMSE values

2)特征集有效性評估

以篩選的實驗因素為變量,更改變量取值為0,加載模型重新計算預測值,并與模型標簽結果進行比較,計算RRMSE為0.713,遠大于實驗的0.32。隨后利用統計檢驗的Wilcoxon signed rank test[23]在顯著水平α=0.05上進行檢驗。提出假設新計算的預測值與均值等價,無顯著差異。結果如表3所示。從表中得到p<0.05,假設不成立,前后計算均值不等,說明標簽特征的有效性。

表3 Wilcoxon signed rank test檢驗結果Tab.3 Wilcoxon signed rank test results

3)結果定性分析

對實驗結果進行定性分析,可以發現,實驗因素的篩選與客觀實際情況較為吻合。

首先,選擇的實驗因素有如下特點:一是作戰行動中奪權的關鍵節點,如某型護衛艦、某型戰斗機的數量,作為對抗藍方反艦導彈及對地戰機等武器的主要平臺,如果護衛艦、戰斗機數量不足的話,將很難迅速壓制藍方對海、對空力量。二是作戰行動中敵重點目標,如某型登陸艦數量,作為主要的投送平臺,該艦受敵火力威脅嚴重,生存率極低。三是靈敏度較高的因素,如綠方介入強度,高、中、低三種強度輸入對結果的輸出影響大。當綠方高強度即直接提供空海力量介入時,紅方損失大幅度提高,若綠方僅提供低強度電子干擾,對紅方造成的損傷有限,與基準想定相比,并無太大區別。

同時,我們主觀上認為較為關鍵的一些因素,如水雷數量,某型導彈、火箭炮數量,甚至投送比例等,并沒有被選定為關鍵因素。通過分析,也有一定啟示,例如,通過對某型導彈數量的實驗分析發現,由于某型護衛艦對其攔截成功率極高,削弱了其在仿真結果中的重要程度;某型火箭炮,我們認為其對紅方登陸部隊和水面艦艇威脅極大,但由于其開火特點,位置暴露較快,一輪開火后,很快就會被紅方升空的作戰平臺鎖定,因此在紅方掌握了制空權的條件下,其數量對行動影響較為有限。

5 結束語

結合定性分析和定量計算,本文提出了基于多標簽學習特征選擇的實驗因素篩選方法,并以某作戰樣式“立體投送”行動的仿真實驗因素篩選為實例進行實驗驗證。實驗結果表明:該方法能夠聚焦探索性仿真實驗目的,利用深度神經網絡逐層進行學習,并在多標簽學習過程中完成實驗因素的選擇。經篩選的實驗因素在一定程度上客觀,且與作戰行動現實情況吻合。

猜你喜歡
特征選擇標簽特征
如何表達“特征”
不忠誠的四個特征
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
抓住特征巧觀察
Kmeans 應用與特征選擇
標簽化傷害了誰
聯合互信息水下目標特征選擇算法
基于多進制查詢樹的多標簽識別方法
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合