?

基于PPO算法的無人機近距空戰自主引導方法

2023-02-13 03:45趙寶奇劉仲凱
電光與控制 2023年1期
關鍵詞:敵我空戰坐標系

邱 妍, 趙寶奇, 鄒 杰, 劉仲凱

(1.光電控制技術重點實驗室,河南 洛陽 471000; 2.中國航空工業集團公司洛陽電光設備研究所,河南 洛陽 471000;3.空裝駐洛陽地區第二軍事代表室,河南 洛陽 471000)

0 引言

在近距空戰中,戰場環境復雜多變,機動決策存在高度實時性和不確定性,這些現象分散了飛行員做出關鍵決策的注意力,可能導致飛行員無法做出正確機動。相比于有人機,無人機具有尺寸小、隱身性能好、制造成本低、可以在危險環境下作戰等優點,因此,裝備自主空戰決策系統的無人機將逐漸登上空戰的“舞臺”。

國內外學者對智能空戰決策方法已進行了一定的研究。文獻[1]建立了無人機六自由度的簡化模型,采用微分對策法對無人機的追逃模型進行了研究;文獻[2]提出了隨機機動決策模型和基于影響圖博弈的機動決策模型,給出了模型的求解方案,驗證了影響圖博弈法可用于解決一對一空戰機動決策的問題,但微分對策、影響圖博弈等博弈論方法難以解析求解且無法適用于復雜空戰環境;文獻[3]采用變權重自適應并行遺傳算法并結合滾動時域的思想將空戰過程分時段離散化,小規模地求解最優值,解決了敵我雙機空戰的問題;文獻[4]對近似動態規劃算法進行改進,提出了懲罰因子,解決了一對一空戰中自主攻擊占位問題。但遺傳算法、動態規劃等優化理論方法不具有仿真實時性。文獻[5]采用滾動時域與專家系統結合的方法,保證了在專家系統方法失效的情況下我機仍能快速做出機動決策,但專家系統依賴于飛行員提供的空戰經驗,難以訓練出決策能力超越飛行員的模型,因此,很難解決態勢變化劇烈的近距格斗問題,由于深度強化學習不需要依靠飛行員空戰經驗以及大量的態勢數據支撐,因此該方法被越來越多地應用于智能空戰項目;文獻[6]使用深度確定性策略梯度(DDPG)算法實現了二維空間下無人機在不同初始狀態下向固定目標點的自主飛行;文獻[7]基于深度Q學習(DQN)算法構建了無人機近距空戰的機動決策模型,將訓練過程分為基礎訓練和對抗訓練,此方法提高了模型訓練的速度;文獻[8]結合了長短時記憶(LSTM)網絡和基于競爭網絡的深度強化學習(Dueling DQN)算法,加強了智能體的記憶功能,加快了智能體的收斂速度,實現了無人機一對一的對抗;文獻[9]提出了獎勵重塑PPO算法,將飛行器從任一點引導至移動目標位置。

本文以無人機近距空戰為背景,采用標準PPO算法和改進PPO算法構建無人機自主引導模型,并設計合理的獎勵函數,仿真實現了地球坐標系下無人機向機動目標區域的引導,驗證了本文所提的改進PPO算法解決近距空戰中無人機自主引導問題的可行性。

1 無人機機動模型建立

1.1 坐標系及其轉換關系

本文建立了3個坐標系,分別為地球坐標系Oexeyeze、地理坐標系Ogxgygzg和速度坐標系Ovxvyvzv。其中:地球坐標系用來求解無人機的運動方程;速度坐標系用來構建深度強化學習中的狀態和動作;地理坐標系則是二者之間的轉換途徑。

地球坐標系原點Oe在地心,Oexe軸指向北極,Oeye軸指向北緯0°東經0°,Oeze軸按右手定則確定;地理坐標系原點Og在無人機處,Ogxg軸指向北極,Ogyg軸指向天,Ogzg軸指向東,地理坐標系由地球坐標系按照X-Z-Y旋轉L-(-B)-0得到,其中,L和B分別為無人機的經度和緯度,地球坐標系到地理坐標系的轉換矩陣記為Tg,e;速度坐標系原點Ov在無人機處,Ovzv軸指向無人機速度矢量VvU的方向,速度坐標系的3個坐標軸由地理坐標系Ogxgygzg按照Y-X-Z方式旋轉φ-(-θ)-0得到,其中,φ為Ogzg軸到速度矢量VvU在Ogxgzg平面上的投影的角度,即速度偏轉角,而θ為該投影到速度矢量VvU的角度,即速度傾斜角,地理坐標系到速度坐標系的轉換矩陣記為Tv,g。

1.2 無人機的運動模型

本文研究重點是無人機的機動決策方式,可以忽略無人機姿態的變化,因此構建無人機三自由度運動模型。

圖1所示為速度坐標系下敵我雙方的相對狀態。

圖1 速度坐標系下敵我雙方相對狀態Fig.1 Relative state of two sides in the velocity coordinate system

如圖 1所示,無人機的控制指令a=[φ,ny,nz]T,其中,φ為滾轉角,即無人機機翼與Ovxv軸的夾角,ny為法向過載,垂直于機背方向,nz為切向過載,沿著速度方向。在速度坐標系下,控制指令a產生的加速度矢量坐標av與控制指令的關系為

av=[-gnysinφ,gnycosφ,gnz]T

(1)

無人機在地球坐標系下的運動方程為

(2)

1.3 雙機相對態勢模型

在空戰決策過程中,需要知道敵我雙方的相對態勢,圖1則表示了速度坐標系下敵我雙方相對位置、速度及角度關系,其中,VvU,VvT分別為無人機和目標的速度矢量,PvTU為目標相對無人機的位置矢量,φU為無人機的方位角,即無人機速度VvU與相對位置PvTU的夾角,qT為目標的進入角,即目標速度VvT與相對位置PvTU的夾角。另外,記VvTU為目標相對無人機的速度矢量。

PvTU,VvTU,φU,qT的表達式分別為

PvTU=PvT-PvU

(3)

VvTU=VvT-VvU

(4)

(5)

(6)

式中:PvU,PvT分別為無人機和目標在速度坐標系下的位置矢量;|PvTU|,|VvU|,|VvT|分別為矢量PvTU,VvU,VvT的模長。

2 PPO算法介紹

2.1 基本概念

令S為決策的輸入,稱作狀態,令A為決策的輸出,稱作動作。通過與環境互動,在t=0時刻的狀態S0上采取動作A0,會生成下一個狀態S1,同時獲得單步獎勵r0,通過不斷與環境交互,生成的狀態和動作可形成如下的序列,稱作軌道,記作τ,即

τ={S0,A0,r0,S1,A1,r1,…,St,At,rt,…}。

記Gt為軌道τ的累積回報,其表達式為

(7)

式中,γ為折扣因子,表示越往后的獎勵對當前時刻的Gt所產生的影響越小。

從狀態S出發的所有軌道累積回報的期望稱作狀態S的價值,記作V(S),即

V(S)=E[Gt|St=S]=E[rt+γrt+1+…|St=S]=
E[rt+γGt+1|St=S]

(8)

由式(8)可得前后兩個狀態的價值有如下的關系,稱作貝爾曼方程,即

V(St)=rt+γV(St+1)。

(9)

2.2 Critic網絡

在實際應用中,通過式(8)計算價值V(S)是不現實的,通常構建一個狀態S和價值V(S)之間的神經網絡,稱作Critic網絡,用于對價值V(S)進行預測,將預測價值記為Vpred(S)。

而在強化學習中,價值的“真實值”即樣本值,是通過與環境互動后遞推計算出來的。設τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}為一段長度為T的軌道片段,將此片段上的最后一個狀態ST-1輸入Critic網絡獲得預測價值Vpred(ST-1),可根據

(10)

遞推出該片段上每個狀態的價值。

圖2所示為全連接Critic/Actor網絡結構。

圖2 全連接Critic/Actor網絡結構

如圖2所示,Critic網絡的構建方式為

(11)

式中:li為第i層神經網絡的輸出矢量;FC表示網絡的連接方式為全連接(Fully Connected);Nli為第i層網絡的節點數;ReLU為激活函數;n為該Critic網絡的層數。

Critic網絡的訓練方向就是讓預測值Vpred(S)盡量接近樣本值Vsamp(S),因此其損失函數定義為

(12)

2.3 Actor網絡

狀態S和動作A之間也構建了一個神經網絡,稱作Actor網絡,該網絡輸出一個概率分布,稱作策略π,然后依照π進行隨機采樣,生成A。本文中的策略采用多元正態分布,并假設各元之間獨立,記μ和σ分別為π的均值向量和標準差向量。而A的生成方式為A~π(S)=Ν(μ,σ2),即A服從正態分布。

如圖2所示,Actor網絡的構建方式為

(13)

Actor網絡的訓練方向就是使得狀態價值V(S)盡可能增大,則Actor網絡的損失函數可定義為

LA=-V(St)=-E[Gτ|S=S0]。

(14)

在實際應用中,使用了近似表達式,若從S0出發,按照策略不斷生成動作,得到如下的軌道片段τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1},則損失函數為

(15)

另外,為了避免因某些動作未被采樣而導致的該動作概率下降的情況出現,對Actor網絡的損失函數做一些改進,即

(16)

記FAdv=Vsamp(St)-Vpred(St),稱作優勢函數。

2.4 標準PPO算法

PPO算法訓練上述兩個網絡時采用的優化器是AdaDelta,相比于傳統的梯度下降方法,該優化器能夠自適應地調節學習率。兩個網絡的目標函數LC和LA分別代表各自的損失函數。

Actor網絡訓練過程中通過與環境互動采樣生成一條軌道片段(即樣本),計算損失函數,更新網絡參數,再按照新的網絡參數重復如上步驟,完成網絡訓練??梢?,網絡采集的樣本只能使用一次。為了重復利用這些樣本,采用重要性采樣的方法,引入策略πold和πnew,πold用來采樣,采集的樣本用來訓練πnew,結合重要性采樣方法后的Actor網絡的損失函數LA可表示為

(17)

為了保證決策過程平穩進行,網絡更新前后的策略πold和πnew不能相差太大,因此需要對策略πnew做一些限幅處理,此算法稱作近端策略優化,即PPO算法[10]。

PPO算法中策略限幅的方法為

(18)

式中,ε決定限幅的程度,一般取值為0.2。

2.5 改進PPO算法

標準的PPO算法采用全連接神經網絡,隨著網絡規模的增大,訓練時極易發生梯度爆炸和梯度消失的情況,導致訓練崩潰或無效。另外,全連接神經網絡只能處理單個時間點上的輸入,前后兩個時間點上的輸入是完全沒有關系的,如圖3所示,但是在空戰中,態勢數據有強烈的時序相關性。

圖3 標準PPO算法下的Critic/Actor網絡結構Fig.3 Critic/Actor network structure based onstandard PPO algorithm

文獻[11]提出的長短時記憶(LSTM)網絡可以解決梯度爆炸和梯度消失的現象,而且對于處理這種與時間序列高度相關的任務十分有效。LSTM由一個輸入門、一個遺忘門和一個輸出門組成,如圖4所示。

圖4 LSTM的基本結構Fig.4 Basic structure of LSTM

圖4中,xt為當前時刻的輸入,ct-1,ht-1分別為上一時刻的細胞狀態和輸出,ct,ht分別代表當前時刻的細胞狀態和輸出,sig為Sigmoid激活函數,tanh為tanh激活函數。特殊的門結構使其輸出不僅與當前時刻的輸入和上一時刻的輸出有關,還與上一時刻的細胞狀態有關。

本文將Critic和Actor網絡的全連接神經網絡替換成LSTM神經網絡,改進后的Critic和Actor網絡如圖5所示,橫向按照空間維度展開,n代表LSTM的隱藏層數,縱向按照時間維度展開。

圖5 改進PPO算法下的Critic/Actor網絡結構Fig.5 Critic/Actor network structure based on the improved PPO algorithm

3 無人機自主引導模型建立

3.1 狀態和動作

在本文中,狀態S為速度坐標系下敵我雙方當前時刻位置、速度、角度等相對態勢,其表達式為

S=[PvTU,VvTU,φU,qT]T

(19)

狀態S包含8個變量。

動作A為滾轉角、法向過載、切向過載3個控制指令,即

A=a=[φ,ny,nz]T

(20)

動作A包含3個變量。

3.2 下一時刻狀態

在地球坐標系下,利用式(2)求解無人機的運動方程,計算出無人機下一時刻位置P′eU和速度V′eU,采用勻速直線運動公式求解目標下一時刻位置P′eT和速度VP′eT。同時計算無人機的經緯度,即L,B,以及地球坐標系下目標下一時刻相對無人機的位置P′eTU和速度V′eTU。

通過坐標系轉換,將P′eU,V′eU,P′eT,VP′eT,P′eTU,V′eTU投影到速度坐標系上,并利用式(5)、式(6)計算出下一時刻的φ′U,q′U,獲得下一時刻的狀態S′。

3.3 獎勵函數

1) 距離獎勵函數。

為使無人機盡快靠近目標,應使下一時刻的敵我距離小于當前時刻的距離,則設置距離獎勵為

(21)

式中:vmax為本機最大速度;vmaxΔt用于將距離獎勵歸一化。

2) 速度獎勵函數。

為使無人機盡快到達目標區域,目標相對無人機速度在目標相對位置矢量上的投影應當盡可能為負值,則設置速度獎勵為

(22)

vmax用于將速度獎勵歸一化。

3)角度獎勵函數。

引導過程中,當無人機的方位角φU及目標的進入角qT趨近于0°時,無人機在目標尾后,無人機處于優勢,當無人機的方位角φU趨近于180°時,無人機與目標背向飛行或在目標尾后,此時無人機處于劣勢,設置角度獎勵為

(23)

4) 任務約束獎勵函數。

當敵我距離小于完成任務的最小距離dmin時,引導成功,獲得正獎勵,而當敵我距離超出空戰范圍dmax時,引導失敗,獲得負獎勵,則設置任務約束獎勵為

(24)

5) 綜合單步獎勵。

綜上,本文建立的訓練模型總獎勵函數為各個獎勵函數的加權和,即

r=ω1r1+ω2r2+ω3r3+r4

(25)

式中,ω1,ω2,ω3分別為距離、速度、角度獎勵函數的權重,ω1+ω2+ω3=1??紤]到不同態勢下幾種因素產生的影響不同,應合理地分配各個權重,當敵我距離較大時,我機應適量提高速度、縮短距離以接近敵機,此時應增大距離權重ω1和速度權重ω2;當敵我距離較小時,應著重考慮角度獎勵函數,使無人機方位角φU和目標的進入角qT盡可能小,從而使敵機落入我機正前方區域,此時應增大角度權重ω3;任務約束獎勵r4與上述3個獎勵不同,不受敵我態勢的影響,因此權重設置為1。

3.4 無人機自主引導模型訓練流程

無人機自主引導模型涉及兩個模塊,如圖6所示,一個是PPO算法單元,與仿真環境交互生成決策指令,一個是仿真訓練環境,負責響應決策指令,生成戰場態勢數據。

圖6 無人機自主引導模型訓練流程Fig.6 Flow chart of UAV autonomous guidance model training

訓練流程如下所述:在仿真環境中,首先初始化敵我的運動參數,在一定范圍內隨機生成我機和敵機的經緯度及速度坐標系下的速度,計算出敵我相對位置、速度、角度,經過一系列坐標轉換獲得當前時刻速度坐標系下敵我相對狀態S,將狀態輸入至PPO算法單元,PPO算法單元輸出無人機控制指令A并反饋給仿真訓練環境,無人機通過控制指令A控制無人機機動,得到無人機下一時刻在地球坐標系下的位置和速度,同時,敵機根據初始化的速度更新運動參數,進而計算出下一時刻敵我相對狀態S′以及即時獎勵r,并將S′和r反饋給PPO算法單元,然后重復上述步驟;當PPO算法單元存儲一定長度的軌道片段{S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}時,分別計算Actor和Critic網絡的損失函數,并對網絡參數進行更新,利用更新后的網絡繼續與仿真環境交互,更新敵我的運動參數;直至滿足或破壞任務約束條件時,即引導成功或超出空戰范圍,此次訓練結束。

4 仿真驗證

假設敵我雙方的空戰在10 km×10 km×10 km的三維空域內進行,訓練回合數Pmax=30 000,無人機決策周期Δt=0.05 s,單回合內最大決策次數PLen=3000。將切向過載nz和法向過載ny的取值范圍設置為[-9g,9g],將滾轉角φ的取值范圍設置為[-180°,180°],以保證無人機機動模型的機動方式更接近真實無人機的機動方式。

本文完成了標準PPO算法和改進PPO算法模型的訓練。訓練過程中記錄每個回合的總獎勵,分別生成了兩種算法模型的獎勵函數曲線,如圖7所示。

圖7 獎勵函數曲線對比圖Fig.7 Comparison of reward function curves

由圖7可以看出,經過一定回合的訓練,兩種算法模型均能從環境中獲得正獎勵,決策能力逐漸增強,標準PPO算法模型大約經過16 000次的訓練之后,獎勵函數的值開始收斂并穩定在4左右;改進PPO算法模型大約經過11 000次的訓練之后,獎勵函數的值開始收斂并穩定在6左右。由此可見,結合了LSTM網絡的PPO算法模型學習能力更強,收斂速度較快。

訓練完成后分別對兩種算法模型進行了測試,測試結果如下。

1) 標準PPO算法模型仿真測試。

本次測試的敵我雙方初始化態勢:無人機在地球坐標系下初始坐標為(3 185 500.21 m,4 504 977.22 m,3 185 499.98 m),速度坐標系下的初始速度大小為135.27 m/s。目標在地球坐標系下的初始坐標為(3 185 621.32 m,4 505 988.49 m,3 185 852.52 m),速度坐標系下的初始速度大小為104.32 m/s。

該態勢下仿真測試結果如圖8(a)所示,標準PPO算法下的智能體成功地將無人機引導至勻速運動的目標區域?;睾祥_始時,無人機的高度低于目標高度,其采取盤旋加爬升的方式追蹤目標,但此次引導過程中無人機也做了一些無用的動作,經歷了多次盤旋,而且其運動軌跡不夠平滑。

圖8 敵我雙方運動軌跡Fig.8 Trajectories of two sides

2) 改進PPO算法模型仿真測試。

本次測試的敵我雙方初始化態勢:無人機在地球坐標系下初始坐標為(3 185 500.00 m,4 504 977.14 m,3 185 499.83 m),速度坐標系下的初始速度為194.27 m/s。目標在地球坐標系下的初始坐標為(3 185 350.11 m,4 504 389.25 m,3 186 907.54 m),速度坐標系下的初始速度為125.46 m/s。

該態勢下仿真測試結果如圖8(b)所示,當無人機航向偏離目標,智能體從仿真環境中獲取距離負獎勵,然后及時選擇合適的機動動作來改變無人機的航向,無人機采取右轉彎加俯沖的方式向靠近目標的方向飛行,直至從目標尾后追上目標,完成了作戰任務,可見,該算法下的智能體經過訓練之后學會了選擇合理有效的機動動作。

5 結論

本文提出了基于改進PPO算法的無人機自主引導方法,并針對敵我距離、角度、速度以及任務約束等因素設計了合適的獎勵函數。通過仿真測試結果可得:1)該方法決策一次動作的時間為0.05 s,可以進行實時有效的機動決策;2)對于任何初始狀態的無人機和目標,該方法均可實現無人機向機動目標區域的引導,具有泛化性;3)該方法結合了LSTM與強化學習,相比于標準PPO算法,提升了模型的收斂速度,增強了無人機機動的靈活性,提高了無人機的運動軌跡平滑度。

本文的研究對無人機自主近距空戰具有重要意義,但與實際空戰仍有一定差距,下一步的工作將針對實現導彈攻擊條件的問題進行研究。

猜你喜歡
敵我空戰坐標系
挪威軍方將接收升級版敵我識別系統
最強空戰王
獨立坐標系橢球變換與坐標換算
解密坐標系中的平移變換
坐標系背后的故事
空戰之城
意大利的“臺風”戰機演示模式—5反向敵我識別系統的空地識別能力
“85:0”的敘以空戰
極坐標系下移動機器人的點鎮定
漫36計 走為上
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合