?

基于路徑-博弈混合策略的無人機空戰機動決策*

2023-02-01 12:23張瀚文甘旭升魏瀟龍童榮甲

現代防御技術 2023年6期

關鍵詞：敵機空戰紅方

張瀚文，甘旭升，魏瀟龍，童榮甲

（1.空軍工程大學空管領航學院，陜西西安 710051；2.中國人民解放軍94188 部隊，陜西西安 710077）

0 引言

隨著無人機技術的發展，越來越多的有人機任務可被無人機替代，不斷加劇戰場的無人化進程［1］。特別是在空戰場領域，有人-無人協同作戰概念發展迅速，使得空中作戰樣式更為豐富，進一步增加了空戰在現代作戰中的地位作用［2］。其中，無人機空戰一直是世界各國研究的焦點，一旦走向實戰將徹底顛覆現代空戰作戰理念。但由于無人機自主決策能力的不足，無人機空戰始終無法走向實戰，成為限制無人機作戰應用的一大制約因素［3-4］，對此，國內外都展開了廣泛研究。

文獻［5］使用粒子群算法和人工勢場法相混合的方法實現無人機空戰機動決策，實現了一對一空戰的機動決策，決策規劃空間在三維空間內實施，但決策時長接近1 s。文獻［6］使用模糊數學的思想改進基本博弈決策機制，提出基于直覺模糊的空戰博弈決策算法，算法可在7 類機動動作間選擇決策，結合改進差分進化算法求解最優混合策略。但單純基于博弈策略僅能基于局部信息進行決策，缺少全局信息的考慮。文獻［7］通過生物免疫算法實現無人機的自主決策。免疫算法主要是通過模仿生物的免疫記憶過程實現算法的自學習功能，但該算法在較大空間內的規劃決策效率較低，算法效率受規劃空間影響顯著。文獻［8］在空中態勢判斷基礎上基于納什均衡理論實現敵機目標的分配，可實現多機協同空戰。但同樣只能利用局部信息進行決策。文獻［9］使用改進的Q-learning 算法實現無人機的機動決策，基于態勢信息矩陣進行多機目標協同，實現了多機空戰機動決策。但文中只對目標分配規劃效率指標進行了說明和優化，對單機機動決策的綜合耗時并未進行詳細說明。文獻［10］使用神經網絡實現無人機的空戰機動決策，但對神經網絡的訓練始終是技術的難點，想要進行完備的訓練和持續的優化具有較大的難度和工作量，若訓練不夠充分將持續影響決策品質，導致空戰失利。文獻［11］使用改進強化學習算法實現無人機的空戰決策機動，通過加入啟發式因子的方式提升學習算法尋優性能，具有一定參考價值。文獻［12］則是提出了一種基于強化遺傳算法的空戰機動決策算法，通過分類器的設計可改進傳統遺傳算法只能對顯式目標進行建模的缺陷，但該文對最終的規劃效率問題分析不透徹，而空戰問題對規劃效率有較高要求。

綜上所述，當前對無人機空戰機動決策問題普遍采用了神經網絡、仿生算法、強化學習、博弈論等方法，但在三維空間內進行規劃決策過程中，因為規劃空間較大，在規劃效率與規劃品質方面往往難以兼顧。本文將針對無人機空戰機動決策問題，基于強化學習和博弈理論提出一種混合算法，實現高效的機動決策。

1 飛行控制模型

無人機飛行控制模型是將機動決策指令轉換為機動動作的技術基礎。無人機空戰機動過程主要是垂直和水平方向上的機動，狀態的改變主要通過仰角、航跡偏角和速度的改變實現，控制量主要為滾角、轉彎率和推力變量。由此可以得出運動學方程為

式中：v為無人機速度；γ為無人機仰角；β為無人機航跡偏角。

無人機的動力學方程為

式中：m為無人機質量；L為無人機升力；F為無人機最大推力；η為無人機的推力系數；μ為無人機滾角；D為空氣阻力。

阻力、升力的計算方法又可以表示為

式中：q為動壓；S為機翼面積；ρ為空氣密度；Cd為阻力系數；Cl為升力系數?？刂谱兞繛?/p>

式（1）～（4）中部分變量根據機型性能具有一定約束范圍，可表示為

2 空戰機動戰術策略

空戰機動決策指令的形式必須要以現實空戰戰術需求為基礎，否則無法達成期望的戰術目的。敵我無人機在進行空戰對抗過程中，所做出的機動動作均是為了在規避敵方火控雷達鎖定和電子干擾的同時，將對方使用火控雷達鎖定，并發射空-空導彈擊毀敵機。機動方法主要是水平方向機動和垂直方向機動，其中水平機動更為重要。因為空戰對抗的空間范圍可發生在上百千米水平面內，但垂直空間范圍卻在20 km 范圍內，相對而言，垂直機動范圍要狹窄得多，在進入近距空戰前，垂直機動的效果有限。但為了避免進入近距空戰前丟失勢能優勢，在水平機動過程中應當保持高度上的優勢。因此，敵我雙方在空戰對抗過程中，機動策略應當分別制定。

本文將敵方火控雷達照射范圍假設為一個椎體，且具有一定作用距離。我方無人機在水平面上的機動應當避開敵機航跡水平投影方向上的扇面投影范圍，并使敵機進入我機火控雷達照射范圍，如圖1 所示。

圖1 水平機動策略Fig.1 Horizontal maneuver strategy

在垂直方向上，應當盡可能地保持高度勢能優勢，同時也利用垂直機動進入敵機火控雷達盲區，對敵機進行鎖定，如圖2 所示。

圖2 垂直機動策略Fig.2 Vertical maneuver strategy

圖2 中：ΔH為紅藍方高度差；θf為紅方火控雷達輻射角度。當無人機被對方火控雷達鎖定，則在每一個時間步長內都有一定概率被擊落，以紅方無人機為例展開介紹，攻擊命中概率計算可表示為

式中：θrb為紅藍方航向相對角；d為紅藍方無人機之間的距離；為紅方無人機的火控雷達輻射角，其作用角度范圍為為紅方無人機的火控雷達作用距離。紅藍方航向相對角θrb如圖3 所示。

圖3 無人機角度關系Fig.3 Angle relationship of UAVs

圖3 中，υr為紅方無人機航向向量，υrb為紅方無人機空間坐標指向藍方無人機空間坐標的向量。θrb的計算方法為

式（6）中的σb用于判斷藍方是否對紅方實施了電子干擾，假設電子干擾范圍假設與火控雷達工作范圍一致，則計算方法為

3 空戰機動決策算法

本文根據敵我雙方空戰對抗的基本戰術策略，構建空戰機動模型，由于無人機的水平機動控制和垂直機動控制可以進行解耦［13］，因此本文將機動決策過程同樣進行分離，先進行水平機動決策，再進行垂直機動決策。

3.1 水平機動決策算法

3.1.1 水平機動動態柵格環境構建

在以往基于路徑規劃的無人機機動決策研究中［14-15］，三維空間內的機動決策必須同等建立三維柵格環境，而后才能進行路徑規劃與機動控制。三維柵格環境具有建模簡便的優點，但也具有顯著的缺陷：一是規劃空間龐大，會使規劃速率大幅下降；二是規劃空間靜態，無法適應空戰對抗高分辨率、高不確定性、對抗范圍廣闊的需求。對此本文在水平、垂直決策相互解耦的前提下設計水平動態柵格環境。水平動態柵格環境與敵我雙方的相對水平位置有關，紅藍方在柵格環境中的柵格坐標始終不變，柵格坐標根據紅藍方位置旋轉變化，柵格分辨率根據相對距離自適應調整，如圖4 所示。

圖4 動態柵格環境Fig.4 Dynamic grid environment

規定動態柵格坐標與大地坐標之間的旋轉角順時針方向為負，則坐標變換公式為

式中：θg為柵格坐標與大地坐標之間的交角；（xg，yg）為某一柵格坐標；（x，y）為轉換后對應的大地坐標；?為無人機在柵格坐標中的位置向量與x軸形成的夾角，逆時針旋轉為正。

3.1.2 基于改進Q-learning 的機動決策

Q 學習（Q-learning，QL）算法是一種離軌策略下表格型的學習算法，由Watkins 提出［16-17］。在QL 算法中，學習機制的實現是通過Q 表來實現的，表格的列代表了智能體的轉移規則，行代表了智能體的多種狀態，表格中的每一個空格都用以記錄智能體的學習信息，信息的更新公式可表示為

式中：α為學習率；γ為折扣因子；s為當前時刻的狀態；a為當前時刻按策略π采取的動作；s'為下一時刻的狀態；a'為在s'狀態下能夠獲得最大回報的動作。智能體在Q 表中各個狀態之間的轉移按照隨機策略（ε-貪婪機制）進行轉移，學習機制則通過獎勵和懲罰實現［16］。由于智能體在每一步的轉移過程中只基于當前狀態信息，對全局信息利用率不足，會影響最終解的質量。在每一輪的智能體尋優過程中，對前期的學習信息并未加以利用，可能導致大量的無效學習過程，降低規劃效率。因此，應當對基本QL 算法做出改進，提升學習質量。本文使用雙Q 表算法（double Q-learning table algorithm，DQLT）記錄agent 的探索記錄。計算步驟為：

step 1：使用啟發式因子初始化后的Q1表進行探索。啟發式因子為狀態點與目標點之間的距離信息，距離越近，初始獎勵值越高。

step 2：開始新一輪探索，記錄智能體每一次的探索過程，直至達到滿足單輪學習的結束條件。結束條件可以是智能體達到目標點，也可以是探索步數達到規定值，避免陷入重復學習探索。

step 3：根據當前輪次的探索學習記錄，輸出一條路徑信息，并將路徑信息記錄于Q2表，使用Q2表信息覆蓋Q1表。

step 4：重復step 2～3，直至達到迭代次數。

step 5：輸出最后一次生成的路徑方案。

改進算法通過2 張Q 表的交替使用，使得智能體在探索過程中能夠充分利用已有學習信息，持續提升學習質量。啟發式因子的加入又減少了無效學習過程，加快收斂速度。

基于輸出的規劃路徑，無人機做出水平機動決策。若規劃路徑的第1 步為左轉、直行或右轉，則無人機做出左轉、直行或右轉的機動動作。

3.2 垂直機動決策算法

本文使用博弈策略實現無人機在垂直方向上的機動決策，首先應當建立支付函數。對于垂直方向上的優勢判斷并非一成不變，而是與態勢關系緊密相關，因此需要分情況討論。本文將其劃分為3類情況進行討論。

（1）威脅區內，未將敵機鎖定，未被敵機鎖定

此時無人機需要水平機動占據有利地位的同時，還需要積極取得勢能優勢，用于必要時候轉化為動能優勢，進行快速機動。但這一優勢并非無限擴大，只需要適當保持，若高度差過大，會影響對敵機的攻擊。支付函數可表示為

（2）威脅區內，將敵機鎖定

由于已經將敵機鎖定，此時無人機應當盡可能將敵機控制在火控雷達照射范圍內，因此應當縮小高度差，爭取更多雷達鎖定時間。支付函數可表示為

式中：τ3為常數。

（3）威脅區內，被敵機鎖定，且未鎖定敵機由于已被敵機鎖定，應當盡可能通過機動脫離火控雷達照射區域，此時的機動方向與敵機相對角大小成正比，越大越好。支付函數可表示為

式中：τ4為常數；為紅方第i種策略下藍方無人機指向紅方無人機的向量；υb為藍方無人機的方向向量。

若紅藍方無人機仍在威脅區之外，則不進行垂直機動，只進行水平方向機動前出接敵。由此構建無人機空戰博弈支付矩陣，可表示為

式中：x1，x2，…，xm為紅方無人機采取策略；y1，y2，…，yn為藍方無人機采取策略；frmn為紅方第m種策略與藍方第n種策略對抗下的支付函數值。在此假設紅方無人機只進行3 類垂直機動，分別為拉升、平飛和俯沖，則它的一個混合策略為

式中：

則可得出紅方的納什均衡值可表示為［18］

由于垂直機動樣式較少，因此對于混合策略的求解可以直接以遍歷的方式求出近似最優策略。

3.3 基于路徑-博弈混合策略的空戰機動決策

本文使用了在水平方向與垂直方向相互解耦的飛行控制模型，該模型并非所有機型都能夠適用，與飛機的氣動布局、飛行速度、使用需求等因素都相關，但該模型有效性已被大量研究所驗證［9，12，19］，因此具有一定合理性與現實意義。根據解耦的機動決策策略，本文使用改進QL 算法實現水平機動決策，使用納什均衡理論實現垂直機動決策，最終得出綜合的機動決策指令，機動決策混合算法流程如圖5 所示。

圖5 機動決策混合算法流程圖Fig.5 Flow chart of hybrid algorithm for maneuver decision-making

4 仿真驗證

論文仿真試驗主要基于Matlab 7.1 進行開發，所用電腦處理器為Snapdragon（TM）850，Win10 系統。開發環境對計算效果會有一定影響，但不影響算法性能對比。針對紅藍方單機對抗的情景進行仿真，驗證算法的有效性，算法基本參數設置如表1所示。

表1 參數設置Table 1 Parameter setting

根據決策算法輸出結果，水平機動的輸出為左轉、直行和右轉，對應控制變量滾角為-π/3，0，-π/3；垂直機動輸出上升、平飛和下降，對應控制變量迎角為-π/6，0，π/6；推力變量則根據態勢來輸出，分為威脅區外、威脅區內和被敵機鎖定3 種狀態，對應推力系數為0.8，0.9，1。

先進行水平機動決策算法驗證，同時驗證QL算法和改進QL 算法的決策效果。在柵格內的規劃路徑效果如圖6 所示。

圖6 算法路徑規劃對比Fig.6 Algorithm comparison of path planning

為體現改進QL 算法在動態對抗環境中的決策性能優勢，本文在二維平面內開展空戰對抗仿真驗證。但單次空戰對抗勝負具有偶然性，因此需要進行多倫空戰，通過勝率體現算法的性能。單次空戰對抗仿真如圖7 所示。

圖7 二維平面空戰對抗仿真Fig.7 Two-dimensional air combat confrontation simulation

通過20 次空戰對抗仿真，查看2 種算法勝率變化，如圖8 所示。

圖8 勝率變化曲線Fig.8 Winning rate change curve

通過多次的對抗試驗可以發現，在二維平面內，改進QL 算法具有更優的機動決策性能，最終勝率約為0.6，顯著高于原有算法。

進一步在三維空戰對抗環境中對2 種算法的使用效果進行對比，如圖9 所示。

圖9 空戰機動決策算法效果對比Fig.9 Effect comparison of air combat maneuver decision-making algorithms

從圖9 中可以看出，基本QL 算法因為較低的學習品質，會有很多誤決策，導致陷入不利態勢而被敵機擊落。算法的垂直機動決策耗時如圖10 所示。

圖10 垂直機動決策耗時Fig.10 Vertical maneuver decision-making time

從圖10 可知，垂直機動用時很少，機動決策的主要耗時在水平機動上，也是更為關鍵的技術內容。在此，進一步引入一種較為經典的路徑規劃算法——蟻群算法（ant colony algorithm，ACO）來作為對比研究，對抗過程中，蟻群算法作為紅方無人機，使用靜態三維柵格環境規劃路徑，改進QL 算法作為藍方無人機，對抗效果如圖11 所示。

從仿真機動效果來看，2 種算法都具有較好的決策性能，但從規劃用時來看，改進QL 算法具有更顯著的優勢。

ACO 算法與改進QL 算法的綜合規劃時間對比如圖12 所示。

圖12 決策算法綜合耗時對比Fig.12 Comprehensive time comparison of decisionmaking algorithms

從圖12 中可以看出，改進QL 算法規劃時間均可控制在1 s 之內，而蟻群算法則基本在3 s 以上。通過將垂直方向與水平方向的決策行為進行解耦后，可在保持較好決策效果基礎上，有效縮短決策時間，提升空戰對抗中對不確定情況的應對能力。

5 結束語

本文使用垂直與水平決策相解耦的方式來實現無人機的空戰機動決策。使用雙Q 表學習的方式改進基本QL 算法，提升智能體學習質量，實現無人機的水平機動決策；使用納什均衡理論實現無人機的垂直機動決策。針對無人機一對一空戰對抗的情景，使用仿真驗證了本文提出算法的有效性，對比傳統使用三維靜態柵格環境規劃路徑的算法，可有效縮減規劃規模，加快規劃速度，提升決策算法的戰場適用性。

猜你喜歡

敵機空戰紅方

如何在方格紙上確定位置

小學生學習指導·高年級(2023年8期)2023-11-19

最強空戰王

小哥白尼(軍事科學)(2022年1期)2022-04-26

沖著敵機，開炮！——M1939式37毫米高射炮

小學生學習指導(小軍迷聯盟)(2021年11期)2022-01-18

新中國建國后擊落入侵敵機大盤點

中國軍轉民(2017年11期)2018-01-31

軍營文化天地(2017年6期)2017-06-28

“85:0”的敘以空戰

百科探秘·航空航天(2015年10期)2015-11-07

試論棋例裁決難點

棋藝(2014年3期)2014-05-29

提示棋例的盲點

棋藝(2009年8期)2009-04-29

偷架敵機開回家

小哥白尼·軍事科學畫報(2009年6期)2009-02-03

大空戰——20世紀最著名的六次重大空戰

軍事歷史(1999年3期)1999-08-20

現代防御技術2023年6期

現代防御技術的其它文章: 美軍殺傷網概念研究及對我防空作戰裝備體系的啟示*; 美國國防太空體系架構發展淺析*; 反導裝備配置合理性評估研究*; 2022 年世界防空反導綜述及對我國發展啟示*; 艦載射頻角反射器裝備現狀與發展趨勢*; 俄烏沖突中民用高科技公司參戰研究*

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合