?

基于優勢行動-評論的雷達自主干擾決策方法

2023-12-07 03:32曹育維

航天電子對抗 2023年5期

關鍵詞：雷達決策狀態

梁猛，王衛，余波，陳飛，曹育維

（中國航天科工集團8511 研究所，江蘇南京 210007）

0 引言

面對日益復雜的電磁環境，電子對抗雙方充分感知并分析環境中的各種信息，自適應地調整作戰狀態和智能地實施干擾決策是未來電子戰的主要發展趨勢［1］。在現代電子戰裝備作戰中，雷達作為電子對抗的主要載體，是對抗雙方奪取“制電磁權”的主要戰場之一。隨著技術的進步，雷達從傳統體制發展到現在的多功能新體制雷達。傳統雷達工作模式簡單，干擾樣式粗放控制，其相對固定的干擾策略面對敵雷達復雜多變的工作模式與眾多抗干擾措施，干擾效果有限［2］。而現代新體制雷達干擾信號樣式、干擾手段多樣，具有優秀的抗工作模式識別、抗干擾能力［3］。特別是在智能化方法的運用下，新體制雷達有了更高的感知能力和快速應變能力，使得敵方雷達識別困難，難以獲取己方工作模式的轉變情況，從而達到敵方利用基于知識庫匹配等技術無法快速實施有效干擾。

認知電子戰系統通常由認知偵察、認知干擾、作戰評估和動態規則庫4 個組成，其中認知干擾決策環節是認知電子戰系統的關鍵之一。國內方面，認知干擾決策有關領域的研究逐漸增多，包括干擾資源分配、干擾樣式選擇、干擾參數尋優［4-7］等。這些方法通常建立在充分或部分先驗知識的基礎之上，需構建雷達干擾與抗干擾對策矩陣來指導干擾方進行干擾決策，以期在對抗過程中獲得最高的干擾得益。

隨著深度學習、強化學習理論的突破，機器學習得益于深度學習的高維抽象學習與強化學習的智能學習決策特點，算法受到認知電子戰技術研究者的青睞，無先驗信息條件下的干擾決策問題也有了新的解決方案［8］。本文在分析強化學習與認知干擾決策基本原理的基礎上，將其應用在非合作環境下對敵方雷達干擾決策中，構建了雷達智能干擾決策模型，提出了基于優勢行動-評論的雷達自主干擾決策方法，可支撐電子戰背景下雷達智能干擾決策，提高干擾決策效率和準確率。

1 基本原理

1.1 認知干擾決策原理

認知電子戰是在傳統電子戰的基礎上，結合OODA環（感知、識別、決策、動作）的閉環學習過程所提出的新型智能化作戰理論。認知電子戰系統通常具有認知偵察、認知干擾、智能評估以及干擾知識庫［1］等能力。其中認知干擾決策功能是認知作戰的關鍵環節，負責根據認知偵察的結果，結合干擾知識庫實施自主干擾決策。

強化學習智能體通過與環境交互來獲得序貫問題的最優解［9］。本文是在雷達偵察信息的基礎上研究智能干擾決策方法，通過對戰場環境態勢的分析判斷，然后分配干擾任務、選擇干擾目標，并根據雷達的工作狀態實施合適的干擾策略。該過程映射到認知雷達干擾系統中，需要通過觀察敵方雷達的工作狀態，經過干擾激勵和行為學習過程，建立目標雷達的工作狀態與已有干擾樣式之間的最佳映射關系，從而針對靈活變化的雷達狀態實現干擾的快速響應，最終達到最優的干擾效果。而深度強化學習具有強大的環境感知能力和在與環境的交互中學習決策的能力，這與智能干擾決策的OODA 過程非常契合。

1.2 面向干擾決策的深度強化學習算法分析與選擇

雷達干擾決策過程是一個個OODA 環，本質上是一個序貫決策過程，對于這類問題的求解，強化學習算法成為研究的熱點，其中基于策略梯度的強化學習算法直接搜索最佳策略，如REINFORCE 算法［10］利用蒙特卡洛方法估計梯度策略，具有較好的穩定性，但樣本的利用效率較低，容易陷入局部最優的困境?；趦r值函數的強化學習算法通過獲取最優價值函數來隱式地構建最優策略，如張柏開［8］利用Q-Learning算法實現多功能雷達干擾任務自主決策與策略尋優，但該策略主要適用于少數雷達任務。為解決決策效率隨可執行任務增多而明顯下降的問題，張柏開［11］利用深度Q 學習（DQN）算法［12］將應用范圍拓展到高維度和連續空間，但算法存在訓練時間長、效率低的缺點，無法很好地滿足對抗的實時性。

行動-評論（AC）算法結合上述2 種方法的優點，分別由動作選擇網絡和動作評價網絡同時學習策略和價值函數［13］，結構如圖1 所示。為解決AC 算法容易過擬合和收斂性差的問題，發展出了A2C 算法，該算法繼承了DQN 的目標網絡，采用異步策略的Critic估計策略梯度，使訓練更加穩定簡單［14］。因此，本文選用A2C 算法應用于雷達多任務自主干擾決策。算法中Actor 網絡學習策略，根據當前策略θ和狀態s選擇動作作用于環境；Critic 網絡評價Actor 網絡的動作，并使用TD 算法學習Actor 網絡當前策略下的狀態值函數。通過TD 誤差用于反饋并更新Actor 網絡的策略參數。算法實現了動作價值評估和策略更新過程的相對獨立，Actor 可以對當前環境進行充分探索并進行策略更新，Critic 只需要負責評價策略的好壞，從而降低訓練樣本的相關性，提升了采樣效率和訓練速度。策略梯度更新的目的是學習一個使得期望累計獎勵值最大化的策略。A2C 算法的Critic 網絡和Actor 網絡更新方式如下。

圖1 Actor-Critic 算法架構

其中TD 誤差采用均方誤差損失函數來計算，則Critic 網絡的損失函數為：

式中，Gt=Rt+1+γRt+2+…+γn-1Rt+n+γt+nV(st+n)為累積獎勵，Gt-V(st)為優勢函數A。則Actor 的優化目標函數可以由式（2）給出。

式中，π*為最優策略，該公式的含義為當TD 大于0 時增強該動作的選擇概率，反之亦然，所以目標為最小化損失函數-La。

2 基于優勢行動-評論的雷達自主干擾決策方法

2.1 雷達自主干擾決策模型

如圖2 所示，基于優勢行動-評論的雷達自主干擾決策模型可用四元組抽象表示，即S，A，P，R，其中，S表示敵方雷達的工作狀態空間，假設雷達有N種工作狀態，則S={s1，s2，…，sN}，狀態可以是雷達的工作模式，如搜索、跟蹤等；A表示干擾智能體的可采取動作空間，動作空間是可執行的干擾樣式等，假設智能體可采取的干擾樣式有M種，則A={a1，a2，…，aM}；P為狀態轉移概率，即干擾智能體在一個狀態下采取一個動作a后達到下一個狀態的概率，記為P(s′|s，a)；R為獎勵函數，指干擾智能體在一個狀態完成一個動作后的獎勵，記為即時回報r(s，a)，獎勵是干擾方的干擾收益。該模型的核心問題是為決策者找到一個最優的策略：函數π(s)表示當前狀態下的動作。目標是最大化該策略的累積獎勵函數，即π*(s)=arg maxa∈AQ*(s，a)，其中，π*(s)為最優策略，Q*(s，a)為當前狀態下選擇動作的最優狀態-動作值函數。

圖2 基于A2C 算法的雷達干擾決策模型

干擾知識庫中預存儲雷達的工作狀態參數、干擾樣式及其對應的干擾效果等知識，干擾知識庫一方面為干擾決策提供先驗知識，另一方面也不斷在新的決策過程中修正知識庫中已有經驗和更新知識。理想情況下，假設先驗經驗充足且完善，雷達自主干擾決策僅需要從干擾知識庫中獲取知識即可。

2.2 基于優勢行動-評論的雷達干擾決策過程

文中雷達是非合作式目標，干擾方不能直接獲得雷達工作的各項參數，只能通過偵查手段對雷達的工作狀態和行為特征進行辨識，實現雷達威脅信號的感知。假設雷達的工作狀態（本文以工作模式為狀態）有N種，狀態集合表示為S={s1，s2，…，sN}；干擾智能體可采取的干擾樣式動作假設有M種，動作集合可表示為A={a1，a2，…，aM}；在當前時刻t，工作狀態為st，干擾方會根據偵查到的敵方雷達信號信息，識別出雷達的工作狀態。首先，對于該狀態從干擾知識庫橫向比較各干擾樣式參數得到與雷達干擾效果相關的參數，作為選擇下一步干擾動作的依據。同時，保留一定的探索新狀態的行為概率。當Actor 網絡根據知識及其當前策略選擇干擾動作后作用于敵方雷達，Critic網絡根據反饋信息對選擇的動作進行評價，指導actor網絡的更新。此時，完成一次“觀察-學習-反饋-再觀察”的訓練，并且A2C 學習模型獲得一次經驗樣本，即st，at，rt，Rt，st+1，其中rt是一次動作的即時獎勵，Rt是執行該動作后的累積獎勵期望。

此外，經驗樣本是存儲用于訓練當前評價網絡的輸入樣本，使用經驗樣本融合了模仿學習和經驗回放的思路，一方面，先驗知識作為經驗加速訓練網絡的效率，另一方面產生新的樣本可以存入并更新到知識庫中。在算法訓練階段可從經驗知識庫隨機抽樣樣本供策略網絡學習，這有助于減小學習樣本之間的相關性，提高樣本的利用效率。仿真實驗證明，先驗知識的加入能夠有效提升算法的學習效率。

本文假設雷達通過工作模式的轉變體現抗干擾，且雷達工作模式的轉變是由于干擾引起的，因此干擾方的干擾收益可以通過雷達工作模式的轉移評估得到。假設雷達的工作模式轉變服從以馬爾科夫決策過程，雷達有N種工作模式，記為S={s1，s2，…，sN}。以pij表示雷達從第i種工作模式轉移到第j種工作模式的概率。干擾方通過偵查設備統計一段時間的雷達工作模式，然后根據統計的方式計算工作模式的轉移概率，如：

進而可得到總的工作模式轉移概率矩陣，如：

假設干擾方可以實施的干擾樣式有M種，記為J={j1，j2，…，jM}，針對不同的干擾樣式，雷達工作模式轉移的概率不同，若將雷達受到第k種干擾時，雷達的工作狀態由i轉變到j的概率記為，則可以得到此時狀態的轉移概率為：

在實施干擾后，可能導致雷達的工作狀態發生變化，干擾方則根據干擾效果進行評估得到工作模式的轉移獎勵。不同的干擾樣式對雷達不同的工作狀態影響也不一樣，以各工作體制雷達為例，壓制干擾在雷達搜索模式效果好，在跟蹤模式時，欺騙干擾通常比噪聲干擾的效果更好。

通過上述分析，有效的干擾決策使得干擾更具有主動性和針對性，大幅提升干擾效能。為了計算雷達工作狀態轉換所反饋的干擾效果，借鑒文獻［11］中對不同工作模式進行威脅等級劃分的方法，定義雷達工作模式轉換的3 種情況：高威脅模式轉換到低威脅模式、低威脅模式轉換到高威脅模式以及威脅等級不變。那么受到第k干擾后，雷達從工作模式i轉移到模式j的獎勵函數設為有效的干擾動作會使得雷達的工作模式轉變且威脅等級下降。因此，在算法學習的過程中，干擾智能體的目的是使得雷達的威脅程度在最少的時間內達到最低。

雷達自主干擾決策流程主要分為5 個步驟，如圖3所示。

圖3 A2C 干擾決策方法流程圖

1）初始化算法網絡參數包括評價網絡參數w，策略網絡參數θ；初始化學習率α，折扣因子γ，動作探索貪婪策略因子ε；初始化干擾知識庫。

2）設置策略收斂條件，最大訓練回合數，每回合最大訓練迭代次數。

3）根據輸入的雷達干擾任務，干擾智能體通過偵查方分析環境得到雷達工作狀態st，Actor 網絡依據策略π 或分析經驗知識選擇動作at，基于該動作得到新的狀態st+1和獎勵rt，Critic 網絡輸入當前狀態與動作，輸出動作價值函數Vt；并保存和更新經驗知識st，at，rt，Rt，st+1到知識庫中。

4）計算優勢函數A，更新Critic 網絡，更新Actor網絡。

5）達到單回合最大迭代次數結束該回合，或達到最大訓練回合數結束訓練，或算法達到收斂狀態結束訓練。

3 仿真實驗分析

為驗證本文提出算法的可行性和有效性，本文以某多功能相陣控雷達為例，該雷達在工作過程中，可以自主完成搜索、跟蹤、識別和制導等任務。圍繞雷達工作的全過程，假設實驗中雷達工作模式有5 種，即關機、搜索、跟蹤（單目標跟蹤、多目標跟蹤）、綜合（邊搜索邊跟蹤）、制導，即{s0，s1，s2，s3，s4，s5，s6}。其中威脅等級依次上升，分別為0，1，2，3，4，5，6。動作為無干擾、壓制干擾（噪聲調制、射頻噪聲干擾、梳狀譜干擾）、欺騙干擾（假目標干擾、距速拖引干擾、靈巧噪聲干擾）7 種，記為{a0，a1，a2，a3，a4，a5，a6}。

DQN 算法是經典的深度強化學習算法，可解決未知對抗環境下對多功能雷達的干擾最優決策問題［11］。因此仿真實驗分別采用DQN 算法和A2C 算法進行對比測試，其中設置折扣因子γ=0.9，學習率為α=0.01，動作的初始探索率為ε=0.9，隨著訓練次數的增加，探索因子逐漸變小。

3.1 算法性能比較

實驗1 中，DQN 算法和A2C 算法的訓練回合數為800，記錄每回合訓練的平均動作值和平均損失誤差，結果如圖4 和圖5 所示。圖中顯示的是2 種算法的網絡模型策略隨著訓練次數增加的關系，可以看出隨著訓練次數的增加，DQN 算法和A2C 算法的平均動作值逐漸增加，且平均誤差逐漸減小，且相比于DQN 算法，A2C 算法收斂的速度更快，學習效率更高。當訓練回合數在0～200 之間，A2C 算法的平均動作價值迅速增加，損失函數減少但波動比較明顯，表明智能體在探索動作的過程中有明顯的學習過程。200 回合以后，損失函數穩定減小，表明A2C 智能體策略達到穩定的收斂狀態。而DQN 算法則在400 回合以后，智能體策略達到相對穩定的收斂狀態。

圖4 每回合平均動作值

圖5 每回合損失誤差

3.2 先驗知識對算法的影響

為驗證先驗知識對算法模型的學習存在的影響關系，實驗2 中分別設置100、200、400 條先驗經驗來預訓練智能體模型，得到的算法訓練結果如圖6 所示?？梢钥闯?，先驗知識對智能體的訓練和學習存在正向的促進關系，且隨著先驗知識的增多，智能體模型的學習效率更高，收斂速度更快。這表明，在特定的知識領域，專家知識對強化學習算法模型的學習具有巨大的輔助支撐作用。

圖6 先驗知識對算法學習效率的影響

4 結束語

智能干擾決策算法的關鍵是在相應的狀態下提供有效的干擾策略，本質上等效為一個序貫決策問題。本文在雷達干擾原理及深度強化學習算法分析的基礎上，提出了基于優勢行動-評論的自主干擾決策算法來解決不同雷達狀態下的自主干擾決策問題。仿真結果表明，在智能體通過大量的干擾策略動作與雷達環境狀態進行交互后，其能夠快速學習到最優的干擾策略，且在智能干擾算法的學習中，先驗知識能夠加快算法的學習效率，可為認知干擾決策的研究提供一定的理論支撐和指導意義。但是，干擾策略的決策還需進一步考慮干擾參數如干信比、占空比、假目標數量等參數的最佳選擇與適配，后續研究可根據典型的干擾樣式及其干擾參數的分析，結合具體的機器學習算法來實現更智能和深入的干擾決策應用。

猜你喜歡

雷達決策狀態

大自然探索(2023年7期)2023-08-15

為可持續決策提供依據

紡織科學研究(2021年9期)2021-10-14

小學生作文(低年級適用)(2019年5期)2019-07-26

決策為什么失誤了

中學生數理化·七年級數學人教版(2019年6期)2019-06-25

小學生學習指導(低年級)(2018年12期)2018-12-29

生命的另一種狀態

讀友·少年文學(清雅版)(2018年12期)2018-04-04

家庭百事通(2016年3期)2016-03-14

堅持是成功前的狀態

山東青年(2016年3期)2016-02-28

基于空時二維隨機輻射場的彈載雷達前視成像

火控雷達技術(2016年3期)2016-02-06

現代“千里眼”——雷達

百科探秘·航空航天(2015年4期)2015-11-07

航天電子對抗2023年5期

航天電子對抗的其它文章: 不同干擾情況下脈沖壓縮對雷達作用距離的影響; 基于多級模糊值搜索的干涉儀測向算法; 基于孿生支持向量機的無人機目標檢測算法; 通信信號智能調制識別對抗攻擊研究; 基于高階相關的盲突發信號檢測技術; 基于統計CSI 的雙層衛星協作波束成形算法

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合