?

P3C-MADDPG算法的多無人機協同追捕對抗策略研究

2023-12-12 05:47高甲博肖瑋何智杰
指揮控制與仿真 2023年6期

高甲博 肖瑋 何智杰

摘 要:針對策略未知逃逸無人機環境中多無人機協同追捕對抗任務,提出P3C-MADDPG算法的多無人機協同追捕對抗策略。首先,為解決多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法訓練速度慢和Q值高估問題,在MADDPG算法中分別采用基于樹形結構儲存的優先經驗回放機制(Prioritized Experience Replay,PER)和設計的3線程并行Critic網絡模型,提出P3C-MADDPG算法。然后基于構建的無人機運動學模型,設計追逃無人機的狀態空間、稀疏獎勵與引導式獎勵相結合的獎勵函數、加速度不同的追逃動作空間等訓練要素。最后基于上述訓練要素,通過P3C-MADDPG算法生成策略未知逃逸無人機環境中多無人機協同追捕對抗策略。仿真實驗表明,P3C-MADDPG算法在訓練速度上平均提升了11.7%,Q值平均降低6.06%,生成的多無人機協同追捕對抗策略能有效避開障礙物,能實現對策略未知逃逸無人機的智能追捕。

關鍵詞:P3C-MADDPG;協同追捕對抗策略;優先經驗回放;Q值;多無人機

中圖分類號:E911文獻標志碼:ADOI:10.3969/j.issn.1673-3819.2023.06.002

Research on multi-UAV cooperative pursuit and confrontation

strategy based on P3C-MADDPG algorithm

GAO Jiabo1,2, XIAO Wei1, HE Zhijie1,3

(1. Army Logistics Academy,Military Logistics Department,Chongqing 400000, China; 2. Unit 95019 of the Peoples

Liberation Army,Xiangyang 441100, China; 3. Unit 31680 of the Peoples Liberation Army, Chongzhou 611230,China)

Abstract:Aiming at the cooperative pursuit and confrontation task of multiple UAVs in the unknown escape UAV environment, a multi-UAVs cooperative pursuit and confrontation strategy based on P3C-MADDPG algorithm is proposed. First, in order to solve the problem of slow training speed and over estimation of Q value of Multi-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm, In MADDPG algorithm, Prioritized Experience Replay (PER) based on tree structure storage and a parallel Critic network model with 3 threads are prioritized respectively, and the P3C-MADDPG algorithm is proposed. Then, based on the kinematics model of UAV, training elements such as state space, reward function combining sparse reward and guided reward, pursuit action space with different accelerations are designed. Finally, based on the above training elements, the P3C-MADDPG algorithm is used to generate the cooperative pursuit and confrontation strategy of multiple UAVs in the unknown escape UAV environment. Simulation experiments show that the P3C-MADDPG algorithm increases the training speed by 11.7% on average, and decreases the Q value by 6.06% on average. The generated multi-UAV cooperative pursuit and confrontation strategy can effectively avoid obstacles, and more intelligently realize the pursuit of unmanned aerial vehicles with unknown strategies.

Key words:P3C-MADDPG; coordinated pursuit and confrontation strategy;prioritized experience replay; Q value; multi-UAVs

收稿日期:2023-07-06

修回日期:2023-08-08

*基金項目:重慶市教委科學技術研究項目基金(KJZD-K202312903);陸軍勤務學院研究生科研創新項目基金(LQ-ZD-202209);陸軍勤務學院科研項目(LQ-ZD-202316);重慶市研究生科研創新項目(CYS23778)

作者簡介:

高甲博(1995—),男,碩士研究生,研究方向為無人機集群控制。

通信作者:肖 瑋(1982—),女,副教授,博士。

現代戰爭中,無人機被大量投入戰場,發揮成本低、靈活性強、冗余抗損等優勢,迅速成為影響戰爭態勢發展的關鍵力量[1]。多無人機協同追捕對抗任務是無人機在現代戰爭中的典型應用[2-6],其實質是多智能體智能決策問題。學術界中應用較多的基于數學模型和仿生的多無人機協同追捕對抗策略,往往需要已知逃逸無人機策略。如文獻[7]和[8]分別采用Voronoi圖和阿波羅尼奧斯圓理論方法解決多智能體協同追捕問題。文獻[9]和[10]分別提出仿鷹-歐椋鳥和仿灰狼智能行為和團隊合作行為,給出了無人機集群追逃控制方法。真實戰場環境中逃逸無人機的策略往往未知,因此對于策略未知逃逸無人機環境中多無人機協同追捕對抗任務研究更具重要意義和實用價值。

多智能體強化學習(Multi-Agent Reinforcement Learning,MARL)[11]具有對未知環境學習探索的特點。隨著MARL的廣泛應用,將其用于解決多無人機協同追捕對抗策略問題,是實現空戰智能決策的重要技術范式[12]。文獻[13]針對太空中多智能體之間的追逃博弈問題,應用MARL中的多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法對智能體運動策略進行訓練,使其涌現出“圍捕”“攔截”“合作”“潛伏”等系列智能博弈行為。文獻[14]將合作博弈中的凸博弈與非合作博弈中的馬爾科夫博弈相結合,提出用馬爾科夫凸博弈來解決智能體的協同對抗問題。文獻[15]在基于MARL中的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法基礎上,通過由易到難的課程學習方式不斷提高無人機追捕能力,有效提高了算法的泛化性。

MARL系列算法是基于探索學習的,通過多次訓練在一定程度上能實現對策略未知逃逸無人機的追捕。但由于經常采樣到價值較低的經驗數據,導致MARL系列算法訓練速度慢。且由于以最大Q值作為期望Q值,使得Q值出現高估問題,導致策略網絡訓練迭代目標不準確,影響生成策略的智能性。為此,文獻[16]從經驗回放池數據著手,將并行、優先經驗回放的思想融入MADDPG算法中,采用[M/N]個線程對經驗池數據并行處理,選擇損失函數值最小的線程網絡梯度參數更新主網絡梯度參數,在相同時間內使得經驗數據的吞吐量擴展至[M/N]倍,從而提升訓練速度。文獻[17]將優先經驗回放(Prioritized Experience Replay,PER)機制與傳統深度強化學習算法和匈牙利算法相結合,提高高價值經驗數據的利用率,加快算法收斂速度。文獻[18]為解決深度Q網絡(Deep Q-Network,DQN)算法Q值高估的問題,對目標網絡和當前網絡獨立地進行價值估計,將最優動作選擇和價值評估分開進行,一定程度解決Q值高估帶來的影響。文獻[19]通過選取雙Critic網絡中較小的估計Q值計算損失,相較于MADDPG算法有了更好效果。上述研究和改進大多應用在較為理想的任務環境,對于策略未知逃逸無人機等環境中多無人機協同追捕對抗任務研究較少。

針對上述問題,本文開展存在策略未知逃逸無人機環境中多無人機協同追捕對抗任務研究。首先為提高訓練速度,加快算法收斂,采用基于樹形結構儲存的PER機制[20-21]對MADDPG算法隨機采樣過程進行改進。為解決MADDPG算法存在Q值高估問題[22],設計3線程并行Critic網絡模型,提出P3C-MADDPG(P—PER,3C—3線程并行Critic網絡模型)算法。然后基于構建的無人機運動學模型,設計追逃無人機的狀態空間、稀疏獎勵與引導式獎勵相結合的獎勵函數、加速度不同的追逃動作空間等訓練要素。最后基于上述訓練要素,通過P3C-MADDPG算法生成策略未知逃逸無人機環境中多無人機協同追捕對抗策略。

1 P3C-MADDPG算法

1.1 P3C-MADDPG算法原理

P3C-MADDPG算法原理如圖1所示。首先,進行馬爾科夫博弈(Markov game)[23]。各智能體依據當前t時刻的環境狀態St,通過Actor網絡選取動作At并執行,各智能體獲得獎勵Rt并進入下一狀態St+1,產生以D=(St,At,Rt,St+1)為一組的訓練數據。

其次,設計基于樹形結構儲存的優先經驗回放機制(PER)。每組訓練數據及其優先級(D,p)存入樹形結構經驗池的葉子中作為經驗數據。當經驗池中儲存的經驗數據量達到池子一半大小時,依據采樣概率,采樣m組優質經驗數據。同時計算經驗數據的重要性采樣權重,用于修正經驗數據分布。

再次,設計3線程并行Critic網絡模型。該模型由3個相同的Critic評價網絡并行組成,通過3個Critic評價網絡同時對Q值進行估計。

最后,使用采樣的經驗數據對每個智能體的Actor網絡和3線程并行Critic網絡模型進行訓練。當每局平均收益獎勵值變化低于某閾值時,說明算法訓練達到收斂狀態,此時智能體的Actor網絡和3線程并行Critic網絡參數實現穩定。

1.2 P3C-MADDPG算法關鍵技術

1.2.1 基于樹形結構儲存的優先經驗回放機制

MADDPG算法經常采集到大量價值很小的經驗數據用于對網絡模型進行訓練,導致算法訓練過慢。為此,在P3C-MADDPG算法中設計基于樹形結構儲存的優先經驗回放機制,更多采樣對網絡模型參數更新作用大的經驗數據,具體過程如下:

1)計算訓練數據優先級p。以TD-error為價值標準對訓練數據的優先級進行衡量[24-26]

式中,TD-error為在時序差分(temporal-difference,TD)中當前估計的Q值和其目標Q值的損失差值。當損失差值越大時,證明該組訓練數據需要進一步地學習和探索,優先級更高;為大于0的小常數,用于保證所有的p>0。

2)存儲訓練數據及其優先級至樹形結構經驗池。在馬爾科夫博弈中,會持續產生新的訓練數據并存入經驗池,得到網絡模型訓練所需的經驗數據,因此經驗池始終保持更新狀態。若每次更新都對池中經驗數據按優先級排序將非常耗時,影響網絡模型訓練速度。為此,本文利用樹形結構解決這一問題。在樹形結構的葉子節點上存儲每組訓練數據及其優先級(D,p)作為經驗數據,而父節點只需存儲兩個分叉子節點優先級之和p=pj+pk,根節點為所有經驗數據優先級之和p=∑pj,采用這種數據結構,可以省去訓練數據按優先級排序的過程,大大降低計算復雜度。

3)計算經驗數據的采樣概率Pji。采樣時,將根節點的優先級之和除以采樣量m,分成m個區間,在每個區間內隨機選取一個數,并選擇該數對應的經驗數據,從而采樣到m組經驗數據。智能體i采樣第j組經驗數據Dj概率Pji

式中,k為當前經驗池中儲存的經驗數據個數,pji為智能體i抽取的第j組經驗數據的優先級,α為一個0到1的數,用來控制隨機采樣和貪婪采樣的調節系數。

4)使用重要性采樣權重修正經驗數據分布。未使用PER時,經驗池中的經驗數據服從獨立同分布,而PER會有偏地改變這一分布,比如一個TD-error較大的經驗數據A,網絡模型在梯度下降時總會從A方向進行。因此還需加入重要性采樣方法,這樣既保證每組經驗數據被選到的概率不同,加快訓練速度,又保證在訓練時每個經驗數據在梯度下降時的影響相同,從而保證結果收斂。智能體i采樣Dj經驗數據重要性采樣權重ωji定義為

式中,m為樣本數;β為一個0到1的采樣偏置指數,用來調整偏置修正程度,在代碼設置中β會隨訓練次數線性遞增。同時為防止計算中浮點數的誤差累計造成誤差爆炸,對采樣權重ωji進行歸一化處理:

式中,maxi,k(ωki)為m組經驗數據內最大經驗數據權重,k為最大經驗數據權重的序號。

1.2.2 3線程并行Critic網絡模型的P3C-MADDPG網絡架構

1)3線程并行Critic網絡模型設計

MADDPG算法中,目標Critic網絡以最大值作為期望值獲得其Q值,相對于真實期望Q值普遍存在高估問題,將最終導致策略網絡訓練迭代目標不準確,影響生成策略的智能性,例如:無人機在避障、防碰上不夠智能,對策略未知逃逸無人機的跟蹤缺乏持續性。為此,在P3C-MADDPG算法中,通過構建3線程并行Critic網絡模型,通過對3線程并行Critic網絡的輸出Q值求平均,從而降低Q值。若采用2線程并行Critic網絡的輸出Q值求平均,對Q值的高估校正幅度太小,采用3線程以上并行Critic網絡的輸出Q值求平均時,計算量過大,影響算法訓練速度,因此選擇設計3線程并行Critic網絡。

3線程并行Critic網絡模型的P3C-MADDPG網絡架構如圖2所示,每個智能體具備8個網絡,分別為1個當前Actor網絡和1個目標Actor網絡,3個當前Critic網絡和3個目標Critic網絡。訓練時,只訓練當前網絡并更新其參數,目標網絡參數在當前網絡參數更新一定次數后,依據其參數進行更新。因此設計目標Actor網絡和3線程并行目標Critic網絡目的:一是防止訓練中,每次網絡參數更新幅度過大導致訓練過程不穩定;二是采用時序差分法,將目標網絡輸出的Q值作為真實Q值,再通過貝爾曼方程計算目標函數用于得到Critic網絡的損失。

2)P3C-MADDPG網絡訓練

第一步:智能體i選取經驗池中第j組經驗數據Dj=(Sjt,Ajt,Rjt,Sjt+1)進行訓練,其中全局狀態Sjt=(sjt,1,…,sjt,N),Ajt=(ajt,1,…,ajt,N),Rjt=(rjt,1,…,rjt,N),Sjt+1=(sjt+1,1,…,sjt+1,N),N為智能體的個數,(sjt,i,ajt,i,rjt,i,sjt+1,i)為智能體i局部狀態。Actor網絡采用“去中心化”方式執行,輸入智能體i分別在時刻t和t+1的局部觀測狀態sjt,i和sjt+1,i,輸出決策動作ajt,i和ajt+1,i,3線程并行Critic網絡采用“中心化”訓練,分別依據全局觀測狀態Sjt、Sjt+1和全局動作狀態Ajt、Ajt+1對智能體i的狀態動作進行評價,得到Q1,i、Q2,i、Q3,i和Q′1,i、Q′2,i、Q′3,i值。因此,P3C-MADDPG算法屬于“中心化訓練、去中心化執行”類型的算法。

目標函數yji

式中,rjt,i為智能體i在t時刻動作獎勵值;γ為折扣因子。

智能體i的3線程并行當前Critic網絡的損失函數Li,η(wti,η)定義為

式中,t為當前時刻;m為抽取的樣本數量;η為Critic網絡編號,η=1,2,3;Qη,i(Sjt,Ajt;wti,η)為當前第η個Critic網絡通過第j組經驗數據輸出的狀態動作值;wti,η為第η個當前Critic網絡參數;yji為目標函數值;ωji為第j組經驗數據的重要性采樣權重,對PER帶來的經驗數據分布偏差進行修正。

第二步,利用隨機梯度下降法更新當前Critic網絡參數wt+1i,η,表示為

式中,wt+1i,η為智能體i在t+1時刻第η個當前Critic的網絡參數;α為Critic網絡的學習率;▽·表示梯度計算。

第三步,隨機選擇1個當前Critic網絡輸出的Q值計算Actor網絡梯度▽θtiJ,利用梯度上升法,更新Actor網絡參數θt+1i,表示為:

式中,θti為智能體i在t時刻當前Actor網絡的網絡參數;θt+1i為其t+1時刻當前Actor的網絡參數;β為Actor網絡的學習率參數;▽·表示梯度計算。

第四步,更新目標Actor和Critic網絡參數θt+1i、wt+1i,η,表示為:

式中,τ為0到1的常數。

2 基于P3C-MADDPG算法的多無人機協同追捕對抗策略

2.1 任務描述與建模

2.1.1 策略未知逃逸無人機環境中多無人機協同追捕對抗任務描述

如圖3所示,策略未知逃逸無人機環境中,多無人機協同追捕對抗任務表示為在一個大小已知的二維平面空域內,由n架追捕無人機對一架策略未知逃逸無人機進行追捕、監視和驅離。追捕無人機的追捕策略和逃逸無人機的逃逸策略都通過P3C-MADDPG算法生成,雙方在不斷對抗訓練中完善自身策略。圖中,pnn=1,2,3和e分別代表追捕無人機和逃逸無人機,vi=vix,viyi=pn,e為追逃雙方無人機的速度,其中vix、viy分別為無人機沿x軸、沿y軸的速度分量,dcap為追捕無人機對逃逸無人機的有效監視距離,dsaf為旋翼式無人機的最小安全飛行空間。

追捕成功的條件:在規定時間120 s內,所有追捕無人機與逃逸無人機的距離dpne滿足dcap≥dpne≥dsaf,且vpn和ve方向一致,|vpn|-|ve|≤0.3 m/s。

逃逸成功的條件:在規定時間120 s內逃逸無人機與所有追捕無人機的最小距離min dpne>dcap。

追捕過程中約束條件:1)任意兩架無人機之間的距離dij>dsaf;2)無人機不能碰到無規則邊界障礙物;3)無人機不能超出邊界。

2.1.2 旋翼式無人機運動學模型建立

以旋翼式無人機[27]為例,建立無人機運動學方程為

式中,xi,yi為無人機的位置;ai為無人機的加速度,aix、aiy分別為無人機沿x軸、沿y軸的加速度。

在無人機實際控制中,受動力因素的影響,其速度、加速度的約束限制為

式中,axmax、aymax分別為無人機在x軸、y軸的最大加速度;vmax為無人機最大速度。

無人機的運動范圍不能超出環境邊界,其位置需滿足:

式中,xmin、xmax、ymin、ymax分別為環境邊界的最小、最大橫坐標和最小、最大縱坐標。

2.2 多無人機協同追捕對抗策略的訓練要素設計

依據1.1節可知,P3C-MADDPG算法決策時需要獲取環境狀態信息S,從無人機所有可能執行的動作中確定一個動作A輸出并執行,同時對動作好壞給予相應獎勵R。因此,需要結合在策略未知逃逸無人機環境中多無人機協同追捕對抗任務,為基于P3C-MADDPG算法生成多無人機協同追捕對抗策略設計所需的訓練元素,包括追逃無人機的狀態空間、稀疏獎勵與引導式獎勵相結合的獎勵函數、加速度不同的追逃動作空間。

2.2.1 狀態空間設計

狀態空間S是無人機與環境交互時,能夠獲取環境中有價值的全部信息,也是無人機做出良好決策的重要依據。全面合理的狀態空間可以確保多無人機在強化學習算法控制下完成追捕對抗任務。因為P3C-MADDPG算法的特點是“中心化訓練,去中心化執行”,所以在訓練結束執行時,是一個完全分布式的控制方法,無人機只需掌握自身局部觀測信息,無須與其他無人機之間進行通信。

追捕無人機的狀態空間Sp主要包括自身信息spi、友方信息spj、逃逸無人機信息se、約束條件信息inf,表示為

自身信息spi包含自身位置坐標和加速度;友方信息spj包含兩架友方無人機的相對位置坐標;逃逸無人機信息se包含逃逸無人機的相對位置和加速度;約束條件信息inf包含與其他無人機是否碰撞、是否躲避障礙物、是否超出邊界。

逃逸無人機的狀態空間Se主要包括自身信息se、追捕無人機信息spn、約束條件信息inf,表示為:

自身信息se包含自身位置坐標和加速度;追捕無人機信息spn包含n架追捕無人機的相對位置;約束條件信息inf包含與其他無人機是否碰撞、是否躲避障礙物、是否超出邊界。

2.2.2 獎勵函數設計

獎勵函數R依據追捕和逃逸任務以及約束條件,將稀疏獎勵和引導式獎勵相結合,解決稀疏獎勵造成的算法難收斂問題。引導式獎勵對無人機追逃過程中每個動作都給予獎勵或懲罰,稀疏獎勵只在目標達成時給予獎勵,兩者結合既能引導無人機不斷接近目標,也能在無人機達到目標時給予與其他動作不同的獎勵。追捕和逃逸無人機的目標任務相反,分別設計其獎勵函數。

追捕無人機獎勵函數Rp(其中01,a2,a3,a4,a5<1為調節系數,且滿足a1+a2+a3+a4+a5=1)設計為:

1)追捕距離獎勵Rp1

為保證追捕任務的時效性,每時間步長會收到負獎勵,通過引導式獎勵使得追捕無人機快速追捕。

2)追捕成功獎勵Rp2

當滿足追捕成功條件時,采用稀疏獎勵給予追捕無人機正向反饋。

3)碰撞獎勵Rp3

當兩架無人機之間距離小于最小安全飛行空間距離,說明兩架飛機發生了碰撞危險,對這一錯誤行為采用稀疏獎勵給予懲罰。

4)避障獎勵Rp4

式中,diz為無人機與障礙物的距離。當無人機與無規則形狀的山體障礙物和云朵障礙物發生碰撞時,采用稀疏獎勵對當前位置狀態下的無人機行為動作給予懲罰。

5)邊界獎勵Rp5

式中,dib為無人機與邊界的距離。當無人機距離邊界距離小于無人機最小安全飛行空間距離時,表征無人機飛行位置超出空域邊界,采用稀疏獎勵給予懲罰。

逃逸無人機獎勵函數Re設計為:

1)逃逸距離獎勵Re1

式中,b1為調節系數(01<1)。當逃逸無人機超出追捕無人機的有效監視距離時,采用引導式的獎勵引導逃逸無人機遠離追捕無人機。

2)逃逸無人機在碰撞獎勵Re2、避障獎勵Re3、邊界獎勵Re4與追捕無人機設計完全相同。

2.2.3 動作空間設計

動作空間A包括無人機在追捕對抗任務中可能執行的所有行為,一般堅持簡單高效的原則,本文以旋翼式無人機為例設計動作空間。

旋翼式無人機在角速度上要求較低,主要通過橫向和縱向的加速度對無人機進行控制,因此動作空間設計為沿x軸加速度aix、沿y軸加速度aiy。假設逃逸無人機選用動力更強的旋翼式無人機,兩者動作空間參數相同,但逃逸無人機的數值更大。動作空間A表示為

2.3 基于P3C-MADDPG算法的多無人機協同追捕對抗策略生成

基于P3C-MADDPG算法的多無人機協同追捕對抗策略生成過程如表1所示。

3 仿真實驗與分析

本節通過建立策略未知逃逸無人機環境中多無人機協同追捕對抗環境,對P3C-MADDPG算法在訓練快速性、降低Q值高估有效性、生成的多無人機協同追捕對抗策略的智能性進行驗證。

3.1 實驗環境及參數設置

實驗采用Pycharm Community 2023.1和Anaconda3平臺,仿真環境使用Python語言編寫,深度學習框架采用Pytorch1.10模塊,強化學習環境框架采用OpenAI Gym0.10.5模塊。訓練超參數設置如表2所示。

多無人機協同追捕對抗任務實驗環境示意圖如圖4所示,環境參數設置如表3所示。對抗環境在一個長100 m、寬60 m的二維戰場區域內,戰場內存在兩個無規則邊界的山體障礙物和云朵障礙物,障礙物位置固定。3架追捕無人機和1架逃逸無人機從初始位置出發,分別在P3C-MADDPG算法的控制下進行追逃對抗任務,實驗規定在120 s的時間內,任意一方在滿足約束條件的情況下達到追捕成功或逃逸成功者獲勝。

3.2 算法訓練快速性實驗

為驗證P3C-MADDPG算法相對于應用優先經驗回放機制的PER-MADDPG算法在訓練快速性上更加優越,本次實驗進行150局的訓練,將每局中追捕無人機的平均累計收益獎勵收集并繪制收益曲線圖,曲線增長越快說明算法訓練時間越短。PER-MADDPG算法累計收益獎勵曲線圖如圖5所示,P3C-MADDPG算法累計收益獎勵曲線圖如圖6所示。

圖中橫坐標為訓練局數,縱坐標為3架追捕無人機在每局訓練中平均累計收益獎勵值。從圖5和圖6中可以看出,剛開始訓練時,追捕無人機處于探索階段,累計收益獎勵較低,隨著訓練次數增多,追捕無人機的追捕策略逐漸智能化,累計收益獎勵增高。對于PER-MADDPG算法,在訓練第60局時累計收益獎勵曲線基本實現平穩,算法基本收斂。P3C-MADDPG算法在訓練第50局時累計收益獎勵開始實現平穩,算法實現收斂狀態??梢奝3C-MADDPG算法的收斂速度明顯更快,并在收斂區域內的累計收益獎勵曲線更加平穩。

通過多次實驗,每次實驗達到收斂時,P3C-MADDPG算法所需訓練局數以及相對于PER-MADDPG算法在訓練快速性上的提升率如表4所示。在訓練快速性上P3C-MADDPG算法相對于PER-MADDPG算法平均提升11.7%。

3.3 降低Q值高估實驗

為驗證P3C-MADDPG算法在降低Q值高估的有效性。在訓練過程中,統計兩種算法的目標Q值如圖7所示,橫坐標為訓練次數,縱坐標為訓練中目標Critic網絡估計Q值的累計值,本次實驗中P3C-MADDPG算法在訓練過程中降低目標Q值高估6.25%。通過多次實驗,目標Q值高估降低率如表5所示??梢奝3C-MADDPG算法有效平均降低目標Q值高估6.06%,改進效果明顯。

3.4 策略智能性實驗

為驗證基于P3C-MADDPG算法生成的策略相對于MADDPG算法更具智能性,將兩種算法都應用于生成多無人機協同追捕對抗策略,通過實驗結果分析兩種策略的控制效果哪種更佳。經過150局的訓練,兩種策略的控制效果如圖8所示。

圖8a)中,對于第一種策略,dp1p3=6.03 m>dsaf=6 m快要碰撞時,兩者的速度Vp1和Vp3并沒有改變航向,繼續保持原有方向繼續飛行,可以看出兩架追捕無人機沒有學會在這種狀態下如何防止碰撞,而且P3和E無人機都出現了與邊界距離為dp3b=1.02 msaf/2,deb=0.89 msaf/2的情況,遠離邊界的策略不佳;對于第二種策略,在dp1z=5.46 m,dez=3.12 m時(接近無人機最小安全飛行空間距離的一半dsaf/2=3 m),P1無人機和E無人機都改變了原有的運動趨勢,做出了遠離山體的動作,學會了如何規避障礙物,使得自身具備躲避障礙物的能力。

圖8b)中,對于第一種策略,在dp2b=7.82 m時,P2無人機能夠轉變運動方向遠離戰場邊界。在dp3z=5.31 m時,P3無人機能夠減速并轉變運動方向,具備了避障能力;對于第二種策略,dp1p3=7.27 m時,Vp1p3且方向不同,P1和P3無人機都自主地采取動作防止碰撞,具備了己方之間防碰撞的能力。同時dp3b=4.74 m時,P3無人機改變運動方向遠離戰場邊界,具備遠離邊界的能力。

圖8c)中,紅色虛線圓半徑為7 m。兩種策略實現了三架追捕無人機與逃逸無人機的距離dpne滿足dcap≥dpne≈7 m≥dsaf,速度Vpn和VE方向一致,|Vpn|-|VE|≤0.1 m/s≤0.3 m/s。但第一種策略在監視過程中,當dp2z=2.6 msaf/2時,P2無人機沒有改變運動方向,會與山體障礙物發生碰撞,不滿足約束條件。從圖8d)可知,第一種策略在140 s時追捕無人機追到逃逸無人機,第二種策略只用了120 s,因此,只有第二種基于P3C-MADDPG算法生成的策略滿足所有追捕成功條件。

從整體追捕效果分析,基于P3C-MADDPG算法的策略實現了三架追捕無人機對逃逸無人機的追捕,基于MADDPG算法的策略在追捕過程中出現多種不滿足約束條件的情況,而且達到穩定監視狀態的用時較長。因此,基于P3C-MADDPG算法的策略能夠使得無人機學會自主處理無人機之間防碰撞、與障礙物避障、遠離邊界等問題,并且三架追捕無人機相互之間協同對快速移動的逃逸無人機完成了追捕。

4 結束語

本文針對策略未知逃逸無人機環境中多無人機協同追捕對抗任務,提出P3C-MADDPG算法的多無人機協同追捕對抗策略。通過實驗證明,P3C-MADDPG算法在訓練速度上平均提升11.7%,Q值平均降低6.06%,多無人機協同追捕對抗策略不僅滿足避障、防碰、不超出邊界的約束條件,而且能夠更好地完成對策略未知逃逸無人機的智能追捕。

1)提出P3C-MADDPG算法。在理論上闡述P3C-MADDPG算法如何加快訓練速度和解決Q值高估問題,介紹P3C-MADDPG算法的設計原理,著重對算法中,基于樹形結構的優先經驗回放機制和3線程并行Critic網絡模型的P3C-MADDPG算法網絡架構進行詳細闡述。

2)基于P3C-MADDPG算法生成多無人機協同追捕對抗策略。通過構建旋翼式無人機運動學模型,設計追逃無人機的狀態空間、稀疏獎勵與引導式獎勵相結合的獎勵函數、加速度不同的追逃動作空間等訓練要素,采用P3C-MADDPG算法生成策略未知逃逸無人機環境中多無人機協同追捕對抗策略。

參考文獻:

[1] 朱超磊, 金鈺, 王靖嫻, 等. 2022年國外軍用無人機裝備技術發展綜述[J]. 戰術導彈技術, 2023(3): 11-25, 31.

ZHU C L, JIN Y, WANG J X, et al. Overview of the development of foreign military UAV systems and technology in 2022[J]. Tactical Missile Technology, 2023(3): 11-25, 31.

[2] 樊會濤, 閆俊. 空戰體系的演變及發展趨勢[J]. 航空學報, 2022, 43(10): 527397.

FAN H T, YAN J. Evolution and development trend of air combat system[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43(10): 527397.

[3] SHAO S K, LI H Z, ZHAO Y J, et al. A new method for multi-UAV cooperative mission planning under fault[J]. IEEE Access, 2023(11): 52653-52667.

[4] ZHANG J D, YANG Q M, SHI G Q, et al. UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning[J]. Journal of Systems Engineering and Electronics, 2021, 32(6): 1421-1438.

[5] XU C, XU M, YIN C J. Optimized multi-UAV cooperative path planning under the complex confrontation environment[J]. Computer Communications, 2020(162): 196-203.

[6] 王文飛, 茹樂, 陳士濤, 等. 基于元模型的有人/無人機協同空戰概念研究[J]. 電光與控制, 2022, 29(12): 51-57.

WANG W F, RU L, CHEN S T, et al. Research on the concept of manned/unmanned aerial combat based on metamodel[J]. Electronics Optics & Control, 2022, 29(12): 51-57.

[7] 張云赫, 蘇立晨, 董云帆, 等. 基于Voronoi圖最近鄰協商的多機協同追捕方法[J]. 哈爾濱工程大學學報, 2023, 44(2): 284-291.

ZHANG Y H, SU L C, DONG Y F, et al. Cooperative pursuit of multiple UAVs based on Voronoi partition nearest neighbor negotiation[J]. Journal of Harbin Engineering University, 2023, 44(2): 284-291.

[8] 張澄安, 鄧文, 王李瑞, 等. 基于阿波羅尼奧斯圓的無人機追逃問題研究[J]. 航天電子對抗, 2021, 37(5): 40-43, 48.

ZHANG C A, DENG W, WANG L R, et al. Research on UAV pursuit and evasion based on Apollonius circle[J]. Aerospace Electronic Warfare, 2021, 37(5): 40-43, 48.

[9] 于月平, 袁莞邁, 段海濱. 仿鷹-歐椋鳥智能行為的無人機集群追逃控制[J]. 指揮與控制學報, 2022, 8(4): 422-433.

YU Y P, YUAN W M, DUAN H B. Pursuit-evasion control for UAV swarm imitating the intelligent behavior in hawks-starlings[J]. Journal of Command and Control, 2022, 8(4): 422-433.

[10]彭雅蘭, 段海濱, 張岱峰, 等. 仿灰狼合作捕食行為的無人機集群動態任務分配[J]. 控制理論與應用, 2021, 38(11): 1855-1862.

PENG Y L, DUAN H B, ZHANG D F, et al. Unmanned aerial vehicle swarm dynamic mission planning inspired by cooperative predation of wolf-pack[J]. Control Theory & Applications, 2021, 38(11): 1855-1862.

[11]HAN X Y. Application of reinforcement learning in multiagent intelligent decision-making[J]. Computational Intelligence and Neuroscience, 2022: 1-6.

[12]章勝, 周攀, 何揚, 等. 基于深度強化學習的空戰機動決策試驗[J]. 航空學報, 2023, 44(10): 122-135.

ZHANG S, ZHOU P, HE Y, et al. Air combat maneuver decision-making test based on deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(10): 122-135.

[13]許旭升, 黨朝輝, 宋斌, 等. 基于多智能體強化學習的軌道追逃博弈方法[J]. 上海航天(中英文), 2022, 39(2): 24-31.

XU X S, DANG Z H, SONG B, et al. Method for cluster satellite orbit pursuit-evasion game based on multi-agent deep deterministic policy gradient algorithm[J]. Aerospace Shanghai(Chinese & English), 2022, 39(2): 24-31.

[14]王欽釗, 多南訊, 呂強, 等. 基于強化學習的多智能體合作博弈對抗算法[J]. 裝甲兵學報, 2022, 1(5): 80-85.

WANG Q Z, DUO N X, LYU Q, et al. Multi-agent cooperative game confrontation algorithm based on reinforcement learning[J]. Journal of Armored Forces, 2022, 1(5): 80-85.

[15]符小衛, 徐哲, 王輝. 基于DDPG的無人機追捕任務泛化策略設計[J]. 西北工業大學學報, 2022, 40(1): 47-55.

FU X W, XU Z, WANG H. Generalization strategy design of UAVs pursuit evasion game based on DDPG[J]. Journal of Northwestern Polytechnical University, 2022, 40(1): 47-55.

[16]高昂, 董志明, 李亮, 等. MADDPG算法并行優先經驗回放機制[J]. 系統工程與電子技術, 2021, 43(2): 420-433.

GAO A, DONG Z M, LI L, et al. Parallel priority experience replay mechanism of MADDPG algorithm[J]. Systems Engineering and Electronics, 2021, 43(2): 420-433.

[17]喬哲, 黎思利, 王景志, 等. 基于PER-PDDPG的無人機路徑規劃研究[J]. 無人系統技術, 2022, 5(6): 12-23.

QIAO Z, LI S L, WANG J Z, et al. UAV path planning based on PER-PDDPG[J]. Unmanned Systems Technology, 2022, 5(6): 12-23.

[18]魏瑤, 劉志成, 蔡彬, 等. 基于深度循環雙Q網絡的無人機避障算法研究[J]. 西北工業大學學報, 2022, 40(5): 970-979.

WEI Y, LIU Z C, CAI B, et al. Research on UAV obstacle avoidance algorithm based on deep cycle double Q network[J]. Journal of Northwestern Polytechnical University, 2022, 40(5): 970-979.

[19]丁世飛, 杜威, 郭麗麗, 等. 基于雙評論家的多智能體深度確定性策略梯度方法[J]. 計算機研究與發展, 2023, 60(10):2394-2404.

DING S F, DU W, GUO L L, et al. Multi-agent deep deterministic policy gradient method via double critics[J].Journal of Computer Research and Development, 2023, 60(10):2394-2404.

[20]YUAN W, LI Y Y, ZHUANG H Y, et al. Prioritized experience replay-based deep Q learning: multiple-reward architecture for highway driving decision making[J]. IEEE Robotics & Automation Magazine, 2021, 28(4): 21-31.

[21]張嚴心, 孔涵, 殷辰堃, 等. 一類基于概率優先經驗回放機制的分布式多智能體軟行動-評論者算法[J]. 北京工業大學學報, 2023, 49(4): 459-466.

ZHANG Y X, KONG H, YIN C K, et al. Distributed multi-agent soft actor-critic algorithm with probabilistic prioritized experience replay[J]. Journal of Beijing University of Technology, 2023, 49(4): 459-466.

[22]XU D, CHEN G. Autonomous and cooperative control of UAV cluster with multi-agent reinforcement learning[J]. The Aeronautical Journal, 2022, 126(1300): 932-951.

[23]劉詩誠. 基于深度強化學習的多智能體覆蓋控制研究[D]. 秦皇島: 燕山大學, 2022.

LIU S C. Research on multi-agent coverage control based on deep reinforcement learning[D]. Qinhuangdao: Yanshan University, 2022.

[24]胡皓然. 多智能體強化學習算法研究與應用[D]. 北京: 北京郵電大學, 2021.

HU H R. Research and implementation on multi-agent reinforcement learning[D]. Beijing: Beijing University of Posts and Telecommunications, 2021.

[25]趙英男, 劉鵬, 趙巍, 等. 深度Q學習的二次主動采樣方法[J]. 自動化學報, 2019, 45(10): 1870-1882.

ZHAO Y N, LIU P, ZHAO W, et al. Twice sampling method in deep Q-network[J]. Acta Automatica Sinica, 2019, 45(10): 1870-1882.

[26]劉穎. 深度強化學習中的經驗回放研究[D]. 南京: 東南大學, 2021.

LIU Y. Research on experience replay in deep reinforcement learning[D]. Nanjing: Southeast University, 2021.

[27]劉云輝, 石永康. 未知環境下多無人機協同搜索與圍捕策略研究[J]. 現代電子技術, 2023, 46(6): 98-104.

LIU Y H, SHI Y K. Research on cooperative search and round up strategy of multiple-UAV in unknown environment[J]. Modern Electronics Technique, 2023, 46(6): 98-104.

(責任編輯:許韋韋)

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合