基于指數平均動量鴿群優化的多無人機協同目標防御

2022-10-13 09:59段海濱仝秉達劉冀川

北京航空航天大學學報 2022年9期

段海濱仝秉達劉冀川

(1. 北京航空航天大學自動化科學與電氣工程學院, 北京 100083;2. 中國電子科技集團公司第五十四研究所, 石家莊 050081; 3. 西安電子科技大學電子工程學院, 西安 710071)

無人機(unmanned aerial vehicle,UAV)自主控制技術及低成本傳感器技術的快速發展,使得無人機系統越來越廣泛地應用于民用和軍事領域[1-2]。由于任務環境復雜而多變,單架無人機往往不能有效完成任務,而使用多架無人機協作能夠有效提高成功率[3],順利完成各種定位、搜索、攻擊、安全、監視、評估等復雜任務[4]。本文主要針對與安全和防御應用相關場景的無人機協同目標防御問題進行了探索研究,在目標防御問題中,入侵無人機在收集到防御無人機的狀態信息后,試圖抵達目標區域而不被防御無人機攔截,而防御方若干架無人機的任務是盡快攔截入侵無人機,防止對方抵達目標區域。

von Moll 等[5]將多無人機協同目標防御場景描述為一個微分博弈問題。場景中的無人機具有簡單的運動學方程,防御無人機扮演微分博弈中的追捕者角色,入侵無人機扮演逃跑者角色。Garcia 等[6]研究了多參與者的邊界防御問題,并給出了團隊合作最優解,場景中的智能體能夠利用對手的非最優策略使得己方的收益最大化。然而,上述研究只考慮了當防御者與入侵者的位置重合時,入侵者才視為被捕獲這種情況,且防御無人機要保護的目標邊界是無限大的。事實上,無人機可以在一定距離時使用自身攜帶的武器,干擾或者摧毀對方,且目標區域可能有界。 Shishika和Kumar[7]研究了一類具有任意凸形狀的邊界防御問題,入侵者團隊試圖突破防御者團隊對目標區域的保護,而防御者團隊試圖通過攔截入侵者智能體。 Sinha 等[8]研究了3 個智能體之間的追逃場景,并分別為入侵者和防御者設計了控制策略。 Wang 等[9]考慮了具有通信約束的追逃問題,并分別求解了追逃雙方應當使用的策略。然而,上述研究只考慮了防御者被限制在二維目標區域的邊界中運動情況。實際上,入侵無人機或防御無人機均可以在三維空間中自由運動。

基于上述研究,考慮一個復雜環境下面向多無人機協同目標區域防御問題。其中,防御無人機的數量M＞1,入侵無人機的數量為1。防御無人機的速度可能各不相同,但均大于入侵無人機。防御團隊要保護的目標區域為一個有限大的三維空間,且防御無人機在與入侵無人機一定距離時即可攔截。基于上述假設,本文將無人機目標區域防御問題建模為約束最優化問題,解決問題的關鍵是求解出雙方無人機的最優攔截(目標)點。因此,本文設計了一種新型的改進鴿群優化算法解決此類問題。

本文設計了一種無人機協同目標防御系統策略,系統中的防御無人機根據系統實時狀態進行合作,對進入捕獲半徑的入侵無人機進行攔截。另外,針對無人機協同目標防御問題需要求解的約束最優化問題定義了多級非穩態罰函數,便于優化算法找出可行的最優解。對基本鴿群優化(pigeon-inspired optimization,PIO)算法進行了改進,有效解決了原始算法在收斂性和準確性方面的不足,并將改進后的PIO 算法應用于解決多無人機協同目標防御問題。

1 無人機協同目標防御系統建模

考慮一個由M架防御無人機P1,P2,…,PM和1 架入侵無人機E構成的無人機協同目標防御系統,系統中所有無人機均在歐氏三維空間中運動。受文獻[5]的啟發,系統中的各無人機具有如下運動學方程:

式中:βi＞1 為防御無人機Pi與入侵無人機E的速度比;θE∈[ - π,π)和ψE∈[0,2π)分別為入侵無人機的俯仰角和航向角;θPi∈[ - π,π)和ψPi∈[0,2π)(i=1,2,…,M)分別為防御無人機的俯仰角和航向角。雙方無人機的控制量分別為

防御無人機要防御的目標區域為球體,球心為xT= (xT,yT,zT),半徑為rT。防御無人機的目標是攔截入侵無人機,使入侵無人機與所要防御目標區域距離最遠,其捕獲半徑為rc。入侵無人機的目標為在終端時刻tf時盡量縮短自身與目標區域之間的距離。假設入侵無人機不可能到達目標平面,即考慮防御無人機能夠攔截成功的定量博弈問題。因此博弈對抗的終止條件為

防御無人機與入侵無人機均以恒定的速度運動,故雙方無人機的最優路徑均為直線,雙方的支配區域由以下等式確定的曲面分隔:

式中:x=(x,y,z)∈R3。式(8)給出了入侵無人機的可行解區域。當式(8)中等號成立時,入侵無人機E可以在中途不被防御無人機Pi攔截的情況下到達點曲面上的任意一點。另外設入侵無人機E的最優目標點為xI= (xI,yI,zI), 除了應當滿足式(8)之外,還應當有如下等式成立:

2 罰函數法構造優化目標函數

由第1 節的系統建?？芍?確定防御無人機和入侵無人機的最優目標點實際是求解一個由式(1)確定的約束最優化問題:

解決約束最優化問題的常用方法是使用罰函數法構建目標函數F(x),轉化為無約束最優化問題然后使用優化算法求解。約束最優化問題由可行解和不可行解組成,其中可行解滿足所有約束條件,而不可行解至少違反其中一個約束條件。目前為止,除了試錯法(trial-and-error)之外,還沒有其他方式定義罰函數的方法。然而,罰函數的定義仍具有挑戰性,如果懲罰值過高,最優化算法通常會陷入局部最優解;如果懲罰值過低,優化算法可能很難得到可行的最優解。

罰函數通常分為穩態罰函數和非穩態罰函數兩類。穩態罰函數在整個最優化的過程中使用固定的懲罰值;非穩態罰函數中,懲罰值是動態變化的。參考文獻[10-11]中的結果顯示,使用非穩態罰函數得到的結果幾乎總是優于通過穩態罰函數的結果。

本文采用的罰函數可定義如下:

式中:f(x)為式(11)中約束最優化問題的原始目標函數;h(k)為一個動態調整的懲罰值;k為優化算法當前迭代次數;H(x)為懲罰因子,定義為

式中:σ(·)為一個多級函數;γ(·)為罰函數的指數函數;gi(x)為式(12)中的約束項。

3 指數平均動量鴿群優化算法

本文所要解決的約束最優化問題可采用確定性或者隨機性方法求解。確定性方法,如可行方向法或者廣義梯度下降法,對目標函數f(x)的連續性和可微性具有一定要求。因此,使用隨機性方法解決約束最優化問題是近年來的熱門發展方向。雖然進化算法(evolutionary algorithms,EA)主要是解決無約束最優化問題而發展起來的,但其也是解決約束最優化問題的一種可行的替代方法。典型的進化算法有遺傳算法(genetic algorithm,GA)[12]和粒子群優化(particle swarm optimization,PSO)算法[13],均已經被用于解決約束最優化問題中。

針對無人機航路規劃問題,Duan 和Qiao[14]提出了一種新的生物啟發式群體優化算法——鴿群優化算法。該算法基于鴿子的歸巢行為,設計了地圖和指南針算子、地標算子,以求解最優化問題。假設搜索空間的維度為D,鴿群中的第i只鴿子由D維向量Xi=(xi1,xi2…,xiD)表示,鴿群中取得全局最優值的鴿子用向量Xg= (xg1,xg2,…,xgD)表示。第i只鴿子的速度由向量Vi= (vi1,vi2,…,viD)表示。

在地圖和指南針算子中,鴿群中的鴿子位置根據式(18)和式(19)進行更新:

式中:i=1,2,…,N為鴿群中的鴿子序號;R為地圖和指南針因子;r為在[0,1]范圍內均勻分布的隨機數。式(18)用于確定鴿群中第i只鴿子第k+1 次迭代的速度,式(19)用于確定鴿群中第i只鴿子第k+1 迭代的位置,即將第k次迭代的位置與第k+1 次迭代的速度相加。

在地標算子中,每次迭代之后鴿子的數量會減少一半,目標函數值較低的一半鴿子將被舍棄,即

盡管基本鴿群優化算法能夠求解許多函數最優化問題,但仍然存在收斂性和準確性不足、效率不高等問題。基于此,本文提出了一種新的改進鴿群優化算法-指數平均動量鴿群優化(exponentially averaged momentum PIO,EM-PIO)算法,以解決多無人機協同目標防御問題。

在機器學習中,反向傳播(back propagation,BP)算法是用于訓練多層前饋神經網絡的最常用算法之一。 BP 算法使用梯度下降法來最小化實際輸出和期望輸出之間的誤差,但這種算法常常取得局部最優或者在附近振蕩,無法收斂到全局最優值。因此可以引入一個動量項來解決此問題,該動量項可作為一個低通濾波器來平滑輸出[15]。受此啟發,本文在基本鴿群優化算法中的地圖和指南針算子速度更新方程(式(18))中,對方程中的探索部分賦予更多的權重。新的地圖和指南針算子中速度和位置更新方程表示如下:

式中:N為算法總迭代次數;α為式(23)中的動量因子;V為式(24)中鴿群中某只鴿子的速度。由于動量因子α＜1,動量的分布方式更多地在當前速度上。隨著迭代次數的增加,舊速度的系數與動量因子α共同累積,舊的速度值對動量M的貢獻將降低,這會有效增強鴿群優化算法的搜索能力,同時防止鴿子被其歷史速度加權相加而陷入局部最優值。另外,由于速度值V是迭代累積求和得到的,不需要額外的空間來存儲速度的歷史值。

本文提出的EM-PIO 算法解決多無人機協同目標防御問題的具體實現流程如圖1 所示。

圖1 EM-PIO 算法解決多無人機協同防御問題實現流程Fig.1 Procedure of coordinated target defense with multi-UAVs cooperative using EM-PIO algorithm

4 仿真對比實驗

本文設防御無人機的數量M=2。入侵無人機和防御無人機的初始位置分別為xE0= (6,6,3),xP10=(5,4,2)和xP20=(3,5,3),防御無人機與入侵無人機之間的速度比β1=1.1 和β2=1.2。防御無人機要防御的目標區域為球體,球心坐標xT=(3,3,2),半徑rc=1 m。雙方無人機位置、目標區域和約束曲面g1(x) =0 和g2(x) =0 的圖像如圖2 所示。可以看出,g1(x) =0 與g2(x) =0 相交形成一條曲線,雙方無人機的最優目標點一定在曲線上。