基于多智能體深度強化學習的無人艇集群博弈對抗研究

2024-03-14 03:42于長東劉新陽劉殿勇

水下無人系統學報 2024年1期

于長東 ,劉新陽 ,陳聰 ,劉殿勇 ,梁霄 *

(1.大連海事大學人工智能學院,遼寧大連,116026;2.哈爾濱工程大學智能海洋航行器技術全國重點實驗室,黑龍江哈爾濱,150001;3.大連海事大學船舶與海洋工程學院,遼寧大連,116026)

0 引言

在現代軍事研究領域,隨著高新技術的快速發展,催化了戰場中作戰思想、理論和模式等方面的迅速變革,戰爭形態逐漸趨于信息化和智能化[1-3]。人工智能和無人系統技術為未來戰爭中的決策分析、指揮控制和博弈對抗等應用提供了更多智能決策和自主作戰能力,逐漸扮演著更加重要的角色。其中,無人艇作為一種全自動小型水面機器人,具有體型小、機動靈活以及活動范圍廣等優勢,在情報偵查、海上巡邏以及環境檢測等領域發揮著重要作用[4]。

強化學習作為人工智能技術的重要分支,目前在無人艇、無人機等多智能體博弈對抗問題中具有重要的應用價值[5-7]。李波等[8]將多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法應用于多無人機的協同任務研究,可以解決簡單的任務決策問題。劉菁等[9]提出了博弈理論與Q-Learning 相結合的無人機集群協同圍捕方法,結果表明該方法可以完成對單目標的有效圍捕。Zhan 等[10]提出了多智能體近端策略優化(multi-agent proximal policy optimization,MAPPO)算法,用于實現異構無人機的分布式決策和協作任務完成。趙偉等[11]對無人機智能決策的發展現狀和未來挑戰進行了討論和分析。相比之下,目前國內外對于無人艇的博弈對抗研究工作相對較少,仍處于發展階段。蘇震等[12]開展了關于無人艇集群動態博弈對抗的研究,提出利用深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法來設計策略求解方法,訓練得到的智能體可以較好地完成協同圍捕任務。夏家偉等[13]則使用MAPPO 算法完成對單一無人艇的協同圍捕任務,通過結合圍捕任務背景,建立了伸縮性和排列不變性的狀態空間,最后利用課程式學習訓練技巧完成對圍捕策略的訓練,結果表明所提方法在圍捕成功率上相較于其他算法具有一定優勢。

無人艇集群博弈對抗的研究工作仍處于起步階段,存在較大的提升空間: 目前的研究中,無人艇博弈對抗中的敵方通常采用傳統算法躲避我方的攔截圍捕,缺乏智能化決策能力;其次,海上目標行為動作較為復雜,雙方博弈過程中的當前決策需要充分考慮前后階段產生的影響結果;此外,除需要圍捕的動態目標外,海上還存在島礁等障礙物,在博弈對抗中還需要考慮躲避島礁障礙物等問題。

受到以上啟發,文中以無人艇集群對敵方入侵島礁目標進行圍捕攔截為背景,開展基于多智能體深度強化學習的無人艇集群協同圍捕研究。首先基于現代式作戰需求,合理設計作戰假想,建模相應的圍捕環境;其次,采用MADDPG 算法求解策略方法,根據不同的圍捕任務設計網絡結構、獎勵函數和訓練方法;最后通過仿真實驗表明,訓練得到的我方無人艇經過博弈后能夠有效完成對敵方的圍捕攔截任務。

1 任務場景描述

海上無人艇集群協同圍捕任務是一種典型的集群作戰模式,如圖1 所示,文中主要針對海上島礁防衛任務場景展開研究。不同于離散化任務環境的方案,文中從實際作戰角度出發,設計了連續的海上作戰地圖作為無人艇集群博弈對抗問題中的任務環境,即采用連續的空間坐標位置來表示敵我雙方的位置信息。若干敵方無人艇會隨機出現在某海域位置,對目標島礁進行入侵進攻。而我方無人艇集群在島礁周圍進行常態化巡邏,當發現入侵敵方后,會迅速調整狀態去攔截圍捕敵方。

圖1 無人艇圍捕場景示意圖Fig.1 Round-up scene of unmanned surface vehicles

無人艇的簡化運動模型定義為

式中,(,)和 (,)分別表示2 艘艇的坐標位置。此外,我方無人艇在圍捕敵方的過程中,考慮到實際無人艇發生碰撞的可能性,當我方各無人艇距離敵方目標點距離l小于圍捕半徑r時,則視為完成圍捕任務。

2 博弈算法與訓練策略設計

文中考慮深度強化學習在無人艇集群的博弈對抗策略上的應用。強化學習下無人艇與戰場環境的交互過程如圖2 所示: 無人艇根據戰場環境的即時狀態St,執行可以獲得最大回報的行為動作At,以使得獎勵Rt達到最大值。在選擇行為At后,環境會給予無人艇Rt的獎勵,同時環境進行到下一狀態St+1。然后無人艇根據下一狀態St+1和獎勵的反饋Rt+1,選擇執行下一個行為動作,進入下一輪的動態交互。

圖2 無人艇與環境交互過程示意圖Fig.2 Schematic diagram of the interaction process between the USV and environment

基于實際作戰思想,在敵我雙方的無人艇博弈對抗中,若一方的各無人艇處于協同合作關系,則對方的無人艇處于競爭博弈關系。針對該問題,文中選擇了主流的群智能體強化學習算法——MADDPG 算法[14]。MADDPG 算法由DDPG 算法[15]發展而來,可有效緩解訓練中的非平穩問題,提高學習效率。

2.1 DDPG 算法

DDPG 算法在網絡結構上采用了基于“行動者-評論家” (actor-critic,AC)的框架形式[15],Actor網絡基于當前智能體的狀態信息,給出確定性動作策略,讓智能體執行最優動作,同時通過策略梯度算法不斷優化策略網絡參數;而Critic 網絡則對智能體基于當前狀態的動作進行Q值評估,并根據智能體的實際收益,更新目標價值和網絡參數,提高估計的準確性。

DDPG 算法的AC 網絡受到深度Q學習的在線-目標雙網絡結構的啟發,將在線訓練方式轉向離線訓練方式,簡化了許多復雜操作,同時也提高了數據的有效利用。AC 網絡結構分別由2 個完全相同的深度神經網絡組成,這2 個網絡的作用是將輸入的狀態信息和輸出的動作信息進行連續化處理,同時還能夠將低維度的離散信息映射到高維度的連續信息空間中。圖3 展示了 DDPG 算法的數據傳遞結構示意圖[16],結構左側為Actor 策略網絡,通過策略梯度優化對網絡參數進行優化,從而將狀態信息映射到最優策略;然后網絡根據策略輸出確定性動作,并將其送入右側的在線價值網絡來預測狀態-動作價值;在線價值網絡則采用價值梯度來更新優化網絡參數,將狀態-動作組映射為價值函數;最后,采用滑動平均更新法對目標網絡參數進行更新。

圖3 DDPG 算法數據傳遞結構示意圖Fig.3 Structure of data transfer of DDPG algorithm

2.2 MADDPG 算法

在多無人艇系統中,每個無人艇都是獨立的智能體,由于各智能體同時受到環境和其他智能體的影響,使用單智能體強化學習算法無法有效處理復雜多變的多智能體環境,從而導致訓練效果通常不理想。因此,文中采用了多智能體強化學習算法MADDPG 作為無人艇集群協同圍捕方法。MADDPG 算法通過經驗回放、目標網絡和通信機制等方式來考慮前后階段產生的影響問題,從而處理多智能體系統中的長時間依賴性和協作競爭問題。

MADDPG 在訓練多智能體過程中使用了集中式訓練和分布式執行方案,即訓練中一方的所有智能體都共享全局信息,同時智能體可以并行地執行策略,從而加速學習過程。該方案可以使多智能體系統能夠更好地協同學習和協調策略,提高訓練效率和穩定性。MADDPG 網絡中的數據傳遞如圖4 所示,在更新網絡的訓練過程中,中心化的評價函數Critic 使用經驗池中的聯合經驗數據來更新網絡參數,而Actor 函數會依據 Critic 給出的Q值更新策略。當更新完成后,在實際執行階段用更新后的 Actor 決策函數進行去中心化決策,即執行階段僅使用自身的局部觀察得到策略,這樣能夠有效減少復雜度和計算量。

圖4 MADDPG 算法數據傳遞結構示意圖Fig.4 Structure of data transfer of MADDPG algorithm

MADDPG 算法的具體執行流程[16]如圖5 所示。

圖5 MADDPG 算法具體執行流程Fig.5 Execution process of MADDPG algorithm

2.3 任務決策與獎勵函數設計

文中基于海上島礁防衛任務展開研究。假設無人艇分別為USV1,USV2,…,USVk,每艘無人艇的自身狀態空間Susv中不僅包括當前時刻的速度信息 (uk,vk),還包括在海洋環境中的坐標位置信息(xk,yk)。此外,環境狀態Senv則包含了島嶼的坐標位置 (Dx,Dy),該島嶼位置既是我方保衛目標位置,也是敵方進攻目標位置。

文中的敵方艇也采用了智能化逃跑策略,因此文中敵我雙方都采用了基于MADDPG 算法的博弈策略。在文中設計的 MADDPG 算法中,每艘無人艇的狀態包括了環境狀態、自身狀態以及其他無人艇的狀態。每艘無人艇在t時刻的狀態定義為

此外,無人艇集群的友方之間可以獲取角度信息 φi,該角度為我方2 個無人艇靠近敵方無人艇形成的夾角。無人艇的動作范圍是二維的連續空間,采取確定性動作策略后,會在每一時刻輸出瞬時速度 (ux,vy),無人艇經過 Δt時刻后的位置更新為,即

文中主要從以下2 方面來設計獎勵函數。

敵方獎勵函數設計如下:

敵方在運動過程中的獎勵目標函數為Rr=其中di為第i艘敵方無人艇與目標的最近距離,距離越近獎勵值越大;此外給與碰撞懲罰,當敵方碰撞到船只或島嶼時,懲罰為-5。

我方獎勵函數設計如下:

3 實驗結果與分析

3.1 模型參數設計

文中應用的MADDPG 算法模型使用了確定性動作策略,即a=πθ(s)。網絡結構具體設計如下:當我方與敵方無人艇數量為3 對1 時,策略網絡結構為[14;64;64;2]的全連接神經網絡,價值網絡結構為[14;64;64;1]的全連接神經網絡,網絡結構表示輸入層、隱藏層和輸出層對應的節點數;當無人艇數量為6 對2 時,策略網絡結構為[26;64;64;2],價值網絡的結構則為[26;64;64;1]。在訓練時的最小批尺寸為512;訓練3 對1 時最大回合數為5 000,訓練6 對2 時最大回合數為10 000,價值網絡的學習率為0.001,策略網絡的學習率為0.001,2 個網絡都采用了Adam 優化器進行訓練網絡,經驗池的大小為5×105。

3.2 結果分析

文中分別進行了保衛島嶼場景下的無人艇3 對1 和6 對2 的博弈對抗實驗。

1) 3 對1 實驗

雙方無人艇回報曲線如圖6 所示?？梢钥闯?雙方回報值都呈現整體上升并增至最大值,然后趨于穩定。這說明雙方處于一種互相競爭的狀態,最終達到一種博弈平衡。從后期的回報曲線可以看出,我方無人艇的曲線分布一致且相對穩定,每艘無人艇均可完成圍捕任務。

圖6 3 對1 時各艇回報值Fig.6 Return values of the USVs at 3 vs 1

圖7 展示了3 對1 時不同時刻的仿真結果。在初始時刻,我方無人艇圍繞在島嶼周圍進行巡邏,敵方無人艇隨機出現在某一位置(見圖7(a));隨后,敵方無人艇對目標島嶼進行進攻,我方發現目標后,選擇繞開島嶼障礙物,并對敵方進行圍捕攔截(見圖7(b)和(c));最后,我方無人艇對敵方無人艇進行包圍,分散在其周圍,并保持跟隨,視為圍捕成功(見圖7(d))。

圖7 3 對1 仿真結果示意圖Fig.7 Simulation results of 3 vs 1

2) 6 對2 實驗

我方6 艘無人艇所獲得的回報曲線如圖8 所示?？梢钥闯?我方無人艇回報值均呈現上升趨勢并最終趨于穩定狀態。這說明無人艇集群在訓練中得到了良好的收益,有效完成了任務目標。相比之下,敵方無人艇的回報曲線則先上升,之后出現了嚴重的波動,呈現不穩定現象,如圖9所示。

圖9 6 對2 時敵方各艇回報值Fig.9 Return values of enemy USVs at 6 vs 2

圖10 展示了6 對2 時不同時刻的仿真結果。在初始時刻,我方6 艘無人艇分散在島嶼周圍,敵方2 艘無人艇隨機出現在不同區域(見圖10(a));當發現敵方無人艇后,我方無人艇首先繞過島嶼,然后去圍捕攔截敵方無人艇(見圖10(b));敵方無人艇不斷進行智能躲避,而我方充分考慮了敵方目前位置以及下一階段的運動趨勢,并在其周圍展開圍捕(見圖10(c)～(e));最后,我方無人艇成功完成對敵方的圍捕,以持續的圍捕狀態伴隨在敵方周圍(見圖10(f))。

圖10 6 對2 仿真結果示意圖Fig.10 Simulation results of 6 vs 2

4 結束語

基于實際的海上作戰背景,文中提出了基于多智能體深度強化學習方法MADDPG,用以解決無人艇群動態博弈對抗中的協同圍捕決策問題。通過搭建模型,設計獎勵函數和訓練函數,完成實驗。通過3 對1 和6 對2 的仿真實驗,結果表明我方無人艇可以有效完成對敵方無人艇的圍捕攔截,證明了所搭建模型系統的有效性,為未來實戰的應用提供了技術支撐和理論參考。在未來的研究工作中,將會考慮采用更加高效的狀態信息處理手段,例如文獻[13]中的伸縮和排列不變性設計,以使同一個網絡結構可以適用于不同數量無人艇的博弈對抗場景。