?

深度強化學習算法在智能軍事決策中的應用

2021-10-28 06:01況立群李思遠徐清宇
計算機工程與應用 2021年20期
關鍵詞:軍事紅軍經驗

況立群,李思遠,馮 利,韓 燮,徐清宇

1.中北大學 大數據學院,太原 030051

2.北方自動控制技術研究所 仿真裝備部,太原 030006

現代戰爭規模與復雜性不斷擴大,作戰方式日益復雜,面對瞬息萬變的戰場環境,僅靠人類決策行動已經很難確保正確快速的軍事響應[1]。深度強化學習在解決序貫決策問題上做出了許多突出貢獻,契合了指揮員的經驗學習與決策思維方式,二者相結合是現代智能軍事決策的發展方向。強化學習[2]具有魯棒性強[3]、獨立于環境模型和先驗知識等優點,在運用于軍事作戰行動中常采用試錯法尋求最優軍事決策序列。Q-Learning[4]是一種典型的強化學習方法,已被廣泛地研究并產生了SARSA[5]、深度Q網絡(DQN)[6]、Double-DQN[7]等改進算法。Q-Learning被大量應用于軍事決策中的部分環節中,如戰機路徑規劃[8]以及半自治坦克軍事決策[9]。2015年,DeepMind團隊提出了DQN算法,將深度卷積神經網絡和Q學習結合到一起,在Atari系列游戲上達到了人類專家[10]的決策和控制水平,并且避免了Q表的巨大存儲空間;此外還利用經驗回放記憶和目標網絡提高了訓練過程的穩定性。陸軍工程大學依據該算法提出了一種基于DQN的逆向強化學習的陸軍分隊戰術決策技術框架[11],在解決戰術行動決策上取得了一定的效果。

雖然DQN算法在離散行為決策方面取得了一系列成果[12],但是難以實現高維的連續動作。如果連續變化的動作被無限分割,那么動作數量會隨著自由度的增加而成倍增加,這就導致了維度突變的問題,網絡將難以收斂。常見做法是對真實的作戰系統進行有限的網格化處理,形成若干離散的空間與動作,其弊端是大大降低了真實作戰環境的復雜性,丟失了很多環境與動作細節。例如,在人員移動方面只能產生離散的運動,難以準確地模擬真實戰場環境下的人員決策行為[13]。

2015年,Lillicrap等人[14]綜合DQN算法、經驗回放緩沖區和目標網絡的優點,提出了深度確定策略梯度(DDPG)算法來解決連續狀態行為空間中的深度強化學習問題。同時,采用基于確定性策略梯度的演員-評論家(Actor-Critic)算法使網絡輸出結果具有確定的動作值,保證了DDPG可以應用于連續動作空間領域[15],彌補了DQN算法無法適用于連續動作空間的缺點。然而,由于DDPG算法中Actor網絡和Q函數之間的相互作用,使得算法通常難以達到穩定,因此很難直接將DDPG算法應用到復雜的高維多智能體環境。在多智能體環境下,各個智能體之間會產生相互影響和制約[16],引起環境的變化,導致算法難以收斂。陳亮等人[17]在DDPG算法的基礎上提出了一種改進DDPG的多智能體強化學習算法,該算法雖然構建了一個允許任意數量智能體的靈活框架,但由于所有智能體共享當前環境的相同狀態,使得環境狀態維數增加,且環境會受到所有智能體策略動作的影響,導致算法收斂比較困難。趙毓等人[18]在多智能體環境下的無人機避碰計算制導方法中通過采用集中訓練-分布執行來滿足多智能體算法穩定收斂的要求,但是該算法只能局限于少量智能體參與,無法滿足任意數量智能體的策略學習。

綜上,為解決深度強化學習算法難以運用于高度復雜且連續決策的現代戰場環境,同時多智能體環境下算法難以收斂的問題,本文提出了一個改進的DDPG算法——單訓練模式雙噪聲DDPG算法(Single-mode and Double-noise DDPG,SD-DDPG),在經驗采樣、獎勵函數[19]、探索策略[20]和多智能體框架[21]方面對DDPG算法進行改進?;趦炏燃壍慕涷炛胤偶夹g[22]更加注重有價值經驗的學習,提高算法的收斂速度;連續型獎勵函數突破稀疏獎勵長時間無法變化的困境;OU噪聲與高斯噪聲相結合的智能體探索策略,滿足連續決策與離散決策的探索要求;多智能體框架為每個作戰單位分配單獨的深度強化學習算法,采用單模式訓練策略來大大提高算法收斂的速率和穩定性。

1 相關工作

DDPG是深度強化學習中一種可以用來解決連續動作空間問題的典型算法,可以根據學習到的策略直接輸出動作。確定性的目的是幫助策略梯度避免隨機選擇,并輸出特定的動作值。目前,DDPG算法在無人駕駛汽車和無人駕駛船舶領域有著較為成熟的應用,由于DDPG算法有著很強的序貫決策能力,恰好與軍事決策思維方式有很大的契合,因此將其應用在智能軍事決策領域具有重要價值。圖1為DDPG算法框架。

圖1 DDPG算法框圖Fig.1 DDPG algorithm block diagram

DDPG算法以初始狀態信息S t為輸入,輸出結果為算法計算出的動作策略μ(S t)。在動作策略中加入隨機噪聲,得到最終的輸出動作,這是一種典型的端到端學習模式。在啟動任務時,智能體(agent)根據當前狀態s t輸出一個動作,設計獎勵函數并對該動作進行評價,以驗證輸出動作的有效性,從而獲得環境的反饋獎賞r t。有利于agent實現目標的行為將得到積極獎勵,相反,給予消極懲罰。然后,將當前狀態信息、動作、獎勵和下一次的狀態信息(s t,a t,rt,s t+1)存儲在經驗緩沖池中。同時,神經網絡通過從經驗緩沖池中隨機抽取樣本數據,訓練經驗,不斷調整動作策略,更新網絡參數,進一步提高算法的穩定性和準確性。

DDPG是較為先進的深度強化學習算法,具有處理高維連續動作空間的能力,然而DDPG算法中Actor網絡和Q函數之間的相互作用使得算法通常難以達到穩定,且超參數的選擇也變得非常困難,因此難以直接將DDPG算法應用于軍事決策下的多智能體環境。

2 軍事決策環境狀態定義

2.1 仿真平臺設計

軍事決策領域涵蓋內容非常廣泛,本文選取了藍軍步兵進攻紅軍軍事基地這一具體軍事作戰行動?;赨nity獨立開發了智能軍事決策仿真訓練環境,將藍軍步兵進攻紅軍軍事基地作戰行動映射到基于Unity的模擬環境中去,實現了作戰智能體在模擬環境下進行軍事決策行為的訓練學習。

為了更加高效地探究基于深度強化學習的智能軍事決策能力,本文對藍軍步兵進攻紅軍基地軍事行動定義如下規則?;赨nity搭建1 000 m×1 000 m作戰環境,預設6名藍軍步兵作為一個小隊進攻紅軍基地,作戰智能體可以在360°范圍內進行移動與射擊操作,作戰智能體的個數在仿真環境接口中進行設定。在該模擬環境中預先設置多個障礙物,作為紅軍軍事基地的保護屏障,作戰智能體無法自由穿過障礙物,紅軍軍事基地坐落在障礙物后方。該軍事作戰模擬環境具有高度的自由性,障礙物的數量、位置以及基地的大小位置都可以自由設定,模擬環境中還搭建了山體、樹木、草地等易于作戰智能體隱蔽的區域,更加符合真實的作戰場景,滿足多種軍事作戰行動環境的要求。具體模擬環境如圖2所示。

圖2 模擬作戰環境Fig.2 Simulation environment

2.2 環境狀態數據提取

藍軍步兵進攻紅軍基地軍事作戰行動中的環境狀態信息涉及作戰智能體的位置信息、動作信息、障礙物及基地信息等。本文改進的DDPG算法中使用的環境狀態信息如表1所示。

表1 輸入變量定義Table 1 Input variable definition

在真實的藍軍步兵進攻紅軍基地軍事行動中,作戰人員會依據環境的特點選取一條最優的行動路線,模擬環境中將作戰智能體與最優決策路線的距離歸一化為

[-1,1],距離越小表明學習到的策略越好。

由于作戰智能體獲得的是多個不同類型的環境狀態數據,信息具有多樣性與復雜性,因此需要進行有效融合與處理,作為環境的狀態輸入。具體操作為:

(1)收集所有不同類型的具有價值的環境狀態數據。

(2)對收集到的環境狀態數據進行分析,篩選特征值,剔除不合理的數據,合并具有共同描述特征的數據。

(3)歸一化處理狀態特征值,便于神經網絡的處理與學習。

(4)對經處理后不同目標的狀態值進行組合,設置為Numpy中ndarray對象格式,作為輸入狀態。

2.3 作戰規則約束

在真實戰場環境下,藍軍步兵進攻紅軍軍事基地,為保證藍軍步兵的隱蔽性,在距離紅軍軍事基地較遠距離時(直線距離大于200 m),不得執行射擊動作。戰場環境中,軍事障礙物不可穿越,藍軍作戰單位應當繞過障礙物,占據優勢位置后對紅軍基地發動攻擊。為保證軍事決策模擬的真實性,作戰單位執行射擊操作有射程限制,該軍事行動中限制為200 m。

2.4 輸出動作控制

作戰智能體具有高度的靈活性,可以全方位自由運動與射擊,解決了傳統智能軍事決策算法只能執行一定離散動作的問題,極大提高了軍事決策模擬的真實性。同時,這也涉及到更為精確的動作控制,包括作戰智能體的運動方向、運動速度、射擊操作。變量定義如表2所示。

表2 輸出動作變量定義Table 2 Output action variable definition

3 獎勵設計

DDPG算法采用連續的動作空間,一個任務回合內需要采取的動作空間很大,離散的獎勵函數在一定的動作范圍內只能給出相同的獎勵值,無法對動作的細微變化進行精確有效的評價,使得模型難以收斂。

針對以上問題,本文設計了具有持續獎勵支持的連續性獎勵函數。獎勵函數如公式(1)所示:

式(1)中,(x,y)是作戰智能體的位置坐標,r是方向弧度值。當作戰智能體越過環境邊界或者與障礙物相撞時,獎勵值設置為-200,給予懲罰。當作戰智能體執行射擊動作但未擊中目標,則累加獎勵值-100。為了引導作戰智能體更快地學習到最優軍事決策策略,設計連續性函數引導作戰智能體到達預先設立的區域,距離值越小獲得的獎勵值越大。到達指定區域附近后,將射擊點與紅軍基地的距離設為獎勵函數,引導作戰智能體向紅軍基地位置進行射擊。持續性的獎勵刺激可以更加高效地引導智能體快速學習到最優決策序列。該作戰任務的最終目標是將紅軍基地摧毀,給予獎勵值+200。

4 SD-DDPG算法

本文提出一個改進的DDPG算法——單模式訓練雙噪聲DDPG算法(Single-mode and Double-noise DDPG,SD-DDPG),該算法構建一個允許任意數量agent的靈活框架,所有agent共享當前環境的相同狀態空間,且每個作戰agent具有相同的動作空間,采用基于優先級的經驗重放技術和混合雙噪聲,以及增加單訓練模式來改進DDPG算法。SD-DDPG算法對比DDPG算法在智能軍事決策模擬環境中有更快的收斂性和更高的穩定性。

4.1 基于優先級的經驗重放技術

原始的DDPG算法引入了經驗重放機制,使用經驗重放緩沖區消除輸入經驗中存在的相關性,然而,該經驗重放機制基于存儲在重放緩沖區中的所有經驗都具有同等重要性的設定,因此隨機地對一小批經驗進行采樣來更新網絡。這種設定有違常理,當人們學會做某事時,獲得巨大回報的經驗和非常成功的嘗試或慘痛的教訓會在學習的過程中不斷地出現在他們的記憶中,因此這些經驗更有價值。

在大多數強化學習算法中,TD-error經常被用來矯正Q(s,a)函數。TD-error的值作為估計值的修正值反映了agent可以從中學習到正確策略的程度。TD-error的值越大,表明對期望動作值的修正越積極,在這種情況下高TD-error的經驗更有可能具有更高的價值,并且與非常成功的嘗試緊密聯系。此外,TD-error為負的情況與非常失敗的嘗試緊密聯系,通過對非常失敗經驗的學習可以逐步使agent避免再做出錯誤的行為,這些不好的經驗同樣具有很高的價值。選取TD-error作為評價經驗價值的標準,對經驗j計算TD-error如公式(2)所示:

式中,Q′(s t+1,a t+1,w)是w參數化的critic目標網絡。抽樣經驗的概率定義如公式(3)所示:

式中,P(j)表示對經驗j進行抽樣的概率,其中D j=表示第j個經驗在經驗緩沖池中的位置排序。參數α決定了優先級的使用程度,抽樣概率的定義可以被視為在經驗選擇過程中加入隨機因素的方法,這可以使得TD-error值比較低的樣本仍然有機會被重放,從而保證了經驗抽樣的多樣性,防止神經網絡過度擬合。但是由于對具有高TD-error經驗的頻繁重放,無疑改變了樣本的分布,這很可能導致模型收斂到不同的值或者訓練不收斂,所以需要選擇重要性采樣,這樣可以確保每個樣本被選到的概率是不同的,且對梯度下降具有相同的影響。重要性采樣權重如公式(4)所示:

式中,S是經驗緩沖池的大小,P(j)是采樣經驗j的概率,β是一個超參數,用來控制基于優先級經驗緩沖池重放程度,如果β=1,代表完全抵消優先級經驗緩沖池對收斂結果的影響。

4.2 基于混合雙噪聲的探索策略

DDPG算法中添加噪聲的動作策略與學習策略相互獨立,即DDPG是確定性策略,而探索噪聲可以自行設定。

原始DDPG算法采用OU(Ornstein-Uhlenbeck)噪聲,OU過程是一種隨機過程,其微分形式如公式(5)所示:

其中,μ是均值,θ表示噪聲趨于平均值的速度,σ表示噪聲的波動程度。OU噪聲是時序相關的探索噪聲,即前一步的噪聲會對后一步的噪聲產生影響,且是馬爾科夫模式的。正是基于OU噪聲時序相關的特性,對于慣性系統的探索效率會更高。而DDPG作為連續性算法的代表,非常適用于慣性系統。

許多強化學習算法也經常采用高斯噪聲,將強化學習算法中策略網絡的輸出動作作為均值,直接疊加高斯分布ε~Ν(0,σ2),作為強化學習算法的探索策略。區別于OU噪聲時序相關性,高斯噪聲不會受到之前動作的影響,所以對于不具備時序相關的決策動作非常適用于高斯噪聲。

在基于改進DDPG算法的藍軍步兵進攻紅軍軍事基地智能決策行動中,作戰智能體具有三個決策動作,其中速度與方向的控制適用于慣性系統,采用OU噪聲可以提高作戰智能體在速度控制與方向選擇策略的探索效率,但是針對作戰智能體的射擊動作,由于射擊動作的執行在時序上不具備相關性,即前一步的射擊動作不會對后一步是否采取射擊動作產生影響,因此采用OU噪聲則會降低射擊決策動作的探索效率。由于高斯噪聲具有獨立噪聲的特點,所以在射擊決策上采用高斯噪聲無疑是最好的選擇。所以本文引入了OU+Gaussian的混合雙噪聲來改進DDPG算法,提高算法在軍事模擬環境中的探索效率和收斂速度。后續實驗結果表明,采用混合雙噪聲的改進DDPG算法具有更快的收斂速度和更高的穩定性。OU噪聲參數設定如表3所示。

表3 OU噪聲參數設定表Table 3 OU noise parameter setting table

表3中,μ代表噪聲的平均值,θ代表趨于平均值的速度,σ為噪聲的波動程度。

4.3 增加單訓練模式下的多智能體框架

直接將DDPG算法應用于具有多智能體的軍事決策環境中,算法將很難收斂,因此本文設計了增加單模式下的多智能體靈活框架。在本文設計的多智能體框架中,每個作戰智能體獨立分配一個改進型DDPG算法,每個作戰智能體擁有獨立的神經網絡和基于優先級的經驗緩沖池。每個作戰智能體在與環境的交互中,接收全局的環境狀態信息,即將全局環境狀態作為Actor網絡的輸入,Critic網絡則獨立地對本智能體決策動作進行評價和訓練。

由于環境中同時存在多個作戰智能體,且依據時間步循環對每一個作戰智能體進行訓練,這會導致環境的動態變化,降低了算法的收斂速率和穩定性,使算法難以收斂。針對以上問題,本文提出了增加單模式下的多智能體框架。即在多智能體框架中加入單模式控制模塊,對每一個作戰智能體在特定時間步內增加單訓練模式。單訓練模式下,算法指定的單作戰智能體獨立地與環境交互,學習決策策略,其他作戰智能體臨時進入休眠狀態,不會對環境產生影響。退出單訓練模式,則多個智能體同時對環境進行探索,學習多智能體協作策略。增加了單模式的多智能體框架,可以大幅提高算法收斂的穩定性和速率,既保證了多智能體間可以學習到一定的協作策略,又可以使每個作戰智能體具有一定的獨立性。

在藍軍步兵進攻紅軍基地智能決策行動中,SDDDPG算法可以穩定且高效的收斂。SD-DDPG框架結構如圖3所示。

圖3 SD-DDPG框架圖Fig.3 SD-DDPG frame diagram

5 實驗結果與仿真

本文采用自主研發的基于Unity的智能軍事決策模擬環境作為訓練平臺,該平臺具有高度的仿真性和靈活性,采用三維模式構建,定義了一些通用的接口,通過這些接口可以自由設定滿足特定軍事任務的仿真環境,并且大部分經典算法都可以在該環境中進行測試。深度強化學習中,將累計獎勵值作為評價深度強化學習算法收斂性與穩定的標準。

5.1 連續性智能軍事決策

目前很少有研究將DDPG算法應用于智能軍事決策領域。由于DDPG具有強化的深度神經網絡函數擬合能力和較好的廣義學習能力,且其決策動作空間具有連續性特點。本文選擇DDPG算法作為智能軍事決策的基礎算法。

DQN算法在離散行為方面取得了很大的成功,但是很難實現高維的連續動作。此外,如果簡單地將操作離散化會過濾掉有關操作域結構的重要信息,所以離散型的強化學習算法無法用于更為精確的模擬智能軍事決策行為。圖4是DQN算法在智能軍事決策模擬圖。

圖4 應用DQN的離散軍事決策模擬圖Fig.4 Discrete military decision simulation chart based on DQN

DQN算法在藍軍步兵進攻紅軍基地軍事決策中,只能輸入離散的動作來適應網格化的地圖環境,雖然算法得到了收斂,但是網格化的地圖環境以及離散的動作控制大大降低了軍事決策模擬難度,忽略了真實軍事環境下作戰單位執行動作的高維性?;贒DPG算法的改進算法則可以依據更強大的神經網絡以及連續的動作控制,更加真實的對藍軍步兵智能軍事決策行為進行模擬,圖5是基于SD-DDPG算法的連續型軍事決策模擬圖。

圖5 基于SD-DDPG算法的連續型軍事決策模擬圖Fig.5 Continuous military decision simulation chart based on SD-DDPG algorithm

實驗結果表明,基于SD-DDPG算法的智能軍事決策能夠穩定且高效地執行連續型動作控制,每個作戰智能體在連續型獎勵函數的引導下,快速且穩定地繞過軍事障礙物到達指定隱蔽區域,之后智能執行射擊動作,進攻紅軍軍事基地,快速完成藍軍步兵進攻紅軍軍事基地作戰任務。對比離散型DQN算法,SD-DDPG算法應用于智能軍事決策行為更具真實性與高效性,克服了目前在軍事決策領域只能網格化作戰環境與執行簡單離散動作的弊端,是連續性動作控制在智能軍事決策領域的一次全新嘗試,為后續探索智能軍事決策領域提供了全新的視野與方法。

5.2 SD-DDPG算法的性能測試

SD-DDPG算法是DDPG算法的改進算法,通過引入基于優先級的經驗重放技術,解決了原始經驗緩沖池中所有經驗都具有同等重要性的弊端,通過加入OU與Gaussian混合雙噪聲來提高算法的探索能力,最后在多智能體框架下增加單訓練模式,提高了多智能體與環境交互的穩定性,使算法能夠快速且高效地收斂。

以DDPG算法作為基準算法,加入OU+Gaussian混合雙噪聲后,使決策動作的探索更加高效,算法收斂的穩定性有一定程度的提高。

圖6在不同噪聲環境下通過迭代訓練300回合(episode)進行對比,每個回合最大訓練次數為5 000次。實驗結果表明,對速度控制和方向控制疊加OU噪聲,以及對射擊動作控制疊加Gaussian噪聲后,DDPG算法在該軍事決策模擬環境下具有更高的穩定性。

圖6 OU噪聲與OU+Gaussian混合噪聲的獎勵對比Fig.6 Comparison of OU noise and OU+Gaussian mixed noise

針對多智能體框架下,由于環境的動態變化而導致的算法不穩定且難以收斂的問題,本文增加了單訓練模式,圖7表示了增加單模式下的DDPG(Single-mode DDPG,S-DDPG)算法收斂速度與收斂穩定性都明顯提升。

圖7 增加單模式下DDPG算法與原始算法獎勵對比Fig.7 Comparison of DDPG algorithm and original algorithm in single-mode

為最終驗證SD-DDPG算法的先進性,本文選取Actor-Critic(演員-評論家)[23]、DDPG、PER-DDPG(基于優先級經驗重放技術的DDPG)[22]等3種連續性深度強化學習算法與之比較,結果如圖8所示。

圖8 SD-DDPG算法與其他算法獎勵對比Fig.8 Comparison between SD-DDPG algorithm and other algorithms

Actor-Critic算法由actor網絡和critic網絡兩部分構成,可以執行連續的控制操作,也是DDPG算法的基本框架。PER-DDPG算法對原始算法進行了改進,使其具備了優先級的經驗回放,能夠更加高效地從經驗中學習策略。圖8中對比結果表明,本文采取的SD-DDPG算法比其他連續性算法具有更高的回合獎勵和更快的收斂穩定性。

綜上所述,在藍軍步兵進攻紅軍軍事基地智能軍事決策環境中,設定的6名作戰智能體在SD-DDPG算法的指揮控制下,能夠自主規劃最佳路徑,且在合適的時機下對紅軍基地實施火力打擊,以最快的速度完美地完成了作戰任務。SD-DDPG算法的超參數設置如表4所示。

表4 SD-DDPG算法超參數Table 4 Super parameter of SD-DDPG algorithm

表4中超參數數值的選擇依據反復實驗與經驗所得。批尺寸的大小一般為8、16、32、64等,大的批尺寸能夠使模型更準確地朝著極值所在的方向更新,但批尺寸的選擇也會受到計算機內存大小的限制,通過實驗并結合計算機硬件實際條件,選擇批尺寸大小為32。折扣系數反映了對未來獎勵的期望程度,藍軍步兵進攻紅軍基地軍事行動更關注于最終的戰果,因此設置折扣系數為0.99。圖7中算法在150個回合后趨于穩定,圖6與圖8表明算法在250個回合后趨于穩定,因此選擇回合數為300以及每回合最大步數為5 000可以保證算法在最短時間內收斂,且不會因為過多的回合訓練造成過擬合現象。噪聲的探索次數根據回合數與每回合最大步數得出。經驗緩沖池存儲供網絡訓練的樣本數據,過小的緩沖池必然會使一部分經驗被丟棄,而過大的緩沖池又會受到計算機內存與性能的限制,通過多次實驗,選擇緩沖池大小為350 000。SD-DDPG算法通過軟更新來更新目標網絡參數,通常設定目標網絡超參數為0.001。alpha與beta參數分別控制優先級經驗重放程度與重要性采樣程度,通過權衡攻擊性與魯棒性[24],確定alpha與beta的數值為0.6與0.4。

學習率的選擇是所有超參數調整中最為重要的,它會對模型的收斂性與學習速率產生重要影響。LRA與LRC的選擇通常為0.01、0.001、0.000 1等。選擇較大學習率可能導致模型不收斂,而選擇較小學習率雖然會提高模型收斂的概率,但會影響模型的收斂速度。SD-DDPG算法中,critic網絡對actor網絡進行評價,通常需要更快的學習率。圖9表明,學習率參數選擇0.001數量級時,模型難以收斂,而LRA與LRC分別為0.000 1與0.000 2具有更快的收斂速度與穩定性。

圖9 學習率參數對模型性能影響Fig.9 Influence of learning rate parameters on model performance

6 結語

本文以DDPG算法為基礎,提出了SD-DDPG算法并應用于解決智能軍事決策問題。通過引入基于優先級的經驗重放技術、混合雙噪聲以及增加單訓練模式來提高算法在軍事決策問題上的收斂穩定性和收斂速度,是連續性軍事決策智能生成的一次成功探索。實驗結果表明,SD-DDPG算法具有更高的回合獎勵、更快的收斂速度和更好的穩定性,可以有效地提升智能軍事決策效率。但SD-DDPG算法弱化了多智能體間的交流協作,只能實現一定程度的交流協作能力,它更注重任務的快速完成。下一步將拓展研究范圍,加強對以多智能體之間的通信為基礎的多agent算法研究。

猜你喜歡
軍事紅軍經驗
2021年第20期“最值得推廣的經驗”評選
經驗
2018年第20期“最值得推廣的經驗”評選
少寨紅軍橋
十送紅軍
再唱十送紅軍
倔強的小紅軍
當你遇見了“零經驗”的他
軍事幽默:局
軍事
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合