?

深度強化學習在軍事領域的應用研究

2022-11-25 00:04文東日
軍事運籌與系統工程 2022年2期
關鍵詞:軍事決策深度

文東日

(1.國防大學 研究生院,北京100091;2.中國人民解放軍63936 部隊,北京102202)

1 引言

2 深度強化學習軍事應用研究現狀

深度強化學習具有突出的決策規劃能力,擁有廣闊的軍事應用前景,受到研究人員的廣泛關注。近年來,深度強化學習軍事應用研究的相關文獻逐年增多,在態勢感知、指揮決策、裝備控制、空戰博弈、兵棋推演等諸多領域均有成果。

2.1 應用深度強化學習于態勢感知

態勢感知是實施作戰行動的邏輯起點,核心是綜合處理戰場環境、情報偵察、兵力部署、力量對比等各種信息,做出綜合判斷,為采取作戰行動提供決策依據。吳志強等構建了基于Actor-Critic 的態勢估計模型,提出基于深度強化學習的自動態勢分析技術框架[1]。Actor-Critic 架構既有決策功能(Actor)又有評估功能(Critic),文獻[1]僅利用Critic 進行態勢估計,卻舍棄了Actor 的決策功能。冷鵬飛等提出一種基于深度強化學習的雷達輻射源個體識別方法[2],以雷達輻射源信號包絡前沿作為深度神經網絡的輸入狀態,以輻射源類別作為輸入狀態的可選動作,通過擬合當前狀態動作對的Q 值完成雷達輻射源個體識別任務。利用深度強化學習進行目標識別是深度強化學習的一種特殊應用,此種情況下的馬爾可夫決策過程僅有一個決策步。李銀通等提出利用逆強化學習進行空戰態勢評估[3]。在態勢評估或目標識別領域應用深度強化學習,未充分發揮其技術優勢,相關應用研究也較少。

2.2 應用深度強化學習于指揮決策

深度強化學習具有突出的決策規劃能力,發揮深度強化學習這一技術特點,提升指揮控制能力、獲取決策優勢,是深度強化學習在軍事領域的主要應用方向。曹雷提出將深度強化學習應用于作戰輔助決策(或作戰任務規劃、智能博弈對抗)的基本構想[4],建立基于馬爾可夫決策過程的作戰指揮控制模型,探討獲得最優策略的基本邏輯。針對不同領域、不同規模、不同階段的指揮決策問題,諸多學者進行了具體探索。如陳希亮等針對陸軍分隊戰術決策問題,提出有限指揮決策范例數據條件下的逆向強化學習方法,給出方案推演中基于深度Q網絡的陸軍分隊戰術決策技術求解框架[5]。馮利設計了基于深度Q 網絡的炮兵連智能決策系統[6],為解決炮兵戰術決策問題提供了借鑒。筆者曾提出基于深度強化學習的裝備組合運用方法[7],發揮深度強化學習解決組合優化問題的優勢,進行裝備運用方案籌劃。于彤彤等提出基于深度強化學習的艦載機在線調度方法[8]。此外,一些學者圍繞利用深度強化學習解決防空反導[9]、網電攻防[10]、低軌衛星路由策略[11]中的輔助決策問題進行了研究。

2.3 應用深度強化學習于裝備控制

利用深度強化學習實現裝備智能控制,是深度強化學習軍事應用的又一重要方向。如付佳龍研究利用深度強化學習實現艦載機的自動著艦[12],張耀、相曉嘉、趙明皓等分別研究利用深度強化學習實現無人戰車[13]、無人機[14]、無人艇[15]等無人平臺的自主控制,南英、馬子杰、高昂等分別研究利用深度強化學習進行彈道導彈[16]、巡航導彈[17]、巡飛彈[18]等制導導彈的突防控制以及航跡規劃。Gaudet 等研究基于強化學習的自主高超聲速打擊武器末端自適應制導方法[19]??梢哉f,武器裝備智能化是軍事智能化的物質基礎,是深度強化學習軍事應用的重要領域,是催生智能化武器裝備的重要技術基礎。2018 年2 月,SpaceX 公司利用強化學習技術提升火箭著陸精度和可靠性,使其出色地完成自動轉向等操作,大幅減少了地面專家操作工作量[20]。

2.4 應用深度強化學習于空戰博弈

空戰博弈是裝備控制的一種特殊情況,相比較一般裝備控制問題,空戰博弈具有激烈對抗性的突出特點。2020 年8 月,美國國防高級研究計劃局(DARPA)舉辦阿爾法空戰格斗系列比賽(Alpha-DogFight),蒼鷺系統公司基于深度強化學習算法完勝F-16 頂尖飛行員,顯示出將深度強化學習應用于空戰博弈的巨大潛力。圍繞空戰博弈問題,POPE 等研究利用分層深度強化學習進行飛機空中格斗[21],馬文等提出一種深度強化學習與博弈相結合的近距空戰機動決策方法[22],郭萬春等提出一種基于改進雙延遲深度確定性策略梯度法的無人機反追擊機動決策方法[23],楊霄等提出一種深度強化學習與微分對策(Differential Games,DG)相結合的無人機空戰決策方法[24]。正如陳希亮等指出,空戰決策問題與圍棋、星際爭霸等問題不同,無法簡單套用游戲中的深度強化學習算法,須針對具體軍事問題,綜合運用運籌分析、知識建模、智能搜索和機器學習等方法尋找解決方案[25]。

2.5 應用深度強化學習于兵棋推演

深度強化學習基于大量采樣和試錯進行學習,為降低試錯成本,一般須構建虛擬仿真環境,而兵棋推演正好滿足這一要求。美國國防高級研究計劃局在深度強化學習攻克星際爭霸后,立馬將其應用于戰爭模擬研究[26]。筆者曾指出為使傳統軍事仿真平臺能和智能體進行交互,須對傳統軍事仿真平臺進行改造,包括實現環境功能的仿真平臺、實現智能體功能的開發平臺以及連接仿真平臺和開發平臺的接口[7]。劉靜等設計了網電作戰多智能體博弈仿真平臺[27]。崔文華等探討以兵棋系統為依托的基于深度強化學習的決策技術框架[28]。目前,深度強化學習成為兵棋推演智能決策的主要技術之一,國內已有多個能夠應用深度強化學習進行推演的仿真平臺。

3 深度強化學習軍事應用的優勢及挑戰

3.1 深度強化學習軍事應用優勢分析

深度強化學習具有不需要數據標簽、環境模型、提取特征等內在特點,符合許多軍事應用問題的技術要求,使得應用深度強化學習于軍事領域具有明顯優勢。

3.1.1 不需要數據標簽,從而擺脫數據標記

The median follow-up period for all patients was 34.5(9.9-81) mo. Median follow-up time for group Ⅰ was 37.5 (9.9-74.5) mo and group Ⅱ was 31.2 (10.7-81) mo.Median follow-up was comparable in both groups (P =0.59).

深度強化學習不需要數據標簽,從而使得應用深度強化學習解決軍事問題擺脫數據標記。以深度學習為代表的監督學習,需要大量的數據標簽,以致產生對數據進行標記的巨大市場需求。但當人們試圖把深度學習以及大數據等技術應用于軍事領域時,卻發現由于缺少數據標簽或者根本沒有數據積累、數據來源,導致很多軍事問題難以利用監督學習的方法。而強化學習不需要數據標簽,其通過持續地交互“試錯”機制,不斷地“接收狀態—執行動作—獲得收益—調整策略”,最終獲得最大收益、找到最優策略。此種源于行為主義心理學的學習機制,使得以深度強化學習解決軍事問題時,解決了沒有數據來源、缺少數據積累以及數據標簽的問題。

3.1.2 不需要環境模型,從而超越經驗知識

深度強化學習不需要環境模型,從而使得應用深度強化學習解決軍事問題超越經驗知識。環境模型即狀態轉移函數,表示在一個狀態下采取某個動作時,從當前狀態轉移到另一狀態并獲得收益的概率。簡單理解,智能體好比是懂行的專家,其對動作的后續影響完全知悉。然而,在沒有環境模型的情況下,強化學習通過與環境交互采樣,得到狀態、動作、收益的序列,并在收益的引導下糾正錯誤動作、選擇正確動作,依然能夠達到最優的行為。根據這一原理,AlphaGo Zero 在完全不懂圍棋、也不借助人類經驗的情況下,成為圍棋頂尖高手,打敗先前版本的AlphaGo Master 。類似于此,利用深度強化學習解決軍事問題,也可能在完全沒有軍事專家指導、沒有軍事經驗的情況下,成為精于計算、足智多謀的軍事助手。

3.1.3 不需要提取特征,從而回避特征工程

深度強化學習不需要提取特征,從而使得應用深度強化學習解決軍事問題回避特征工程。傳統的強化學習在解決一般任務時存在以下幾點不足:一是需要根據具體任務提取特征,從而轉化為有限狀態空間及有限動作空間;二是提取特征需要人工完成,因而受人為因素的影響較大;三是有的高維任務或許根本無法轉化為有限狀態空間及動作空間。而深度強化學習利用深度神經網絡強大的泛函表示能力,既能夠應對連續狀態空間和動作空間的任務,又可省去人工提取特征的環節,從而克服了傳統強化學習的不足。運用深度強化學習解決軍事問題,不需要對特征提取進行人為選擇,即使面對不同作戰條件、作戰目標和作戰意圖,也可基于同一網絡結構進行訓練,提高了網絡結構的通用性。

3.2 深度強化學習軍事應用困難挑戰

雖然利用深度強化學習解決軍事問題具有諸多優勢和廣闊前景,但與落地應用仍有差距,在系統建構、訓練收斂、算法遷移等方面存在困難。

3.2.1 系統建構之難

應用深度強化學習解決軍事問題,需要開發平臺、計算平臺、仿真平臺等作為支撐,由此導致實現該方法存在相應困難。①源于開發平臺,人工成本高。雖然利用開發平臺構建智能體,能夠實現自動學習、智能尋優,改變傳統仿真方法效率低、時間長等缺點,但編寫智能體專業性強、工作量大、不易實現。且對于軍事問題,由于戰場環境的開放性,任務想定總是處于動態變化之中,要為不同的想定設計不同的動作空間、狀態空間,編寫不同的訓練環境,相當于針對一個想定開發一個“游戲”,由此導致利用深度強化學習解決軍事問題仍需要較大人工成本。②源于計算平臺,計算開銷大。利用深度強化學習解決復雜問題需要高性能計算資源支持。例如,深度思維公司訓練AlphaGo 圍棋智能體利用了多 達280 個GPU 和1 920 個CPU[29],訓 練OpenAI Five 星際爭霸智能體利用了多達256 個GPU 和128 000 個CPU[30]。而2020 年中國超級計算排名第三的北京超級云計算中心也僅有192 000 個CPU,2018 年世界超級計算排名第一、2020 年排名第四的“太湖之光”安裝了40 960 個眾核處理器[31]。如此龐大的計算開銷,使得眾多普通的深度強化學習研究者望而卻步,限制了深度強化學習的軍事應用。③源于仿真平臺,導致方法起點要求高。利用深度強化學習解決軍事問題,首先需要仿真平臺的支撐,沒有仿真平臺,方法也就無從構建。因此,深度強化學習的軍事應用在硬件支撐上要求更高、條件更嚴、實現更難。

3.2.2 訓練收斂之難

應用深度強化學習解決軍事問題雖具有可行性,但由于深度強化學習本身存在訓練效率低、不穩定等缺陷,使得探尋最優策略需要漫長時間,且收斂存在偶然性。如深度思維公司即便擁有超強的計算資源,但訓練OpenAI Five 星際爭霸智能體,也耗時長達10 個月。在實際軍事問題場景中,裝備實體數量大幅增加、問題復雜度成倍提高、時效性要求極其嚴苛,過長的訓練時間直接導致方法不可用。另外,由于收斂的偶然性,訓練開始并不能保證最終得到最優結果,往往由于學習率過大或過小、網絡初始模型不適用、激活函數不合理、“探索—利用”沒有平衡好等因素而失敗。

3.2.3 算法遷移之難

由于深度強化學習具有過擬合、難解釋的本質缺陷,利用深度強化學習解決軍事問題存在遷移困難。其遷移困難首先體現在不同想定之間難遷移。深度強化學習是基于環境的學習探索,為使智能體實現獎勵最大化,可以盡量地擬合環境要求。但若環境(或想定)稍做調整變化,經過反復調試、精心訓練,最終收斂得到的智能體就完全失效,須從頭開始、重新訓練??梢哉f,基于深度強化學習訓練的智能體雖然能夠解決某些問題,但只能機械地應對,不能靈活地變化。面對多種想定情況,深度強化學習智能體不能舉一反三、觸類旁通、實現遷移。其遷移困難還體現在向現實環境遷移難。深度強化學習解決問題的性能非常優異,但其只是給出方案“是什么”,至于“為什么”沒有任何信息,因而難以獲得軍事指揮員的理解、信任與采納,阻礙深度強化學習的軍事應用。

4 深度強化學習軍事應用研究展望

4.1 打造智能平臺

打造仿真平臺是深度強化學習軍事應用的基礎。當前,雖有能夠利用深度強化學習的仿真平臺,但基于傳統仿真平臺實現深度強化學習軍事應用的過程復雜,智能體的編寫需要耗費大量精力。打造智能軍事仿真平臺,簡化智能體的構造及訓練過程,是未來研究的重要方向。一是通過標準化的方式,統一智能體的結構。不同類型的智能體,功能要求不一樣,有的智能體用于識別目標、有的智能體用于判斷風險、有的智能體用于作出決策等。對于不同的智能體,還可能有不同的設計方法和實現途徑。標準化的目的在于從概念形式上統一各種不同功能、不同技術途徑的智能體,為簡化智能體的構建及部署奠定基礎。二是通過模塊化的方式,簡化智能體的構建。集成模塊化的深度神經網絡,如卷積神經網絡(CNN)、深度信念網絡(DBN)、循環神經網絡(RNN)、長短時記憶網絡(LSTM)等;集成模塊化的強化學習算法,如深度Q學習算法(DQN)、深度確定性策略梯度算法(DDPG)、近端策略優化算法(PPO)、異步的基于優勢函數的“行動器—評判器”算法(A3C)、信賴域策略優化算法(TRPO)等;集成模塊化的狀態輸入與動作輸出。當智能體的構建、訓練及部署較為容易簡便時,就可以為每一個必要的模型賦予智能,從而完成認知建模,使得模型“活”起來。如此,模型就可以更加真實地模擬真實情況,也可以更加便捷地進行推演,而不需要每個決策都由參演人員臨時輸入、每個操作都由參演人員人工控制;在推演中有的席位可以直接由智能模型替代,甚至整個藍方都由智能體扮演,大大減少陪練人員,聚焦關鍵問題。傳統的計算機兵棋系統將發生本質性改變,實現智能化的升級改造。

4.2 構建并行模式

深度強化學習本身存在采樣效率低、訓練時間長等不足,通過構建分布式并行訓練模式解決軍事問題,從而提高采樣效率、降低時間成本,值得進一步研究探索。許多大規模分布式強化學習架構,如并行的基于優勢函數的“行動器—評判器”架構(Parallel Advantage Actor Critic,PAAC)、重要性加權的操作者—學習者架構(Importance Weighted Actor-Learner Architecture,IMPALA)、去中心化的分布式近端策略優化架構(Decentralized Distributed Proximal Policy Optimization,DDPPO)等,能夠顯著改善單進程的深度強化學習在解決大規模復雜問題時的性能不足。相關實驗證明,采用分布式深度強化學習玩雅達利游戲,可以將原來需要幾十個小時甚至十幾天才能達到人類玩家水平的訓練時間,縮短到幾個小時甚至幾分鐘。深度思維公司在分布式深度強化學習的啟發下,研究老鼠多巴胺細胞的生理機制,發現大腦中同樣存在分布式架構[32],證明分布式深度強化學習比標準的深度強化學習更加類似于大腦機能,是正確的研究方向。為此,應研究構建基于分布式深度強化學習架構的軍事應用方法,探究在分布式深度強化學習架構下仿真平臺及其接口的技術要求,分析部署分布式深度強化學習的硬件需求,評估基于分布式深度強化學習架構的軍事應用的優勢,解決基于標準的深度強化學習軍事應用存在效率低、時間長等不足。

4.3 融合符號主義

軍事問題十分復雜,簡單套用游戲中的深度強化學習算法,存在難解釋、效率低、過擬合、不穩定等本質缺陷,如何有效利用知識是深度強化學習軍事應用研究的重要突破方向。近年來,深度強化學習誕生很多前沿研究方向,如分層深度強化學習、深度逆向強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基于記憶與推理的深度強化學習等,其中很多研究方向都試圖把知識融進深度強化學習,以期實現符號主義、聯結主義、行為主義的結合。如分層深度強化學習的基本思想是將一個復雜問題分解為若干個容易解決的子問題,通過子問題的解決策略,得出整體問題的最優策略。由于問題分解、劃分層次通常是由人工完成,這就需要特定領域的知識和技巧,以促進更好的學習效果。深度逆向強化學習的基本思想是針對獎勵函數難以獲得問題,通過專家示例反推得到獎勵函數,進而利用獎勵函數引導獲得最優策略。由于逆向強化學習以專家示例為榜樣,同樣需要特定領域的知識。多任務遷移深度強化學習的基本思想是為解決傳統的深度強化學習只能應對單一任務、單一環境,只要任務或者環境稍有變化,之前的學習結果就會失效,泛化性能差的問題,通過將知識從源任務遷移到目標任務,從而使得智能體更好適應新的任務場景?;谟洃浥c推理的深度強化學習的基本思想是針對傳統的深度強化學習模型不具備記憶、認知、推理等高層次能力的問題,加入外部記憶組件,使得智能體具有初步的主動認知與推理能力,從而提高智能體性能。知識是人類認識世界的成果,是“去偽存真,去粗存精”的總結凝練,是“透過現象看本質”的規律把握,比起一般數據和信息更有價值。通過融入知識,實現符號主義、聯結主義、行為主義的貫通,智能體在性能上均有提升,為深度強化學習的軍事應用提供了有益借鑒。

5 結束語

深度強化學習具有突出的決策規劃能力,是軍事智能化的關鍵技術基礎,在軍事領域具有廣闊應用前景。應用深度強化學習解決軍事問題既有擺脫數據標記、超越經驗知識、回避特征工程等技術優勢,也有系統建構、訓練收斂、算法遷移等方面不足。應進一步加強深度強化學習軍事應用研究,堅持以軍事需求為牽引,以技術進步為推動,努力將深度強化學習的突出性能轉化為軍事博弈的決策優勢,為未來戰爭制勝“OODA”環奠定基礎。

猜你喜歡
軍事決策深度
四增四減 深度推進
深度思考之不等式
簡約教學 深度學習
決策大數據
決策大數據
決策大數據
諸葛亮隆中決策
軍事幽默:局
軍事
軍事幽默
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合