基于深度學習的戰略威懾決策模型研究

2018-01-18 00:31榮明楊鏡宇

指揮與控制學報 2017年1期

榮明楊鏡宇

威懾的目的是不戰而屈人之兵.冷戰時期威懾的核心是美國以核報復相威脅,其目的在于防止或威懾蘇聯對美國及其盟國發動核攻擊或常規進攻.威懾理論也是在這樣的大背景下發展起來的.冷戰的結束并沒有同時宣告核時代的結束,而只是改變了核武器存在和發揮作用的國際環境,核威懾仍是美國威懾理論的組成都分.威懾也出現了新的特點,特別是核威懾條件下的常規威懾如常規導彈威懾、太空威懾、網絡威懾等,逐步成為當代威懾的主要樣式.

戰略威懾對抗仿真實驗為研究戰略威懾問題提供了一種新的手段.它是以仿真的方法研究戰略威懾問題,通過構建戰略威懾對抗環境,模擬對抗兩國戰略威懾下的決策行為,實現戰略威懾對抗實驗.基于戰略威懾對抗仿真實驗需求,對對抗兩國決策模型進行研究,可為武器裝備戰略威懾有效性評估提供模型資源支撐,同時還可以為戰略兵棋系統實現人—機對抗演練、機—機對抗分析功能提供參考.

戰略威懾決策模型是戰略威懾仿真中必須要解決的核心問題.國內外對戰略威懾決策模型研究比較少,究其原因主要是使用計算機對戰略決策問題進行建模分析是困難的,戰略決策的藝術性較強,影響因素眾多,很多因素難以定量表達,如人的情感因素.現在計算機的人工智能技術也難以很好地模擬人的智能行為,決策行為屬于智能行為.一些戰略決策仿真研究通過對國家內部個體(人或組織)的決策行為仿真,再“累加”為國家行為的方法對國家戰略決策進行仿真[1],這些研究的仿真效果并不好,沒有得到普遍認可.對于國家內部個體(人或組織)的運行規則的實證研究是缺乏的,缺少這些個體的數據和抽象模型,去表達這些個體決策行為是不現實的,對戰略威懾決策進行仿真需要在方法上另辟蹊徑.

今年,隨著深度學習技術的飛速發展,在態勢感知與理解方面人工智能取得了長足的進步.雖然目前還難以替代人的智慧,然而在某些狹小的領域卻可以達到專家水平[1?2],模擬智能行為同樣是可行的.戰略威懾決策就是戰略決策中一個“狹小領域”,主要研究如何對威懾相關問題進行決策.根據課題要求,我們要仿真威懾博弈中具有某國特點的決策行為,而非求解最優方案,即某國家面對某種戰略威懾態勢時“應該”會做出怎樣的決策,同時僅要求決策仿真的結果.因此,我們嘗試使用深度學習的方法進行戰略決策模型的建立.

1 戰略威懾決策模型建模分析

決策有很多方法,如AHP、多屬性決策、遺傳算法等,而決策仿真要仿真具有某國家特質的決策行為,更適合采用神經網絡、產生式規則、模糊規則推理等方法.胡曉峰將仿真模擬方法分為3種:“基于模型分析的模擬”、“基于數據分析的模擬”和“基于智能分析的模擬”[3?5].其中基于模型分析的模擬需要建立能夠揭示仿真對象規律的數學或邏輯模型,基于數據分析的模擬需要仿真對象大量的數據來構建模型,基于智能分析的模擬需要利用知識和經驗制定規則進行推理.根據前面的分析,適合把這一問題按照國家決策層次流程拆解為上下兩部分,對應構建兩部分模型,綜合運用仿真方法來解決.上層決策為國家的頂層戰略決策,決策的問題是選擇“退讓”還是“(繼續)抗衡”的大戰略問題,稱為高層國家行為決策.這個決策主要考慮的影響因素是國家利益,戰略選擇的結果較宏觀、數量較少,國際關系領域有相應的實證研究和抽象模型,適合選擇“基于模型分析的模擬方法”.下層決策為具體戰略行動的選擇,稱為行動層國家行為決策,影響因素很多,可選擇的行動選項多,行動規律更為復雜,難以建立數學模型在有限的時空下求解,也缺少實證研究數據進行數據分析建模,適合采用“基于智能分析的模擬方法”,使理論與經驗相結合,定性與定量相結合.

經過調查和討論確定威懾博弈中國家行為決策要素.影響高層國家行為決策的要素主要是國家利益,即國家對于可能結局的收益大小,外化為國家對此的偏好.而國家對各種結局偏好受到沖突本身的成本、各種國內政治成本、國家敢于冒風險的程度、國家間合作分歧的程度、如果引發沖突獲勝的概率等要素的影響.行動層國家行為決策要素主要是高層國家行為決策結果、對對方行動所展現出的實力、決心大小的認知和國家對于威懾的承受水平.以下將根據這些要素具體構建國家行為決策模型.

威懾方決策模型基本結構如圖1所示,高層決策以態勢變化和對方行動數據為基礎,行動層決策以高層決策結果為基準,決策的行動會使外圍模型態勢變化,進而影響對抗雙方決策.虛線部分為決策模型外的模型,為決策模型提供態勢數據,受懾方決策模型與之相似.

2 戰略威懾決策模型

高層國家行為決策面對的是雙方作為理性的行為體互動對抗中的決策問題,博弈論的框架很適合描述求解互動對抗雙方的理性的決策行動,Bennett[6]、Quackenbush[7]等國際戰略專家通過對COW(The Correlates of War project,戰爭相關指數項目)數據庫中百年來各個國家沖突統計數據實證研究,驗證了國家的戰略威懾決策基本上都符合博弈論模型推導的結果,因此用博弈論模型作為高層國家行為決策模型來模擬國家的戰略威懾決策行為是可靠的.

根據研究背景假設和抽象,建立雙方單邊威懾博弈模型如圖2所示.此博弈模型作為威懾方和受懾方內部的戰略層決策模型,但雙方得到的態勢信息是不同的,即威懾方和受懾方分別根據自己的博弈模型和獲取的態勢等信息做出決策.求得某方在某態勢下的博弈均衡就可以得到此方在此態勢下的策略選擇即戰略層決策的結果.

2.1 決策效用值求解

求收益首先要計算國家對不同選擇的喜歡程度,即國家偏好結構.計算過程比較繁瑣,以受懾方為例簡述如下,首先根據COW數據庫中威懾方和受懾方國家的數據,按照Bennett和Bueno de Mesquita的方法計算S分數和國家冒險傾向r i,S分數表明威懾方與受懾方國家間沖突與合作的程度,r i表明國家敢于冒風險的程度,i為國家標識.通過Bueno de Mesquita實證檢驗的公式計算基礎效用值U C(SQ)、U C(ΔC)、U C(Δd),3 個效用值分別代表受懾方選擇妥協的效用、受懾方向威懾方提出利益值、威懾者向受懾方提出的利益值,也可以根據沖突的背景和專家的經驗設定這3個基礎效用值的大小.

根據外圍仿真模型提供參數:沖突中受懾方使用武力的國內政治成本φc、受懾方妥協的國內政治成本γc、沖突本身給受懾方的成本ωc、沖突中受懾方勝利概率p c,和式(4)～式(7)[7]計算受懾方其他選擇的效用值,對得到的所有效用值進行排序得到受懾方效用偏好.

由國家偏好等數據計算相關門限參數c t、c s、d n、p c、p d和不完全信息博弈下的均衡,不同態勢影響下的國家偏好結構和限定條件各不相同,可能的均衡結果也不同,如表1所示.

2.2 深度學習決策模型建立

借鑒AlphaGo的思想,通過增強學習和價值網絡,完成對戰略威懾決策模型的建模[8?10].增強學習(Reinforcement learning)可以對戰略威懾決策模型神經網絡ρσ進行加強.ρρ的網絡結構和功能與有監督學習策略網絡ρσ完全相同.其增強學習的主要過程是:首先取 ρσ為第 1代版本 ρσ1,讓 ρσ1與 ρσ1自對弈N局,產生出N個新的結果,再用新的結果訓練ρσ1產生第 2 代版本 ρσ2,再讓 ρσ2與 ρσ1自博弈N局,訓練產生第3代版本ρσ3,第i代版本隨機選取前面的版本進行自對弈,如此迭代訓練n次后得到第n代版本ρσn=ρρ,就產生了增強學習的策略網絡ρρ.

我們構建的戰略威懾決策模型的價值網絡V是一個具有10層的卷積神經網絡,與策略網絡具有相同的結構.主要功能是:輸入當前的戰略態勢,輸出下一步在戰略威懾行動的估值,以此評價行動的優劣.策略網絡和價值網絡的主要作用是降低博弈樹的搜索寬度和搜索深度,通過剪枝來控制搜索空間的規模.但是要作出合適的決策,不僅要依賴搜索空間的降低,還需要采用合適的搜索算法.運用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法來實現對威懾博弈樹的搜索.MCTS算法的原理是:隨機抽取威懾行動,通過最終威懾結果來更威懾行動措施的價值.隨機威懾行動的概率,與威懾行動價值成正比.如此進行大量的隨機模擬,讓好的方案自動涌現出來.

2.3 行動層國家行為決策仿真模型

如果戰略層決策模型的決策結果是“(繼續)抗衡”,那么行動層國家行為決策模型將進行具體行動的決策.根據威懾的邏輯,威懾受威懾實力、威懾決心以對這兩者的認知的影響.這一決策過程如圖2所示,在認知判斷部分對對方的實力、決心、態勢信息等進行判斷評估,決策部分根據判斷評估結果進行決策.

這一過程受多個屬性影響,需要根據問題背景模擬具有某國家特點的決策行為,由前面的分析,適合采用深度學習的方法來進行決策仿真,綜合利用文獻資料、專家經驗在運行調試中不斷擬合決策行為.威懾決策過程中認知判斷部分通過對對方行動信息、態勢信息、戰略層決策信息中的相關參數判斷評估,得到對對方實力、決心大小的評估判斷.決策部分通過對決心、實力的評估結果和其他相關參數,得到適合行動的屬性值.采用特征向量匹配算法,對行動庫中的行動進行匹配,選擇最適合的行動.

3 結論

當前對于戰略威懾博弈國家行為決策仿真的相關研究還比較少,針對這一決策仿真的特點,分析探索適合的方法,提出了“基于深度學習的決策模型”的方法,綜合博弈論、深度學習、模糊規則、結合專家經驗構建了相應的仿真模型.目前歸納了20余種戰略威懾行動,建立了基本的行動庫和規則庫,已經開發完成了原型仿真系統,驗證了方案的可行性.另外,還需要在運行調試中進一步完善相關數據規則,不斷提高運行效果.應該說采用深度學習方法進行戰略威懾決策模型研究是一種可行的初步嘗試,最終威懾模型決策效果還要在后繼的研究中繼續深入,不斷提升.

1 TAYLOR G,FREDERIKSEN R,VANE R R,et al.Agent-based simulation of geo-political con fl ict[C]//Conference on Nineteenth National Conference on Arti fi cial Intelligence,2004:884?891.

2 胡曉峰.美軍訓練模擬[M].北京:國防大學出版社,2001.

3 陳聰,蔣魯峰,孟大偉,等.蘭德戰略評估系統的軟件設計、應用與發展[M].北京:航空工業出版社,2015.

4 溫柏華,司光亞,胡曉峰,等.第三方智能決策代理決策行為模型研究與實現[J].系統仿真學報,2005,17(11):2808?2810.

5 魏賓,胡曉峰,司光亞,等.戰爭決策行為建模與仿真的研究[J].系統仿真學報,2003,15(12):1678?1682.

6 NEGNEVITSKY M.人工智能:智能系統指南[M].陳薇,譯.北京:機械工業出版社,2012.

7 胡曉峰,司光亞,吳琳,等.戰爭模擬原理與系統[M].北京:國防大學出版社,2009.

8 SILVER D,HUANG A.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484.

9 WILLIAMS R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine Learning,1992,8(3):229?256.

10 SUTTON R S,MCALLESTER D,SINGH S,et al.Policy gradient methods for reinforcement learning with function approximation[C]//Advances in Neural Information Processing Systems 12,2000:1057-1063.