?

基于多階段網絡欺騙博弈的主動防御研究

2020-09-08 11:56胡永進馬駿郭淵博張晗
通信學報 2020年8期
關鍵詞:攻擊者階段信號

胡永進,馬駿,郭淵博,張晗,2

(1.信息工程大學密碼工程學院,河南 鄭州 450001;2.鄭州大學軟件學院,河南 鄭州 450001)

1 引言

隨著網絡信息技術的飛速發展,人類已經步入“互聯網+”時代,互聯網的應用給人類社會帶來了極大的便利,網絡安全問題也逐漸成為影響信息社會發展的關鍵因素,網絡安全問題已經成為網絡信息領域亟需解決的核心問題[1]。針對傳統網絡攻防過程中防御者往往處于被動狀態[2],學者們采用蜜罐[3]等網絡欺騙技術使防御者變被動為主動。通過構建虛假或其他類型的蜜罐網絡引誘攻擊者進行錯誤攻擊,從而達到保護目標網絡的目的,實現網絡安全主動防御。

網絡欺騙[4]是指將具有欺騙性的防御策略應用于網絡安全防御過程中,這是根據蜜罐的思想演進而產生的一種網絡防御機制,其核心思想是防御者通過釋放防御欺騙信號來干擾攻擊者進行攻擊策略選取[5]。在具有對抗性策略的對局中,獲勝并不意味著必須成為一般意義上的強者,采取迷惑對手的行動往往也能夠取得較好的效果[6]。在網絡攻防過程中,防御者利用網絡欺騙技術一方面可以打破網絡系統的確定性、靜態性與同構性,影響攻擊者對目標系統信息的判斷;另一方面可將攻擊者引入一個“虛假”的網絡環境中,使攻擊者對自身攻擊效果處于一種未知狀態,且防御者能夠對攻擊者的攻擊行為進行數據分析[7]。

Springer出版社于2016年出版了介紹網絡欺騙研究的著作Cyber Deception[8],該書匯集了關于網絡欺騙的研究工作。此外,Pang 等[9]從攻擊者的角度出發,對網絡欺騙進行分析研究,但缺少對防御角度的網絡欺騙研究。張恒巍等[10]將信號博弈理論應用于網絡攻防分析,用于網絡防御策略選取,但未考慮網絡攻防過程中信息的不對稱及信號傳遞的作用,且僅是單階段網絡欺騙研究,即在模型中攻防雙方的策略選擇和對抗過程限制僅為一個回合,這與網絡攻防的動態演化過程不符。當前,網絡欺騙研究總體來說還不夠系統化。

基于此,本文充分利用信號博弈中的信號機制,通過構建多階段網絡欺騙博弈模型,從防御者角度對網絡攻防過程中存在的信號欺騙機制進行深入研究,充分考慮網絡欺騙信號的衰減作用,實現多階段網絡攻防對抗的動態分析推演。利用虛假信息干擾攻擊者的認知來影響攻擊者對攻擊策略的選取,在攻擊者實施網絡攻擊時,使防御者的損失達到最小甚至免受攻擊。

2 網絡欺騙博弈模型的構建

2.1 網絡欺騙博弈過程分析

在傳統網絡攻防過程中,攻擊者主要利用網絡攻擊或探測等手段對目標網絡進行信息獲取[11],從而實現對目標系統脆弱性的分析及滲透,最終找到最合適的網絡攻擊策略,使網絡攻擊效益最優。由于網絡攻擊過程存在天然不對稱性,攻擊者能夠主動獲取目標網絡的信息并隨時實施網絡攻擊,而防御者往往處于被動防御狀態[12]。為改變被動防御的局面,防御者可充分利用網絡欺騙技術,有針對性地向網絡攻擊者主動釋放真實與虛假2 種不同的防御信號[13],使網絡攻擊者無法判斷信息的真偽,從而影響攻擊者對攻擊策略的選取,使網絡防御變被動為主動。

在博弈初始階段,防御者通過釋放虛假防御信號,使攻擊者無法獲得目標系統的真實狀態,從而達到欺騙、限制攻擊者的目的[14];攻擊者結合前期對目標系統的探測結果,綜合形成對防御者類型的先驗判斷P1。然后根據防御者釋放的防御信號,采用貝葉斯法則進行計算得出防御者類型的后驗概率,選取最優網絡攻擊策略,從而完成博弈初始過程。在博弈初始階段結束后,防御者再次釋放適合本階段的欺騙信號,并選取相應的最優防御策略。攻擊者基于博弈初始階段的學習經驗,使防御欺騙信號效能存在一定的衰減,通過衰減因子δi(0<δi< 1)表示。攻擊者將后驗概率作為下一階段的先驗概率,即令,并結合該階段接收到的防御信號,得出該階段防御者類型的后驗概率,選取最優攻擊策略進行網絡攻擊,并隨時間重復此過程。具體過程如圖1 所示。

圖1 多階段網絡欺騙博弈過程

2.2 單階段網絡欺騙博弈模型的構建

基于2.1 節網絡欺騙博弈過程分析可知,網絡攻防過程由多個獨立且相似的單階段博弈構成,本文首先對單階段網絡欺騙博弈過程進行建模分析。

定義1單階段網絡欺騙博弈模型(CDGM,cyber deception game model)為六元組,即CDGM=(N,S,T,M,P,U),具體如下。

2.3 多階段網絡欺騙博弈模型的構建

基于單階段網絡欺騙博弈分析,結合攻防實際應用,構建多階段網絡欺騙博弈模型,具體如下。

定義2多階段網絡欺騙博弈模型(MCDGM,multi-stage cyber deception game model)為八元組MCDGM=(N,K,S,T,M,δ,P,U),具體如下。

圖2 單階段網絡欺騙攻防博弈樹

2.4 博弈收益量化

將博弈理論應用于網絡攻防分析具有天然的優越性,但博弈收益的量化是決定最終博弈結果準確性的關鍵。結合文獻[9,16],本文對MCDGM 進行攻防收益量化并改進其相應的收益計算方法。

系統損失代價(SDC,system damage cost)、攻擊成本(AC,attack cost)、防御成本(DC,defense cost)、攻擊致命度(AL,attack lethality)等定義已經在文獻[9]中給出,本文不再贅述。

定義3網絡欺騙成本(CDC,cyber deception cost)[16]表示防御者通過釋放虛假信號欺騙攻擊者所需耗費的代價,當且僅當防御者釋放信號與自身防御類型不同時產生。

在網絡攻防過程中,攻擊者以攻擊成本最低且造成系統損失代價最大為目標,防御者以防御成本、網絡欺騙成本及系統損失代價最低為目標?;谖墨I[9,16]的收益量化方法,本文對攻防期望收益的計算方法進行改進,具體如式(2)和式(3)所示。

3 博弈均衡求解與最優網絡欺騙防御

基于MCDGM,結合網絡攻防與博弈均衡求解過程[17],利用精煉貝葉斯均衡求解方法對此博弈模型進行分析求解。

3.1 精煉貝葉斯均衡求解

針對上述構建的網絡欺騙博弈模型,具體求解過程如下。

3.2 多階段網絡欺騙博弈均衡求解

針對多階段網絡攻防博弈過程,分別求出每個博弈階段的最優網絡防御策略[19],所有最優網絡防御策略構成多階段網絡欺騙博弈均衡解。

1) 第一階段網絡欺騙博弈均衡求解第一階段的最優防御策略。

2) 第二階段網絡欺騙博弈均衡求解

3) 第k階段網絡欺騙博弈均衡求解

在博弈過程中,由于0<δ<1,當博弈階段數k趨于較大甚至無窮且防御者釋放虛假信號次數較多時,滿足δk?r?1≈ 0,其中r表示防御者釋放真實防御信號的階段數。此時,防御欺騙信號無法對攻擊者進行網絡欺騙,博弈階段G(k) 變為不完全信息靜態博弈,如圖4 所示。不完全信息靜態博弈求解方法可參考文獻[20],本文不再贅述。

圖4 第k 階段網絡攻防博弈樹

綜上,求出所有k個博弈階段的精煉貝葉斯均衡解,所有博弈階段的最優網絡防御策略構成整個攻防博弈過程的最優防御策略,即

3.3 算法設計與分析

基于上述多階段網絡欺騙博弈的分析與求解過程,設計最優防御策略選取算法,具體如下。

算法多階段網絡欺騙博弈的最優防御策略選取算法

結束

基于3.1 節精煉貝葉斯均衡求解分析可知,上述算法的時間復雜度為O(k(m+n)2),主要集中于精煉貝葉斯均衡求解;空間復雜度為O(knm),主要集中于收益值和均衡求解中間結果的存儲[21]。

將本文構建的MCDGM 及策略選取方法與文獻[6-7,9,12]中的博弈模型進行比較,具體結果如表1所示。博弈類型分為靜態博弈類型和動態博弈類型,由于實際應用中網絡攻防屬于動態對抗的過程,因此,動態博弈模型更加符合網絡攻防實際。文獻[6-7]將博弈論應用于網絡安全分析,采用靜態博弈,這種方法具有算法復雜度低的特點,但與網絡攻防過程中的動態屬性不符。動態博弈過程是指博弈模型是否具備分析多階段攻防過程的能力,具備這一能力的博弈模型更加符合實際需求,對防御決策的指導作用更強。文獻[6-7,9]均是單階段網絡攻防分析,降低了博弈模型的應用性。博弈模型的通用性是指模型中類型集合和策略集合是否可以擴展至n。若可以,說明模型的通用性較好;若不可以,則說明僅適用于特殊情況,推廣應用性較差。文獻[6-7]中博弈者和策略集合均采用2;文獻[9,12]將博弈策略擴展為n,但未對博弈者進行擴展研究,使模型通用性不夠。均衡求解是指博弈模型是否給出了精煉博弈均衡解的計算方法,由于動態博弈的求解相比靜態博弈更加困難,尤其是動態多階段博弈的求解過程更復雜,如果沒有詳細的求解方法會削弱實用性。本文從防御者角度出發,依據防御者主動釋放的信息或其行為透露的各種信息來構建MCDGM,從防御者角度重點突出利用防御欺騙信號提升防御效能的研究,通過釋放各類虛假信息,能夠有效抵御攻擊者實施網絡攻擊,從而達到網絡安全主動防御的目的。

4 仿真實驗與分析

4.1 實驗環境描述

基于本文提出的MCDGM 及策略選取方法,通過構建如圖5 所示的信息系統,對本文模型和方法進行實驗驗證。該系統主要由網絡防御設備、網絡服務器、文件服務器、數據庫服務器、客戶端服務器等組成,主要安裝Windows、Linux 等操作系統。安全防御規則為限制系統外主機(包括攻擊者)的訪問請求,規定其只能訪問網絡服務器;應用服務器和網絡服務器允許訪問數據庫服務器。但是,借助于多步攻擊過程,攻擊者能夠取得訪問應用服務器和數據庫服務器的權限。

圖5 信息系統結構

4.2 博弈收益計算

基于文獻[12]中分析路由文件、漏洞數據庫及防御策略的方法,結合文獻[9]給出的原子攻擊信息,利用Nessus 掃描實驗信息系統,參考麻省理工學院林肯實驗室攻防分類方法[22]及國家信息安全漏洞庫[23],給出攻防原子策略描述,具體如表2 和表3 所示。

表1 幾種博弈模型對比結果

表2 原子攻擊策略

表3 原子防御策略

針對系統仿真實驗,不同的攻防策略對系統服務質量(QoS,quality of service)[25]的影響不同,可以采用平均服務時延率(SDP,service delay percent)[26]用于量化不同防御策略下的系統服務質量下降情況,SDP 越大,表明信息系統損失越大?;诖?,本文將使用頻率較高的Web 瀏覽、FTP 下載、在線視頻這3 種服務進行QoS 性能分析,利用服務平均時延率對信息系統損失代價進行衡量。上述3 種服務針對不同博弈階段分別進行20 次實驗,將平均完成時間與信息系統受攻擊之前的完成時間進行對比,獲得平均時延率,用以衡量不同防御策略下系統穩定性情況。具體如圖6 所示。

4.3 博弈均衡求解及防御策略選取

基于上述博弈收益計算方法,對本文的多階段網絡欺騙博弈進行均衡求解,并求得最優網絡欺騙防御策略。

1) 博弈第一階段均衡求解

根據式(4)計算出最優攻擊策略為

防御者最優防御信號選擇為

基于此,結合貝葉斯法則對上一階段中的先驗概率進行修正,從而得出后驗概率,具體計算式如式(13)和式(14)所示。

圖6 攻防信號博弈樹

當防御者類型為TDL時,通過釋放欺騙防御信號mH,攻擊者選用相應的攻擊策略SA1,此時防御平均收益為?3 197,系統服務平均時延率為4.8 s。

2) 博弈第二階段均衡求解

基于上一階段求出后驗概率(αH,βH)=(0.46,0.54),并將其作為本階段攻擊者判別防御者類型的先驗概率。針對攻擊者的學習經驗,令δ=0.7,通過計算得出不同信息集上構造的后驗推斷為(αH,βH)=(0.33,0.78)。

通過計算得出第二階段均衡解為[(TDH,TDL)→(mH,mL) →(SA1,SA1),αH=0.24,βH=0.88]。當防御者類型為TDH時,通過釋放防御信號mH,攻擊者選用相應的攻擊策略SA1;當防御者類型為TDL時,通過釋放防御信號mL,攻擊者選用相應的攻擊策略SA1。

3) 博弈第k階段均衡求解

隨著博弈的進行,當k取值較大時,信號衰減因子滿足δk?1≈ 0,從而導致網絡欺騙信號無法對網絡攻擊者進行欺騙,使博弈第k階段演變為不完全信息靜態博弈,具體博弈樹如圖7 所示。采用Lebg-plex 算法[27]可以進行求解(具體求解過程見文獻[12],本文不再贅述),最終得出攻防博弈均衡策略為(SD2,SA2)。

圖7 不完全信息靜態博弈樹

4.4 實驗分析

由上述實驗可知,在多階段網絡欺騙博弈過程中,防御欺騙信號在前期博弈階段能夠達到較好的欺騙效果,但隨著博弈的進行,防御欺騙信號對攻擊者的欺騙效用不斷降低,使網絡欺騙博弈最終演變為不完全信息靜態博弈,并能得出以下結論。

1) 防御者利用網絡欺騙博弈能夠達到對攻擊者的欺騙、威懾作用。在傳統網絡攻防過程中,攻擊者通過前期對信息系統進行試探、檢測,能夠獲取較多的網絡防御信息,而防御者往往處于被動防御的狀態,這種攻防過程為信息非對稱博弈。通過實驗對比發現,基于信號博弈,防御者可以利用攻擊者對防御信息了解的不完全性,通過主動選擇及釋放針對性欺騙信號,在攻防信息獲取和認知領域對網絡攻擊者進行欺騙與迷惑,削減攻擊者的信息優勢,讓其無法準確地實施攻擊策略,從而達到欺騙、威懾網絡攻擊者的目的,有效提升主動防御能力。例如,當防御者為低等級防御類型TDL時,通過釋放高等級防御信號mH,能夠達到欺騙攻擊者的目的,使攻擊者不敢輕易實施攻擊,從而獲得保護。

2) 網絡欺騙博弈中的防御欺騙信號主要作用于博弈的前期階段。針對多階段網絡欺騙博弈,由于攻擊者會根據先驗概率、防御者釋放的防御信號及各階段的博弈結果使用貝葉斯法則計算相應的后驗概率,從而對自身策略進行調整,使防御欺騙信號在前期博弈階段效果最優。防御者在第二階段的防御收益比第一階段的防御收益普遍要低,且服務平均時延率更長(SDP越長,表明信息系統損失越大)?;诖?,防御者必須充分利用前期的網絡欺騙效用,及時調整網絡防御策略,基于信號機制影響攻擊者后驗推斷的形成,從而提高防御者在攻防對抗過程中的主動性。

3) 低等級防御者可利用信號機制釋放欺騙信號增強防御效果。在實際網絡攻防對抗過程中,并非所有的防御者都具有較強的防御能力。利用網絡欺騙博弈的特點,低等級防御者可以通過偽裝成高等級防御者,使攻擊者無法準確地辨析防御者的真實情況,導致攻擊者出于自身利益,采取保守的試探攻擊,這在一定程度上能夠起到主動防御的效果,從而提高防御收益。如圖6所示,當防御者為弱防御類型時,選擇強防御信號所獲收益(?3507 ?3177,?2947)要高于選擇弱防御信號所獲收益(?4107,?3777,?3547),表明低等級防御者可利用信號機制釋放欺騙信號,從而帶來更高收益。

4) 提高防御能力是解決信息安全問題的核心舉措。有效的防御信號選擇和釋放機制能夠提高主動防御效能,使防御者達到更好的防御效果。但由于每個博弈階段之間都會存在一定的信號衰減,使信號欺騙并不能從根本上解決網絡信息安全問題。加大網絡防御投入,提高網絡防御能力是規避重大安全損失的必然選擇。由圖6 可知,當防御者為弱防御類型時,不論其釋放何種防御信號,其對應的防御收益均小于強防御者類型的收益。這說明通過加大網絡安全投入以提高網絡防御能力,是目前防止發生重大網絡安全事故的基本措施。

5 結束語

針對網絡攻擊一般需要依據網絡偵查獲取的信息來決定下一步動作,本文將非合作信號博弈理論應用于網絡攻防分析,充分利用防御“虛假”信號對攻擊者進行迷惑與威懾,構建多階段網絡欺騙博弈模型,對網絡攻防過程中存在的信號欺騙機制進行深入研究。研究成果能夠為網絡攻防對抗研究提供有效的模型方法,并為防御欺騙在網絡安全領域的應用提供理論指導。但針對博弈期間存在的信號衰減問題,下一步需進一步考慮如何調整防御策略,使網絡欺騙信號達到更好的欺騙效果。

猜你喜歡
攻擊者階段信號
基于貝葉斯博弈的防御資源調配模型研究
關于基礎教育階段實驗教學的幾點看法
完形填空二則
在學前教育階段,提前搶跑,只能跑得快一時,卻跑不快一生。
孩子停止長個的信號
正面迎接批判
基于FPGA的多功能信號發生器的設計
正面迎接批判
大熱的O2O三個階段,你在哪?
兩岸婚戀邁入全新階段
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合