?

基于數據流勢能特征的分布式拒絕服務隱蔽流量檢測

2015-02-20 08:15穆朝陽張良春
計算機工程 2015年3期
關鍵詞:網絡流量勢能數據流

吳 娜,穆朝陽,張良春

(中國船舶重工集團公司第七一三研究所,鄭州450000)

基于數據流勢能特征的分布式拒絕服務隱蔽流量檢測

吳 娜,穆朝陽,張良春

(中國船舶重工集團公司第七一三研究所,鄭州450000)

在分析分布式拒絕服務(DDoS)攻擊現狀與發展趨勢的基礎上,提出一種基于時間序列的網絡數據流量勢能分析模型,并構造相應的網絡流量勢能序列。利用自回歸模型擬合得到網絡數據流量的多維參數向量,以此為依據描述單位時間內網絡數據流量勢能的穩定性。采用基于支持向量機的方法對網絡數據流量的特征參數向量進行分類和訓練,獲得與訓練模型相匹配的最優網絡數據流量勢能集,實現對不同DDoS攻擊方式的流量特性的準確描述?;贒ARPA數據集、IXIA 400T網絡測試儀等軟硬件設施,構造真實且具有分析價值的網絡環境,對網絡流量勢能分析模型進行驗證,并與DDoS攻擊流量的識別精度、識別率等關鍵指標進行分析對比實驗,結果表明,該模型對DDoS攻擊具有較高的檢測精度和較優的檢測質量。

網絡流量勢能;分布式拒絕服務攻擊;時間序列;流量檢測;支持向量機;DARPA數據集

1 概述

高速廣泛互聯的計算機網絡給人類的生產、生活帶來了極大便利,推動著人類社會的進步與文明的發展,但也為各種網絡攻擊活動創造了有利的條件。分布式拒絕服務[1](Distributed Denial of Service,DDoS)攻擊因實施手段多樣、檢測困難、攻擊效果明顯、危害影響巨大等特性[2],成為當前網絡世界主流的攻擊手段。DDoS指借助于客戶/服務器技術,將多個計算機聯合起來作為攻擊平臺,利用應用層協議的技術缺陷或機制漏洞[3-4],對一個或多個目標發動DoS攻擊,從而成倍地提高拒絕服務攻擊的

威力。DDoS攻擊手段已經對網絡的安全造成了重大威脅。2013年底,據DDoS防御商Prolexic公司統計:如今攻擊者更針對于應用層來設計DDoS,這類型事件在2013年的第三季度同比增加了2倍[5],而反射攻擊更是同比增長了260%,攻擊Spamhaus的DNS放大DDos的流量達到了300 Gb/s。2014年2月13日,另一家提供防御DDoS攻擊服務的云計算公司Cloudflare遭遇了史上攻擊流量最大的DDoS攻擊,攻擊的峰值流量超過400 Gb/s,一個100 Mb/s的偽造NTP流量就導致被攻擊目標接收到5.8 Gb/s的惡意流量。這些攻擊案例普遍具備流量隱蔽特征,極大降低了被檢測系統發現的概率,因而能突破安全防御設施的屏蔽,造成重大損失。

為了防范和抵御DDoS攻擊,人們也提出多種檢測模型來區分服務請求的數據流是否惡意。文獻[6]構建數據流的Management Information Base,對其中重點項進行因果關系檢測,從而探測攻擊流。這種方法實現較為簡單,但樣本流量的訓練時間較長,實時檢測能力欠缺;文獻[7]通過對數據包進行數據包選項的時間序列分析來判斷是否有攻擊流產生,檢測精度較高,但頻繁的流量取樣計算資源消耗過大,難以適應大吞吐量的高速網絡數據;文獻[8]則根據服務請求的分布函數來判斷數據流是否為DDoS攻擊流,能夠快速給出數據流屬性分析,但誤報率過高;文獻[9]則從網絡數據包載荷的熵變化來探測數據流屬性,以此區分正常應用層服務請求和DDoS攻擊,具有較高的探測精度,但逐載荷的熵變化計算占用服務節點大量計算資源。文獻[10]提出一種改進的基于網絡流量自相似性檢測算法,采用小波分析的方法計算網絡流量的Hurst指數并引入信息論中的信息熵對源IP地址的分散程度進行度量,能夠根據初始階段Hurst指數及熵值的變化自適應地設定閾值以檢測攻擊的發生,但其網絡流量的Hurst指數度量因子限于IP地址參數,檢測能力的完備性欠缺。

本文對網絡數據流進行等時間間隔采樣,計算數據包元組(源IP地址,目的IP地址,源端口號,目的端口號,協議號)的熵值,根據元組中不同元素對網絡流量特征的影響權重,為各元組分別設定對應的權值,并將該權值與計算的數據包元組熵值進行乘積求和,得到網絡流量勢能序列,并提出一種基于時間序列的流量勢能分析模型,利用AR自回歸模型擬合得到多維參數向量來描述單位時間內網絡流量的穩定性,對不同DDoS攻擊方式的流量特性進行準確描述。

2 網絡流量勢能及特征分析

2.1 網絡流量勢能定義

通過分析網絡層及應用層的DDoS攻擊數據流可發現,數據包中的協議號、源IP地址、目的IP地址等選項的統計值呈現出較強的相似性,在不同數據流中端口號等選項的統計值呈現出規律性分布。在小時間尺度下,采樣數據流量的結構穩定性會受到影響。引入物理學中勢能的概念,合法網絡數據流的流量勢能在小時間尺度采樣下呈現相對穩定的特性,而DDoS攻擊數據流的數據包結構統計所呈現的某種分布會對網絡流量結構造成不穩定影響,例如某個源端口號的分布出現“抖動”。通過對這些影響的特征分析,能夠檢測隱蔽的攻擊數據流。本文給出表征網絡數據流穩定性的流量勢能NFPE (Network Flow Potential Energy)的定義及特征分析方法。

定義1E=(s1,s2,s3,s4,s5),其中,s1,s2,s3,s4,s5是對某個網絡數據流會話進行單次采樣的五元組元素向量。設單次采樣的數據包數量為n,則s1為向量(p1,p2,…,pn),其中包含n個數據包源端口號,s2為向量(d1,d2,…,dn),其中包含n個數據包目的端口號,s3,s4,s5分別為包含了n個數據包的源IP地址、目的IP地址、協議號的向量。

定義2 計算向量E內元素熵值:

當采樣數據包的數量為n時,熵值取值范圍為(0,lbn)。如果采樣所得的五元組信息完全相同,那么熵值取最小值;如果采樣所得的五元組信息互不相同,那么熵值取最大值。熵值大小反映了單位數據流中網絡流量勢能的穩定性。

2.2 基于時間序列的網絡流量勢能分析

基于IXIA 400T網絡測試儀重放DARPA數據集來模擬真實網絡環境,在其中分別嵌入具有重復特征的端口號、IP地址、協議號選項的數據包所構成的數據流。測試獲得各組時間序列與正常網絡流量時采樣時間序列之間的隨機變量特征,如表1所示。通過對表中數據分析可以發現,當嵌入重復源端口號和協議號的數據流后,基于時間序列的網絡流量勢能期望值相對變化幅度不大,序列離散程度相差不多;當嵌入重復目的端口、源IP地址和目的IP地址的數據流量后,網絡流量勢能期序列期望值較正常網絡流量時下降幅度較大,序列離散程度基本不

變,相關系數明顯降低。

為了放大這些隨機過程特征以便于區分不同的攻擊類型,取目的端口號、源IP地址和目的IP地址對應權值β,γ,ε分別為0.35,0.27和0.28,源端口和協議的權值α,μ分別為0.04和0.06。

表1 流量特征參數

對流量進行等時間間隔Δt的采樣,計算每次采樣數據的NFPE值,構造時間序列F(N,Δt)={xi,i=1,2,…,N}。計算時間序列的自相關系數:

其中,是流量樣本采樣時間內的數學期望;ai為流量樣本序列中第i個樣本值。根據實驗數據,通過式(2)計算出采樣流量的NFPE值,并構建對應的時間序列,然后通過式(3)計算出序列自相關系數,結果如圖1所示。

圖1 時間序列自相關函數

由圖1可知,網絡流量采樣序列的自相關系數隨階數k的增加而快速下降,并最終將為0。這說明該網絡數據的流量勢能是平穩的?;谧曰貧w模型(AR模型)或滑動平均模型(MA模型)可進一步對網絡數據流量勢能進行時間序列參數擬合。AR模型的可逆性無需依賴任何附加條件與參數,諸如網絡環境干擾因素等,因此本文選擇AR模型進行網絡數據流量勢能的序列參數擬合。

3 流量生成模型

F(N,Δt)={xi,i=1,2,…,N}是網絡流量勢能的平穩序列。為便于實時計算,降低對網絡節點計算資源的消耗,本文約束AR(2)模型階數p的取值范圍:

當p=2時,網絡流量勢能的時間序列二階自回歸模型為:

模型記為A(z)x(t)=ε(t),記γ(t)=Ex(t1+t)x(t1),將式(4)兩端乘以x(t-k),k>0,并取均值,由于Eε(t+j)x(t)=0,j>0可得出:

特別地,取k=1,2,…,p??傻藐P于(a(1)a(2)…a(p))的方程組如下:

或記為:

擬合的參數序列,可作為對當前狀態的一個多維空間描述。通過AR模型的NFPE時間序列擬合,可以將NFPE時間序列變換為多維空間的向量,識別流量狀態可轉換為支持向量機的分類問題。

4 基于SVM的最優流量參數特征分類

支持向量機是建立在統計學習理論和結構風險最小化原理基礎上的機器學習方法。它在解決小樣本、非線性和高維模式識別問題中表現出許多特有的優勢,并在很大程度上克服了“維數災難”和“過學習”等問題。SVM的機理是尋找一個滿足分類要求的最優分類超平面,使得該超平面在保證分類精度的同時,能夠使超平面兩側的空白區域最大

化[11]。如圖2所示,圓點和方點分別代表兩類樣本,樣本x映射得到的高維特征空間為y=f(x)。f1(x)和f2(x)分別為各類中離分類線最近的樣本且平行分類線的直線,它們和分類線之間的距離叫做邊緣間距(margin)。理論上,SVM能夠實現對線性可分數據的最優分類。

圖2 最優分類超平面

SVM的主要思想可以概括為2個方面:(1)它是用于在線性可分的情況下進行分析,對于線性不可分的情況,通過核函數將低維空間線性不可分的樣本轉換為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)基于結構風險最小化理論,在特征空間中建構最優分類超平面,使得學習器得到全局最優化,并且使整個樣本空間的風險期望以某個概率滿足一定上界。SVM的優化準則[12]為最大化類間邊際(即圍繞決策面的區域,由訓練集樣本與決策面間的最小距離確定),通過最大化邊際可使支持向量個數最小化,由支持向量決定分類決策函數。經過訓練得到的支持向量被用來構成SVM決策分類面。在進行分類決策,判定待識別樣本類別時,需要逐點計算待識別樣本與支持向量的核函數值并求和。在大多數的實際問題中,支持向量的個數總是遠小于訓練樣本的數目,故進行分類決策時的計算代價沒有被過多考慮。

對于線性不可分的情況,可以把樣本x映射到一個高維特征空間y=f(x),并在此空間中運用原空間的函數來實現內積運算,這樣將非線性問題轉換成另一空間的線性問題來獲得一個樣本的歸屬。根據泛函的有關理論,只要一種核函數滿足Mercer條件,它就對應某一空間中的內積,因此,只要在最優分類面上采用適當的內積函數就可以實現這種線性不可分的分類問題。通過對支持向量機進行樣本訓練,得到最優訓練集T和最優訓練模型S,并建立分類超平面,然后根據訓練集對實時檢測流量進行分類。

5 檢測算法

算法對流量識別的核心思想是二值分類,能夠與標準測試的正常數據流模型相匹配的流量判斷為true,反之為false,算法描述如下:

6 實驗結果與分析

實驗采用DARPA數據集。DARPA評測數據覆蓋了Probe、DoS、R2L等5大類58種典型攻擊方式,是目前學術界和工業界廣泛采用的網絡安全測試數據集。網絡流量模型的測試環境由網絡流量生成系統管理主機、測試網以及IXIA 400T網絡測試

儀構成,網絡測試儀負責重放DARPA數據集。設定NFPE時間序列權值:α=0.04,β=0.35,γ=

0.27,ε=0.28,μ=0.06;采樣間隔時間Δt=100 ms;參數向量估計時間間隔t=500 ms;采用階數為2的二階自回歸模型AR(2);采用SVM進行網絡流量二值分類,“1”代表正常網絡流量,“-1”為含DDoS攻擊的網絡流量。使用IXIA 400T網絡測試儀實時的采集正常網絡流量進行保存。根據上述測試方法,圖3、圖4分別表示正常合法網絡流量和DDoS攻擊的網絡流量NFPE時間序列。

圖3 正常網絡流量NFPE序列

圖4 含DDoS攻擊流的NFPE序列

在DDoS攻擊時,根據實驗顯示,100 s為NFPE序列的期望值間隔,該期望值比正常流量時的期望值平均下降了0.26,顯示了DDoS攻擊對網絡數據流量勢能穩定性的影響。

進一步,為了驗證基于NFPE的流量分析模型對于網絡流量中攻擊行為的識別率,本文采用DARPA數據集進行重放,構造真實且具備分析價值的網絡環境。實驗采集數據集第1周和第2周的流量對支持向量機進行訓練,獲得了最優訓練集,然后分別對第3周和第4周的網絡流量進行分類,詳細分析數據如表2所示。

表2 實驗環境參數

根據表中反映的NFPE序列期望值可以反映出拒絕服務攻擊的發生對網絡流量帶來的影響,通過對DARPA數據集入侵檢測評估文檔的分析,在2個小時的測試過程中,系統識別的攻擊數與網絡流量中實際包含的拒絕服務攻擊次數相差極小,分析數據如表3所示。

表3 實驗結果數據分析

調整單位時間內系統報警閾值,系統可識別最高達到87.7%的拒絕服務攻擊流量,根據DARPA的入侵檢測評估文檔分析,這些攻擊行為中不僅包含有網絡層攻擊,還包含了利用應用層協議的新型拒絕服務攻擊手段,而影響檢測效果的主要原因是網絡噪聲和識別延遲。

在18個研究對象的IDS同樣使用DARPA數據集進行了評測,優勝者為SRI International提交的EMERALD系統,在其檢測范圍內的169個攻擊實例中檢測出85個,檢測率約為50%。此外,58種攻擊類型中有21種類型共計77個攻擊實例被劃分為“Poor Detected”,參與測評的系統最多也僅能檢測其中的15個攻擊實例。對DARPA的入侵檢測評估文檔進一步深入分析,將本文設計的模型與上述模型進行規一化對比,表明在針對DDoS攻擊的識別方面本模型精度要高于其他IDS,而對Probe、R2L、U2R和Data攻擊的識別率接近或低于其他模型,如表4所示。本文的方法對拒絕服務攻擊的識別能力高于當前IDS。

表4 網絡攻擊識別率與漏檢率對比%

7 結束語

本文介紹了DDoS攻擊的現狀、趨勢,分析了攻擊發生時的網絡數據流量特征,提出一種基于NFPE時間序列分析的流量生成模型。模型對網絡流量等時間間隔采樣構造平穩時間序列,可在一定的時間尺度下度量網絡流量的勢能穩定性?;贏R(2)自回歸模型對網絡流量勢能進行參數向量計算,使用SVM對參數向量估計結果進行分類和定性。實驗結果表明,本文方法針對網絡勢能特征進行分析和檢測,能對應用層DDoS攻擊流量進行精確檢測。

[1]劉 松,周清雷.基于OCSVM的DDOS攻擊實時檢測模型[J].計算機工程與設計.2010,32(2):497-500.

[2]張永錚,肖 軍,云曉春,等.DDoS攻擊檢測和控制方法[J].軟件學報,2012,23(8):2058-2072.

[3]李錦玲,汪斌強,張 震.基于流量分析的App-DDoS攻擊檢測[J].計算機應用研究,2013,30(2):487-490.

[4]燕發文,黃 敏,王中飛.基于BF算法的網絡異常流量行為檢測[J].計算機工程,2013,39(7):166-168.

[5]CSDN.DDoS跨入400Gbps時代[EB/OL].(2014-02-24).http://www.csdn.net/article/2014-02-24/281 8512-400-gbps-ddos-attacks-years-comming.

[6]Mohd I Z,Idris Y.Protocol Share Based Traffic Rate Analysis(PSBTRA)for UDP Bandwidth Attack[J].Communications in Computer and Information Science, 2011(251):275-289.

[7]王 碩,趙榮彩,單 征.基于FSS時間序列分析的DDoS檢測算法[J].計算機工程,2012,38(12):13-14.

[8]Jung J,Krishnamurthy B,Rabinovich M.Flash Crowds and Denial of Service Attacks:Characterization and Implications for CDNs and Web Sites[C]//Proceedings of the 11thIEEEInternationalWorldWideWeb Conference.Hawaii,USA:ACM Press,2002:252-262.

[9]朱應武,楊家海,張金祥.基于流量信息結構的異常檢測[J].軟件學報,2010,21(10):2573-2583.

[10]王新生,張錦平.基于小波分析與信息熵的DDoS攻擊檢測算法[J].計算機應用與軟件,2013,30(6): 307-311.

[11]Cristinaini N,Shawe-Yaylor J.支持向量機導論[M].北京:電子工業出版社,2004.

[12]顧嘉運,劉晉飛,陳 明.基于SVM的大樣本數據回歸預測改進算法[J].計算機工程,2014,40(1):161-166.

編輯 索書志

Distributed Denial of Service Covert Flow Detection Based on Data Stream Potential Energy Feature

WU Na,MU Zhaoyang,ZHANG Liangchun
(The 713th Research Institute,China Ship Industry Corporation,Zhengzhou 450000,China)

This paper introduces the current situation and development of Distributed Denial of Service(DDoS)attack, and proposes a flow potential energy analysis model based on time sequence,constructs sequence of network flow potential energy.It uses Auto Regression(AR)model to fit multi-dimensional parameter vector and describes the stability of network flow in unit time,and employs Support Vector Machine(SVM)based method to classify and train the target network flow character parameter vector,gains the best-matched network data flow potential energy set and final achieves accurate description of different DDoS attacks.It uses DARPA dataset,IXIA 400 network test machine and other softwarehardware fundamentals to construct a real and analysis of the value network,validates the network flow potential energy analysis model based on the constructed network.Analysis and contrasts of the key indicators include DDoS detection accuracy,recognition rate,etc.Experimental results show that the method has higher detection precision and comprehensive better detection quality to DDoS.

network flow potential energy;Distributed Denial of Service(DDoS)attack;time sequence;flow detection;Support Vector Machine(SVM);DARPA dataset

吳 娜,穆朝陽,張良春.基于數據流勢能特征的分布式拒絕服務隱蔽流量檢測[J].計算機工程, 2015,41(3):142-146,161.

英文引用格式:Wu Na,Mu Zhaoyang,Zhang Liangchun.Distributed Denial of Service Covert Flow Detection Based on Data Stream Potential Energy Feature[J].Computer Engineering,2015,41(3):142-146,161.

1000-3428(2015)03-0142-05

:A

:TP309

10.3969/j.issn.1000-3428.2015.03.027

吳 娜(1983-),女,工程師、碩士研究生,主研方向:信息安全;穆朝陽,高級政工師、碩士;張良春,研究員。

2014-04-01

:2014-05-07E-mail:690363136@qq.com

猜你喜歡
網絡流量勢能數據流
基于多元高斯分布的網絡流量異常識別方法
作 品:景觀設計
——《勢能》
“動能和勢能”知識鞏固
“動能和勢能”隨堂練
基于神經網絡的P2P流量識別方法
汽車維修數據流基礎(下)
動能勢能巧辨析
一種提高TCP與UDP數據流公平性的擁塞控制機制
AVB網絡流量整形幀模型端到端延遲計算
基于數據流聚類的多目標跟蹤算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合