?

基于數據挖掘的入侵檢測系統研究

2010-04-11 08:07王雅軒
制造業自動化 2010年13期
關鍵詞:數據挖掘關聯規則

王雅軒,頊 聰

WANG Ya-xuan, XU Cong

(大連外國語學院 軟件學院,大連 116044)

基于數據挖掘的入侵檢測系統研究

The study on intrusion detection system based on data mining

王雅軒,頊 聰

WANG Ya-xuan, XU Cong

(大連外國語學院 軟件學院,大連 116044)

數據挖掘技術在網絡安全領域的應用已成為一個研究熱點。入侵檢測系統是網絡安全的重要防護工具,近年來得到廣泛的研究與應用,但入侵檢測系統自身的誤報漏報及海量信息的出現,使得人們必須謀求突破,以使入侵檢測系統實現更高的可用性和穩定性。本文構建了應用數據挖掘技術的入侵檢測系統模型,以改善入侵檢測的精確性和速度。

數據挖掘;入侵檢測;網絡安全

0 引言

隨著對IDS 的研究與應用的愈加深入,人們在享受IDS帶來的安全的同時,也越來越多地感受到了由其誤報和漏報等所帶來的困擾。我們知道,IDS的警告是根據對網絡中異常情況的察覺,以及對主機日志的檢測。隨著網絡傳輸速度和海量數據的增長,對IDS的數據處理速度也提出了更高的要求。目前很多IDS,在海量數據出現的情況下,系統性能低下,已經不能滿足實時性的要求,同時也缺乏對新型攻擊的檢測能力,而新興的數據挖掘技術的應用可以彌補這一缺陷,因此本文將數據挖掘的方法引入到了IDS中,以改進IDS 的性能。

1 入侵檢測系統

入侵檢測(ID) 就是對入侵行為的檢測,它通過收集和分析計算機網絡或計算機系統中若干關鍵點的信息,檢查網絡或系統中是否存在違反安全策略的行為和被攻擊的跡象[1]。入侵檢測的軟件與硬件的組合便是入侵檢測系統(IDS)。按照檢測對象的不同,可以將入侵檢測技術劃分為“基于主機的檢測”、“基于網絡的檢測”、“基于內核的檢測”和“基于應用的檢測”等多種類型。

2 數據挖掘的功能與技術

2.1 數據挖掘的功能

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是用戶感興趣的信息和知識的過程[2]。打個比方,可以把數據看作是形成知識的源泉,數據挖掘就好比從礦石中采礦或淘金一樣。數據挖掘的過程并不是一個直線型的過程,而是一個螺旋上升、循環往復的多步驟處理過程。

2.2 數據挖掘的技術

數據挖掘技術主要有: 1)分類,就是將數據項映射到一種或者多種事先定義好的分類中去。通常采用決策樹或規則來區分數據是屬于“正?!边€是“不正?!?。2)關聯規則分析,就是找出一個數據集中數據記錄間的不可見或者不可估計的屬性關聯,即找出具有給定的最小支持度和最小置信度的關聯規則?,F在已有多種關聯規則算法如Apriori算法[3]等用于入侵檢測。3)頻度序列分析,就是分析并找出數據流中時間上先后的多個事件的模式。時間頻度模式可以為建立事件輪廓提供指導。例如:在DOS 攻擊中,目標機在一定時間的連接次數的分析。

3 應用數據挖掘技術的IDS 模型

3.1 IDS系統的框架結構

本文根據數據挖掘的思想,利用數據挖掘中的關聯分析技術,提取出程序或用戶的行為模式,構造與安全相關的系統特征屬性,并根據系統特征屬性生成安全事件的分類模型,用于對安全事件的自動鑒別。

關聯規則分析利用Apriori方法來獲得系統審計數據中各屬性之間的關系,確定構造IDS所需要的合適屬性,或者提取出某種操作和入侵行為之間或各種入侵行為之間的相互關系,或兩種入侵行為通常相伴發生等知識。

頻繁序列分析算法用來發現系統審計事件中頻繁發生的事件序列[4]。該算法可以為最后生成入侵檢測模型提供時間統計屬性,即使用序列分析方法對各種入侵行為和某些操作發生的先后關系做出歸納。

分類算法主要用來構造入侵或正常行為規則,通過從關聯規則的Aporiri挖掘和頻繁序列模式挖掘所提取的一系列屬性,用易于人們理解的啟發式規則,來描述攻擊特征并構建分類器。

最后使用訓練好的分類器來執行檢測功能?;跀祿诰虻娜肭謾z測系統的框架結構如圖1所示。

圖1 基于數據挖掘的IDS的框架結構圖

3.2 IDS系統的工作流程

1)在訓練分類模型階段,搜集網絡和主機訓練數據,進行數據預處理,形成系統和網絡行為集。

2)采用關聯規則挖掘和基本的頻繁序列模式挖掘得出頻繁模式,進行模式合并、分析,進而構造出入侵模式庫和正常行為模式庫。

3)利用特征構造算法為模式添加附加特征,送入分類器形成分類規則,通過規則的合并和添加處理,形成入侵規則庫和正常行為規則庫。

4)檢測引擎通過規則匹配和規則相似度比較來檢測入侵。

3.3 IDS系統的實時監測過程

在分類器已訓練完成的檢測過程中,收集實時審計數據,進行預處理后形成系統和網絡行為集,統計連接屬性的特征,送入檢測引擎,利用入侵規則庫和正常行為規則庫,進行規則匹配和規則相似度比較,以此方式來進行檢測。同時挖掘模塊對其進行在線更新挖掘,對行為集中未出現過的用戶模式,利用分類規則,及時更新正常和異常模式庫。對于行為集中已有的行為模式,則可直接丟棄。這樣,既可節約系統資源,又可使系統具有一定的自學習能力。IDS系統的實時監測過程如圖2所示。

3.4 IDS系統預處理模塊

入侵檢測的基本前提是系統行為可以觀察到(如通過審計)、并能對正常和入侵行為進行區別。在進行關聯分析之前進行數據預處理,對數據挖掘的性能和效率有著至關重要的影響。數據預處理主要完成數據清洗和特征子集選擇兩個任務。對原始數據進行數據清洗和特征子集選擇,可以去掉冗余的數據,集中檢測有用的數據集,以適應網絡速度和流量的成倍增長,保證檢測的實時性和準確性。

數據特征子集選擇的主要過程是對檢測變量的篩選,即在原始的P個檢測屬性中, 篩選出具有P'(P'

圖2 IDS系統的實時監測過程示意圖

3.5 IDS系統數據挖掘模塊

數據挖掘模塊對收集的數據進行挖掘, 本系統分別采用關聯規則和序列模式挖掘技術。關聯規則挖掘技術采用了以下幾個步驟:

1)預先確定初始最小支持度和最小置信度閾值。

2)找出滿足最小支持度和最小置信度閾值的頻繁項集,可用采用改進的Apriori算法。

3)由頻繁項集,生成關聯規則。

4)剔除無用規則。

5)將服務類型作為分類標簽,其他屬性作為判定樹的分支節點,按照判定樹對規則進行分類,建立入侵分類模型。

6)將新生成的規則按判定樹的方法插人規則庫。

3.6 IDS系統中規則庫的建立和維護模塊

入侵檢測產品的有效入侵檢測的關鍵在于入侵知識庫。入侵知識庫中存放著系統挖掘出的各種已知攻擊模式和正常模式。將數據挖掘算法提取出的數據包的模式與知識庫中的模式進行比較,以確定該數據包是正常的數據傳輸還是已知的惡意攻擊,或是未知模式。

入侵規則的來源主要有三種:1)對于已知的攻擊行為模式和利用已知系統漏洞進行的攻擊行為模式,可由人工把這些特征加入規則庫;2)在統建立的初始階段,通過收集足夠的訓練數據來訓練數據挖掘模塊而得到規則;3)在系統檢測過程中,對于檢測得到的新的正?;虍惓R巹t,由決策模塊控制加入規則庫。

規則庫的維護要求規則庫能及時更新,并盡可能包含所有的正常和異常規則??梢圆捎靡韵聨追N方法來更新規則庫:

1)引入相似度的概念來表述規則之間的吻合程度。對異常檢測而言,如果檢測到的規則與正常規則庫中現有規則的相似度小于用戶規定的閥值,可能有異常行為。再把該規則與異常規則庫中的規則進行匹配檢測得到相似度,若該相似度小于用戶規定的閥值,說明該規則已存在,無須加入。對誤用檢測的原理與此相似。

2)對規則庫中的每條規則設置計數器,在檢測過程中每檢測到一條相似的規則,該規則計數器加1。系統運行一段時間后,檢查規則庫中的計數器情況,對于計數器值較低的規則,說明與此相對應的行為發生頻率低,可考慮把該規則從規則庫中刪除,以減小規則庫中的規則量,提高系統的檢測效率。

3)根據某條規則的誤報情況,重新制定該規則的支持度和置信度,以減小誤報率。

4 IDS系統的實驗結果與分析

本文描述的系統,在實驗室進行了簡單的測試。實驗過程由兩個階段組成:數據收集階段和模擬攻擊階段。

4.1 數據收集階段。

收集盡量完備的正常網絡數據,建立正常行為輪廓。數據收集工作是在局域網內進行的,因而獲得了較簡潔的數據。前后歷時7小時,共獲得16070條數據。上述數據進行挖掘,產生合并后的關聯規則830 條、序列規則1060 條。對規則進行分類,產生分類判定樹。

4.2 模擬攻擊階段。

收集準入侵數據,建立入侵檢測分類規則。將入侵規則同數據收集階段產生的正常行為輪廓庫規則進行比較,結果表明具有較好的效果。其誤警率及檢測率分別為3.4% 及81.6%。

通過對的數據進行分析,表明本文提出的結構模型增強了入侵檢測的防范能力,明顯地降低漏報率和誤報率,提高了入侵檢測的精確性和速度。

[1] 鄒仕洪,闕喜戎,龔向陽,等.基于數據挖掘與CIDF 的自適應入侵檢測系統[J].計算機工程與應用,2002(11):184-1861.

[2] 陶力.Data Mining:Efficiently Extracting Interpretable and Actionable Patterns[R].北京:計算機科學與技術系列學術報告,2008.

[3] 蔣嶷川,田盛豐.入侵檢測中對系統日志審計信息進行數據挖掘的研究[J].計算機工程,2002,28 (1):159-161.

[4] 侯偉,吳晨生,楊炳儒等.一種高效的離線數據流頻繁模式挖掘算法[J].計算機科學,2009(7):253-257.

TP312.08

A

1009-0134(2010)11(下)-0156-03

10.3969/j.issn.1009-0134.2010.11(下).53

2010-08-07

王雅軒(1969 -),女,副教授,研究生,研究方向為軟件理論與應用。

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
“一帶一路”遞進,關聯民生更緊
奇趣搭配
讓規則不規則
智趣
TPP反腐敗規則對我國的啟示
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合