?

基于最小生成樹改進K-means聚類的網絡入侵檢測技術

2022-02-04 08:45陳功平
關鍵詞:誤報率聚類數量

王 紅 陳功平

(六安職業技術學院, 安徽 六安 237158)

0 前 言

計算機和互聯網作為當下信息傳遞的主要工具,已經被廣泛應用于各行各業中。全球范圍內的計算機和便攜式上網設備都通過互聯網進行連接,這給我們帶來便捷的同時,也帶來了許多安全隱患。網絡安全問題已逐漸成為人們重點關注的問題。網絡安全具有機密性、完整性等特征,應對網絡攻擊行為進行識別和檢測[1]。網絡入侵一般會留下痕跡,但具有一定的隱藏性,需要經過信息處理才能被識別[2]?,F有的網絡入侵檢測技術需要對聚類數目和聚類中心進行人工設定,容易造成誤差[3-4]。因此,本次研究利用最小生成樹對K-means聚類算法進行改進,設計了一種新型網絡入侵檢測技術。

1.1 數據預處理

網絡入侵數據一般混在正常數據中,若要挖掘出入侵數據,就需要使用聚類算法對數據進行預處理[5-6]。K-means是一種典型的聚類算法,其迭代基礎是聚類中心,需要提前確定聚類數量和聚類中心位置,得到的結果往往受人為因素的影響較大,因此本次研究利用最小生成樹改進 K-means聚類算法。

K-means聚類算法一般通過評價函數來判斷簇之間能否合并或聚類。評價函數如式(1)所示:

(1)

式中:I—— 評價函數;

J—— 聚類解的常用目標函數;

n—— 簇的數量。

基于最小生成樹改進的K-means聚類算法中,數據對象的簇數量是提前給定的,利用經典的Prim算法得到一棵最小生成樹,將其劃分為若干個部分,并把每個部分看成一個簇[7]。因此,根據經驗隨機給出的簇數量會在很大程度上影響聚類結果。

在最小生成樹的改進機理下,對操作數據組成的集合進行處理,集合數量為m-1。通過距離計算,把樹分裂成m棵子樹,并將其看作獨立的簇,選擇包含較多元素的簇作為開始節點[8-9]。本次研究基于密度進行聚類劃分,不同密度的聚類篩選過程如圖1所示。

圖1 不同密度的聚類篩選過程

圖1a中的圓形中心點表示4個高密度點的分布情況,其中空心點表示密度最小,可以將其作為第1個聚類中心;在篩選過程中,將距離中心點最遠的高密度點作為第2個聚類中心,即圖1b中增加的空心點;根據不同的篩選規則,得到第3個聚類中心,即圖1c中增加的空心點[10-12]?;谧钚∩蓸涓倪M的K-means聚類算法中,不同高密度點之間的距離應盡可能遠。通過預處理得到的有效聚類數據集對入侵結果的影響很大,若要保證入侵檢測結果的準確性,就要消除數據冗余。

1.2 入侵檢測模型設計

通過上述聚類分析法劃分網絡行為數據,并進行數據挖掘,以實現網絡入侵檢測[13]。網絡入侵檢測模型示意圖如圖2所示。

圖2 網絡入侵檢測模型示意圖

在網絡入侵檢測模型中,對字符型特征數據進行編碼,將其轉化為數值型數據,以消除字符之間的差異性,如表1所示。

表1 字符型特征數值的轉換

為了保證網絡入侵檢測模型的穩定性和可靠性,應提升模型泛化能力,以抑制過度擬合現象,網絡入侵檢測流程如圖3所示。

圖3 網絡入侵檢測流程

2 實驗結果分析

2.1 實驗準備

實驗環境為Windows 10系統,選擇Python語言進行代碼編寫。網絡數據一般為多維度數據,應在優化過程中以距離為基礎,使用數值型數據集。采用的數據集包括Iris數據集、Wine數據集和4k2_far數據集,共計612條數據。數據集特征說明如表2所示。

表2 數據集特征說明

將基于最小生成樹改進K-means聚類的網絡入侵檢測技術與基于K-means聚類的網絡入侵檢測技術進行對比分析。選取聚類純度作為聚類有效性指標,聚類純度的計算如式(2)所示:

(2)

式中:Pc—— 聚類純度;

N—— 數據總量;

K—— 聚類數量;

Ck—— 任意一個聚類中的對象數量。

一般情況下,Pc的取值范圍為[0,1],Pc越大,聚類效果越好。實驗參數說明如表3所示。

表3 實驗參數說明

2.2 聚類結果對比分析

分別使用基于最小生成樹改進K-means聚類的網絡入侵檢測技術和基于K-means聚類的網絡入侵檢測技術進行對比測試,聚類結果如圖4和圖5所示。

由圖4和圖5可知,相較于基于K-means聚類的網絡入侵檢測技術,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的數據分布更均勻,不同數據庫之間的分布差異更明顯,與實際情況相符。

圖4 基于最小生成樹改進K-means聚類的網絡入侵檢測技術的聚類結果

圖5 基于K-means聚類的網絡入侵檢測技術的聚類結果

2.3 性能評估分析

采用檢測率和誤報率等指標進行性能評估,檢測率的計算如式(3)所示:

(3)

式中:DR—— 檢測率;

Nad—— 檢測到的異常數量;

Nta—— 實際異常數量。

誤報率的計算如式(4)所示:

(4)

式中:FR—— 誤報率;

NM—— 被誤判為異常的數量;

Nnr—— 實際正常數量。

檢測率越大,誤報率越小,說明技術性能越好。入侵檢測評估指標結果如表4所示。

由表4可知,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的檢測率為70%,誤報率為0.472%;基于K-means聚類的網絡入侵檢測技術的檢測率為44%,誤報率為0.615%。因此,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的性能更優,檢測效果更好。

表4 入侵檢測評估指標結果

3 結 語

本次研究從網絡入侵檢測技術存在的問題入手,利用最小生成樹改進K-means聚類算法,設計了一種新型網絡入侵檢測技術。利用最小生成樹改進K-means聚類算法,對入侵檢測數據進行預處理,設計不同密度的聚類篩選過程,去除冗余數據。構建網絡入侵檢測模型,將字符型特征轉化為數值型數據,優化入侵檢測流程,以實現網絡入侵檢測。實驗結果表明,與傳統網絡入侵檢測技術相比,本技術的性能更優,檢測效果更好。

猜你喜歡
誤報率聚類數量
一種基于Web日志的混合入侵檢測方法
原始數據動態觀察窗法在火災特征信號融合提取中的應用研究
芳芳猜童話書的數量
家用燃氣報警器誤報原因及降低誤報率的方法
基于K-means聚類的車-地無線通信場強研究
統一數量再比較
基于高斯混合聚類的陣列干涉SAR三維成像
頭發的數量
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合