?

基于最小生成樹改進K-means聚類的網絡入侵檢測技術

2022-02-04 08:45陳功平

重慶科技學院學報（自然科學版） 2022年6期

關鍵詞：誤報率聚類數量

王紅陳功平

(六安職業技術學院，安徽六安 237158)

0 前言

計算機和互聯網作為當下信息傳遞的主要工具，已經被廣泛應用于各行各業中。全球范圍內的計算機和便攜式上網設備都通過互聯網進行連接，這給我們帶來便捷的同時，也帶來了許多安全隱患。網絡安全問題已逐漸成為人們重點關注的問題。網絡安全具有機密性、完整性等特征，應對網絡攻擊行為進行識別和檢測[1]。網絡入侵一般會留下痕跡，但具有一定的隱藏性，需要經過信息處理才能被識別[2]?，F有的網絡入侵檢測技術需要對聚類數目和聚類中心進行人工設定，容易造成誤差[3-4]。因此，本次研究利用最小生成樹對K-means聚類算法進行改進，設計了一種新型網絡入侵檢測技術。

1.1 數據預處理

網絡入侵數據一般混在正常數據中，若要挖掘出入侵數據，就需要使用聚類算法對數據進行預處理[5-6]。K-means是一種典型的聚類算法，其迭代基礎是聚類中心，需要提前確定聚類數量和聚類中心位置，得到的結果往往受人為因素的影響較大，因此本次研究利用最小生成樹改進 K-means聚類算法。

K-means聚類算法一般通過評價函數來判斷簇之間能否合并或聚類。評價函數如式(1)所示：

(1)

式中：I—— 評價函數；

J—— 聚類解的常用目標函數；

n—— 簇的數量。

基于最小生成樹改進的K-means聚類算法中，數據對象的簇數量是提前給定的，利用經典的Prim算法得到一棵最小生成樹，將其劃分為若干個部分，并把每個部分看成一個簇[7]。因此，根據經驗隨機給出的簇數量會在很大程度上影響聚類結果。

在最小生成樹的改進機理下，對操作數據組成的集合進行處理，集合數量為m-1。通過距離計算，把樹分裂成m棵子樹，并將其看作獨立的簇，選擇包含較多元素的簇作為開始節點[8-9]。本次研究基于密度進行聚類劃分，不同密度的聚類篩選過程如圖1所示。

圖1 不同密度的聚類篩選過程

圖1a中的圓形中心點表示4個高密度點的分布情況，其中空心點表示密度最小，可以將其作為第1個聚類中心；在篩選過程中，將距離中心點最遠的高密度點作為第2個聚類中心，即圖1b中增加的空心點；根據不同的篩選規則，得到第3個聚類中心，即圖1c中增加的空心點[10-12]?；谧钚∩蓸涓倪M的K-means聚類算法中，不同高密度點之間的距離應盡可能遠。通過預處理得到的有效聚類數據集對入侵結果的影響很大，若要保證入侵檢測結果的準確性，就要消除數據冗余。

1.2 入侵檢測模型設計

通過上述聚類分析法劃分網絡行為數據，并進行數據挖掘，以實現網絡入侵檢測[13]。網絡入侵檢測模型示意圖如圖2所示。

圖2 網絡入侵檢測模型示意圖

在網絡入侵檢測模型中，對字符型特征數據進行編碼，將其轉化為數值型數據，以消除字符之間的差異性，如表1所示。

表1 字符型特征數值的轉換

為了保證網絡入侵檢測模型的穩定性和可靠性，應提升模型泛化能力，以抑制過度擬合現象，網絡入侵檢測流程如圖3所示。

圖3 網絡入侵檢測流程

2 實驗結果分析

2.1 實驗準備

實驗環境為Windows 10系統，選擇Python語言進行代碼編寫。網絡數據一般為多維度數據，應在優化過程中以距離為基礎，使用數值型數據集。采用的數據集包括Iris數據集、Wine數據集和4k2_far數據集，共計612條數據。數據集特征說明如表2所示。

表2 數據集特征說明

將基于最小生成樹改進K-means聚類的網絡入侵檢測技術與基于K-means聚類的網絡入侵檢測技術進行對比分析。選取聚類純度作為聚類有效性指標，聚類純度的計算如式(2)所示：

(2)

式中：Pc—— 聚類純度；

N—— 數據總量；

K—— 聚類數量；

Ck—— 任意一個聚類中的對象數量。

一般情況下，Pc的取值范圍為[0,1]，Pc越大，聚類效果越好。實驗參數說明如表3所示。

表3 實驗參數說明

2.2 聚類結果對比分析

分別使用基于最小生成樹改進K-means聚類的網絡入侵檢測技術和基于K-means聚類的網絡入侵檢測技術進行對比測試，聚類結果如圖4和圖5所示。

由圖4和圖5可知，相較于基于K-means聚類的網絡入侵檢測技術，基于最小生成樹改進K-means聚類的網絡入侵檢測技術的數據分布更均勻，不同數據庫之間的分布差異更明顯，與實際情況相符。

圖4 基于最小生成樹改進K-means聚類的網絡入侵檢測技術的聚類結果

圖5 基于K-means聚類的網絡入侵檢測技術的聚類結果

2.3 性能評估分析

采用檢測率和誤報率等指標進行性能評估，檢測率的計算如式(3)所示：

(3)

式中：DR—— 檢測率；

Nad—— 檢測到的異常數量；

Nta—— 實際異常數量。

誤報率的計算如式(4)所示：

(4)

式中：FR—— 誤報率；

NM—— 被誤判為異常的數量；

Nnr—— 實際正常數量。

檢測率越大，誤報率越小，說明技術性能越好。入侵檢測評估指標結果如表4所示。

由表4可知，基于最小生成樹改進K-means聚類的網絡入侵檢測技術的檢測率為70%，誤報率為0.472%；基于K-means聚類的網絡入侵檢測技術的檢測率為44%，誤報率為0.615%。因此，基于最小生成樹改進K-means聚類的網絡入侵檢測技術的性能更優，檢測效果更好。

表4 入侵檢測評估指標結果

3 結語

本次研究從網絡入侵檢測技術存在的問題入手，利用最小生成樹改進K-means聚類算法，設計了一種新型網絡入侵檢測技術。利用最小生成樹改進K-means聚類算法，對入侵檢測數據進行預處理，設計不同密度的聚類篩選過程，去除冗余數據。構建網絡入侵檢測模型，將字符型特征轉化為數值型數據，優化入侵檢測流程，以實現網絡入侵檢測。實驗結果表明，與傳統網絡入侵檢測技術相比，本技術的性能更優，檢測效果更好。

猜你喜歡

誤報率聚類數量

一種基于Web日志的混合入侵檢測方法

黑龍江工業學院學報(綜合版)(2022年7期)2022-08-29

原始數據動態觀察窗法在火災特征信號融合提取中的應用研究

湖南文理學院學報(自然科學版)(2022年2期)2022-05-06

芳芳猜童話書的數量

數學小靈通(1-2年級)(2021年10期)2021-11-05

家用燃氣報警器誤報原因及降低誤報率的方法

煤氣與熱力(2021年6期)2021-07-28

基于K-means聚類的車-地無線通信場強研究

鐵道通信信號(2019年6期)2019-10-08

統一數量再比較

小學生學習指導(低年級)(2019年3期)2019-04-22

基于高斯混合聚類的陣列干涉SAR三維成像

雷達學報(2017年6期)2017-03-26

頭發的數量

小獼猴智力畫刊(2016年6期)2016-05-14

基于Spark平臺的K-means聚類算法改進及并行化實現

互聯網天地(2016年1期)2016-05-04

基于改進的遺傳算法的模糊聚類算法

智能系統學報(2015年4期)2015-12-27

重慶科技學院學報（自然科學版）2022年6期

重慶科技學院學報（自然科學版）的其它文章: 川西復雜地質井壁穩定及井身結構優化技術; KPD堵漏技術在東勝氣田的應用; 海上X油田大位移CO2回注井油管尺寸優選及井筒流態分析; 蟠龍油田P3323井區長4+5儲層特征研究; 富縣油田D區長8致密砂巖油藏有效儲層物性下限研究; 永寧油田D227井區長6油層組油水分布規律研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合