王 紅 陳功平
(六安職業技術學院, 安徽 六安 237158)
計算機和互聯網作為當下信息傳遞的主要工具,已經被廣泛應用于各行各業中。全球范圍內的計算機和便攜式上網設備都通過互聯網進行連接,這給我們帶來便捷的同時,也帶來了許多安全隱患。網絡安全問題已逐漸成為人們重點關注的問題。網絡安全具有機密性、完整性等特征,應對網絡攻擊行為進行識別和檢測[1]。網絡入侵一般會留下痕跡,但具有一定的隱藏性,需要經過信息處理才能被識別[2]?,F有的網絡入侵檢測技術需要對聚類數目和聚類中心進行人工設定,容易造成誤差[3-4]。因此,本次研究利用最小生成樹對K-means聚類算法進行改進,設計了一種新型網絡入侵檢測技術。
網絡入侵數據一般混在正常數據中,若要挖掘出入侵數據,就需要使用聚類算法對數據進行預處理[5-6]。K-means是一種典型的聚類算法,其迭代基礎是聚類中心,需要提前確定聚類數量和聚類中心位置,得到的結果往往受人為因素的影響較大,因此本次研究利用最小生成樹改進 K-means聚類算法。
K-means聚類算法一般通過評價函數來判斷簇之間能否合并或聚類。評價函數如式(1)所示:
(1)
式中:I—— 評價函數;
J—— 聚類解的常用目標函數;
n—— 簇的數量。
基于最小生成樹改進的K-means聚類算法中,數據對象的簇數量是提前給定的,利用經典的Prim算法得到一棵最小生成樹,將其劃分為若干個部分,并把每個部分看成一個簇[7]。因此,根據經驗隨機給出的簇數量會在很大程度上影響聚類結果。
在最小生成樹的改進機理下,對操作數據組成的集合進行處理,集合數量為m-1。通過距離計算,把樹分裂成m棵子樹,并將其看作獨立的簇,選擇包含較多元素的簇作為開始節點[8-9]。本次研究基于密度進行聚類劃分,不同密度的聚類篩選過程如圖1所示。
圖1 不同密度的聚類篩選過程
圖1a中的圓形中心點表示4個高密度點的分布情況,其中空心點表示密度最小,可以將其作為第1個聚類中心;在篩選過程中,將距離中心點最遠的高密度點作為第2個聚類中心,即圖1b中增加的空心點;根據不同的篩選規則,得到第3個聚類中心,即圖1c中增加的空心點[10-12]?;谧钚∩蓸涓倪M的K-means聚類算法中,不同高密度點之間的距離應盡可能遠。通過預處理得到的有效聚類數據集對入侵結果的影響很大,若要保證入侵檢測結果的準確性,就要消除數據冗余。
通過上述聚類分析法劃分網絡行為數據,并進行數據挖掘,以實現網絡入侵檢測[13]。網絡入侵檢測模型示意圖如圖2所示。
圖2 網絡入侵檢測模型示意圖
在網絡入侵檢測模型中,對字符型特征數據進行編碼,將其轉化為數值型數據,以消除字符之間的差異性,如表1所示。
表1 字符型特征數值的轉換
為了保證網絡入侵檢測模型的穩定性和可靠性,應提升模型泛化能力,以抑制過度擬合現象,網絡入侵檢測流程如圖3所示。
圖3 網絡入侵檢測流程
實驗環境為Windows 10系統,選擇Python語言進行代碼編寫。網絡數據一般為多維度數據,應在優化過程中以距離為基礎,使用數值型數據集。采用的數據集包括Iris數據集、Wine數據集和4k2_far數據集,共計612條數據。數據集特征說明如表2所示。
表2 數據集特征說明
將基于最小生成樹改進K-means聚類的網絡入侵檢測技術與基于K-means聚類的網絡入侵檢測技術進行對比分析。選取聚類純度作為聚類有效性指標,聚類純度的計算如式(2)所示:
(2)
式中:Pc—— 聚類純度;
N—— 數據總量;
K—— 聚類數量;
Ck—— 任意一個聚類中的對象數量。
一般情況下,Pc的取值范圍為[0,1],Pc越大,聚類效果越好。實驗參數說明如表3所示。
表3 實驗參數說明
分別使用基于最小生成樹改進K-means聚類的網絡入侵檢測技術和基于K-means聚類的網絡入侵檢測技術進行對比測試,聚類結果如圖4和圖5所示。
由圖4和圖5可知,相較于基于K-means聚類的網絡入侵檢測技術,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的數據分布更均勻,不同數據庫之間的分布差異更明顯,與實際情況相符。
圖4 基于最小生成樹改進K-means聚類的網絡入侵檢測技術的聚類結果
圖5 基于K-means聚類的網絡入侵檢測技術的聚類結果
采用檢測率和誤報率等指標進行性能評估,檢測率的計算如式(3)所示:
(3)
式中:DR—— 檢測率;
Nad—— 檢測到的異常數量;
Nta—— 實際異常數量。
誤報率的計算如式(4)所示:
(4)
式中:FR—— 誤報率;
NM—— 被誤判為異常的數量;
Nnr—— 實際正常數量。
檢測率越大,誤報率越小,說明技術性能越好。入侵檢測評估指標結果如表4所示。
由表4可知,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的檢測率為70%,誤報率為0.472%;基于K-means聚類的網絡入侵檢測技術的檢測率為44%,誤報率為0.615%。因此,基于最小生成樹改進K-means聚類的網絡入侵檢測技術的性能更優,檢測效果更好。
表4 入侵檢測評估指標結果
本次研究從網絡入侵檢測技術存在的問題入手,利用最小生成樹改進K-means聚類算法,設計了一種新型網絡入侵檢測技術。利用最小生成樹改進K-means聚類算法,對入侵檢測數據進行預處理,設計不同密度的聚類篩選過程,去除冗余數據。構建網絡入侵檢測模型,將字符型特征轉化為數值型數據,優化入侵檢測流程,以實現網絡入侵檢測。實驗結果表明,與傳統網絡入侵檢測技術相比,本技術的性能更優,檢測效果更好。