?

基于MHA-BiLSTM的網絡流量異常檢測方法

2024-04-14 02:12葉文冰詹仕華
現代信息科技 2024年2期
關鍵詞:深度學習

葉文冰 詹仕華

DOI:10.19850/j.cnki.2096-4706.2024.02.015

收稿日期:2023-05-29

基金項目:福建省高等學校教育技術研究會基金項目(H2000134A);福建農林大學橫向科技創新基金項目(KHF190015)

摘? 要:針對傳統的網絡流量異常檢測方法存在識別準確率低、忽略特征之間的相互關系等問題,提出一種基于多頭注意力機制(MHA)和融合Highway連接的雙向長短時記憶網絡(BiLSTM)的網絡流量異常檢測方法。通過使用多頭注意力機制學習數據之間的特征關系,實現對不同維度特征關系的提取,接下來采用多層BiLSTM進行長距離依賴特征提取,并利用Highway連接來緩解深層網絡訓練中的梯度消失問題。通過NSL-KDD數據集,驗證了該方法的準確度和有效性。

關鍵詞:異常流量;多頭自注意力機制;雙向長短時記憶網絡;Highway連接;深度學習

中圖分類號:TP183;TP393.0? ? 文獻標識碼:A? ? 文章編號:2096-4706(2024)02-0065-05

Anomaly Detection Method of Network Traffic Based on MHA-BiLSTM

YE Wenbing1, ZHAN Shihua2

(1.College of Mechanical and Electrical Engineering, Fujian Agriculture and Forestry University, Fuzhou? 350108, China; 2.College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou? 350028, China)

Abstract: A network traffic anomaly detection method based on MHA and BiLSTM connected with fused Highway is proposed to address the issues of low identification accuracy and neglect of inter-feature relationships in traditional network traffic anomaly detection methods. Through utilizing the MHA mechanism to learn feature relationships among data, the feature relationships of different dimensions are extracted. Subsequently, multiple layers of BiLSTM are employed for capturing long-term dependency features, while the Highway connections are utilized to alleviate the issue of gradient vanishing in deep network training. The accuracy and effectiveness of the proposed method are validated through the NSL-KDD dataset.

Keywords: abnormal traffic; multi-head self-attention mechanism; BiLSTM; Highway connection; Deep Learning

0? 引? 言

隨著計算機技術的迅猛發展,互聯網的數據規模不斷擴大,網絡環境也日益復雜,導致網絡安全問題如入侵攻擊和網絡病毒等日益嚴重。為了解決這些問題,保障網絡安全已經成為迫切的任務,吸引了學術界的廣泛關注。在網絡流量異常檢測中,傳統的機器學習算法如K近鄰算法[1]、支持向量機[2]、隨機森林[3]和決策樹[4]等已經被廣泛應用。這些算法在網絡流量異常檢測中取得了一定的準確率提升,但仍存在表達復雜函數能力有限和泛化能力不強的問題[5]。為了進一步提高網絡流量異常檢測的性能,近年來,深度學習算法如卷積神經網絡[6]、循環神經網絡[7]和深度自編碼器[8]等也被引入網絡流量異常檢測領域,并在實驗中表現出了很好的性能。相比傳統的機器學習算法,深度學習算法具有更強的表達能力和更好的泛化能力,可以更準確地檢測出網絡流量中的異常行為。文獻[9]提出了一種結合了數據時空特征的卷積神經網絡和雙向長短期記憶網絡(BiLSTM)的網絡流量異常檢測模型,并取得了良好的結果。文獻[10]提出了一種基于自注意力機制(Self-Attention)的模型來提取網絡流量數據多特征的相關性,提高了檢測率并降低了誤報率。然而,自注意力機制僅考慮了當前特征與其他特征的相關性,無法捕捉到更復雜的關系和模式。對此,本文提出一種結合多頭注意力(MHA)機制和融合Highway連接的雙向長短期記憶網絡(BiLSTM)的異常網絡檢測方法。多頭注意力機制通過引入多個注意力頭,可以從多個維度提取網絡流量的非線性變化,增加對不同特征之間的關注,發掘特征之間的內在聯系。同時,使用雙向長短時記憶網絡可以提取特征之間的長距離依賴關系,并利用Highway連接來緩解深層網絡訓練中的梯度消失問題。最后,采用Softmax分類器對輸出進行分類。

1? 模型介紹

1.1? 相關技術

1.1.1? 多頭注意力機制

傳統的神經網絡模型在處理序列或圖像等數據時,通常是通過局部感受野和固定的權重來對輸入進行處理。這種方法存在一個限制,即模型只能關注輸入數據的局部信息,而無法捕捉全局信息的聯系和依賴關系。多頭自注意力機制最初在自然語言處理(NLP)領域被引入[11],并被廣泛應用于多個場景。本文中,使用多頭注意力機制通過多個并行計算的注意力機制獲得異常網絡流量數據中每個特征的加權注意力分數,這樣的注意力分數允許模型對輸入數據的不同特征進行加權關注,使模型過濾無用特征,關注重點特征。通過多個頭的并行計算,提供多個不同的關注點和特征表示,可以從多個維度理解和挖掘信息,提高模型的表達能力和泛化能力。多頭注意力結構如圖1所示。

在注意力機制中,使用的是縮放點積注意力(Scaled Dot-Product Attention),它通過計算查詢(query)和鍵(key)之間的相似性得到分配給每個值(value)的權重分數。這些分數經過Softmax函數歸一化后,與對應的值相乘,得到加權和作為輸出。使用點積注意力可以并行計算,從而減少訓練時間。其計算式(1)如下:

(1)

式(1)中Q、K、V分別表示Query、Key、Value三個矩陣,dk表示它們的維度。為了提取更豐富的特征,本文引入了多頭注意力。每個注意力頭都有自己的可學習參數,計算式(2)如下。其中,,, 表示可學習的參數。其中Qi表示第i個注意力頭的查詢矩陣,Ki表示第i個注意力頭的鍵矩陣,Vi表示第i個注意力頭的值矩陣。

(2)

多頭注意力機制通過創建多個不同的注意力頭,從不同的特征子空間中學習不同的特征信息。計算式如(3)所示,其中i表示多頭注意力中的頭數,headi表示第i個特征子空間中學到的特征:

(3)

最后,將每個頭的輸出進行拼接操作并做線性變換,得到包含多維信息的向量矩陣。如式(4)所示,其中Concat表示拼接操作:

(4)

1.1.2? 雙向長短時記憶網絡

長短時記憶神經網絡(LSTM)[12]循環神經網絡RNN,通過門控機制解決長序列中的遠距離信息丟失、梯度爆炸和梯度消失問題等問題,LSTM網絡能夠保留有價值的信息,刪除冗余記憶,具有較強的建模能力。LSTM結構如圖2所示。圖中“×”表示內積操作,“+”表示加操作,“σ”表示sigmoid激活函數,“tanh”表示雙曲正切激活函數。

LSTM結構包括輸入門It、遺忘門Ft和輸出門Ot,以及臨時記憶狀態 、當前記憶狀態Ct和最終隱藏層狀態Ht。計算式(5)~(10)描述了LSTM中的計算過程,其中包括各個門的計算和狀態的更新。

(5)

(6)

(7)

(8)

(9)

(10)

然而,傳統的LSTM神經網絡只能學習到前向數據的依賴關系。為了更好地捕捉序列中的長期依賴關系,引入了雙向長短時記憶神經網絡(BiLSTM)。BiLSTM由前向LSTM和反向LSTM組成,分別對輸入進行前向和后向計算,并獲得前向和反向的所有信息。這樣可以更全面地理解序列數據,提供更準確的特征表示。圖3展示了BiLSTM的結構。

在BiLSTM中,將前向和反向的最后一個輸出進行拼接,作為下一層的輸入。拼接后的輸出可以包含前向和反向信息的綜合表示。這樣的結構可以為異常網絡檢測提供更準確的預測條件。式(11)描述了輸出的拼接過程:

(11)

其中,ht表示t時刻經前向輸出和反向輸出拼接后的最終輸出結果。

1.1.3? Highway網絡

相對于傳統的RNN,LSTM網絡在一定程度上能夠緩解梯度消失的問題。然而,再深層網絡中,隨著網絡層數的增加,梯度信息在網絡傳播中容易受到阻礙,導致訓練過程變得困難[13]。為了應對這個問題,本文采用了Highway連接來連接各層的BiLSTM網絡。

Highway網絡利用門控機制來控制信息的流動。在傳統的神經網絡中,每一層的輸出經過非線性函數變換。而在深層模型中引入Highway連接,將輸入的一部分特征經過非線性變換,而另一部分則直接傳遞到下一層網絡,從而實現特征信息在多個層之間的傳遞。為了實現這一目的,為每一層的輸出添加轉換門(transform gate)和攜帶門(carry gate),形成了Highway網絡。Highway網絡的定義(12)如下:

(12)

其中y表示Highway網絡的輸出,x表示輸入,W表示權重參數,T(x,WT)表示轉換門狀態,C(x,Wc)表示攜帶門狀態。通過控制轉換門和攜帶門的權重,Highway網絡可以靈活地調節特征信息的傳遞和保留,從而更好地訓練深層模型。

1.2? 本文模型

本文提出的模型利用多頭注意力機制和融合Highway連接的雙向長短時記憶網絡的協同作用提取數據的特征。該模型由6個部分組成:數據預處理部分、Embedding層、多頭注意力模塊、雙向長短時記憶模塊、全連接層和Softmax層,模型結構如圖4所示。首先,原始數據經過數據預處理階段進行預處理,然后被輸入到Embedding層,Embedding層將離散的輸入映射到連續的向量空間,以更好地理解輸入的語義和特征信息。接下來,經過多頭注意力模塊對特征進行分析,該模塊能夠計算特征的重要程度,并篩選出關鍵特征,得到豐富的多維特征信息。然后,經過4層融合了Highway連接的BiLSTM網絡,這種網絡在緩解梯度消失問題的同時獲取前后特征之間的聯系且保留其時序信息,之后通過全連接層對特征進行融合,最后將融合后的特征輸入到Softmax分類器中,得到最終分類結果。

2? 實驗與分析

在本實驗中,在公開數據集NSL-KDD上驗證了基于多頭注意力機制(MHA)和融合Highway連接的雙向長短時記憶網絡(BiLSTM)的網絡流量異常檢測方法的有效性,并使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-score作為評估指標來評估模型的性能。還與多種傳統機器學習算法以及1D-Conv、Transformer算法模型進行了性能比較,實驗結果表明:本文提出的基于多頭注意力機制和融合Highway連接的雙向長短時記憶網絡的網絡流量異常檢測方法表現出較好的性能。

2.1? 實驗環境

實驗環境基于windows 10操作系統,使用了Intel Core第12代處理器i5-12400F和NVIDIA 3060 Ti 8 GB顯卡,內存容量為16 GB。并使用Python 3.10.9編程語言和PyTorch 2.0.0深度學習框架來實現本文提出的異常檢測方法。

2.2? 評估指標

本文使用混淆矩陣來表示評估指標,如表1所示?;煜仃囍?,真正例(True Positive, TP)表示分類器將正類樣本預測為正的樣本數量,真負例(True Negative, TN)表示分類器將負類樣本預測為負類的樣本數量,假負例(False Negative, FN)表示分類器將正類樣本預測為負類樣本的樣本數量,假正例(False Positive, FP)表示分類器將負類樣本預測為正類樣本的嚴樣本數量。

常用的評估指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-score。其中,Accuracy表示模型能夠正確分類的樣本數量占總樣本數量的比例,定義如式(13)所示:

(13)

Precision表示被正確分類的正類樣本數量與其中實際正類樣本數量的比例,定義如式(14)所示:

(14)

Recall表示被正確分類的正類樣本數量與真實正類樣本數量的比例,定義如式(15)所示:

(15)

F1-score是Precision和Recall的調和平均數,定義如式(16)所示:

(16)

2.3? 實驗數據集

本文使用NSL-KDD數據集進行實驗。該數據集是基于KDD CUP 99數據集進行改進和精簡的新數據集,去除了大量冗余記錄。數據集包含4個子數據集:KDDTrain+、KDDTrain+_20Percent、KDDTest+、KDDTest-21。其中KDDTrain+_20Percent和KDDTest-21是KDDTrain+和KDDTest+的子集。數據集中包含41個特征屬性和1個類型標簽。類型包括正常行為(Normal)以及4種攻擊行為:偵察(Probing)攻擊行為、拒絕服務(Dos)攻擊行為、遠程到本地(R2L)攻擊行為、用戶到根(U2R)攻擊行為。在本實驗中,使用KDDTrain+_20Percent作為訓練集,KDDTest+作為測試集。各類型數據信息如表2所示。

2.4? 數據預處理

由于神經網絡無法直接處理文本信息,而NSL-KDD數據集中存在字符型數據,不符合神經網絡的輸入格式要求。因此,在數據預處理階段,首先需要將非數值數據轉化為數值型數據,使用獨熱編碼(One-Hot Encoding)將離散特征映射為二進制向量,從而將特征向量的維度轉變為126維。獨熱編碼的目的是消除離散特征之間的大小關系和數值偏好,使得神經網絡能夠更好地處理這些特征。此外,由于原始數據中的一些特征可能具有不同的分布和取值范圍,為了保證模型的穩定性和收斂性,本文還對特征進行了歸一化處理,使得不同特征之間的數值范圍相對統一。

同時,NSL-KDD數據集存在數據不平衡問題,即多數類數據的樣本數量遠遠大于少數類數據的樣本數量。如果直接進行模型訓練將會導致分類結果偏向于多數類數據而忽視少數類數據。因此,本文采用過采樣以及欠采樣算法對數據進行數據預處理,使得實驗中使用的數據集多數樣本和少數樣本相對均衡,從而增加模型對于少數類數據的分類準確率。

2.5? 實驗參數設置

在本實驗中,設置了以下參數:每次訓練的批次大?。╞atch_size)為1 024,訓練輪數(epochs)為40,學習率(learning rate)為0.000 1,我們采用了8個注意力頭(attention heads)的多頭注意力機制,使用Adam優化器和交叉熵損失函數。本實驗的雙向長短時記憶網絡(BiLSTM)包含4層,每層節點數為128。

2.6? 結果分析

為了評估模型的性能,本文采用了控制變量的方法,對比了不同算法在相同機器環境上的運行結果。為了消除準確率、精確率、召回率和F1-score值的隨機性,本文對每個模型進行了10次實驗,并計算其平均值作為最終結果。

首先,進行了消融實驗,驗證了Highway網絡和多頭注意力機制對模型性能的影響。實驗結果如表3所示。從表3可以看出,在BiLSTM網絡基礎上融合Highway連接后,模型的準確性提高了2.26%,準確率提高了3.98%,召回率提高了1.4%,F1-score提高了1.97%,這表明了Highway連接對模型有著重要作用。Highway連接通過門控機制幫助網絡更好地學習輸入數據中的重要特征,避免信息的損失和失真,從而提升模型性能。之后,在BiLSTM網絡中融合多頭注意力機制后,模型的準確率、召回率和F1-score各提升了1.63%、7.21%和2.17%。多頭注意力機制通過并行計算多個注意力頭,每個注意力頭專注于不同的子空間,同時捕捉多個不同的關注點和關聯模式,從而提升模型的表達能力和泛化能力。實驗結果表明多頭注意力機制有效提升了模型的性能。

接下來,通過與傳統機器學習算法、1D-Conv和Transformer模型進行對比實驗,進一步驗證了本文提出的模型的性能。實驗結果如表4所示。

實驗結果顯示,本文模型的準確率達到90.29%,召回率達到93.04%,F1-score達到91.49%,均優于其他對比算法模型。相比于只學習淺層特征的傳統機器學習算法,本文模型表現更優越。與1D-Conv和Transformer模型的比較結果也驗證了本文模型的準確性和有效性。

3? 結? 論

本文構建了一種網絡流量異常檢測算法,結合了多頭注意力機制(MHA)和融合了Highway連接的雙向長短期記憶網絡(BiLSTM)。MHA模塊能夠有效地捕捉不同特征之間的聯系,并提取更豐富的特征表示;BiLSTM模塊能夠捕捉網絡流量數據的長距離依賴和時序信息,從而更好地建模數據的動態性。Highway連接允許信息在網絡中快速傳播,通過添加門控機制來選擇性地傳遞信息,從而保持梯度的有效傳遞,進一步提高模型性能。同時,通過對比是否添加Highway網絡或多頭注意力機制的模型實驗結果,證明了Highway網絡的重要性和多頭注意力機制的有效性。最后和多種模型在公開數據集NSL-KDD上進行對比實驗評估,實驗結果表明,本文算法在網絡流量異常檢測任務上取得了良好的性能表現。未來的工作中,將進一步解決網絡流量數據集不平衡問題,這可能涉及采樣策略、類別權重調整或生成合成樣本等方法。此外,還將致力于優化模型結構和參數設置,以提高模型的準確率和魯棒性。

參考文獻:

[1] KACHAVIMATH A V,NAZARE S V,AKKI S S. Distributed denial of Service Attack Detection Using Na?ve Bayes and K-Nearest Neighbor for Network Forensics [C]//2020 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA).Bangalore:IEEE,2020:711-717.

[2] DONG S. Multi Class SVM Algorithm with Active Learning for Network Traffic Classification [J].Expert Systems with Applications,2021,176:114885.

[3] ELMRABIT N,ZHOU F X,LI F Y,et al. Evaluation of Machine Learning Algorithms for Anomaly Detection [C]//2020 International Conference on Cyber Security and Protection of Digital Services (Cyber Security).Dublin:IEEE,2020:1-8.

[4] HENRIQUES J,CALDEIRA F,CRUZ T,et al. Combining K-Means and XGBoost Models for Anomaly Detection Using Log Datasets [J].Electronics,2020,9(7):1164.

[5] LIU L,WANG P C,LIN J,et al. Intrusion Detection of Imbalanced Network Traffic Based on Machine Learning and Deep Learning [J].IEEE Access,2020,9:7550-7563.

[6] 杭夢鑫,陳偉,張仁杰.基于改進的一維卷積神經網絡的異常流量檢測 [J].計算機應用,2021,41(2):433-440.

[7] 鄧華偉,李喜旺.基于深度學習的網絡流量異常識別與檢測 [J].計算機系統應用,2023,32(2):274-280.

[8] 張國梁,郭曉軍.基于自編碼器的網絡異常檢測研究綜述 [J].信息安全學報,2023,8(2):81-94.

[9] SINHA J,MANOLLAS M. Efficient Deep CNN-BiLSTM model for Network Intrusion Detection [C]//Proceedings of the 2020 3rd International Conference on Artificial Intelligence and Pattern Recognition.Xiamen:ACM,2020:223-231.

[10] 皇甫雨婷,李麗穎,王海洲,等.自注意力的多特征網絡流量異常檢測與分類 [J].華東師范大學學報:自然科學版,2021(6):161-173.

[11] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [J/OL].arXiv:1706.03762 [cs.CL].(2017-06-12).https://arxiv.org/abs/1706.03762.

[12] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.

[13] SRIVASTAVA R K,GREFF K,SCHMIDHUBER J. Highway Networks [J/OL].arXiv:1505.00387 [cs.LG].(2015-05-03).https://arxiv.org/abs/1505.00387.

作者簡介:葉文冰(1998—),男,漢族,福建福州人,碩士研究生在讀,研究方向:人工智能;通訊作者:詹仕華(1968—),男,漢族,福建福安人,副教授,本科,研究方向:網絡通信與信息安全。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合