?

基于物聯網的移動網絡交互行為異常檢測

2021-03-13 01:43徐俊梅
遼東學院學報(自然科學版) 2021年1期
關鍵詞:高維哈希聚類

徐俊梅

(合肥科技職業學院 電子信息系,安徽 合肥 230000)

隨著現代計算機網絡的飛速發展,其應用領域也在不斷擴大,但是網絡環境日趨復雜。尤其是隨著網絡設備的不斷更新升級,設備之間的交互也不斷密切。在多種交互行為中,難免因為多樣性的攻擊程序或者未知問題,出現交互行為異常,對網絡設備的運行造成了不利影響。對此有專家和學者提出移動網絡交互異常行為檢測方案。有人研究一種基于支持向量機的檢測方法,它能有效對數據樣本進行多元化切割,將交互行為數據轉移為線性分類數據,實現異常檢測;還有人通過改進支持向量機分類器,通過不敏感損失函數進行異常檢測。除了以上2種,依靠懲罰因子和機核構造基于遺傳算法的檢測模型,也是一種集群性的交互行為異常檢測策略。上述幾種移動網絡交互行為異常檢測方法雖然具有一定效果,但是均面臨實時性較差的問題,原因在于對時間序列數據的方向性和特征性方面的研究不夠深入。在世界范圍內,物聯網以其自身魯棒性較強、節能性好、查詢便捷等優勢,應用于多種不同的網絡領域建設中,與此同時人們對其依賴性也在不斷上升。物聯網最大的優勢在于自身獨有的特征維度數據,這些數據數量巨大且存在明顯的差異,依靠物聯網提供的數據樣本,可以有效提高移動網絡數據的提取效果[1]。

針對上述問題,以物聯網為核心,從高維數據時間序列分量特征入手,提出移動網絡交互行為異常檢測方法,用于解決數據交互行為的實時性問題。

1 移動網絡交互行為異常檢測

設計基于物聯網的移動網絡交互行為異常檢測方法,其核心在于時間序列特征數據的映射。首先根據物聯網數據對高維交互數據的時間分量進行特征提取,包括采集交互時間樣本,以此提高檢測實時性[2]。然后設計檢測閾值。該閾值主要由異常端數據擬合構成,利用隨機映射算法和Kmeans++算法,完成數據的多次聚類。當數據不符合聚類標準時,需要返回上一步進行重新聚類;當符合聚類標準時,需要對所有異常集合進行交集操作,從而獲取最終異常檢測對象集。其整體流程如圖1所示。

1.1 網絡高維數據時間序列分量特征提取

首先根據當前移動網絡中高維數據時間序列的不同分量,對已有數據分量特征進行調整[3]。其具體做法就是對當前網絡高維數據時間序列分量進行提取,求解數據樣本協方差矩陣的實際特征值和特征向量,包括數據矢量內積的計算。下述給出了當前網絡高維數據時間序列在特征空間映設下的方向矢量,其具體步驟如下:

(1)

(2)

(3)

(4)

(5)

根據上述步驟,利用當前網絡交互行為數據的時間異常點序列,確定高維時間數據分量,提取各個序列分量的實際特征值,求解分量特征空間,以此確認協方差矩陣下數據特征向量值,為后續移動網絡交互行為異常檢測奠定基礎[7]。

1.2 設立檢測閾值

以之前獲取的移動網絡交互行為數據特征值子集以及高維特征空間的正向矢量數據為核心,設立常數偏差函數,計算不同交互行為數據下的檢測擬合誤差,并求解偏差函數最小值,該值即為當前交互高維數據異常值[8]。利用該閾值可以建立隨機映射,完成異常檢測。其具體步驟如下:

(6)

(7)

(8)

(9)

根據上述實驗步驟,即可完成檢測閾值的設計[9]。

1.3 建立隨機映射

通過檢測閾值可以建立隨機映射,完成高維匹配,隨機映射建立方式主要基于隨機映射算法和Kmeans++算法。

隨機映射需要使用以下2種類型的全域映射。

第1種主要以當前網絡交互行為數據對象為執行端口,選擇一個較大的質數閾值P,保證端口號經過每個隨機映射后,其哈希值可以映射到執行特定范圍,再對哈希值相同地執行隨機映射,并哈希值保證落在-1~9之間,定義為:

ha,b(port)=[(ak+b)modp]modM。

(10)

其中,a,b∈{0,1,…,p-1},根據值域對比,最終哈希值落在0~M-1之間[10]。

第2種則是以當前移動網絡交互行為網絡數據的IP地址為執行對象,每個IP可以看作是一個64位的數據元組〈x1,x2,x3,x4〉,其中,xi∈{0,1,…,255},此外定義a=〈a1,a2,a3,a4〉,此時ai∈{0,1,…,p-1}。因此建立哈希函數為:

ha〈a1,a2,a3,a4〉=(a1x1+a2x2+a3x3+a4x4)modM。

從目前認定情況看,申請人主要以病理學或藥理學專家工作小組或聯盟為主,他們對生物標志物的研究并不依托于特定藥物研發項目,而是致力于推動制藥行業研發水平的整體提升。同時,已經認定的生物標志物以非臨床研究階段應用為主,但對于藥物臨床試驗階段的安全性、有效性研究也可以提供支持,FDA臨床審查部門也可以根據具體情況決定如何將其更好地使用在臨床研發項目中。

(11)

在上述函數中,可以保證N次隨機映射的低碰撞,此時交互數據碰撞會隨著映射值呈遞減趨勢。此時結合映射值引入Kmeans++算法。該算法框架屬于特征聚類性算法,確定聚類中心的基本原則是交互數據初始聚類需要盡可能拉開。則交互映射隨機數據建立步驟總結如下:

步驟1:根據物聯網數據庫,輸入多個時間序列的數據集,隨機選取一個作為數據中心;

步驟2:對于當前數據集上的任意一個點x,計算其與聚類中心的距離d;

步驟3:選擇新的交互數據點作為聚類中心,其遴選條件為:距離最大的點[11];

步驟4:重復上述步驟2和步驟3,直到多個聚類中心被確定,其總數量為K;

步驟5:進行數據聚類,求取d1和d2之和,記做Sum,不斷循環歷遍K值,完成聚類。

1.4 實現交互異常檢測

異常檢測的核心是利用上述建立的隨機映射和聚類,獲取當前移動網絡交互數據的檢測異常值SON(Sketch Output Number),根據異常映射規則對當前SON值進行數據反解,最終獲取交互異常源IP地址,實現異常檢測。具體流程如下:首先對當前物聯網交互對源IP完成隨機映射,映射步驟如1.3節所示,獲取映射所有源IP對應的SON值;然后將IP對應的多種交互數據對象在全域映射層面上不斷聚類,得到多個SON數據序列時間特征包,該特征包維度的計算需要根據上述特征維向量和矢量,此外還需要對同一時間下的SON值進行數量加權[12]。

完成上述步驟后,將多個SON數據序列的時間報構成X矩陣,對當前移動網絡交互數據無監督聚類檢測。首先利用平行時間軸T對當前移動網絡總時序性S進行攔截,確保當前檢測的實時性,以此獲取聚類次數:

(12)

根據上述結果對每個平行時間軸對應的交互窗口內的矩陣X不斷進行特征聚類。其中X中的元素表示當前SON值的對應值,設當前第時刻下對應SON值為總包數,樣本維度值為T,則聚類簇用K表示。

最后將移動網絡交互數據平行展開,濾除掉最大簇所包含的SON值,生成窗口內待定異常值,并建立異常集合alarmSOMc。根據源IP將待定的異常值alarmSOMc不斷反解,建立IP集合alarmSOMc。具體是根據當前n次下的哈希操作規則,將K次聚類結果對應的異常值不斷反解為IP集合,取結果并集以后得到n次下的哈希,實現移動網絡交互行為異常檢測。其中異常數據源IP集合為:

(13)

2 實驗仿真

為了評價本文所研究的移動網絡交互行為異常檢測方法在實際檢測中的應用效果,選擇MAWILAB進行仿真,建立仿真數據集進行多項化實驗。該實驗數據集整體選擇2018年MAWI實驗室數據源,數據交互周期為每天下午2點以后的所有通訊路徑,所用實驗數據總大小為2.18T,其中包括已標記的正常數據和未標記的異常數據。

2.1 實驗參數

根據當前交互數據綜合TPR和FPR的交互特征,實驗采用ROC工作曲線作為實驗標準曲線。TPR和FPR自身定義公式如下:

(14)

(15)

式中,TPR表示當前正類所占比,FPR表示當前負類所占比。

根據上述所占比,建立實驗時間尺度,其結果如圖2所示。

在圖2中,每個數據點代表了對應的時間尺度下TPR和FPR的對應關系。2條曲線為TPR和FPR在多時間尺度下的函數擬合量??梢钥闯?,隨著時間的不斷遞增,TPR和FPR均由大變小再由小變大,但是總趨勢為上升狀態,且變換幅度降低。這是由于實驗用網絡設置的突發性異常流會對檢測造成不利影響,根據實驗測評當前實驗環境,則TPR和FPR最優的基礎百分比為21.35%。

圖3為當前基礎百分比下,時間ROC曲線。該曲線決定了實驗網絡交互的連貫性。其中縱坐標值即為TPR值,橫坐標值為FPR值,此時的FPR值整體處于一個較低的水平下,TPR值的最高值為1.0。在ROC表征中,左上角靠近的點代表時間尺度的檢測率。

構建交互時間尺度后,需要匯總實驗用哈希表。如表1所示。

表1 實驗環境哈希表

2.2 檢測對比

設計以傳統支持向量機分類器異常檢測方法作為對比組與本文所設計的檢測方法進行對比,檢測目標為當前交互數據檢測實時性指標,并繪制散點圖如圖4。

如圖4所示,圖中的橫坐標為FPR,縱坐標為TPR,2種不同的形狀點對應2種不同的方法,根據數據標準可以肯定,數據點越密集,實時性越好。從數據結果可以看出,研究方法的數據點明顯更為緊密,足以證明該方法具有更高優勢。

3 結語

設計解決了傳統移動網絡交互行為異常檢測方法實時性較差的問題,提出了一種新型異常檢測方法。通過提取時間序列數據,進行數據聚類,獲取異常數據集,實現交互行為異常檢測。實驗數據證明,研究可以有效提高實時性,具有鮮明優勢。

猜你喜歡
高維哈希聚類
一種傅里葉域海量數據高速譜聚類方法
基于相關子空間的高維離群數據檢測算法
基于特征選擇的局部敏感哈希位選擇算法
哈希值處理 功能全面更易用
文件哈希值處理一條龍
基于深度學習的高維稀疏數據組合推薦算法
面向WSN的聚類頭選舉與維護協議的研究綜述
改進K均值聚類算法
高維洲作品欣賞
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合