?

基于用戶行為日志的內部威脅檢測綜述

2020-10-09 11:17張有王開云張春瑞鄧妙然

計算機時代 2020年9期

關鍵詞：異常檢測信息安全

張有王開云張春瑞鄧妙然

摘要：內部人員威脅會對企業和組織造成重大損失，內部威脅檢測對于維護企業信息安全是必要的。概述了基于用戶行為日志的內部威脅檢測的一般思路和難點，介紹了常見的用戶行為日志數據集和預處理方法，分析了內部威脅檢測機制的評估指標和常見的內部威脅檢測技術，最后給出未來的內部威脅檢測研究的發展方向。

關鍵詞：內部威脅檢測;行為日志;信息安全;異常檢測

中圖分類號：TP309.2

文獻標識碼：A

文章編號：1006-8228（2020）09-45-05

A survey of insider threat detection based on user behavior log

Zhang You， Wang Kaiyun， Zhang Chunrun， Deng Miaoran

（Institude of Computer Application， Chinese Academy of Engineering Physics， Mianyang， Sichuan 621900. China ）

Abstract： Insider threat will cause great losses to enterprises and organizations， and the detection of insider threat is necessary tomaintain the information security of enterprises. This paper summarizes the general ideas and difficulties of insider threat detectionbased on user behavior log， introduces the common data sets and preprocessing methods of user behavior log， analyzes theevaluation indicators of insider threat detection mechanism and common insider threat detection technologies， and finally gives thefuture development direction of internal threat detection research.

Key words： insider threat detection; behavior log; information security; anomaly detection

0引言

對于許多的公司和政府機構來說，內部威脅是一個重大問題[1]。內部威脅包括內部用戶故意的惡意活動，例如信息系統破壞、知識產權盜竊、欺詐和國家安全犯罪，以及由于不小心使用計算資源而導致的無意威脅等[2]。相比外部攻擊，內部人員更容易對組織造成重大損失，因為內部人員有使用組織資源的權限，且了解組織的結構和安全程序。

惡意的內部人員會利用特權謀取私利，并可能損害組織的完整性[3]。根據2017年網絡安全觀察的調查，雖然在針對美國組織的網絡犯罪中內部威脅只占13%，但其中29%是代價最高的事件[4]。我國某涉密科研單位職員黃某在10年間將多項國家機密出賣給境外間諜，嚴重威脅國家安全，最終因間諜罪被判處死刑。內部人員威脅會對企業和組織造成重大損失，內部威脅檢測對于維護企業信息安全是十分必要的。

1概述

1.1內部威脅檢測的一般思路

內部威脅檢測可以通過對內部用戶行為進行異常檢測實現。內部威脅用戶通常不是一開始就做出危害企業或組織的事，他們會有相對穩定的行為習慣，如加班頻率、使用可移動設備的頻率等，之后由于一些原因，如不滿上司、被裁員，這些用戶就會做出損害企業利益的行為，而這些行為相比于他們以往的行為會有明顯異常。企業通過持續采集用戶的各種行為記錄，生成大規模異構日志數據，從這些日志數據里可以挖掘出用戶的行為模式以及行為模式的改變，檢測到用戶異于以往的行為特征，從而達到內部威脅檢測的目的。

1.2內部威脅檢測的難點

（1）多種用戶行為日志的協同處理。企業通常會將所有用戶的行為按照行為類別分別記錄在不同的日志文件中，每個日志文件都針對所記錄的行為定義多個字段，這樣內部威脅檢測工作面臨的就是幾個規模龐大的異構日志文件，如何從這些日志文件中提取出既能準確刻畫用戶行為、又能便于使用威脅檢測算法的特征是一項值得研究的工作。

（2）內部威脅行為可能是單個危害性極大的惡意行為，也可能由復雜的上下文組合而成。前者較容易檢測出來，比如某惡意用戶將公司重要文件上傳至文件共享網站;后者由一系列不同種類、不同時段的行為構成，比如某惡意用戶前期盜取部門領導的客戶端登錄密碼，后期利用密碼偽裝成領導群發惡意郵件，這就加大了內部威脅檢測的難度。

（3）內部威脅行為一般異于該用戶的正常行為特征，但是異常的行為不一定就是內部威脅行為，用戶的行為會隨著時間變化。比如某用戶突然加大了可移動設備的使用頻率，他可能是在頻繁竊取公司數據，也可能是新加入了一個項目的工作所需，這時需要結合用戶的其他行為和背景數據判斷該用戶是否為內部威脅用戶。

（4）正常、威脅用戶比例極其不平衡。在真實的企業環境中，內部威脅用戶和威脅行為只占正常情況的很小一部分;在Senator等[5]的內部威脅檢測實驗環境下，威脅用戶只占到用戶比例的0.2%。由于內部威脅行為的高危害性，我們不想錯過任何一例內部威脅，這就往往會導致內部威脅檢測結果有較高的誤報率。

2用戶行為日志數據集及預處理

2.1常見的用戶行為日志數據集

Cert數據集是典型的用戶行為日志數據集。Cert數據集來源于卡耐基梅隆大學的CERT內部威脅中心，模擬大型企業或政府組織中分布在4400臺計算機上的基于主機的傳感器在500天左右收集的日志[6]。Cert數據集提供了用戶全面的行為觀測數據以刻畫用戶行為模型，涉及多個維度的用戶行為數據，包括文件訪問、郵件收發、設備使用、HTTP訪問以及登錄系統。同時，Cert數據集模擬了惡意參與者的行為數據以及背景數據，模擬了系統破壞、知識產權竊取、欺詐等主要內部威脅類型，從關系圖模型、資產圖模型、行為模型、通訊模型、話題模型、心理學模型、誘餌模型以及威脅場景來關聯構造攻擊數據，以達到最佳的真實度[7]。

2.2用戶行為日志的預處理

企業的日志通常根據不同行為儲存在不同的日志文件中，每個日志文件按時間順序記錄所有用戶的該類行為日志。這種形式不能直接用來對單個用戶進行行為特征建模，這就需要對單個用戶進行行為日志的預處理，即將該用戶單位時間內的所有行為處理成便于進行內部威脅檢測的形式。

用戶行為特征定義是用戶行為日志預處理很重要的一步。用戶行為特征定義時需要考慮威脅場景中用戶的威脅行為，再對用戶行為進行適當粒度的劃分，例如，記錄登錄行為的日志文件會采集用戶在任意時段的登錄行為，很明顯，“在非上班時間登錄其他用戶的客戶端”比“上班時間登錄本人的客戶端”的威脅性更高，所以將登錄行為按時間、是否是本人的客戶端定義更細粒度的行為是合理的。

用戶行為日志的預處理方法受內部威脅檢測方法的限制，用戶行為日志可以被預處理為數值型數據、序列數據和關系圖。

2.2.1數值型數據

將不同日志中用戶的行為按單位時間統計為數值型數據是最常見的用戶行為日志的預處理方法，經預處理得到的數值型數據可以用于基于高斯混合模型、神經網絡等異常檢測方法。

Tuor等[8]的特征提取系統將系統日志行轉換為適合輸入神經網絡的數字特征。特征提取系統為每個用戶每天累積了408個在某個固定時間窗口內執行的“活動”的計數，比如從l2：OOp.m.到6：OOp.m.之間的可移動媒體中不常見的非誘餌文件拷貝的數量。圖1直觀地列舉了計數特征集：只需沿著從右到左的路徑，沿途在每組中選擇一個項，所有這些遍歷的集合就是計數特征的集合。

Senator等[5]除了對郵件、文件、打印等日志進行用戶行為特征計數產生共83個數值型特征外，還定義了28個比率特征，如可移動驅動器上的文件事件與所有文件事件的比率、URL上傳與URL下載的比率等。

2.2.2序列數據

雖然數值型數據在機器學習中應用更加廣泛，但具有排序結構的序列數據也許能揭示更有價值的信息，因為序列數據考慮了用戶在相關上下文中的行為[1]。序列數據可以用于基于隱馬爾可夫模型的異常檢測方法。

Rashid等[9]考慮了兩個基于Cert數據集的特征集：簡單特征集和綜合特征集。簡單特征集有7個用戶行為特征，包括登錄、注銷、文件（將文件復制到USB設備）、郵件、網站、連接USB、斷開USB;綜合特征集有16個用戶行為特征，是兩簡單特征集的細分。每項行為特征被指定為一個數字序號。對于每一個用戶，將所有日志中該用戶的行為寫成數字序號并按時間戳排序，可以得到該用戶的操作序列及時間;再將這些操作以周為單位分組，這樣就得到了每個用戶每周內執行的一系列操作序列。

2.2.3關系圖

企業的用戶之間、用戶與設備之間有繁雜的關系，這些關系可以映射生成多種關系圖，以輔助內部威脅檢測。關系圖可以用于基于圖聚類等異常檢測方法。

Gamachchi等[10]以屬性圖的形式表現企業組織層次結構和用戶間電子郵件通信關系，用戶及行為的相關信息作為對應頂點和邊的屬性存儲，這種方法同時考慮了圖的拓撲結構和圖的屬性。用戶關系被映射到一個無向無加權的圖g（v，e，a）中，其中v是頂點集，每個頂點代表一個用戶;e是邊集，包括用戶間“主管一下屬”關系和郵件收發行為;a是屬性集，每個頂點有一個125維的數值型用戶行為特征向量。Senator等[5]從用戶的計算機使用記錄中導出關系圖，包括用戶間的電子郵件網絡、電子郵件地址、計算機和消息圖，用戶、計算機、域和單個URL之間的web網絡圖等。

3內部威脅檢測

3.1內部威脅檢測機制的評估

在內部威脅檢測時，正常、威脅用戶和日志的比例懸殊，此時檢測的準確率指標意義不大，因為就算將全部樣本檢測為正常，得到的準確率也很高。內部威脅的危害性極大，所以在內部威脅檢測問題中，希望盡可能將內部威脅行為全部檢測出來，可以容許有少量正常行為被誤檢為威脅行為。常用的內部威脅檢測指標包括召回率、誤報率、F1分數、ROC（接收器工作特性，receiver operating characteristic）曲線和AUC（ROC曲線下的面積，area under the roc curve）。

3.2內部威脅檢測方法

本文將調研到的內部威脅檢測方法分為以下幾類：基于統計模型的方法，基于圖聚類的方法，基于機器學習的方法和其他方法。

3.2.1基于統計模型的方法

HMM（隱馬爾可夫模型，hidden markov model）提供了從一組觀測序列中學習參數以及預測給定觀測序列的概率的算法。Rashid等[9]用隱馬爾可夫模型分別模擬每個用戶每周的正常行為，然后用它們來檢測異常行為與正常行為的顯著偏差。在訓練階段，假設所有用戶前五周的行為都是正常行為，采用BaumWelch算法最大化用戶觀測序列的可能性，求得該用戶正常行為的HMM的參數（轉移矩陣、發射矩陣和啟動狀態概率等）。在測試階段，用戶觀測序列先被該用戶的HMM預測計算出該序列的可能性，再與閾值進行比較，進而判別序列是否異常。Le等[1]也使用HMM對Cert數據集進行內部威脅檢測，使用最近兩周的用戶數據來訓練新的HMM，這似乎足以模擬用戶的行為，并且能更好地適應用戶行為隨時間的變化和漂移。

GMM（高斯混合模型，gaussian mixture model）提供了對復雜概率分布的數據集建模的能力。在基于用戶行為日志的威脅檢測中，由于用戶的行為隨時間變化，并且每個用戶都有一個典型的正常行為，因此可以使用概率分布的混合來模擬每個用戶的行為[11，12]。Happa等[13]在訓練階段使用EM算法為每個用戶第一個月的行為洲練一個GMM以模擬該用戶的正常行為;在測試階段，利用訓練好的GMM計算輸入觀測的似然性表示該輸入的可能性大小。如果似然性小于閾值，則將該觀測檢測為異常。

3.2.2基于圖聚類的方法

Gamachchi等[10]應用了基于子空間和子圖聚類的屬性圖異常檢測方法進行內部威脅檢測。論文將Cert數據集高維異構的日志數據處理成無向無加權的屬性圖g后，采用“edcar”和“gamer”算法對圖g進行子空間聚類，產生一組子圖和子空間，再利用“GOutRank”方法的評分函數在子空間中進行異常值計算，得分較高的用戶被視為正常用戶，因為他們對應于一組屬性的密集連通子圖;而得分較低的用戶被認為是可疑用戶，他們與大多數用戶存在偏差。Senator等[5]也對用戶關系圖使用社區發現、靜態社區發現等技術輔助內部威脅檢測。

3.2.3基于機器學習的方法

Tuor等[9]提出了一個在線無監督深度學習系統來過濾系統日志數據，以供分析人員審查。全連接神經網絡和遞歸神經網絡的新變體LSTM（長短期記憶網絡，long short-term memory）被訓練來識別網絡中每個用戶的行為，并同時實時評估用戶行為是正常還是異常。

神經網絡模型將給定用戶的一系列特征向量映射到用戶序列中下一個向量的概率分布，計算概率值的負對數為異常分數，并將每日異常得分最高的k個用戶特征向量提供給人工分析師，由他們判斷異常行為是否表示內部威脅。

Legg等[14]采用PCA（主成分分析，principal com-ponent analysis）來識別在衍生特征集合中表現出不規則方差的用戶。Jeong等[15]在可視化分析儀表板中引入了交互式PCA，這項技術允許分析員清楚地了解每個特征對PCA度量輸出的貢獻。Le等[1]分別采用SOM（自組織映射，self organizmg map）和DT（決策樹，decision tree）對數值型行為特征進行學習和建模。

3.2.4其他方法

除了上述幾種方法，Senator等[5]的PRODIGAL項目綜合應用了關系偽異常檢測、關系密度估計、高斯混合模型等十余種異常檢測算法進行內部威脅檢測，并開發了一種可視化語言來綜合使用這些檢測方法。

部分方法性能對比如表1。

由表1可以看到，基于統計模型的方法和基于神經網絡的方法誤報率偏高，PRODIGAL[5]的性能很好，但是應用起來很復雜，其他方法的召回率偏低，這些方法在總體性能上尚未達到理想的效果，未來可以研究如何在保證內部威脅檢測方法召回率的同時降低誤報率。

4結束語

內部人員威脅會對企業和組織造成重大損失，內部威脅檢測對于維護企業信息安全是十分必要的。企業通過持續采集用戶的各種行為記錄，生成大規模異構日志數據，從這些日志數據里可以挖掘出用戶的行為模式以及行為模式的改變，檢測到用戶異于以往的行為特征，以達到內部威脅檢測的目的。

總體來說，目前基于用戶行為日志的內部威脅檢測可以有以下發展方向。

（1）內部威脅檢測方法尚存在誤報率過高的問題，整體的威脅檢測性能還有提高的空間和需求。除此以外，檢測結果一般只能給出內部威脅用戶有異常行為的日期，不能給出判斷該用戶該天異常的原因，這不利于人工分析師審核結果。因此，研究人員可以考慮將檢測結果的可解釋性作為未來發展方向。

（2）公開可用的用戶行為日志數據集較少，涉及的內部威脅場景種類不全面，這不利于內部威脅檢測方法的研究。未來研究人員可以根據與時俱進的企業用戶行為和內部威脅場景，生成更符合現代企業特征的日志數據集。

（3）近年來機器學習領域的高速發展為研究人員探索許多未經試驗的機器學習算法留出了空間，如Brown等[16]將帶注意機制的神經語言模型用于系統日志異常檢測，取得了很好的效果，研究人員可以嘗試將新興的機器學習技術擴展應用于內部威脅檢測。

參考文獻（References）：

[1]Le D C， Zincir-Heywood A N. Evaluating insider threatdetection workflow using supervised and unsupervisedlearning[C]//2018 IEEE Security and Privacy Workshops（SPW）.IEEE，2018：270-275

[2]Bettadapura V， Schindler G， Plotz T， et al. Augmentingbag-of-words： Data-driven discovey of temporal andstructural information for activity recognition[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，2013： 2619-2626

[3]Ko L L ， Divakaran D M ， Liau Y S ， et al. Insider threatdetection and its future directions[J]. InternationalJournal of Security and Networks， 2017.12（3）：168

[4]CSO， U.S. Secret Service. CERT Division of SRI-CMU，ForcePoint. "The 2017 U. S. State of CybercrimeSurvey，" IDG， Tech. Rep.，2017.

[5]Senator T E， Goldberg H G， Memory A， et al. Detectinginsider threats in a real corporate database ofcomputer usage activity[C]//Proceedings of the 19thACM SIGKDD international conference on Knowledgediscovery and data mining，2013： 1393-1401

[6]Glasser J， Lindauer B. Bridging the gap： A pragmaticapproach to generating insider threat data[C]//2013IEEE Security and Privacy Workshops.IEEE，2013：98-104

[7]楊光，馬建剛，于愛民等.內部威脅檢測研究[J].信息安全學報， 2016.1（3）： 21-36

[8]Tuor A， Kaplan S， Hutchinson B， et al. Deep learning forunsupervised insider threat detection in structuredcybersecurity data streams[C]//Workshops at theThirty-First AAAI Conference on Artificial Intelligence，2017.

[9]Rashid T， Agrafiotis I. Nurse J R C. A new take ondetecting insider threats： exploring the use of hiddenmarkov models[C]//Proceedings of the 8th ACM CCSInternational workshop on managing insider securitythreats，2016：47-56

[10]Gamachchi A， Boztas S. Insider threat detection throughattributed graph clustering[C]//2017 IEEE Trustcom/BigDataSE/ICESS.IEEE，2017：112-119

[11]Legg P A， Moffat N， Nurse J R C， et al. Towards aconceptual model and reasoning structure for insiderthreat detection[J]. Journal of Wireless MobileNetworks， Ubiquitous Computing， and DependableApplications， 2013.4：20-37

[12]Legg P A， Buckley O， Goldsmith M， et al. Automatedinsider threat detection system using user and role-based profile assessment[J]. IEEE Systems Journal.2015.11（2）：503-512

[13] Happa J. Insider-threat detection using gaussian mixturemodels and sensitivity profiles[J]. Computers &Security，2018.77：838-859

[14]Legg P A. Visualizing the insider threat： challenges andtools for identifying malicious user activity[C]//2015IEEE Symposium on Visualization for Cyber Security（VizSec）. IEEE，2015：1-7

[15]Jeong D H， Ziemkiewicz C， Fisher B， et al. ipca： Aninteractive system for pca-based visual anallrtics[C]//Computer Graphics Forum. Oxford， UK： BlackwellPublishing Ltd，2009.28（3）：767-774

[16]Brown A， Tuor A， Hutchinson B. et al. Recurrent NeuralNetwork Attention Mechanisms for InterpretableSystem Log Anomaly Detection[J].2018.

收稿日期：2020-04-27

作者簡介：張有（1997-），女，山西省祁縣人，碩士研究生在讀，主要研究方向：網絡與信息安全。

通訊作者：王開云（1964-），男，甘肅張掖人，研究員，主要研究方向：網絡與信息安全。

猜你喜歡

異常檢測信息安全

《信息安全與通信保密》征稿函

信息安全與通信保密(2021年4期)2021-07-21

信息安全專業人才培養探索與實踐

信息安全研究(2018年12期)2018-12-29

保護信息安全要滴水不漏

現代企業文化(2018年13期)2018-06-09

高校信息安全防護

消費導刊(2017年20期)2018-01-03

基于LMD模糊熵的遙測振動信號異常檢測方法

教育教學論壇(2017年1期)2017-02-08

基于度分布的流量異常在線檢測方法研究

軟件導刊(2016年11期)2016-12-22

無線Mesh網絡安全性研究

科教導刊·電子版(2016年27期)2016-11-18

無線Mesh網絡基礎知識

科教導刊·電子版(2016年25期)2016-11-16

保護個人信息安全刻不容緩

公民與法治(2016年21期)2016-05-17

基于鼠標行為的電子商務中用戶異常行為檢測

電腦知識與技術(2016年2期)2016-03-22

計算機時代2020年9期

計算機時代的其它文章: 基于代表色不變矩的自適應匹配算法; 人工智能下基于自適應的個性化學習模式探究與設計; 人工智能的發展歷程與研究初探; 多特征融合的可移植謠言早期檢測模型; 微表情識別綜述; 地震資料解釋系統負載均衡策略研究與應用

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合