?

基于大數據智能化的客戶服務異常行為分析

2018-12-21 02:33張明
電信工程技術與標準化 2018年12期
關鍵詞:項集置信度客服

張明

(中移在線服務有限公司,鄭州 450001)

隨著在線公司信息化系統的逐步建設,信息化系統已經成為其重要的組成部分,并在日常工作中擔負著不同的功能,只有保障每個信息系統同時正常運行,才能使公司日常業務穩定開展。然而,在大數據環境下,由于信息化系統復雜性不斷增加,操作人員操作不規范、高權限賬號濫用引發的高危操作、內部人員違規獲取篡改重要信息等因素時刻威脅著信息系統的正常運行。目前,當信息系統安全事件發生后,通過對信息系統保存和記錄的日志進行人工篩查,找出異常行為并進行處理,這種采用傳統的檢測人工檢測在執行檢測任務時準確率不高,檢測效果往往不佳。本文結合分析用戶異常行為特征,在大數據環境下采用機器學習的故障識別算法,對信息系統用戶異常行為進行識別處理,建立有效的信息系統用戶異常模型,最終得到異常行為識別方法,從而建立信息系統用戶異常行為自主分析體系模型。

1 目標

本方案是基于大數據分析技術,收集互聯網輿情數據、操作行為日志、操作系統日志等多方面數據,通過用戶異常模型從多個維度完成異常分析,實現信息系統中客戶服務異常行為的識別。

2 相關技術

信息安全初期防護重點是針對信息系統外部的各種攻擊進行防護,對于信息系統內部的各種威脅總是有意無意忽略甚至缺乏必要的監測手段。近年來大量信息安全事件告訴我們,對于信息系統內部的威脅和異常往往會造成極其嚴重的后果,時至今日,信息系統內部威脅和異常行為在業內越來越受到重視。今年來發生的多起敏感信息泄漏事件,主要原因都是信息系統內部出現嚴重安全隱患,使得內部人員通過內網將信息泄露出去,造成惡劣事件的發生。信息系統內部攻擊具有極強的隱蔽性,攻擊者會刻意偽裝自身行為,通常單點行為不具備威脅性,但多個行為組合在一起后就會產生極大的威脅,若某幾個行為組合很少出現,單個行為又沒有特殊性,則這組行為很可能屬于異常行為。若某些行為已經被列為異常行為,那么與其同時關聯出現的行為也是異常的概率也十分巨大,在線服務公司主營業務為10086客戶服務,擁有大量的客戶服務人員,呈現出分布范圍廣且可直接接觸客戶信息,需要對其客服人員的操作行為進行監控、防護及溯源。

對內部行為的分析采用相似性分析,但為了避免重復,本文采用關聯分析算法對內部行為進行分析,關聯分析的一般步驟是:

(1) 以行為主體作為被分析對象(通常為IP地址或身份標識)對內部行為日志進行解析,將描述各種行為的異構日志轉換成適合分析比較的行為鏈。

(2) 將行為鏈數據代入關聯分析算法,計算出各種可能的關聯關系。

(3) 根據一定的判斷規則,從計算出的多個關聯關系中找出異常行為的組合。

2.1 建立行為鏈

想要透徹清晰的分析用戶行為,首先需要全面用戶行為數據,本方案基于在線公司日志統一管理平臺收集用戶日志,實現行為頁面全采集、流程全面覆蓋,然后將用戶行為日志進行整理分析,形成行為鏈,如圖1所示。

圖1 行為鏈

2.2 關聯分析

關聯分析是以從眾多行為數據里中找出關聯關系。關聯關系是某種A到B的關系函數式,通過該關系函數可以推出從行為A得到行為B,其中 A和 B分別是關聯關系的前因和后果。在滿足最小支持度和最小置信度的條件下才能認為“通過行為A可以推導得到行為B”成立。算法涉及到概念解釋如下。

項集(T):包含N個或者多個項的集合稱為項集。在安全行為分析中,每個行為就是一個項,每個用戶ID或者IP地址都包含了多個項,把其中的項組合起來就構成了項集。

支持度計數:項在項集中出現的次數。例如{用戶信息查詢}這個項在項集中總共出現了5次,即它的支持度計數就是5。

支持度(s):項集在其包含項的行為鏈中所占的比重,這里N是所有項集的數量。上面的例子中我們得到了{用戶信息查詢}這個項集的支持度計數是5,若行為鏈中一共有10條項集,那么{用戶信息查詢}這個項集的支持度就是0.5。

頻繁項集:如果我們對項目集的支持度設定一個閾值,那么所有支持度大于這個閾值的項集就稱為頻繁項集。

置信度(c):這個定義確定的是行為A在包含B的項集中的頻繁程度。

有了置信度和支持度兩個度量單位,就可以對現有行為規則做限定,找出有價值和有意義的規則。首先對支持度和置信度分別設置最小閾值mins和minc。之后在所有規則中找出支持度大于等于mins和置信度大于等于minc的所有關聯規則。

根據上面對于關聯規則的定義,找出所有的規則,對每一個規則計算支持度和置信度,然后再從中提取符合條件的規則。為了控制需要計算支持度和置信度的規則數量,目前關聯規則的挖掘過程大致可以總結為兩步:找出所有頻繁項集和由頻繁項集產生規則,從中提取置信度高的規則。

但是隨著行為增加對導致項數量急劇增加,原始算法的復雜度將成指數級增長。故我們采取FP-tree算法來進行關聯分析。FP-tree算法采取緊湊的數據結構組織tree, 再直接從這個結構中提取頻繁項集。

FP-tree算法的過程如下。

首先對行為鏈集合中的每個項分別計算其支持度,篩查去除其中非頻繁的項,然后對每個行為項的支持度進行倒敘排列。

根據每條事務中事務項的新順序,依此插入到一棵以Null為根節點的樹中。同時記錄下每個事務項的支持度。這個過程完成之后,我們就得到了棵FP-tree樹結構。

對構建完成的FP-tree,從樹結構的上方到下方對每個項,將先前的路徑轉化為條件FP-tree。

根據每棵條件FP-tree,找出所有頻繁項集。

2.3 異常行為分析

通常在一個信息系統中,正常訪問行為占比最大,因此異常行為的占比通常不高,故在關聯分析的算法設計時,我們對支持度的要求不是高于某個閾值,而是大于零且小于某個特定的閾值。

例如一個普通的客戶端主機對其它IP地址的掃描顯然是一種異常行為,如果利用關聯分析的方法,發現這些有掃描行為的主機都查詢過相同或高度相似的域名,那么這個域名查詢請求也是一種異常行為,很可能是終端主機感染木馬程序后的回聯行為。

再例如一個普通的客戶端主機存在高頻并發域名查詢的行為,如果利用關聯分析的方法,發現這些終端的主機的系統函數調用行為特征非常接近,或者這些終端主機都有訪問本地敏感文件(密碼文件、配置文件等)的行為,則這些系統函數調用或本地敏感文件訪問也是異常行為。

圖2 功能架構

3 功能實現

3.1 系統架構

用戶異常行為分析的功能架構如圖2所示。主要包括數據層數據加載;分析層基礎分析引擎、行為檢測分析和安全威脅展示4個基礎功能模塊,共同支撐上層應用層各個應用模塊,各功能模塊功能說明具體如下。

(1)數據加載模塊。與在線服務公司統一日志管理平臺對接,完成對用戶行為分析各場景的輸入數據的首要工作,同時分析結果也需存儲到該模塊中。

(2)安全威脅展示。數據加載為各分析場景及系統交互提供統一的管理功能,主要包括統一登錄、權限管理、身份認證、數據訂閱等功能。

(3)行為監測分析模塊。通過對各種安全檢測日志、系統日志等基本數據的深度分析,實現用戶異常行為的檢測功能。

(4)基礎分析引擎模塊。通過大數據分析方法對安全檢測結果和原始日志數據進行深度挖掘,刻畫整個平臺的用戶行為情況,輸出支撐上層應用所需的威脅分析與預警數據。威脅分析包括行為畫像和趨勢分析與預測等。

3.2 數據來源

用戶異常行為分析的輸入數據是來自于數據采集模塊的日志和基礎數據。這些數據由采集模塊通過在線服務公司統一日志管理平臺采集,并經過篩選、清洗、標準化等處理,具體包括網絡設備日志、安全設備日志、主機系統/組件日志等。

3.3 數據處理

采集系統模塊負責全網的安全數據的集中采集、標準化、存儲、全文檢索以及數據共享。采集系統主要功能如下。

3.3.1 安全數據集中化

明確安全數據采集對象,列出用于威脅分析的數據來源,集中存儲。

3.3.2 安全數據標準化

采集后的原始數據經過清洗過濾、標準化、關聯補齊、數據標簽化后形成標準化數據。規范數據在各個階段的數據格式。規范標準化后的安全數據的目標存儲。

3.3.2.1 數據的清洗/過濾

(1)清洗:針對數據格式的不一致、數據輸入錯誤、數據不完整等問題,支持對數據進行轉換和加工。常用的數據轉換組件有字段映射、數據過濾、數據清洗、數據替換、數據計算、數據驗證、數據加解密、數據合并、數據拆分等。

(2)修改:錯誤數據,產生原因是業務系統不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數據庫造成的,比如數值數據輸成全角數字字符、字符串數據后面有一個回車、日期格式不正確、日期越界等。

(3) 刪除:重復性數據。

3.3.2.2 數據標準化

對異構原始數據進行統一格式化處理,以滿足存儲層數據格式定義的要求。對于被標準化的數據應保存原始日志,數據標準化的原則包括如下。

(1)在保證基本擴展能力的基礎上,根據每種類型數據的標準庫規則,實現相關字段的標準化。

(2)對于常用的字段,保證字段內容的一致性,消除不同事件對于相似問題描述的不一致性,滿足依賴于這些字段的規則的可移植性。

(3) 未被標準化的數據應保存原始日志??捎糜谑潞鬄樵撎囟〝祿俣x標準化規則。

3.3.2.3 數據關聯補齊

采集到的數據之間存在關聯性,通過關聯補齊后形成完整的數據,能夠豐富數據本身,以便于后期的統計分析。

3.3.2.4 數據標簽化

基于關聯補齊后的數據,結合數據所屬業務系統、設備類型等信息,在原數據基礎上進行標記。

3.3.3 全文檢索

支持對原始數據、標準化數據的全文檢索。

3.4 客戶服務異常行為分析

主要針對在線服務公司日志平臺收集的行為日志,進行歸并、聚合、過濾和關聯分析,以降低無用告警及誤告警對于有效告警的噪聲影響,產生更有價值的安全事件,便于運維人員使用。同時系統應支持對產生的安全事件進行下鉆,查詢到該事件對應的原始告警日志,方便安全事件的追溯。

3.4.1 惡意訂購行為分析,通知客戶增加親和力

目的:對客戶短時間內連續訂購的增值業務,分析是否為手機病毒或異常操作所致。第一時間與客戶溝通,避免客戶投訴。

數據來源:統一日志平臺。

數據要求:客戶號碼、消費日志、每月的統計數據等。

分析過程:根據客戶增值業務訂購的數據信息,通過大數據分析手段建立行為鏈和歷史行為庫,對客戶訂購信息進行分析,對客戶的訂購業務突然增長的數據進行匯總分析,第一時間通知客戶核實,避免客戶撥打10086投訴。如客戶每月的流量使用基本都在2G~3G,突然在某個月末的時候連續訂購流量套餐,這時需要及時通知客戶核實,避免事后客戶投訴。

3.4.2 客服電話智能化質檢分析,監控違法信息

目的:利用公司現有的智能化語音轉寫技術,將語音通話轉寫為文本,對通話內容進行監控。

數據來源:客服質檢系統轉文本后的信息。

數據要求:來電號碼、通話時長、通話頻率、通話內容等。

分析過程:根據質檢系統轉文本后的數據信息,建立客戶號碼通話行為資源庫和行為特征,及時發現不符合行為特征或者行為特征差別較大的來電和通話行為,如某個來電號碼總是在特定的時間有較長的通話時間,或者通話內容中包括一些反動言論,則定位為異常通話行為。

3.4.3 利用輿情分析系統,對可能造成客服電話劇增的事件進行分析,合理調配客服資源

目的:利用輿情分析系統,對互聯網爆出的與移動相關的數據泄露、惡意造謠等事件進行分析,第一時間調配客服人員。

數據來源:輿情分析系統的輿情數據,客服系統現有資源使用情況。

數據要求:輿情數據、客服人員使用情況等。

分析過程:對全國客戶的惡意投訴電話數據量進行分析,包括電話投訴和在線投訴量,通過輿情分析系統對發送的數據泄露、惡意造謠等事件進行分析,第一時間調配相關省份話務力量,應對客戶投訴。

3.5 分析結果

用戶異常行為分析的輸出數據包括行為檢測結果和威脅分析結果。行為檢測結果為具體異常行為和安全攻擊事件的檢測日志,支持上層應用的具體事件查詢。威脅分析結果為刻畫安全行為態勢的統計和分析日志,支持上層應用對整體態勢的呈現。通過行為檢測分析和威脅分析,及時發現客戶服務系統中出現的異常違規行為和安全事件,以便及時處理,減少客戶投訴。

(1)惡意訂購行為分析,通知客戶增加親和力:通過用戶消費信息形成網絡套餐消費行為鏈,并根據行為鏈進行關聯分析,最終形成該用戶消費行為置信度和支持度區間,當用戶消費低于或高于該支持度或置信度,系統將自動發出告警信息,提醒用戶合適消費信息。

(2)客服電話智能化質檢分析,監控違法信息:通過通話時長、通話頻率形成客服電話行為鏈,并根據行為鏈進行關聯分析,最終形成每一個客服行為置信度和支持度區間,當客服行為低于或高于該支持度或置信度,系統將自動發出告警信息并自動保存通話信息提供給質檢部門進行核實。

(3)利用輿情分析系統,對可能造成客服電話劇增的事件進行分析,合理調配客服資源:通過輿情分析系統對發送安全事件,包括數據泄露、惡意造謠等事件進行分析,判斷該事件對當地省份的影響,同時對當地省份客服資源進行分析,給出客服人員增加建議量,合理調配客服資源,應對劇增的客服投訴。

3.6 事件關聯

對一次異常行為產生的安全事件,可能產生多條規則告警,基于已有的規則關聯分析出新的安全事件,同時利用規則之間的關系,提高某個規則的可信度,過濾掉一些誤報,給出準確的告警供運維人員分析使用。主要從以下幾個方面,對告警日志進行處理。

(1) 歸并。事件設置老化時間和持續時間,對key相同,并且未老化的事件進行歸并,降低事件的數量。聚合主要是對同類型的事件進行聚合。

(2) 過濾。將可靠度高、風險程度高的告警過濾出來直接展示,提升運維工作效率。

(3) 關聯。主要是通過一些存在關聯關系的規則,將多個在不同事件產生的不同的規則關聯起來,形成一個新的安全事件。

猜你喜歡
項集置信度客服
硼鋁復合材料硼含量置信度臨界安全分析研究
語音推銷
正負關聯規則兩級置信度閾值設置方法
敬業的客服
置信度條件下軸承壽命的可靠度分析
基于廣東“一張網”對內客服模式的探討
銷售能手
多假設用于同一結論時綜合置信度計算的新方法?
一種新的改進Apriori算法*
分布式數據庫的精簡頻繁模式集及其挖掘算法*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合