?

采用大數據技術的移動DPI關聯算法探索及實現

2018-01-08 05:35劉孝頌馬怡安
電信科學 2017年12期
關鍵詞:總流量話單條數

劉孝頌,馬怡安

?

采用大數據技術的移動DPI關聯算法探索及實現

劉孝頌,馬怡安

(中國電信股份有限公司上海研究院,上海 200122)

針對近年來4G滲透率不斷提高所帶來的用戶質疑流量使用情況的問題,通過深入的研究提出了一種利用移動DPI的詳細話單與計費話單關聯的算法,采用大數據平臺以及相關處理技術對算法進行了實現,并展示了現網運行評估的效果。

大數據;計費話單;深度分組檢測;數據流;LTE;eHRPD

1 引言

近年來,移動通信技術的快速發展,使得運營商對網絡的升級速度也大大加快。用戶一方面感受到了極速上網帶來的便捷,另一方面也開始關心自己的流量、流向。根據艾媒咨詢的調查報告,60.6%的iOS用戶和53.3%的Android用戶懷疑移動運營商存在偷流量行為,且用戶認為App惡意偷流量。對于運營商而言,隨之而來的是大量的投訴或查詢。傳統上處理該類型投訴問題,運營商只能依賴計費話單來應對用戶投訴,由于計費話單并沒有詳細的流量使用情況,且時間顆粒度也較大,無法讓用戶得到滿意的答復。

對此,運營商迫切需要通過移動DPI(深度分組解析)用戶詳細話單應對投訴。圖1為運營商4G網絡通用架構,從圖1可以發現,DPI可以采集到用戶使用的流量及對應的詳細流向情況,計費網關則能統計顆粒度較粗的DDR(計費話單),若能把每個用戶的每條計費話單中包含的詳細話單在DPI中找到,并與計費話單關聯起來,則可以比較充分地應對用戶投訴并告知用戶其詳細的流量使用情況。

圖1 運營商4G網絡通用架構

但在實際操作過程中,存在兩個關鍵問題:如何設計出一種合理的關聯匹配算法;如何有效地在現網中處理海量的數據。本文將先從DDR和DPI詳細話單產生的原理出發,通過數據尋找計費話單和詳單關聯中的問題,從而最終提出關聯匹配算法或提出提升關聯準確率的建議或措施。

2 流量匹配關鍵問題

2.1 關聯衡量標準

對于客服或用戶而言,最關心的是自己流量使用流向情況,如某一時間段的流量軌跡。故最直接的關聯算法就是在一天時間內,針對每條計費話單的時間范圍,找與之對應的DPI話單,關聯完成后,統計關聯后計費話單和DPI話單的流量誤差并作為評判標準。若誤差較大,則說明系統或關聯算法等存在問題;反之則說明計費話單和DPI流量匹配率較高,可以以此應對用戶投訴或供用戶查詢。

衡量標準1:話單級匹配率,即計費話單流量誤差滿足要求的比例。計算式如下:

衡量標準1的意義在于展示了一天內所有單條DDR的整體匹配情況,顆粒度較細,但無法反映單一用戶的情況。

衡量標準2:單日用戶級匹配率,即一天時間內用戶的DPI總流量和DDR總流量的流量誤差。計算式如下:

衡量標準2的意義在于展示了所有用戶一天的計費話單的整體匹配情況,能直觀地顯示用戶整體的流量匹配誤差,但無法定位到單條話單的匹配情況。

本文的目標之一就是根據現網的情況,設計出一套能合適、合理地應用于現網的計費話單與DPI話單關聯的算法,并以上述兩個衡量標準作為算法優劣的評估標準。

2.2 問題及解決方案

2.2.1 現有統計顆粒度差異

DPI的生成頻度遠高于DDR,約為100:1的關系。4G話單按照1 h或50 MB進行分割,由于這種話單切割規則,在進行匹配的時候,會出現DDR統計周期內的流量匹配與DPI的流量正好交錯,造成匹配失敗。如果將統計周期由目前的DDR顆粒度進行放大,則提高匹配率以進行驗證。計費話單與詳單時間切片示意如圖2所示。

圖2 計費話單與詳單時間切片示意

2.2.2 小流量話單的權重影響

小流量話單對于匹配率的權重影響較大,DDR/DPI在生成過程中的差異、造成的流量差異,在小流量話單匹配過程中非常敏感,對匹配率的影響權重較大。

情況1

? DDR flow is: 82215

? DPI flow is: 65452 including 6 records

? DDR > DPI, error is: 20.3892233777

情況2

? DDR flow is: 626215

? DPI flow is: 559864 including 113 records

? error is: 10.595562227

觀察上述兩種情況,情況1中,計費話單流量為82 215 byte,而詳單流量為65 452 byte,兩者相差16 763 byte,但計費話單流量誤差為20.39%,根據之前的評判標準,該條話單是影響匹配率的“問題話單”。但觀察情況2可以發現,計費話單流量為626 215 byte,而詳單流量為559 864 byte,兩者相差66 349 byte,計費話單流量誤差為10.60%,根據之前的評判標準,該條話單是滿足要求的。不過很明顯,情況2對用戶更敏感,本文應該更關注情況2的原因,而非情況1。

從圖3可以發現,計費話單中小流量話單占比很大。如10 KB以下的小流量話單占比超過26%,但其流量占比卻僅有 0.034%。而超過1 MB的計費話單占比不到20%,卻擁有85%左右的流量占比。

通過上述分析可以得出一個結論,即應該適當降低對小流量計費話單的匹配率閾值,而較大流量的計費話單匹配率閾值無需放寬,因為無論從用戶敏感度還是流量占比都說明了小流量計費話單并非很重要。

圖3 計費話單條數及流量占比分布

對此,本文提出了一個新的流量匹配標準,見表1。

表1 新的流量匹配標準

2.2.3 計費話單邊界影響

由于統計標準對時間的要求是每天0:00—24:00,所以根據DDR與DPI話單產生規則,必定有部分DPI話單由于時間的切分而無法統計。對此,本文需要根據DDR的時間跨度,對不同的DDR分別進行分析。計費話單邊界影響分類如圖4所示。

圖4 計費話單邊界影響分類

表2展示的某天計費話單中各類型話單的總條數和總流量情況。本文選取A類型話單和C類話單進行關聯匹配。因為DPI話單的時間范圍為0:00—24:00,而B類話單和D類話單可以算作后一天的A類話單,故不應該加入當天的統計。

表2 不同類型計費話單條數及流量

3 采用大數據技術的算法設計與實現

3.1 海量數據處理技術

以300萬用戶規模一天產生的數據為例。計費話單在合并前大約有9 700萬條,合并后大約有7 100萬條,290 TB的總流量。詳單大約有127億條,310 TB的總流量。在處理過程中勢必要用到大數據處理技術。

本文實驗驗證環境擁有40個節點,總計3 TB內存,720Vcore,480 TB存儲空間的集群。在實現過程中本文使用了MapReduce和Spark兩種技術進行處理。其中MapReduce處理一天的數據需要總計19 h,而Spark處理一天的數據僅需45 min(使用1.5 TB內存,300Vcore)。很明顯,Spark技術相比于MapReduce技術,在單點數據傾斜、中間結果緩存等方面擁有更大的技術優勢。最終體現在對海量數據的處理效率上。

3.2 優化后的匹配算法

針對所有的計費話單,先篩選4G的計費話單,隨后對計費話單進行預處理。預處理規則為將同一號碼時間存在交叉、包含、連接關系的記錄合并。隨后進行話單級匹配關聯:將DPI與DDR進行記錄級關聯,關聯條件為DPI起始時間在DDR起止時間之間(一條DDR對應多條DPI,一條DPI只對應唯一一條DDR)。最后按DDR匯總:按照DDR的話單ID對關聯后的記錄進行聚合操作,并進行話單級和用戶級的統計操作。

具體的計算規則如下。

(1)統計DPI話單預處理前后總條數、總流量以及DDR預處理前后總條數、總流量。

(2)針對每條DDR的總流量設置分段的匹配度標準,假設該條DDR流量為1,與之關聯的多條DPI流量總和為2,(1-2)/1為匹配度。當1≤100 KB,則不考慮匹配度的值,認為這些話單均符合要求并分別記錄條數;當1>100 KB &&1≤200 KB,則認為匹配度在[-100%, 100%]內均符合要求,分別記錄條數;當1>200 KB &&1≤500 KB,則認為匹配度在[-50%, 50%]內均符合要求,分別記錄條數;當1>500 KB,則認為匹配度在[-20%,20%]內均符合要求,分別記錄條數。

(3)統計剩余的DDR和DPI話單條數與流量。

(4)統計每個用戶當天的DDR總流量與DPI總流量。

(5)統計DDR和DPI話單中用戶總數、關聯的總用戶數,并針對關聯的總用戶數,進行流量誤差分布統計。即對每個用戶,假設該用戶DDR一天總流量為1,與之關聯的多條DPI話單流量總和為2,(1-2)/1為流量誤差。輸出為流量誤差的用戶數情況分布。

3.3 優化前后對比

本文選取了直接匹配和使用優化后算法匹配的前后共7天的數據進行評估,評估效果如圖5所示??梢园l現在對DDR進行預處理、篩選了小流量話單并考慮和邊界影響等因素后,無論是話單級匹配率還是用戶級匹配率均得到明顯提升。話單級匹配率穩定在90%上下,而用戶級匹配率接近95%。后者在實際的應用中價值更明顯,因為大部分用戶一般對某日的總流量表示異議,使用優化后的匹配算法可以解釋將近95%用戶的實際問題,之前的困境得到了大大的改善。

本算法已應用于某運營商客服系統,當投訴用戶對流量使用情況有異議后,客服人員可以使用該用戶手機號碼進行查詢(需用戶授權),并將查詢結果展示給用戶,以此解決用戶疑問。

4 結束語

本文針對運營商現網運營中關于流量使用的投訴問題,在深入研究計費話單和DPI話單生成的機制后,通過分析得到了一種新的計費話單和詳單的關聯匹配算法,并設計開發了相應的稽核驗證程序,通過現網數據進行驗證,取到良好的效果。

圖5 算法優化前后話單級與用戶級匹配率

大數據處理結合數據挖掘,可在將來的研究中,了解用戶使用流量的規律,并在用戶流量異常的時候做到提前提醒和告警,或者針對用戶流量的使用情況給用戶推薦更合適的套餐等。

[1] POIKSELKA M, MAYER G, KHARTABIL H, 等. IMS:移動領域的IP多媒體概念和服務[M]. 趙鵬, 周勝, 望玉梅, 譯. 北京: 機械工業出版社, 2005.

POIKSELKA M, MAYER G, KHARTABIL H, et al. IMS: IP Multimedia Concepts and services in the mobile field[M]. Translated by ZHAO P, ZHOU S, WANG Y M. Beijing: China Machine Press, 2005.

[2] 胡樂明, 曹磊, 陳潔. IMS技術原理及應用[M]. 北京: 電子工業出版社, 2006.

HU L M, CAO L, CHEN J. The principle and application of IMS technology[M]. Beijing: Publishing House of Electronics Industry, 2006.

[3] 3GPP. Telecommunication management; charging management; charging data records (CDR) file format and transfer: TS32.297[S].2012.

[4] 3GPP. Telecommunication management; Charging management; charging data record (CDR) parameter description: TS32.298[S]. 2012.

[5] 3GPP. Telecommunication management; charging management; charging architecture and principles: TS32.240[S]. 2012.

[6] 魏永, 周云峰, 郭利超. OpenDPI報文識別分析[J]. 計算機工程, 2011(S1): 98-100.

WEI Y, ZHOU Y F, GUO L C. Analysis of OpenDPI message recognition[J]. Computer Engineering, 2011(S1): 98-100.

[7] 黃曉武. 基于DPI技術的網絡流控策略[J].電腦知識與技術, 2011, 07(2X):1260-1261.

HUANG X W. Network flow control strategy based on DPI technology[J]. Computer Knowledge and Technology, 2011, 07(2X):1260-1261.

[8] 于娟, 袁春蕾. 網絡流量實時監控分析系統的設計與實現[J]. 物聯網技術,2013(2):71-73.

YU J, YUAN C L. Design and implementation of real-time network traffic monitoring and analysis system[J]. Internet of Things Technologies, 2013(2):71-73.

[9] 鄧博. 基于數據挖掘技術構建電信4G客戶預測模型的研究[D].蘭州: 蘭州大學, 2015.

DENG B. Research on the construction of telecom 4G customer prediction model based on data mining technology[D]. Lanzhou: Lanzhou University, 2015.

Research and implementation of mobile DPI association algorithm with big data technology

LIU Xiaosong, MA Yi’an

Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China

In order to solve the problem of traffic usage caused by the increasing penetration rate of 4G in recent years, an algorithm that uses mobile DPI detailed bill and billing bill was proposed, and big data platform was adopted. The related processing technology implements the algorithm and shows the effect of the current network operation evaluation.

big data, data detail report, deep packet inspection, data flow, LTE, eHRPD

TN915

A

10.11959/j.issn.1000?0801.2017343

2017?10?13;

2017?11?28

劉孝頌(1977?),男,中國電信股份有限公司上海研究院網絡數據系統架構師、中級工程師,主要從事網絡數據分析/挖掘工作以及基于網絡數據的應用方面的工作,主要研究方向為LTE網絡數據采集方法以及各接口之間的信令消息關聯方法、LTE網絡控制面信令消息解讀分析等。

馬怡安(1987?),男,中國電信股份有限公司上海研究院中級工程師、大數據智慧運營研發,主要從事大數據架構下數據分析及挖掘以及基于網絡數據自主開發各類應用和質量檢測工具等方面的工作。

猜你喜歡
總流量話單條數
6NOC2022年半年報上半年CERNET2流量比去年同期大幅增加
NOC2022年4月 4月CERNET主干網總流量增10.42G
2月CERNET主干網總流量增39.86G
CERNET主干網總流量平穩上升
河北大名話單元音韻母、單字調及雙音節非輕聲詞連調的實驗語音學初探
巧算金魚條數
人民網、新華網、中國非公企業黨建網兩新黨建報道條數排行
對多邊形對角線條數的探究
每只小貓給了貓媽媽幾條魚
GSM-R移動交換機ASN.1話單的解碼
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合