?

一種基于信令數據的業務推銷類騷擾電話識別方法

2020-08-13 07:19全俊斌張士珣劉崢
移動通信 2020年7期
關鍵詞:騷擾電話識別

全俊斌 張士珣 劉崢

【摘? 要】為治理網絡不良信息,研究了業務推銷類騷擾電話的識別方法。通過采集分析通話信令數據,統計異常通話特征,并運用加權綜合評分方法,創新實現了業務推銷類細分場景下的騷擾電話識別,與現有詐騙電話、高頻騷擾電話的識別方法存在區別,有效擴大了騷擾電話識別范圍。

【關鍵詞】推銷;騷擾電話;識別

doi:10.3969/j.issn.1006-1010.2020.07.016? ? ? ? 中圖分類號:TN915.08

文獻標志碼:A? ? ? ? 文章編號:1006-1010(2020)07-0093-04

引用格式:全俊斌,張士珣,劉崢. 一種基于信令數據的業務推銷類騷擾電話識別方法[J]. 移動通信, 2020,44(7): 93-96.

0? ?引言

騷擾電話持續泛濫,已嚴重干擾了人們正常生活。而有效的騷擾電話綜合治理措施,有賴于對騷擾電話的精準識別與細化分類,如業務推銷類(房產中介、貸款、保險)、違法犯罪類(黃、賭、毒)、惡意騷擾類(“呼死你”)等[1]?,F有騷擾電話識別技術中,基于用戶標記的號碼庫[2],極依賴于用戶投訴標記數據,時效性差,識別范圍有限,且具有主觀性,可能存在誤報?;诤艚行袨榈奶柎a分類[3-6],識別結果為通用類騷擾電話(如高頻電話),識別范圍有限,更難以區分騷擾電話類型,不利于實施下一步針對性處置措施?;谕ㄔ拑热莸奶柎a分類[7-8],對軟硬件要求高,投入成本巨大,且涉及用戶敏感信息,存在數據安全風險。在無需采集用戶敏感信息前提下,快速準確識別出業務推銷類別的騷擾電話,是業界的技術難點。

1? ?信令數據采集

信令作為用戶呼叫數據,包含著海量的端到端信息,是運營商掌控網絡的重要手段。在現網中,通過分光、分流、匯聚、負載均衡等步驟,將核心網元的接口數據(一般包括X2、S1-MME、S1-U、S6a等)接入采集服務器,完成信令數據的采集。再經過信令解碼、合成、存儲、共享等步驟,生成信令話單數據,獲取用戶號碼的通話信息。網絡信令數據的采集原理如圖1所示。

2? ?識別技術方法

通過分析用戶投訴舉報的業務推銷類騷擾電話樣本號碼,發現此類號碼具有靜默期長、多使用手機號碼主叫、被叫多為手機號碼、主叫占比高、平均通話時長較短等明顯特征。因此基于上述通話特征,建立數據初篩條件,在歷史通話話單中篩選出疑似新啟用的騷擾號碼,減少后續當天話單的號碼分析量,提升分析效率。接著統計樣本的行為規律,如通話所在地與被叫歸屬地不一致、被叫先掛機、被叫號碼分散等,篩選出統計特征,進一步提升識別準確率。相比于現有技術只能識別出騷擾電話此通用大類別,本方法可識別出騷擾電話中的業務營銷細化類別,分析結果、選取分析特征均存在不同。

方法主要分為話單獲取、數據初篩、特征統計、綜合評分四個環節。

2.1? 話單獲取

獲取當天及歷史N天的信令話單數據,包括以下字段信息:主叫號碼、被叫號碼、通話開始時間、通話時長、主叫號碼歸屬地、被叫號碼歸屬地、通話所在地、通話掛機方向等。

2.2? 數據初篩

在每個號碼當天及歷史N天的通話記錄中,篩選出疑似新啟用的騷擾號碼,條件如下:

(1)號碼活躍時間為當天,即僅在當天主叫次數大于0,而歷史前N天內主被叫次數為0;

(2)號碼為11位長的手機號碼。即去除0086、+86、86等國家碼前綴后,號碼位長為11位,首三位數字符合已知運營商號段規則(如130、131等);

(3)當天未撥打過短號。短號是指號碼位長為3位且第一位數字是“5”,或者號碼位長為5-6位且第一位數字是“6”的號碼;

(4)當天未撥打過固話號碼。固話號碼是指號碼位數為11位且前三或四位為區號,或者號碼位數為7至8位且第一位數字非“0”;

(5)當天“主叫占比”大于指定閾值,其中主叫占比等于主叫次數除以總通話次數;

(6)當天“通話次數”在指定次數區間范圍內;

(7)當天“平均通話時長”在指定時長區間范圍內,其中平均通話時長等于各次通話時長的平均值。

如以上條件均滿足,則判斷為疑似新啟用的騷擾號碼。

2.3? 特征統計

對于疑似新啟用的騷擾號碼,提取其當天作為主叫時的通話話單,分析對應被叫的統計特征:

(1)被叫為手機號碼的占比=被叫為手機號碼的通話次數/總通話次數。其中,判斷是否手機號碼的條件為:去除0086、+86、86等國家碼前綴后,號碼位長為11位,首三位數字符合已知運營商號段規則;

(2)主叫號碼通話所在地與被叫號碼歸屬地不一致的占比=主叫號碼通話所在地與被叫號碼歸屬地不一致的通話次數/總通話次數;

(3)被叫號碼歸屬同一省份的最大占比=被叫號碼歸屬同一省份的通話次數最大值/總通話次數;

(4)被叫掛機占比=掛機方向為被叫號碼的通話次數/總通話次數;

(5)被叫號碼離散度=去重后被叫號碼總個數/總通話次數。

輸出每個疑似新啟用騷擾號碼對應的特征統計結果列表,格式如:[統計特征A,統計特征B,...,統計特征E]。

2.4? 綜合評分

對每個疑似新啟用騷擾號碼的特征統計數值進行歸一化及加權綜合打分,輸出得分高于指定閾值的號碼,判斷為業務推銷類的騷擾電話號碼,步驟如下:

(1)特征數值歸一化:對每個號碼的統計特征列表[特征A,特征B,……,特征E],進行歸一化處理。歸一化公式如下:

歸一化結果=(該號碼對應的該列特征值-所有號碼該列特征的最小值)/(所有號碼該列特征的最大值-所有號碼該列特征的最小值)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

所有號碼對應的統計特征如表1所示:

其中某個號碼x對應特征A的歸一化方法如下:

號碼x對應特征A歸一化結果=(Ax-min(特征A列))/(max(特征A列)-min(特征A列))? ? ? ? ? ? ? ?(2)

其中,max(特征A列)表示特征A列當中的最大值,min(特征A列)表示特征A列當中的最小值。

將每個號碼對應的所有統計特征進行歸一化處理,得到每個號碼對應的歸一化特征列表[歸一化特征a,歸一化特征b,……,歸一化特征e],每個歸一化特征取值在[0, 1]間。

(2)加權綜合評分:對于每個號碼對應的歸一化統計特征,依據預設的權重列表[特征權重a',特征權重b',……,特征權重e'],按如下公式計算每個號碼綜合得分:

號碼綜合得分=歸一化特征a×特征權重a'+歸一化特征b×特征權重b'+……+歸一化特征e×特征權重e'

(3)

其中,所有特征權重之和為100,則號碼綜合得分取值范圍是[0, 100]間。

(3)評分結果判斷:對于每個號碼對應的綜合得分,與預設閾值進行比較。若得分高于預設閾值,則判斷該號碼屬于業務推銷類騷擾電話。

2.5? 實現效果

基于hadoop/spark構建大數據環境,實現信令數據的清洗、轉換、過濾、壓縮、篩選、存儲等功能。同時,基于上述識別方法建立模型分析信令數據,輸出號碼識別結果。根據實際生產結果,為兼顧識別準確率及覆蓋率,選擇重要特征變量的取值如下,得到圖2結果樣例:

(1)歷史7天話單(N=7);

(2)主叫占比閾值0.9;

(3)通話次數大于等于20;

(4)平均通話時長為10 s至100 s;

(5)加權特征權重設置為[25, 20, 15, 10, 30];

(6)綜合得分閾值80。

對連續多周結果的疑似號碼進行回訪撥測,驗證識別準確率達95%以上。同時,識別結果中有90%以上的號碼,未被現有其它騷擾詐騙電話檢測技術(如高頻電話)識別出,有效擴大了騷擾電話的識別范圍。

3? ? 結束語

本文基于信令數據的采集分析,提出了一種業務推銷類騷擾電話的識別方法。通過提取當天及歷史通話話單,分析活躍時間、非手機號碼呼叫行為、主叫占比、通話次數、通話時長等主叫特征,識別疑似新開戶騷擾電話號碼,接著提取其當天主叫通話話單,分析對應被叫的五類統計特征,并對特征數值進行歸一化及加權綜合打分,識別出業務推銷類騷擾電話。實踐表明,方法可準確識別出業務推銷類細分場景下的騷擾電話,彌補現時此類電話號碼的自動識別技術空白。同時,方法只需提取通話話單的部分字段數據,統計通話號碼及行為特征,不涉及用戶敏感數據,不存在信息安全風險,可有效支撐不良信息防治工作。

參考文獻:

[1]? ? 葛健,周楠. 騷擾電話治理的應對與挑戰[J]. 信息通信技術與政策, 2019(1): 32-35.

[2]? ? 李娜,陳福,毛國君,等. 基于區塊鏈的防電話騷擾欺詐模型[J]. 應用科學學報, 2019(2): 235-243.

[3]? ?韓研. “呼死你”騷擾電話防治方案[J]. 電信科學, 2018(Z1): 269-274.

[4]? ? 趙越,王瑜,葛陽,等. 基于機器學習的大數據防詐騙能力研究與應用[J]. 江蘇通信, 2019(4): 64-66.

[5]? ? ?王彥青,王瀚辰. 一種識別騷擾電話的組合算法研究[J].

電信科學, 2017(7): 112-119.

[6]? ? ?田紀軍,夏雪玲,朱堯,等. 基于信令監測系統的騷擾電

話監控分析方法[J]. 信息通信, 2015(11): 244-245.

[7]? ? ?杜海濤,張峰,高曼穎,等. 基于話音識別的騷擾電話呼

叫檢測技術分析[J]. 電信工程技術與標準化, 2014(12) :

5-9.

[8]? ? ?任中崗,周松. 一種基于通話內容的騷擾電話攔截方法[J]. 電子世界, 2014(5): 85.

作者簡介

全俊斌(orcid.org/0000-0002-8530-6281):碩士,現任職于中國移動通信集團廣東有限公司,主要研究方向為網絡信息安全。

張士珣:學士,現任職于中國移動通信集團廣東有限公司,主要研究方向為網絡信息安全。

劉崢:碩士,現任職于中國移動通信集團廣東有限公司,主要研究方向為網絡信息安全。

收稿日期:2019-12-03

猜你喜歡
騷擾電話識別
騷擾電話有增無減 運營商難辭其咎
阿里將上線AI防騷擾電話應用程序
陜西綜合治理騷擾電話
13部門聯手重拳整治騷擾電話
瘋狂編輯部之騷擾電話
法學意義上的弱者識別問題研究
青島市中山公園園林樹木易混淆品種識別
論犯罪危險人格的識別
遇到騷擾電話怎么辦?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合