?

移動蜂窩網絡流量的時延特征識別方法研究

2019-02-20 08:34魏松杰張功萱
計算機研究與發展 2019年2期
關鍵詞:固網網絡流量蜂窩

魏松杰 吳 超 羅 娜 張功萱

(南京理工大學計算機科學與工程學院 南京 210094)

我國的移動互聯網接入基礎設施不斷完善,智能移動終端日趨普及,互聯網應用服務持續創新.中國互聯網絡信息中心(China Internet Network Infor-mation Center, CNNIC)第38次全國互聯網發展統計報告顯示:截至2016年6月,我國手機用戶中網民數量達到6.56億,網民中使用手機客戶端上網的人群占比為92.5%,以3G4G接入技術為基礎的移動互聯網各項指標增長速度正全面超越傳統寬帶網絡[1].移動互聯網實現了人機合一,線上服務的隨遇接入、持續連通,為人們的信息交流提供了極大的便利,也深刻地改變著人們的學習、工作和生活方式.

使用以手機為代表的智能移動設備的典型用戶主要通過2種鏈路技術方式接入互聯網服務:基于3G4G通信技術的移動蜂窩網絡和基于WiFi分享技術的固定網絡.在不同的網絡接入條件下,用戶會有不同的行為習慣和使用偏好.當前,大規模用戶的3G4G流量數據只有相關的運營商才能獲得,廣大研究者難以公開獲取.定期發布可供研究的傳統骨干網流量數據集中,例如CAIDA(Center for Applied Internet Data Analysis)公開的流量[2],雖然包含了用戶的3G4G流量,但缺乏有效的流量特征進行區分識別.因此,研究移動蜂窩網絡數據流量特征,識別并分析3G4G互聯網接入用戶產生的移動網絡數據流量,在此基礎上加深理解移動網絡的特點并預測移動互聯網的發展,成為當前互聯網流量分析的一個新的研究方向.

本文通過分析移動蜂窩網絡中IP數據報時延相關屬性,提取了能夠有效區分移動蜂窩網絡和固網流量的多種特征.首先,針對移動蜂窩網絡和固網接入技術進行研究,分析了它們在通信鏈路上的區別,初步確定接入鏈路性能和RRC (radio resource control)機制是導致兩者時延差異的主要原因.然后通過網絡流量分析的方法,給出了在網絡流量中提取計算這些差異特征的過程,構造了6個可以分析和提取的量化時延特征.最后,結合有監督機器學習算法,設計了流量區分檢測方案,通過實驗對公開的網絡流量數據集進行訓練和測試,構建了針對蜂窩網絡流量和固網流量的自動流量分類器.實驗結果表明,利用文中提出的流量時延特征構建的分類器,能夠正確區分測試集中90%的蜂窩網絡流量和95%的固網流量,運行性能好,分類準確率高,且不依賴于網絡流量內容和應用協議,不觸及用戶通信數據隱私.

本文的主要研究成果和貢獻有3個方面:

1) 分析了移動蜂窩網絡和固網的鏈路差異,并研究其對IP數據報時延的影響,構建新的移動蜂窩網絡流量特征.

2) 針對移動蜂窩網絡和固網流量的特征差異,提出了相應特征的量化計算方法,并在此基礎上,采用有監督學習算法構造流量分類器.

3) 使用公開數據集進行實驗測試,驗證分類特征的有效性,并對不同條件下模型的優缺點進行分析.

1 相關工作

互聯網流量特征研究是流量分類、網絡用戶行為分析、網絡異常檢測等工作的前提和基礎[5].近年來多個相關研究都是通過分析網絡流量的各類特征,構建流量數據分類模型[6].傳統的流量特征包括IP地址、端口、協議、包長度、IPTCP選項、包到達間隔、流持續時間等.這些通用特征主要用來對流量進行協議分類,或者分析用戶的行為.

Zhang等人[7]研究了移動蜂窩網絡中終端應用所產生的HTTP數據,從數據報、數據流和會話3個層面分析了不同應用的網絡流量的特征,并對比分析了其與有線網絡環境中的流量特征的不同.Zhang等人[8]針對移動蜂窩網絡中HTTP流量速率進行研究,對比其在有線網絡中的區別,從網絡擁塞、訪問鏈路和訪問終端等方面解釋了產生這種現象的原因.

Xu等人[9]對移動蜂窩網絡進行了端到端的數據傳輸實驗,從包的到達分布、網絡瞬時吞吐率、網絡緩存、隊列機制等方面描述了移動蜂窩網絡的特征.陳昕等人[10]從無線通信理論研究的角度,分析了無線信道的時變特點,利用隨機網絡演算的方法建立對LTE網絡進行數據傳輸時端到端的時延模型.他們都在分析流量的過程中發現了一些移動蜂窩網絡流量和固網流量的區別,但都是通過特殊流量測量網絡得出的結論,不適用于一般的網絡流量模型.

Sandrasegaran等人[11]研究如何降低移動蜂窩網絡中的時延,提出了一種時延優先調度(delay prioritized scheduling, DPS)算法.Nikaein等人[12]對LTE通信網絡中主機到主機的時延進行了研究,將時延的構成分為4個部分,詳細分析了現實中影響網絡時延的各個因素,并給出相應的時延估計.林川等人[13]通過分析網絡探測數據,對網絡時延因素進行了多層次的分析,并提出不同通信直徑條件下,排隊時延、傳播時延對支配時延的影響關系.

Gupta等人[14]針對新興的Facebook和Twitter等頻繁引起網絡請求的手機應用,研究了其對移動蜂窩網絡RRC機制與手機電量的影響.Barbera等人[15]和Perta等人[3]通過分析無線通信協議中的RRC狀態轉換對移動蜂窩網絡中數據往返時延的影響,結合終端上的即時通信軟件,提出了一種特定條件下可探測用戶設備信息的方法.他們研究了通信協議中RRC機制對流量數據時延的影響,但沒有對鏈路協議進行系統分析,也沒有據此提出區分移動蜂窩網絡流量和固網流量的方法.

2 移動蜂窩網絡數據流量的時延特性

當前,可公開獲取的網絡流量樣本大多是經過匿名化、內容移除等隱私保護處理的,無法使用深度包解析(deep package inspection, DPI)的分析方法.另外,由于3G4G與固網客戶端可以使用相同的智能移動設備,運行相同的應用程序,數據報的內容和規??梢曰疽恢?因此,3G4G與固網流量的差異表現主要在數據報時序表現而非內容表達上,典型的如數據報的往返時延(round-trip time, RTT).RTT表示從發送端生成并發送數據開始,到發送端收到來自接收端的相應確認(假設接收端收到數據后,立即響應并發送確認),總共經歷的時間間隔.本文主要研究由于移動蜂窩網絡與固網通信鏈路的不同而引起的流量中時延特征的差異.

2.1 移動蜂窩網絡架構

移動蜂窩網絡比固定寬帶網絡架構復雜,系統更加龐大,各個運營商所使用的鏈路通信技術和參數配置也存在差異.圖1以4G網絡為例,給出了一個典型的移動蜂窩網絡架構示意圖.網絡包含2個部分:一是直接與終端用戶進行通信的無線接入網絡(radio access network, RAN),負責無線資源的控制、用戶接入管理等;二是運營商的核心業務網絡(evolved packet core, EPC),負責用戶認證、網絡計費、提供互聯網服務等.核心業務網絡通過網關連接其他網絡,比如國際互聯網.

Fig. 1 Typical architecture of mobile cellular network圖1 移動蜂窩網絡典型架構[16]

用戶終端設備UE(user equipment)通過移動蜂窩網絡接入互聯網時,首先需要接入RAN,建立與基站的通信,然后,其中的資源控制模塊分配用戶傳輸數據所需的無線資源(信道和時隙),用戶通過分配得到的鏈路資源將數據發送給基站節點,再經基站轉發至核心業務網,最后傳至互聯網.

2.2 移動蜂窩網絡流量時延的影響因素

產生IP數據報時延的原因是多樣的,圖2列出了主要影響因素.數據從發送端發出到接收端收到,其時延的影響因素主要有2類:1)通信鏈路的限制;2)網絡負載變化.通信鏈路的限制主要是指信號傳輸速度、傳輸距離、網絡設備轉發速度、路由跳數等因素,產生的時延相對穩定.網絡負載的影響指受網絡設備性能波動、用戶流量潮汐變化、路由隊列變化等隨機因素的影響,產生的時延會有較大的抖動.通信鏈路限制產生的時延主要受鏈路特性的影響,移動蜂窩網絡和固網通信方式的區別會對該時延產生不同的影響.為此,研究中將網絡負載變化帶來的時延視為噪聲,通過分析通信鏈路對網絡流量時延的影響,進而對網絡數據流量進行來源識別并分類.

Fig. 2 The influence factors of network delay圖2 網絡時延的影響因素

2.2.1 接入鏈路

在網絡負載對數據傳輸時延影響較小的情況下,網絡流量中的數據往返時延RTT差異主要是由通信鏈路限制引起的通信鏈路時延.圖3根據通信鏈路的不同部分,將RTT拆分為終端到ISP核心業務網的接入鏈路時延和核心網到目標地址的互聯網路由傳輸時延,這里我們忽略影響較小的服務器處理時延.移動蜂窩網絡和固網流量在時延特征上的不同,主要來自于接入鏈路時延上,即接入鏈路時延特征的不同是蜂窩網絡與固網流量區別的主要原因.

Fig. 3 Division of network delay圖3 網絡時延劃分

2.2.2 RRC無線資源控制

Fig. 4 RRC state transition diagram圖4 RRC狀態轉換示意圖

終端在某個時間段內沒有網絡數據傳輸時,將處于IDLE狀態;此時若有數據要傳輸,需先重建無線鏈接,轉換為CELL_FACH狀態,進而完成通信,這個過程會產生較大的時延.當傳輸速率超過某個閾值時,RRC會向上調整為CELL_DCH高速通信狀態,此時的鏈路時延最??;在固定時間段內無數據傳輸時,CELL_DCH狀態會向下調整到CELL_FACH狀態,進而調整到IDLE狀態.終端應用的網絡流量變化會導致RRC在不同狀態間的轉換,RRC的不同狀態又會導致網絡時延的變化,這種時延影響是移動蜂窩網絡中所獨有的.RRC狀態轉換的閾值和不同狀態下的時延標準在不同的運營商網絡中可能不同,但IDLE狀態下傳輸數據報的時延會明顯高于CELL_FACH和CELL_DCH狀態下的鏈路時延.

2.3 移動蜂窩網絡流量特征

網絡系統是一個時變系統,時延難以用精確的函數表達,但移動蜂窩網絡和固網時延特征的不同,必然帶來流量中數據報時延統計特征的區別.

2.3.1 鏈路時延極小值

鏈路時延極小值代表一條通信鏈路在理想條件下的時延下限,該值由通信協議設計和通信設備性能水平決定.高速固網環境下,一定范圍內鏈路時延可以接近于0 ms;但在3G4G無線通信網絡中,受接入鏈路和接入協議的限制,該值不會小于某個閾值.

表1列舉了在LTE蜂窩網絡接入鏈路中部分因素產生的單向時延估計.UE處理時延、eNodeBRNC處理時延是指手機與基站對無線通信信號進行編碼解碼所需要的時間,TTI和幀調整是指無線數據幀傳輸時隙和幀間隔所需的時間.理想情況下,忽略無線數據幀的重傳和SP-GW路由轉發等因素的影響,蜂窩網絡時延下限為前3項的總和,簡單計算可得單向時延大于3.5 ms,RTT中包含的通信鏈路時延為環回往返時延,大于7 ms.現實情況下,考慮網關路由及無線幀的重傳因素,實際導致IP數據的報往返時延RTT會更大.

Table 1 Delay Estimation of LTE Network Accessing Link表1 LTE網絡接入鏈路時延估計

固網寬帶的時延下限主要依賴于接入網絡設備的轉發時延,對于高速光纖通信設備,在一定距離內時延接近于0 ms,因此并沒有統一的下限.相同地區和運營商提供的固網和3G4G網絡,其接入鏈路時延極小值會有明顯的區別.不同地區或運營商的流量混雜在一起時,所有的蜂窩網絡流量時延極小值會大于某個統一的閾值,而時延小于該閾值的就更可能是固網流量.

2.3.2 鏈路時延波動

移動蜂窩網絡架構復雜,影響網絡時延的因素相對固網更多,這就導致移動蜂窩網絡時延相對固網有更大的波動性.如手機與基站間距離變化、天氣變化、信號強弱變化等,都會引起通信數據報時延的波動.固網使用可靠的有線連接排除網絡負載的影響外,時延變化主要受交換路由設備的轉發性能影響,相對穩定.

2.3.3 RRC狀態轉換影響時延

移動蜂窩網絡環境中,終端應用在RRC處于不同狀態時傳輸數據,IP數據報會表現出不同的時延.在能夠得到單一數據源所有流量的條件下,如果源地址在持續的某個時間段內無數據收發,則表示源地址無網絡訪問,RRC狀態可能處于IDLE狀態,從而導致之后收發的第1個數據報會有較大的時延.網絡流量中源地址在靜默特定時間段后,第1個數據報的時延或重傳性質,也是區分移動蜂窩網絡和固網的重要特征.

圖5使用ping指令,設置不同的時間間隔發送ICMP報文,分別在國內主流移動蜂窩數據網絡環境中測試,測量數據報平均往返時延.橫坐標為ping報文發送的間隔,縱坐標為以相應間隔測量10次得到的平均往返時延.測量所用的目的地址為國內高速骨干網上的DNS服務器114.114.114.114.

Fig. 5 The relation between the interval of message sending and the delay of round-trip圖5 報文發送間隔與往返時延的關系

通過圖5可以看到,雖然不同運營商的4G網絡終端與目標服務器之間的延遲大小有差異,但發送ping包的間隔大于某個閾值后,延遲都明顯變大.該閾值對應RRC由非空閑態轉換為空閑態的狀態轉換等待時間.不同包發送間隔產生的時延基本可分為2層,對應2類不同的RRC狀態下的時延:空閑態和非空閑態.從圖5還可以看出,不同運營商網絡環境中,RRC產生狀態轉換的時間參數并不一致,中國聯通和中國移動在用戶持續10 s無數據傳輸時,RRC即轉換為IDLE狀態,而中國電信的這個參數大約是23 s.

3 網絡流量時延特征定義及計算方法

3.1 移動蜂窩網絡流量模型

1)在移動終端使用數據嗅探工具(如tcpdump)獲取流量.Xu等人[9]使用此方法,在不同的蜂窩網絡環境中,實施端到端的數據傳輸實驗,構造特定的網絡流量進行研究.

2)如圖6所示模型,搭建一個網絡接入代理或代理服務器(VPN),手機接入VPN或者代理服務器實現上網,在VPN端獲取流量.

Fig. 6 Data acquisition model of mobile cellular network圖6 移動蜂窩網絡數據采集模型

本文實驗部分用到的公開數據集就是用圖6中所示的代理服務器的方法獲取的.流量數據在源地址和目的地址之間的代理服務器上截取,本文討論的特征均以基于此模型截取的流量特征為例,稍加修改即可適用于從互聯網骨干節點獲取的蜂窩網絡流量.

3.2 移動蜂窩網絡流量特征

3.2.1 鏈路時延特征

fr(pktdata)=fr(pktack)=0,

(1)

fi(pktack)-fi(pktdata)≤N,

(2)

則定義這次傳輸的鏈路時延為

Delaypkt=ft(pktack)-ft(pktdata),

(3)

其中fi為獲取指定數據報在流量文件中的序號的函數,這里的流量文件是指該特定源地址發送和接收的流量,如果獲取的流量中包含多個源地址,需先將獲得流量依源地址切分成不同的流量文件.fr獲取指定數據報的重傳次數,ft獲取指定數據報的捕獲時間,N是一個大于0的常量.

Fig. 7 Link delay圖7 鏈路時延

Fig. 8 The relationship between N and the mean, standard deviation and total ratio of link delay圖8 N值與鏈路時延的均值、標準差、總占比的關系

圖8展示了在同一份網絡流量中,使用不同的N值得到鏈路時延的標準差和均值,以及滿足式(2)約束的時延數量占總時延的比例.可以看出,如果N較小,計算得到的鏈路時延波動較小,說明擁塞帶來的時延噪聲小,但符合條件的數據報相對少;如果N越大,符合條件的數據報相對多,但得到的鏈路時延波動較大,時延噪聲可能較大.

Table 2 Datagram of DataAck表2 DataAck數據報

Table 2 Datagram of DataAck表2 DataAck數據報

pktdatapktackTCP Syn_AckTCP AckTCP Data(payload>0) TCP Ack

源地址在收到SYN標識位為1或數據有效載荷長度大于0的TCP數據報時,一般會立即發送確認報文,計算符合條件確認報和數據報的時間差可得到鏈路時延,進而計算如下2個時延分布特征.

1) 鏈路時延標準差

2) 鏈路時延最小值

通過計算得到的鏈路時延,用其最小值表示通信鏈路的時延下限.移動蜂窩網絡流量中的鏈路時延最小值特征與固網之間會存在一個閾值,特征小于此閾值的,較大可能是固網;大于此閾值的,可能是蜂窩網絡.

3.2.2 RRC時延特征

移動蜂窩網絡環境中,某個時間段內,如果源地址無數據傳輸,則RRC狀態就會發生變化.據此通過定位網絡流量中源地址在時間段(trrrc0,trrrc1)內無流量時,之后第1個收到的數據報的鏈路時延,得到RRC可能處于特定狀態下的時延.對于特定源地址相關網絡流量中的數據報pktdata及對其響應數據報pktack,如果它們可以計算鏈路時延,且滿足條件:

trrrc0

(4)

則定義RRC鏈路時延為

Delaypkt_rrc=ft(pktack)-ft(pktdata),

(5)

其中,pktdata-1是在傳輸pktack數據報前該地址上一個發送或接收的網絡數據報,trrrc0和trrrc1是2個對應不同RRC狀態轉換時間的臨界值.式(4)表示數據報pktdata與前一個數據報pktdata-1的間隔時間落在區間(trrrc0,trrrc1)中,式(5)表示該次傳輸的時延.為兼容不同的網絡情況,這里僅考慮RRC的空閑和非空閑狀態,使用2個典型的間隔區間段,如表3所示:

Table 3 RRC Status and Packet Interval表3 RRC狀態與包間隔區間 s

根據RRC不同狀態下的數據時延及重傳率,進而計算其描述特征如下:

1) RRC空閑態時延標準差

RRC處于空閑態時,網絡時延主要依賴RRC狀態轉換的時間,這個時延稱為移動蜂窩網絡的控制面時延,受通信協議中多種因素的影響,不僅時延比較大,波動也很大.若源地址屬于固網,則不存在RRC的狀態轉換,時延標準差較小,相反若受移動蜂窩網絡通信控制面時延的影響,時延標準差會較大.

2) RRC不同狀態時延均值與標準差的距離

據此,可分別計算出源地址在2個間隔區間中的鏈路時延均值和標準差,若源地址屬于固網,那么不存在RRC的狀態轉換,時延應該有相同的分布,不同狀態的時延均值、標準差距離較??;否則會較大.

3) 數據重傳率

在RRC處于空閑態時,應用層傳輸數據會有較大的時延,而TCP協議中,時延過大可能觸發超時重傳機制,此時包重傳率會大于平時.由于上述特征在計算時延時都要求數據報無重傳,所以數據報重傳率是RRC導致大時延的補充描述特征.

4 實驗驗證

4.1 實驗數據

4.1.1 數據源描述

本文使用的流量來自Coninck等人[18]公開的實驗采集數據,采集的是手機終端產生的多路徑TCP網絡流量.手機終端安裝特殊SOCK代理軟件,通過代理服務器訪問互聯網,另外,代理軟件可使手機同時通過WiFi和3G4G網絡連接代理服務器,SOCK代理服務器轉發并截獲手機終端的網絡流量.多路徑TCP實現了用戶在WiFi和3G4G都可用時,同時在2個網卡上分別建立TCP子流,協同完成數據傳輸任務的功能,2個子流同屬于一個多路徑TCP流,以TCP選項中的某些字段標識.該份數據涉及幾十個手機終端,持續7周,有近千個源IP地址.

4.1.2 數據預處理

為便于流量特征提取,同時消除一些噪聲和畸形數據,需先對流量進行一些預處理操作.數據預處理的主要有以下5個步驟.

第1步.篩選出流量中所有的客戶端地址,獲取源IP地址集.由于3G4G網絡移動性的特點,其分配的IP地址一般只會給移動終端,而服務器則使用固網提供的IP地址.我們分析數據中涉及到的所有IP地址,依據該IP是否僅發起TCP鏈接而不接收TCP鏈接篩選出一個IP地址集合,該集合中包含了全部的3G4G用戶的源IP地址和部分固網客戶端的IP地址.

第2步.依據IP地址切分流量數據.依據第1步得到IP地址集合,將數據流量切分成小的流量文件,每一個流量文件都是IP地址集合中某個特定的IP地址所發送或接收的流量,切分后的流量保持原流量文件中的包時間、相對順序.

第3步.依據TOKEN定位同一時刻的子流.依據協議提取所有Multipath-TCP子流的TOKEN,并依據同一時間的子流分屬不同網絡環境的邏輯,得到相應IP地址的對立關系;

第4步.根據交叉邏輯,將IP地址分類.在數據作者的幫助下,確定了對立的IP地址必定分屬3G4G或WiFi,然后結合設備不同時間段在不同網絡間的相互交叉的邏輯關系,通過篩選,得到3G4G和WiFi的IP地址集合.

第5步.依時段切分IP流量,獲得實驗數據集.為獲得更多的流量樣本測試,將已確定為3G4G或WiFi地址的流量文件,采用分時劃分的方法,以60 min為單元,將特定IP的流量文件分割成多個子流量文件,在此基礎上清洗掉一些無效的流量,最終得到了954個流量文件,其中WiFi連接流量文件674個,3G4G連接流量文件280個.

4.2 實驗平臺及流程

本文所使用的數據分析工具是Weka-3.5.6.該工具是由新西蘭懷卡托大學Witten教授等人開發的開源工作平臺.該平臺利用Java語言實現了決策樹、樸素貝葉斯等多種機器學習方法.本文實驗計算平臺為1臺PC機,CPU配置為4核Intel CoreTMi5-2520M@2.66 GHz,內存為4 GB;運行kali操作系統.

實驗中分類效果的好壞主要取決于提取的流量特征對通信鏈路差異的描述能力,本文提取的特征從不同側面描述了這些差異.綜合考慮算法的適用性、分類效果和執行效率等因素,實驗使用機器學習的方法如表4所示,主要采用SVM,RandomForest,BayesNet,C4.5,Logistic,AdaBoost這6種常用的分類算法. 這些算法能夠針對網絡流量連續時延特征的數值分布和相關性進行學習和建模,同時也是在其他相關研究工作中,基于網絡流量分析的用戶分類研究中的主流的有監督機器學習算法.采用這些學習方法有助于本文中提出的基于網絡時延特征的流量識別模型向其他應用場景和樣本數據上的移植應用,進而比較應用結果.表4中給出了在實驗過程中相應的模型參數設置.這些參數的選取是在借鑒了過往經驗得到的經典參數設置的范圍基礎上,在實驗過程中通過上下浮動模擬退火算法進行隨機微調擇優,并進行多次實驗取平均分類結果,從中再選定最佳分類結果的參數設置.為了避免過學習及欠學習狀態的情況發生,采用10折交叉驗證的方法進行樣本的訓練測試.具體方法如下:實驗過程中,隨機抽取10%的樣本作為測試集,其余為訓練集,該過程重復10次.實驗中每次訓練樣本和測試樣本都隨機抽取,從而保證實驗的有效性.

Table 4 Parameter Setting of the Classifier Models表4 分類器模型的參數設置

4.3 實驗結果

針對不同條件下獲取的網絡流量,編寫程序實現相關特征的自動提取工具,計算并提取了如表5中列出的6個特征.移動蜂窩網絡與固網的不同主要體現在數據鏈路屬性方面,而這些屬性會給該網絡中傳輸的數據流量帶來時延層面的印記.鏈路時延最小值體現了2種網絡技術在傳輸時延瓶頸方面的差異;鏈路時延標準差描述了2種網絡技術在時延方面的波動性的差異;RRC相關的4個特征從不同的側面量化通信協議中RRC機制給網絡時延帶來的影響.6種特征從不同層面刻畫傳輸鏈路、協議給流量帶來的影響,作為一個特征集合,可對流量的識別產生最好的效果.

Table 5 Extracted Traffic Features表5 提取的流量特征

首先對于不同特征的取值分布情況進行分析.圖9中橫軸為各個特征的取值,縱軸為其累積分布.圖9(a)顯示,3G4G的鏈路時延最小值大于20 ms的流量占95%以上,而在固網流量中的比例約為20%.圖9(b)顯示3G4G流量標準差小于50 ms的比例為50%,而固網中該比例約為80%.圖9(c)顯示3G4G在RRC處于IDLE狀態時,時延的標準差小于400 ms的不到40%,而固網基本100%小于400 ms.圖9(d)和圖9(e)顯示3G4G在RRC不同狀態,時延的平均值距離和標準差距離小于400 ms的不到40%,而固網基本100%小于400 ms.圖9(f)顯示,在包間隔大于15 s時,3G4G流量中有超過60%的流量重傳率大于0.4,固網中該比例約為20%.

傳統網絡流量的分類方法中,開源項目WURFL(wireless universal resource file)[19]提出了一種利用HTTP報文首部中的UA (user-agent)特征字段,識別移動終端操作系統的方法.在流量分析時,使用深度包解析(DPI)的方法提取HTTP協議中的UA字段,但由于僅依賴于字符串匹配的方式,分類的準確度穩定在12%左右,分類效果遠遠低于本文的提出方法.Liu等人[20]通過匹配UA和終端操作系統的對應關系,獲得UA對應的操作系統,進而篩選出手機終端對應的移動互聯網流量.該方法對識別移動互聯網流量具有較高的正確率91.5%,但對于那些不能使用DPI分析方法的流量,例如經過隱私處理的公開數據集(如本文中使用的數據集),則無法使用.以上2種方法均通過終端操作系統識別流量,并無法區分終端的網絡接入類型,而本文方法能夠準確區分固網與3G4G網絡.

李平紅等人[21]中提出了一種基于多分類器集成的網絡流量分類算法MCSE,將每個分類器的分類結果與多個分類器的分類結果進行綜合考慮,從而有機地選擇基集成器進行集成最終的分類結果.基于不同個數的基分類器,分類準確率在91%~96%之間.若希望達到96%左右的準確率,則需要140個基分類器,時間與空間開銷較大.周文剛等人[22]中提出一種基于改進的k-means的半監督學習的流量分類識別算法,獲得更好的聚類劃分結果并利用已知標記信息完成聚類匹配過程,分類準確率在80%~90%之間,分類結果也不及本文分類方法的準確率高.

因此,本文提出的移動蜂窩網絡流量的時延特征分析與識別方法能夠較好地識別網絡的接入類型.相較傳統的網絡流量識別方法,不再是針對網絡協議類型進行分流,而是延伸至網絡的接入類型,更具有全局性與前景應用價值.同時,該方法的網絡流量分類準確率也高于傳統的其他分流方法,無需冗雜的計算過程與大量的時間空間開銷.

此外,為了進一步評估并度量各個特征在分類過程中的顯著程度和決策權重,同時針對樣本流量和實驗數據,針對流量識別分類目標,計算了6種時延特征的信息增益如圖10所示.

Fig. 10 Information gain of delay features to the classification圖10 不同時延特征對分類的信息增益

從圖10可以看出,特征C1的信息增益最大,即鏈路時延最小值對流量識別有最大的區分度,這表明移動蜂窩網絡和固網的鏈路時延下限有較為明顯的差異;特征C3,C4,C5的信息增益也較大,即RRC不同狀態下時延分布的統計特征對流量的識別也有較大貢獻;C6的信息增益較小,這是因為由于RRC空閑態導致數據重傳的包較少,捕獲概率較小,僅能作為RRC空閑態高時延的補充描述;C2的信息增益最小,主要是因為隨著移動蜂窩網絡技術的提升,其網絡質量與固網之間的距離在縮小,用戶對移動蜂窩網絡和固網的上網體驗比較接近.

在實驗過程中發現,對于IP地址存活時間較長,數據發送比較稀疏,例如手機處于屏保狀態的情況,即時通信軟件發送的流量,能較好地計算RRC處于IDLE狀態下的時延和重傳率等特性;而對于IP地址存活時間較短或一直高速收發狀態的流量,RRC處于IDLE狀態的機會較少,導致RRC特征信息量較小,甚至特征缺失.

5 結 語

本文研究了網絡用戶通過寬帶固定網絡或移動蜂窩網絡接入互聯網所產生流量的時延特征差異,并從理論上分析了2種接入方式的數據鏈路管理和鏈路協議實現機制上的差異,相應地設計了6種流量時延特征,并經過實驗確認了特征差異的存在性和顯著性.基于這些特征,使用多種有監督機器學習算法構建分類器,用于互聯網骨干網混合流量中區分移動蜂窩網絡數據流量和固定接入網絡數據流量.實驗采用公開的智能終端產生的互聯網流量數據,進行固網與3G4G流量分類和客戶端網絡鏈路識別,最高可同時獲得92%以上的準確率和召回率,體現了良好的流量時延特征描述能力.5G通信技術是4G之后的延伸,正處于研究階段,將成為未來一段時間內移動通信的中堅力量.相較3G4G網絡,5G將帶來更快的網速、更好的信號、更小的延時,但本文的研究方法立足于網絡通信中的時延特征差異,5G網絡仍然具有RRC相關的4個特征,鏈路時延最小值特征相較3G4G會更接近固網,但依舊會存在一定的差異性.同樣鏈路時延標準差也是移動網絡的主要特性,難以實現固網一樣保證網絡通信的穩定性,因此本文提出的識別方法依然適用于未來的5G移動通信.

未來針對該流量分類模型的進一步優化和完善工作包括:1)研究如何更加有效地降低網絡負載帶來的時延噪聲;2)克服不同運營商的RRC狀態轉換時間差異,提高模型在不同移動運營商網絡中的通用性;3)考慮更加精準地判斷RRC的狀態變化,嘗試將3G與4G區流量分開,或者將不同運營商的流量區分開.

猜你喜歡
固網網絡流量蜂窩
大數據驅動和分析的艦船通信網絡流量智能估計
熱塑性蜂窩板的平壓性能分析
基于雙向長短期記憶循環神經網絡的網絡流量預測
蜂窩住宅
基于大數據分析的非線性網絡流量組合預測模型*
大數據環境下的網絡流量非線性預測建模
“蜂窩”住進輪胎里
寬帶接入網技術改造的現狀及發展趨勢的淺析
淺析基于軟交換技術的網絡融合
為什么蜂窩是六角形的?等4則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合