?

一種基于序列特征的Skype流量識別方法

2016-11-22 01:57王康利李軍政
電子設計工程 2016年15期
關鍵詞:信令數據包流量

王康利,黃 海,李軍政

(國家數字交換系統工程技術研究中心 河南 鄭州 450002)

一種基于序列特征的Skype流量識別方法

王康利,黃 海,李軍政

(國家數字交換系統工程技術研究中心 河南 鄭州 450002)

作為最受歡迎的基于P2P技術的VOIP客戶端,Skype采用專有通信協議及多種高強度的加密技術保證通信安全,具有很強的保密性和便捷性。為了準確識別Skype流量,本文在分析Skype電話網絡結構和通信協議的基礎上,提出了一種基于序列特征的 Skype流量識別方法,并設計和驗證了相應的實驗系統。實驗結果表明,該實驗系統具有很高的識別效率。

P2P;Skype;序列特征;流量識別

對等網絡(Peer to Peer,P2P)[1],是一種新型通信模式。在P2P網絡環境中,所有節點都動態參與到路由、信息處理和帶寬增強等工作中,而不是單純依靠中心服務器來完成這些工作。作為P2P網絡演進到混合模式后的典型應用,Skype[2]的出現給用戶帶了諸多便利。Skype可以提供多項服務,如語音通話、文字傳輸、語音通話,視頻會議等。據TeleGeography[3]研究數據顯示,2010年Skype通話時長已占全球國際通話總時長的25%。Skype用戶免費通話時長和計費市場累計已經超過了2500億分鐘。目前,Skype已經擁有6.63億的注冊用戶,同時在線超過3000萬。然而,Skype以P2P技術為基礎的特點也帶來了占用網絡帶寬,加重網絡負載等眾多問題。因此,Skype流量識別對優化網絡環境和提供差異化服務等具有重要的意義。

1 相關工作

當前針對Skype網絡流量識別研究工作已經有了一定的基礎。文獻[4]率先對Skype協議進行了較全面的解析,研究了Skype網絡拓撲結構并分析了skype在不同網絡狀況下行為特征。文獻[5-7]對skype的研究主要集中在網絡架構和身份驗證階段。文獻[8]提出了一種識別Skype轉播流(經超級節點轉發)的方法,但沒有考慮識別直播流,識別策略不完善。文獻[9]提出了基于UDP傳輸的Skype報文未被整體加密的重要特征,并結合使用貝葉斯分類器針對Skype具有的VOIP統計特性識別Skype流量,但該方法只對UDP流進行了識別,忽略了基于TCP傳輸的信令流。文獻[10]也忽略了TCP信令流的識別。文獻[11]提出了一種識別Skype流的實時算法Skype-Hunter,該算法的設計運用了傳統特征字識別法和基于行為特征的識別技術,實驗證明此算法性能優于傳統統計流量分類器。文獻[12-13]分別設計出了單包特征和包序列特征自動生成系統,提出了Skype流新特征。

目前,Skype流量識別研究面臨的困難主要有:1)網絡拓撲復雜性。Skype是基于P2P技術的由普通節點、超級節點、登錄服務器等構成的VOIP網絡,Skype采用不同的通信模型進行信息傳輸,導致了Skype流量的復雜性。2)協議復雜性。Skype屬于商業軟件,采用各種私用協議通信。Skype沒有公開的協議規范。3)加密復雜性。Skype通信過程中廣泛采用了加密技術、混淆技術等,為Skype流量識別增加了難度。如Skype采用動態端口進行數據傳輸,使傳統端口識別法不再適用。

2 skype協議分析

本節將簡要分析Skype網絡體系結構、通信機制及通信時的媒體流特征。

2.1 skype網絡體系結構

Skype采用的是混合式P2P模型,結合了集中式結構和分布式拓撲的優點,網絡中存在中間服務器,用戶節點是分布的。在分布式模式的基礎上引入了超級節點(Super Node,SN)和普通節點((User Node,UN)的概念。Skype的體系結構如圖1所示[14]。

圖1 Skype網絡體系結構

注冊服務器是Skype惟一的中間服務器,它負責完成客戶端的注冊,存儲并管理用戶名和密碼信息,當用戶登錄系統時,對用戶進行身份認證。注冊服務器還需要檢驗并保證用戶名的全球惟一性;普通節點即普通主機終端,只需要下載了Skype的應用,就具有提供語音呼叫和文本消息傳送的能力;超級節點類似于普通節點的網絡網關,所有普通必須與超級節點連接,并向 Skype的登錄服務器注冊以加入Skype網絡。超級節點實際是滿足某些要求的普通節點,這些要求包括:具有公網地址、具有足夠的CPU、存儲空間足夠大、具有足夠的網絡帶寬。也就是說,任何符合條件的主機終端都可以成為超級節點,當然前提是加載了Skype應用。Skype的網體系結構圖是我們后續研究工作的基礎框架。

2.2 Skype媒體流特征

Skype的信息傳輸包括語音通信、視頻會議、文件傳輸等。如果Skype通信雙方都位于公眾網中,雙方SCs之間使用TCP傳輸信令流,使用 UDP包直接進行數據交換;如果一方位于防火墻之后或私有網絡中,那么私有網絡一方首先要同公網中的 SN建立 TCP鏈接,然后由 SN進行數據轉發;如果雙方都位于防火墻之后或私有網絡中,那么雙方的數據都需要 SN進行轉發[15]。Skype在整個通信過程中采用了專有的通信協議及多種高強度的加密技術保證通信安全。然而,作為一種網絡通信服務,提供實時、良好的通信質量也非常重要。為了減少解密過程復雜性,Skype僅僅在傳輸層以上采用專有協議,且基于UDP的Skype報文沒有整體加密,凈荷頭部具有一定的規律。在本文中,我們將采用文獻[8]中包序列特征生成系統 APSC (automated packet-sequence signature construction)發現Skype媒體流特征。

圖2 Skype媒體流序列特征狀態圖

經實驗表明,Skype媒體流具有如圖2所示的序列特征狀態圖。圖中S0代表初始狀態,Sn,n=1,2,3,4表示Skype媒體流的凈荷負載的第三字節的值(具體如表1所示),箭頭表示兩個狀態間的序列變換??梢钥闯龌赨DP協議的Skype流負載的第三字節值一般局限于一定范圍內 (0x02,0x0d~0x7d,0x0f~0x7f,0x05~0x75),且UDP流的第一個數據包第三字節為0x02,最后一個數據包的第三字節通常在 “0x0d~0x7d”之間。

表1 Skype媒體流序列的第三字節特征值

3 基于序列特征的Skype應用識別系統設計

結合以上對 Skype的研究分析,文中提出了基于綜合流序列特征和IP地址匹配的Skype流量識別方法。Skype應用識別一方面要對數據進行采集和預處理;另一方面要對采集到的預處理后的數據運用Skype應用識別策略進行網絡流量識別,從而對各種類型的網絡流量進行不同的統計分析與處理,兩者并行處理。圖3為Skype流量識別系統框架。

與此框架圖形對應的識別流程圖如圖4所示。具體的識別原理為:

1)首先對獲取的網絡數據包進行分流處理;

2)利用圖2中所提出的Skype媒體流序列特征與采集到的網絡流量進行匹配,可以識別出相應的Skype媒體流量;

3)基于UDP協議的Skype信令流的所有數據包的第三字節必然為02這一特點,可以識別出Skype的UDP信令包;

4)由于Skype的TCP信令包所請求的IP地址大多為UDP包所請求過的IP地址,又根據Skype數據中TCP和UDP對通信雙方總有一方使用同一Skype端口這一特點,可以得出數據包中只要源IP+Port和目的IP+Port兩者一個在Skype的IP+Po rt庫中,就可判定為Skype的TCP包信令包。

4 實驗及結果分析

1)實驗環境(數據集)

①本實驗是在解放軍信息工程大學重點實驗室進行的,實驗數據取自數據采集終端。由于檢測速度等原因,本實驗采用非實時檢測 (在數據采集終端上開啟 wireshark抓包軟件獲取數據,將捕獲到的數據包信息存儲至數據庫中,然后對數據庫中的記錄進行檢測識別)。

圖3 Skype流量識別系統框架

圖4 Skype流量識別流程圖

②為了不失一般性,實驗數據應盡可能涵蓋多種網絡環境(windows,linux),每臺PC上運行各種常見的網絡應用,主要包括:Web瀏覽器軟件,FTP文本傳輸客戶端,SMTP簡單郵件傳輸,迅雷下載軟件,騰訊 QQ聊天軟件,Skype軟件等,為后續的識別工作準備足夠的數據。獲取的數據中包括Skype數據包以及一些其他應用的數據包。

2)性能指標

本文使用正確率(precision)和召回率(recall)來衡量識別系統性能:正確率指在Skype流量識別實驗中被正確識別的Skype通信數據所占識別為Skype通信量的比率;召回率指在skype流量識別實驗中被正確識別的Skype通信量數據占總Skype通信量的比率。

3)實驗結果及分析

從表2可以看出,Skype的UDP數據包識別正確率和召回率可達98%以上,TCP包的識別效果略低于UDP包,但也可達97%以上。實驗結果證明,本文所提出的識別系統具有很高的準確率,可用于Skype流量識別。

表2 實驗結果

5 結束語

文中通過對Skype協議內部結構及其通信機制的研究,提出了基于綜合序列特征識別法和IP地址相關識別法的Skype應用識別框架并進行了實驗驗證。實驗結果表明,本文提出的Skype流量識別方法,能夠對 Skype流量進行準確識別,指導網絡管理和優化網絡性能,進而為Skype應用技術的改進提供理論指導。目前,關于Skype協議的研究仍然存在很多問題,如Skype版本的不斷更新可能引起的Skype特征及通信機制的變化,純 TCP的 Skype流量識別等。而且,現在很多關于 Skype協議分析的文章都是基于真實網絡數據分析,無法得知協議的全貌。這些問題都有待進一步研究。

[1]魯剛,張宏莉,葉麟.P2P流量識別[J].軟件學報,2011,22(6):1281-1298.

[2]Skype website[EB/OL]Available from:http://www.Skype.com.

[3]TeleGeography website[EB/OL].Available from:http://www.Telegeography.com.

[4]Baset SA,Schulzrinne HG.An analysis of the Skype peerto-peer internet telephony protocol[C]//INFOCOM’06: Proceedings of the 25th IEEE International Conference on Computer Communications 2006.

[5]Alshammari R,Zincir-Heywood A N.Unveiling skype encrypted tunnels using GP[J].IEEE CEC,2010:1-8.

[6]Zhang D,Zheng C,Zhang H,et al.Identification andAnalysis of Skype Peer-to-Peer Traffic[C]//5th International Conference on Internet and Web Applications and Services,2010:200-206.

[7]Branch P A,Heyde A,Armitage G J.Rapid identification of skype traffic flows[J].Proc.of the 18th Int.Work.on Net.and Operating Systems Support for Digital Audio and Video,2009:91-96.

[8]Suh K,Figueiredo DR.,Kurose J,Towsley D.Characterizing and detecting skype-relayed traffic[C]//Proceedings of IEEE INFOCOM,Barcelona,Spain,2006.

[9]Bonfiglio D,mellia M,Meo M,et al.Revealing skype traffic: when randomness plays with you[J].ACM Sigcomm Computer Computer Communacation Review,2007,37(4):37-48.

[10]孫瑞錦,許博,周玉明.一種實時檢測基于 UDP的 Skype語音流的算法[J].解放軍理工大學學報:自然科學版,2008(10):507-511.

[11]Adami D,Callegari C,Giordano S,et al.Pepe.kypehunter:A real-time system for the detection and classication of skype traffic[J].International Journal of Communication Systems.2012,25(3):386-403.

[12]Ye M,Xu K,Wu J,et al.Autosig-automatically generating signatures for application[C]//in proc.of IEEE CIT,2009.

[13]Yuan Z,Xue Y,Dong Y.Harvesting unique characteristics in packet sequences for effective application classication[C]// in Proc.of IEEE CNS,2013.

[14]王振華,王攀,張順頤.基于綜合統計特征的Skype流量分析與識別[J].南京郵電大學學報,2006,26(1):1-7.

[15]Sándor Molnár and Marcell Perényi.On the identification and analysis of Skype traffic[J].INternational JOurnal of Communication Systems,2011(24):94-117.

Identification method of Skype traffic based on sequence signatures

WANG Kang-li,HUANG Hai,LI Jun-zheng
(China National Digital Switching System Engineering&Technological R&D Center,Zhengzhou 450002,China)

As one of the most popular VOIP client based on P2P technology,Skype uses proprietary communication protocol and a variety of high-strength encryption technology to ensure the safety communication,so it has strong confidentiality and convenience.To identify the skype traffic accurately,on the basis of the analysis of Skype network structure and the foundation of the communication protocol,a identification strategy was proposed via the unique sequence signatures.Then,we design and implement the practical system.The experimental results show that our practical system with high efficiency in identifying Skype flows.

P2P;Skype;sequence signatures;traffic identification

TN912.3

A

1674-6236(2016)15-0013-03

2016-01-14 稿件編號:201601101

國家科技支撐計劃(2014BAH30B01);國家自然科學基金(61379151);創新群體項目資助(61521003)

王康利(1993—),女,河南新鄉人,碩士研究生。研究方向:智能信息處理、信息安全。

猜你喜歡
信令數據包流量
冰墩墩背后的流量密碼
二維隱蔽時間信道構建的研究*
張曉明:流量決定勝負!三大流量高地裂變無限可能!
民用飛機飛行模擬機數據包試飛任務優化結合方法研究
尋找書業新流量
SLS字段在七號信令中的運用
移動信令在交通大數據分析中的應用探索
SmartSniff
基于信令分析的TD-LTE無線網絡應用研究
LTE網絡信令采集數據的分析及探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合