?

一種基于QoS特征的多媒體業務區分方法

2019-12-24 07:26王再見張有健
無線電通信技術 2019年1期
關鍵詞:清流區分文獻

王再見,張有健

(安徽師范大學 物理與電子信息學院,安徽 蕪湖 241000)

0 引言

依據QoS(Quality of Service)特征,實時、準確地區分多媒體業務所屬QoS/業務類,是在泛在異構網絡中,實施QoS/業務類水平映射等網絡QoS保證操作的前提。目前,盡管網絡業務流識別已取得較多的研究工作,但基本針對特定的業務或協議(如P2P等),面向異構網絡QoS/業務類的多媒體業務識別存在不足。多媒體業務包含用戶行為、用戶間交互、信道特征、應用和協議、用戶需求及業務內容等大量內在信息,業務特征多樣,常占用大量帶寬,對其進行實時準確識別愈加困難[1]。當多媒體業務在異構網絡環境運行時,不同網絡類型是按照業務QoS需求,基于不同的QoS/業務類,提供有差異的QoS保證,因此,在實施QoS/業務類水平映射等端到端QoS操作時,面向QoS/業務類,選取有效、可行的QoS屬性作為區分特征,以提高區分的實時性和準確性,比單獨區分協議或業務更有意義。

傳統的業務識別/分類方法或依賴于不同業務所使用的端口,或基于IP包有效載荷中特征字對業務流進行識別/分類?;诙丝诘姆椒ê唵?,但準確率低?;谟行лd荷內容的方法準確度高,但很復雜,可擴展性差,而且涉及法律問題(有些內容加密、有些協議是私有的不公開,找不到特定標識)。由于上述傳統方法在加密、端口動態、協議私有及隱私保護方面考慮不足,一些數據挖掘技術或機器學習技術目前得到了廣泛的應用,它們認為網絡業務可以由一組主機/網絡行為或流水平的統計特征描述,機器學習技術可自動搜索結構模式,以對業務流進行識別/分類[2]。機器學習方法克服了傳統方法中端口動態和隱私保護問題,受到了越來越多的關注。其中基于隱馬爾可夫模型(Hidden Markov Model,HMM)的流識別方法由于實現簡單,目前得到廣泛應用[1,3],但在QoS/業務類區分效果上存在不足,部分原因在于基于HMM識別方法,同眾多數據挖掘和機器學習方法一樣,區分的準確度依賴于所選取的區分特征。因此,面向QoS/業務類,依據QoS特征,提高HMM區分多媒體業務的性能,是執行QoS/業務類水平映射等網絡操作所面臨的挑戰。

1 相關工作

由于區分特征選擇的合適與否,對提高流識別/分類算法的準確度有重要影響,近年來,相關研究人員在識別/分類網絡業務時,對多種業務區分特征進行研究,一般分為包水平特征和流水平特征。① 包水平特征:常用于微觀層次的細粒度測量,檢測每一個包的詳細信息,傳統的業務識別/分類方法常選取地址、端口、協議號和特定的應用數據,但存在準確度低和涉及隱私問題,而在典型的數據挖掘和機器學習算法中,包大小和包到達時間間隔是使用最廣泛的區分特征[3-7],但由于具有不同QoS需求的多媒體業務,在包大小分布上有高度相似性,且包到達時間間隔受網絡環境影響較大,面向QoS/業務類區分多媒體業務存在不足;② 流水平特征:用于宏觀層次的測量,需要聚集規則將包匹配到流。使用的特征包括單位時間內流的數目、流的比特率、流大小和流持續時間。但很多特征區分的有效性不足,如Flash流大多會影響流計數的波動。

文獻[3-7]都是基于包水平特征區分業務。文獻[3]基于包水平信息,利用HMM模型識別P2P業務。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分類算法[4]通過包間時間和載荷大小建立PLGMM-HMM,然后通過計算F-Measure值構造評估函數和區分業務?;贖MM模型的包分類算法[5]將包大小的分布作為HMM的每個狀態。張劍等人提出基于密度的在線噪聲空間聚類算法[6],使用包大小等參數對數據流進行識別。文獻[7]認為包大小和包間到達時間間隔是2個典型的描述業務流的參數,通過一個熵函數建立包大小的模型,完成業務流行為的特征分析。但實際數據分析表明,不同QoS需求的業務有相似的包大小,而同種類型業務的包大小分布也可能不同,包大小、包到達時間間隔作為區分特征,很難完全區分業務。相關文獻尚缺乏對上述特征的深入分析,具有局限性。

文獻[8-11]都是基于流水平特征區分業務。文獻[8]提出一種增強型遞歸流分類算法,使用了流水平的特征信息,但強調的是數據結構沒有深入討論識別特征問題。文獻[9]基于流持續時間、平均包大小等統計量,采用基于業務流特征的機器學習識別方法,其基本思想是基于業務流特征,通過使用機器學習的方法對HTTP視頻應用進行分類。借助機器學習的行為算法(Behavioral Algorithm)[10],利用Netflow記錄進行業務分類。Netflow以流記錄(Flow-Records)的形式報告網絡業務的聚集信息。文獻[11]基于流水平,利用機器學習設計了準確、可擴展的業務識別系統。流水平特征需要聚集規則將包匹配到流,受到較多因素的影響,準確描述很困難。

此外,文獻[12]綜合使用了包水平和流水平的信息,對游戲業務進行區分,提出新的基于簡單決策樹的分類方法——可選擇決策樹(Alternative Decision Tree,ADT),該方法利用了游戲應用統計的業務特征。文獻[13]綜合使用流特征和行為特征區分P2P IPTV業務。文獻[14]以基于端口的方法為基礎,通過移動至應用協議插入頭部的位置進行驗證,只要驗證一個流中第一個包的少數幾個字節就能成功進行業務分類。文獻[15]基于對文本信息和加密信息的觀察,提出利用連續比特的信息熵區分業務,但對連續比特的選取有較高要求,否則易受到網絡因素的影響,從而降低區分效果。

文獻[16]采用無監督k均值和期望最大化算法,基于二者之間的相似性對網絡流量應用進行聚類。文獻[17]中創建了一個分布式支持向量機(SVMs)框架,使用Hadoop對網絡流量進行分類。文獻[18]提出了一種基于冗余窗口的最優特征子集發現算法進行特征選擇,該算法利用生長算法發現相關特征,利用收縮算法剔除冗余特征,大大提高了算法的效率。文獻[19]介紹了一種在監督環境下選擇區間值特征的新特征排序準則,引入的特征排序準則適用于單變量區間值數據,每個特性都使用建議的排名標準進行評估并與一個分數相關聯。文獻[20]采用序列前向選擇(SFS)、序列后向選擇(SBS)和加L-R特征選擇方法嵌入判別比(FDR),對網絡流量進行分類。文獻[21]利用小波前導多重分形模型(WLMF)從業務流中提取多重分形特征來描述業務流,將基于主成分分析的FS方法應用于這些多重分形特征中,去除不相關和冗余的特征。

總而言之,盡管有很多對業務識別問題的研究,選擇的區分特征也很多,但由于多媒體新業務不斷出現,所采用的新技術使得傳統方法依然難以較好地解決識別問題,事實上目前尚沒有評估識別/分類方法準確度的基準,對其進一步的分析研究依然很有必要。

2 業務流識別和QoS/業務類區分的問題描述及機理分析

可見業務流識別和QoS/業務類區分都是通過選取合適區分特征構成規則C,將業務從業務集中區分出來,由于業務流識別是M維的分類問題,因此,很難在空間復雜度和時間復雜度上同時獲得最佳,而降低區分維數是降低解決問題復雜度的有效途徑。由于K?N,因此,可以利用QoS特征提高分類準確度,有利于減少計算的時間和空間復雜度。

3 基于HMM模型的多媒體業務QoS類區分和聚集框架

如圖1所示,具體業務區分和聚集過程為:① 獲取區分特征。要求所選取的區分特征既容易獲得,又有利于提高業務區分的有效性。選取的區分特征可以通過標準網絡設備獲取,具有較好的通用性和實用性。而在眾多特征中選取有利于提高區分有效性的特征,需要選取當前流行的多媒體業務,對主要的區分特征進行分析,具有較好的典型性。② 基于HMM區分?;贖MM較好的識別效果,本文采用HMM進行區分。重點是特征選擇,故選取典型的HMM進行QoS類區分。針對每一個QoS類,本文選取其對應的典型業務進行訓練,以獲得其相應的HMM模型;③ 聚集業務流形成聚集流。由于屬于同一種QoS類的業務流,具有相同或相近的QoS要求,本文聚集具有相同或相近QoS要求的業務流,形成聚集流,并賦予全局唯一的標簽;④ 完成映射。根據QoS空間的投影關系,確定標簽對應的聚集流所歸屬的QoS類,這是下一步工作。

圖1 基于HMM模型的多媒體業務流QoS類區分和聚集框架

4 典型特征分析及選擇

目前在通信業務中占據較大份額的多媒體業務具有較高的QoS要求。在典型的網絡中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相應的QoS類支持區分服務。而目前典型的業務區分方法主要區分協議和應用,對QoS保證考慮不足,忽略了QoS屬性的全局特性,即多媒體業務在不同網絡中流特征是變化的,但用戶接收的QoS由最差的網絡決定。因此,從QoS角度分析多媒體業務特征,基于QoS特征區分QoS類具有重要意義。

基于典型性和可實現性的考慮,本文在實驗室使用Wireshark捕獲4種多媒體業務:QQ、標清流媒體(592*252)、高清流媒體(768*326)和游戲。QQ為目前流行的即時通信工具,標清流媒體和高清流媒體是從優酷視頻隨機獲得,游戲為歐美3D動態網游《時空裂痕》。這4種業務具有較高QoS需求,目前較流行,但是在不同QoS域中屬于不同的QoS類。如在UMTS中,QQ和游戲屬于會話類,標清流媒體與高清流媒體屬于流媒體類。在WiMAX2 中QQ屬于UGS(Unsolicited Grant Service)服務類,游戲屬于AGP(Adaptive Granting and Polling Service)服務類,標清流媒體與高清流媒體屬于rtPS(Real-time Polling Service)服務類。捕獲數據時,接收端利用Wireshark分別獨立捕獲4種業務的數據流。捕獲數據過程中,發送端源端持續發送業務流。以下給出4種多媒體業務,在近10 min內幾種典型特征的統計分布情況。

4種業務包大小分布歸化后的分布情況如圖2所示。由圖2可知,高清流媒體業務(Streamchaoqing)和游戲在包大小分布的指標上相近,小包和大包的分布較均衡。而QQ視頻業務中小于100 Byte的小包最多(達到近80%),超過1 300 Byte的大包較少(不到5%)。標清流媒體業務有超過85%的包大于1 300 Byte,在小于100 Byte的小包分布上,標清流媒體業務與高清流媒體業務及游戲相近??梢缘玫揭韵陆Y論:包大小在區分QQ和標清流媒體業務時,具有較好的區分效果,但區分游戲和高清流媒體業務的效果較差。此外,標清流媒體和高清流媒體在包大小分布具有較明顯的差異,盡管流媒體內容相同(僅選取的分辨率不同),也被歸為2個不同的類別。而在UMTS等網絡域中,流媒體常歸屬為同一種QoS類??梢?,包大小特征不適合用于QoS類的區分。

圖2 4種典型業務的包大小分布

4種業務包到達時間間隔對數分布如圖3所示。由圖3可知,標清和高清流媒體業務具有相近的到達時間間隔分布,且到達時間間隔高于QQ與游戲業務,這是由于QQ與游戲屬于交互式實時業務,其對時間的QoS要求高于流媒體業務,符合各類型網絡QoS類的區分。此外,游戲的到達時間間隔明顯小于QQ業務,與WiMAX2中的QoS分類一致??紤]到提供不同業務的服務器可能分布于不同網絡,數據包所走的路徑并不一樣,且在實際網絡中很難準確獲得各業務流路徑信息。此外,網絡中存在分組丟失、亂序和重傳等因素,也影響了包到達時間間隔分布。因此,依據到達時間間隔分布區分具體業務具有局限性。鑒于業務的端到端QoS性能,由傳輸路徑上眾網絡節點中提供最低QoS指標的節點決定,因此,執行域間QoS類映射時,依據當前的包到達時間間隔區分QoS類,較區分業務更為合理。

圖3 4種業務包到達時間間隔對數分布

4種業務歸化吞吐量對數分布如圖4所示。由圖4可知,高清流媒體業務的吞吐量波動較大,這是由于高清多媒體業務對帶寬要求較高,當網絡負荷輕時,高清多媒體得以高速傳輸,此時有較大的吞吐量。但當網絡負荷重時,高清流媒體服務處于等待狀態,此時吞吐量近乎為零。

圖4 4種業務歸化吞吐量對數分布

需要說明的是,在一定時間段內,這種不穩定的情況也影響了包大小分布的統計,在業務區分時需要考慮這一情況。標清流媒體業務吞吐量較高清多媒體業務穩定,這是由于標清流媒體對帶寬要求低于高清流媒體業務。由于流媒體業務允許緩沖,可以看到其吞吐量在時間軸上出現斷續現象,當吞吐量為零時,說明流媒體處于緩沖狀態。QQ和游戲業務的吞吐量較低、波動平穩,這是由QQ和游戲業務對帶寬需求較低,但對延時要求較高的特點決定的。但從吞吐量指標上,無法對QQ和游戲業務進行區分。

在抖動方面,抖動也可以作為一個重要的區分特征。一般來說,QQ和游戲的抖動要求高于流媒體,游戲業務的抖動最小,標清流媒體最大,且相對穩定。而高清流媒體和QQ視頻的抖動分布相近,但也相對集中。

綜上可以得出不同特征在區分4種業務時的特點,如表1所示。

表1 4種業務在4個特征下的分布狀況

5 基于HMM的多媒體業務QoS類區分方法

首先將采集的業務流特征序列統計處理,將經處理后得到的特征向量當作觀測值,為每一類業務擬合一HMM;然后計算各類業務在不同模型下的產生概率;最后對特征進行聚類劃分并構造和訓練各類應用的分布模型。上述過程采用典型的基于HMM的流識別算法[4],算法流程如圖5所示。

詳細描述如下:

① 初始化:依據特征分析結果,為每類業務設計一個HMM模型。

② 聚類分析:采用K均值(K-means)聚類算法對QoS特征進行動態聚類。K均值算法選定初始聚類中心,按類內距在特征空間距離最小,類間距在特征空間距離最大的原則進行聚類。

④ 判決輸出:將提取的未知多媒體流QoS特征序列依次輸入每個HMM,分別計算各個模型產生該觀測序列的概率,然后根據最大似然準則,選擇概率最大的模型作為最合適該觀測序列的模型。

6 仿真實驗

目前,盡管HMM在網絡業務流識別中已進行較多的研究工作[3-5],但區分的粒度不一致,區分特征有差異,區分目標不相同,且由于沒有基準的數據集可用,所使用的訓練/測試數據集相差較大,且很難獲得,給算法性能評估帶來困難。鑒于本文主要關注基于QoS特征區分多媒體業務,所以使用Wireshark從實際網絡中捕獲幾種典型的多媒體業務數據,作為樣本流,用于評估本文所選特征和文獻[3-5]中所選取區分特征的識別性能。

由于游戲、即時通信和流媒體在目前網絡業務中占據較大的份額,本節選擇4類流行的多媒體業務:即時通信類、標清類流媒體、高清類流媒體和游戲類業務,分別為它們建立HMM以識別其業務流,并與已有識別方法文獻[3-5]進行比較。即時通信類由QQ和MSN業務組成,通過Wireshark在實驗室獲取。游戲類由《時空裂痕》和《三國》組成,由 Wireshark在實驗室獲取。標清類流媒體和高清類流媒體則是從優酷網站隨機獲得。

6.1 實驗環境及方法

校園網通過100 Mbit/s光纜與CERNET連接,測試主機的CPU為 AMD Athlon(tm) X2 DualCore QL-64,主頻2.1 GHz,內存大小為1 GB。在校園網內設置各應用的客戶端,在測試階段分別獨立運行。運行Wireshark捕獲分組,得到包括前100 Byte應用層數據在內的分組信息。為了比較分析HMM的識別能力,使用人工結合Wireshark捕獲的分組信息和各業務客戶端運行信息,基于端口、特征字和業務流特征,以離線方式識別分組流所屬應用,并假定人工分析的結果是正確的。

6.2 創建HMM

在校園網中采集樣本流并進行人工識別,將已識別的流分為訓練樣本和離線測試樣本,其統計信息如表2所示。針對樣本,依據經驗,設置HMM的狀態數目為N=4,每個狀態對應的觀測值數目M=3(高、中、低),即對所有多媒體業務QoS特征抖動和吞吐量,利用K平均聚類算法聚成3類。利用訓練集為不同業務類型構造獨立的HMM。

表2 樣本統計信息

為了考察特征對QoS類區分的影響,分別采用上面特征分析中的不同特征組合進行區分,結果如表3所示。

表3 本文方法與文獻[3-5]方法在區分QoS類有效性上的對比

由表3可知,在現有數據集下,本文選取的區分特征為吞吐量和抖動時,4種業務的區分準確度較高,而現有方法選取區分特征為包大小和包到達時間間隔時,業務區分效果較差。

綜上可知,對基于QoS/業務類的應用(如QoS/業務類水平映射、異構網絡端到端QoS保證及網絡資源優化等),現有的業務流識別方法在特征選擇上區分效果不足,基于業務的QoS特征區分業務更為合理,這是因為QoS指標直接影響用戶體驗,關系到業務能否被用戶接受,體現業務最本質的要求。

7 結束語

目前,隨著新業務的大量出現和網絡吞吐量的急劇增加,QoS/業務類區分的緊迫性已愈來愈為人們所認識,通過QoS/業務類區分來為相關網絡操作提供保證,是當前網絡在市場和技術雙重驅動下的發展趨勢。本文提出從QoS特征角度區分典型應用,實現業務類別的區分;基于新發現的QoS特征,設計了一種新的基于HMM的多媒體業務類區分方法。由于QoS/業務類區分是一個長期演進、復雜而龐大的問題,相關研究也處于不斷發展的階段,一些其他關鍵問題,例如,統一的識別策略建立、業務流模式自學習等問題,還需要今后進一步深入的研究。

猜你喜歡
清流區分文獻
靈活區分 正確化簡
Hostile takeovers in China and Japan
玉溪 滇中的清流如玉
富有地域特色的清流客家三角戲——以供坊村三角戲為例
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
怎樣區分天空中的“彩虹”
——日暈
怎么區分天空中的“彩虹”
做一股“清流”
區分“我”和“找”
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合