?

一種基于QoS特征的多媒體業務區分方法

2019-12-24 07:26王再見張有健

無線電通信技術 2019年1期

關鍵詞：清流區分文獻

王再見，張有健

(安徽師范大學物理與電子信息學院,安徽蕪湖 241000)

0 引言

依據QoS(Quality of Service)特征，實時、準確地區分多媒體業務所屬QoS/業務類，是在泛在異構網絡中，實施QoS/業務類水平映射等網絡QoS保證操作的前提。目前，盡管網絡業務流識別已取得較多的研究工作，但基本針對特定的業務或協議(如P2P等)，面向異構網絡QoS/業務類的多媒體業務識別存在不足。多媒體業務包含用戶行為、用戶間交互、信道特征、應用和協議、用戶需求及業務內容等大量內在信息，業務特征多樣，常占用大量帶寬，對其進行實時準確識別愈加困難[1]。當多媒體業務在異構網絡環境運行時，不同網絡類型是按照業務QoS需求，基于不同的QoS/業務類，提供有差異的QoS保證，因此，在實施QoS/業務類水平映射等端到端QoS操作時，面向QoS/業務類，選取有效、可行的QoS屬性作為區分特征，以提高區分的實時性和準確性，比單獨區分協議或業務更有意義。

傳統的業務識別/分類方法或依賴于不同業務所使用的端口，或基于IP包有效載荷中特征字對業務流進行識別/分類?；诙丝诘姆椒ê唵?，但準確率低?；谟行лd荷內容的方法準確度高，但很復雜，可擴展性差，而且涉及法律問題(有些內容加密、有些協議是私有的不公開，找不到特定標識)。由于上述傳統方法在加密、端口動態、協議私有及隱私保護方面考慮不足，一些數據挖掘技術或機器學習技術目前得到了廣泛的應用，它們認為網絡業務可以由一組主機/網絡行為或流水平的統計特征描述，機器學習技術可自動搜索結構模式，以對業務流進行識別/分類[2]。機器學習方法克服了傳統方法中端口動態和隱私保護問題，受到了越來越多的關注。其中基于隱馬爾可夫模型(Hidden Markov Model,HMM)的流識別方法由于實現簡單，目前得到廣泛應用[1,3]，但在QoS/業務類區分效果上存在不足，部分原因在于基于HMM識別方法，同眾多數據挖掘和機器學習方法一樣，區分的準確度依賴于所選取的區分特征。因此，面向QoS/業務類，依據QoS特征，提高HMM區分多媒體業務的性能，是執行QoS/業務類水平映射等網絡操作所面臨的挑戰。

1 相關工作

由于區分特征選擇的合適與否，對提高流識別/分類算法的準確度有重要影響，近年來，相關研究人員在識別/分類網絡業務時，對多種業務區分特征進行研究，一般分為包水平特征和流水平特征。① 包水平特征：常用于微觀層次的細粒度測量，檢測每一個包的詳細信息，傳統的業務識別/分類方法常選取地址、端口、協議號和特定的應用數據，但存在準確度低和涉及隱私問題，而在典型的數據挖掘和機器學習算法中，包大小和包到達時間間隔是使用最廣泛的區分特征[3-7]，但由于具有不同QoS需求的多媒體業務，在包大小分布上有高度相似性，且包到達時間間隔受網絡環境影響較大，面向QoS/業務類區分多媒體業務存在不足；② 流水平特征：用于宏觀層次的測量，需要聚集規則將包匹配到流。使用的特征包括單位時間內流的數目、流的比特率、流大小和流持續時間。但很多特征區分的有效性不足，如Flash流大多會影響流計數的波動。

文獻[3-7]都是基于包水平特征區分業務。文獻[3]基于包水平信息，利用HMM模型識別P2P業務。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分類算法[4]通過包間時間和載荷大小建立PLGMM-HMM，然后通過計算F-Measure值構造評估函數和區分業務?；贖MM模型的包分類算法[5]將包大小的分布作為HMM的每個狀態。張劍等人提出基于密度的在線噪聲空間聚類算法[6]，使用包大小等參數對數據流進行識別。文獻[7]認為包大小和包間到達時間間隔是2個典型的描述業務流的參數，通過一個熵函數建立包大小的模型，完成業務流行為的特征分析。但實際數據分析表明，不同QoS需求的業務有相似的包大小，而同種類型業務的包大小分布也可能不同，包大小、包到達時間間隔作為區分特征，很難完全區分業務。相關文獻尚缺乏對上述特征的深入分析，具有局限性。

文獻[8-11]都是基于流水平特征區分業務。文獻[8]提出一種增強型遞歸流分類算法，使用了流水平的特征信息，但強調的是數據結構沒有深入討論識別特征問題。文獻[9]基于流持續時間、平均包大小等統計量，采用基于業務流特征的機器學習識別方法，其基本思想是基于業務流特征，通過使用機器學習的方法對HTTP視頻應用進行分類。借助機器學習的行為算法(Behavioral Algorithm)[10]，利用Netflow記錄進行業務分類。Netflow以流記錄(Flow-Records)的形式報告網絡業務的聚集信息。文獻[11]基于流水平，利用機器學習設計了準確、可擴展的業務識別系統。流水平特征需要聚集規則將包匹配到流，受到較多因素的影響，準確描述很困難。

此外，文獻[12]綜合使用了包水平和流水平的信息，對游戲業務進行區分，提出新的基于簡單決策樹的分類方法——可選擇決策樹(Alternative Decision Tree,ADT)，該方法利用了游戲應用統計的業務特征。文獻[13]綜合使用流特征和行為特征區分P2P IPTV業務。文獻[14]以基于端口的方法為基礎，通過移動至應用協議插入頭部的位置進行驗證，只要驗證一個流中第一個包的少數幾個字節就能成功進行業務分類。文獻[15]基于對文本信息和加密信息的觀察，提出利用連續比特的信息熵區分業務，但對連續比特的選取有較高要求，否則易受到網絡因素的影響，從而降低區分效果。

文獻[16]采用無監督k均值和期望最大化算法，基于二者之間的相似性對網絡流量應用進行聚類。文獻[17]中創建了一個分布式支持向量機(SVMs)框架，使用Hadoop對網絡流量進行分類。文獻[18]提出了一種基于冗余窗口的最優特征子集發現算法進行特征選擇，該算法利用生長算法發現相關特征，利用收縮算法剔除冗余特征，大大提高了算法的效率。文獻[19]介紹了一種在監督環境下選擇區間值特征的新特征排序準則，引入的特征排序準則適用于單變量區間值數據，每個特性都使用建議的排名標準進行評估并與一個分數相關聯。文獻[20]采用序列前向選擇(SFS)、序列后向選擇(SBS)和加L-R特征選擇方法嵌入判別比(FDR)，對網絡流量進行分類。文獻[21]利用小波前導多重分形模型(WLMF)從業務流中提取多重分形特征來描述業務流，將基于主成分分析的FS方法應用于這些多重分形特征中，去除不相關和冗余的特征。

總而言之，盡管有很多對業務識別問題的研究，選擇的區分特征也很多，但由于多媒體新業務不斷出現，所采用的新技術使得傳統方法依然難以較好地解決識別問題，事實上目前尚沒有評估識別/分類方法準確度的基準，對其進一步的分析研究依然很有必要。

2 業務流識別和QoS/業務類區分的問題描述及機理分析

可見業務流識別和QoS/業務類區分都是通過選取合適區分特征構成規則C，將業務從業務集中區分出來，由于業務流識別是M維的分類問題，因此，很難在空間復雜度和時間復雜度上同時獲得最佳，而降低區分維數是降低解決問題復雜度的有效途徑。由于K?N，因此，可以利用QoS特征提高分類準確度，有利于減少計算的時間和空間復雜度。

3 基于HMM模型的多媒體業務QoS類區分和聚集框架

如圖1所示，具體業務區分和聚集過程為：① 獲取區分特征。要求所選取的區分特征既容易獲得，又有利于提高業務區分的有效性。選取的區分特征可以通過標準網絡設備獲取，具有較好的通用性和實用性。而在眾多特征中選取有利于提高區分有效性的特征，需要選取當前流行的多媒體業務，對主要的區分特征進行分析，具有較好的典型性。② 基于HMM區分?；贖MM較好的識別效果，本文采用HMM進行區分。重點是特征選擇，故選取典型的HMM進行QoS類區分。針對每一個QoS類，本文選取其對應的典型業務進行訓練，以獲得其相應的HMM模型；③ 聚集業務流形成聚集流。由于屬于同一種QoS類的業務流，具有相同或相近的QoS要求，本文聚集具有相同或相近QoS要求的業務流，形成聚集流，并賦予全局唯一的標簽；④ 完成映射。根據QoS空間的投影關系，確定標簽對應的聚集流所歸屬的QoS類，這是下一步工作。

圖1 基于HMM模型的多媒體業務流QoS類區分和聚集框架

4 典型特征分析及選擇

目前在通信業務中占據較大份額的多媒體業務具有較高的QoS要求。在典型的網絡中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相應的QoS類支持區分服務。而目前典型的業務區分方法主要區分協議和應用，對QoS保證考慮不足，忽略了QoS屬性的全局特性，即多媒體業務在不同網絡中流特征是變化的，但用戶接收的QoS由最差的網絡決定。因此，從QoS角度分析多媒體業務特征，基于QoS特征區分QoS類具有重要意義。

基于典型性和可實現性的考慮，本文在實驗室使用Wireshark捕獲4種多媒體業務：QQ、標清流媒體(592*252)、高清流媒體(768*326)和游戲。QQ為目前流行的即時通信工具，標清流媒體和高清流媒體是從優酷視頻隨機獲得，游戲為歐美3D動態網游《時空裂痕》。這4種業務具有較高QoS需求，目前較流行，但是在不同QoS域中屬于不同的QoS類。如在UMTS中，QQ和游戲屬于會話類，標清流媒體與高清流媒體屬于流媒體類。在WiMAX2 中QQ屬于UGS(Unsolicited Grant Service)服務類，游戲屬于AGP(Adaptive Granting and Polling Service)服務類，標清流媒體與高清流媒體屬于rtPS(Real-time Polling Service)服務類。捕獲數據時，接收端利用Wireshark分別獨立捕獲4種業務的數據流。捕獲數據過程中，發送端源端持續發送業務流。以下給出4種多媒體業務，在近10 min內幾種典型特征的統計分布情況。

4種業務包大小分布歸化后的分布情況如圖2所示。由圖2可知，高清流媒體業務(Streamchaoqing)和游戲在包大小分布的指標上相近，小包和大包的分布較均衡。而QQ視頻業務中小于100 Byte的小包最多(達到近80%)，超過1 300 Byte的大包較少(不到5%)。標清流媒體業務有超過85%的包大于1 300 Byte，在小于100 Byte的小包分布上，標清流媒體業務與高清流媒體業務及游戲相近?？梢缘玫揭韵陆Y論：包大小在區分QQ和標清流媒體業務時，具有較好的區分效果，但區分游戲和高清流媒體業務的效果較差。此外，標清流媒體和高清流媒體在包大小分布具有較明顯的差異，盡管流媒體內容相同(僅選取的分辨率不同)，也被歸為2個不同的類別。而在UMTS等網絡域中，流媒體常歸屬為同一種QoS類?？梢?，包大小特征不適合用于QoS類的區分。

圖2 4種典型業務的包大小分布

4種業務包到達時間間隔對數分布如圖3所示。由圖3可知，標清和高清流媒體業務具有相近的到達時間間隔分布，且到達時間間隔高于QQ與游戲業務，這是由于QQ與游戲屬于交互式實時業務，其對時間的QoS要求高于流媒體業務，符合各類型網絡QoS類的區分。此外，游戲的到達時間間隔明顯小于QQ業務，與WiMAX2中的QoS分類一致?？紤]到提供不同業務的服務器可能分布于不同網絡，數據包所走的路徑并不一樣，且在實際網絡中很難準確獲得各業務流路徑信息。此外，網絡中存在分組丟失、亂序和重傳等因素，也影響了包到達時間間隔分布。因此，依據到達時間間隔分布區分具體業務具有局限性。鑒于業務的端到端QoS性能，由傳輸路徑上眾網絡節點中提供最低QoS指標的節點決定，因此，執行域間QoS類映射時，依據當前的包到達時間間隔區分QoS類，較區分業務更為合理。

圖3 4種業務包到達時間間隔對數分布

4種業務歸化吞吐量對數分布如圖4所示。由圖4可知，高清流媒體業務的吞吐量波動較大，這是由于高清多媒體業務對帶寬要求較高，當網絡負荷輕時，高清多媒體得以高速傳輸，此時有較大的吞吐量。但當網絡負荷重時，高清流媒體服務處于等待狀態，此時吞吐量近乎為零。

圖4 4種業務歸化吞吐量對數分布

需要說明的是，在一定時間段內，這種不穩定的情況也影響了包大小分布的統計，在業務區分時需要考慮這一情況。標清流媒體業務吞吐量較高清多媒體業務穩定，這是由于標清流媒體對帶寬要求低于高清流媒體業務。由于流媒體業務允許緩沖，可以看到其吞吐量在時間軸上出現斷續現象，當吞吐量為零時，說明流媒體處于緩沖狀態。QQ和游戲業務的吞吐量較低、波動平穩，這是由QQ和游戲業務對帶寬需求較低，但對延時要求較高的特點決定的。但從吞吐量指標上，無法對QQ和游戲業務進行區分。

在抖動方面，抖動也可以作為一個重要的區分特征。一般來說，QQ和游戲的抖動要求高于流媒體，游戲業務的抖動最小，標清流媒體最大，且相對穩定。而高清流媒體和QQ視頻的抖動分布相近，但也相對集中。

綜上可以得出不同特征在區分4種業務時的特點，如表1所示。

表1 4種業務在4個特征下的分布狀況

5 基于HMM的多媒體業務QoS類區分方法

首先將采集的業務流特征序列統計處理，將經處理后得到的特征向量當作觀測值，為每一類業務擬合一HMM；然后計算各類業務在不同模型下的產生概率；最后對特征進行聚類劃分并構造和訓練各類應用的分布模型。上述過程采用典型的基于HMM的流識別算法[4]，算法流程如圖5所示。

詳細描述如下：

① 初始化：依據特征分析結果，為每類業務設計一個HMM模型。

② 聚類分析：采用K均值(K-means)聚類算法對QoS特征進行動態聚類。K均值算法選定初始聚類中心，按類內距在特征空間距離最小，類間距在特征空間距離最大的原則進行聚類。

④ 判決輸出：將提取的未知多媒體流QoS特征序列依次輸入每個HMM，分別計算各個模型產生該觀測序列的概率，然后根據最大似然準則，選擇概率最大的模型作為最合適該觀測序列的模型。

6 仿真實驗

目前，盡管HMM在網絡業務流識別中已進行較多的研究工作[3-5]，但區分的粒度不一致，區分特征有差異，區分目標不相同，且由于沒有基準的數據集可用，所使用的訓練/測試數據集相差較大，且很難獲得，給算法性能評估帶來困難。鑒于本文主要關注基于QoS特征區分多媒體業務，所以使用Wireshark從實際網絡中捕獲幾種典型的多媒體業務數據，作為樣本流，用于評估本文所選特征和文獻[3-5]中所選取區分特征的識別性能。

由于游戲、即時通信和流媒體在目前網絡業務中占據較大的份額，本節選擇4類流行的多媒體業務：即時通信類、標清類流媒體、高清類流媒體和游戲類業務，分別為它們建立HMM以識別其業務流，并與已有識別方法文獻[3-5]進行比較。即時通信類由QQ和MSN業務組成，通過Wireshark在實驗室獲取。游戲類由《時空裂痕》和《三國》組成，由 Wireshark在實驗室獲取。標清類流媒體和高清類流媒體則是從優酷網站隨機獲得。

6.1 實驗環境及方法

校園網通過100 Mbit/s光纜與CERNET連接，測試主機的CPU為 AMD Athlon(tm) X2 DualCore QL-64，主頻2.1 GHz，內存大小為1 GB。在校園網內設置各應用的客戶端，在測試階段分別獨立運行。運行Wireshark捕獲分組，得到包括前100 Byte應用層數據在內的分組信息。為了比較分析HMM的識別能力，使用人工結合Wireshark捕獲的分組信息和各業務客戶端運行信息，基于端口、特征字和業務流特征，以離線方式識別分組流所屬應用，并假定人工分析的結果是正確的。

6.2 創建HMM

在校園網中采集樣本流并進行人工識別，將已識別的流分為訓練樣本和離線測試樣本，其統計信息如表2所示。針對樣本，依據經驗，設置HMM的狀態數目為N=4，每個狀態對應的觀測值數目M=3(高、中、低)，即對所有多媒體業務QoS特征抖動和吞吐量，利用K平均聚類算法聚成3類。利用訓練集為不同業務類型構造獨立的HMM。

表2 樣本統計信息

為了考察特征對QoS類區分的影響，分別采用上面特征分析中的不同特征組合進行區分，結果如表3所示。

表3 本文方法與文獻[3-5]方法在區分QoS類有效性上的對比

由表3可知，在現有數據集下，本文選取的區分特征為吞吐量和抖動時，4種業務的區分準確度較高，而現有方法選取區分特征為包大小和包到達時間間隔時，業務區分效果較差。

綜上可知，對基于QoS/業務類的應用(如QoS/業務類水平映射、異構網絡端到端QoS保證及網絡資源優化等)，現有的業務流識別方法在特征選擇上區分效果不足，基于業務的QoS特征區分業務更為合理，這是因為QoS指標直接影響用戶體驗，關系到業務能否被用戶接受，體現業務最本質的要求。

7 結束語

目前，隨著新業務的大量出現和網絡吞吐量的急劇增加，QoS/業務類區分的緊迫性已愈來愈為人們所認識，通過QoS/業務類區分來為相關網絡操作提供保證，是當前網絡在市場和技術雙重驅動下的發展趨勢。本文提出從QoS特征角度區分典型應用，實現業務類別的區分；基于新發現的QoS特征，設計了一種新的基于HMM的多媒體業務類區分方法。由于QoS/業務類區分是一個長期演進、復雜而龐大的問題，相關研究也處于不斷發展的階段，一些其他關鍵問題，例如，統一的識別策略建立、業務流模式自學習等問題，還需要今后進一步深入的研究。

猜你喜歡

清流區分文獻

靈活區分正確化簡

小學生學習指導(高年級)(2022年10期)2022-11-04

Hostile takeovers in China and Japan

速讀·下旬(2021年11期)2021-10-12

玉溪滇中的清流如玉

云南畫報(2021年4期)2021-07-22

富有地域特色的清流客家三角戲——以供坊村三角戲為例

戲曲研究(2021年4期)2021-06-05

Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph

大東方(2019年12期)2019-10-20

怎樣區分天空中的“彩虹”
——日暈

奧秘(創新大賽)(2019年4期)2019-04-15

怎么區分天空中的“彩虹”

奧秘(創新大賽)(2019年3期)2019-03-13

做一股“清流”

華聲(2018年9期)2018-10-18

區分“我”和“找”

作文評點報·低幼版(2018年17期)2018-07-12

The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges

科學與財富(2017年22期)2017-09-10

無線電通信技術2019年1期

無線電通信技術的其它文章: 未授權頻段中D2D通信的隨機幾何分析; 賦能通信技術原理及應用展望; 衛星隱蔽信號波形設計與仿真; 一體化衛星通信網絡管理平臺設計; 一種高精度均勻取樣算法及其網絡應用; 基于順序統計量的索引調制信號檢測方法

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合