王再見,張有健
(安徽師范大學 物理與電子信息學院,安徽 蕪湖 241000)
依據QoS(Quality of Service)特征,實時、準確地區分多媒體業務所屬QoS/業務類,是在泛在異構網絡中,實施QoS/業務類水平映射等網絡QoS保證操作的前提。目前,盡管網絡業務流識別已取得較多的研究工作,但基本針對特定的業務或協議(如P2P等),面向異構網絡QoS/業務類的多媒體業務識別存在不足。多媒體業務包含用戶行為、用戶間交互、信道特征、應用和協議、用戶需求及業務內容等大量內在信息,業務特征多樣,常占用大量帶寬,對其進行實時準確識別愈加困難[1]。當多媒體業務在異構網絡環境運行時,不同網絡類型是按照業務QoS需求,基于不同的QoS/業務類,提供有差異的QoS保證,因此,在實施QoS/業務類水平映射等端到端QoS操作時,面向QoS/業務類,選取有效、可行的QoS屬性作為區分特征,以提高區分的實時性和準確性,比單獨區分協議或業務更有意義。
傳統的業務識別/分類方法或依賴于不同業務所使用的端口,或基于IP包有效載荷中特征字對業務流進行識別/分類?;诙丝诘姆椒ê唵?,但準確率低?;谟行лd荷內容的方法準確度高,但很復雜,可擴展性差,而且涉及法律問題(有些內容加密、有些協議是私有的不公開,找不到特定標識)。由于上述傳統方法在加密、端口動態、協議私有及隱私保護方面考慮不足,一些數據挖掘技術或機器學習技術目前得到了廣泛的應用,它們認為網絡業務可以由一組主機/網絡行為或流水平的統計特征描述,機器學習技術可自動搜索結構模式,以對業務流進行識別/分類[2]。機器學習方法克服了傳統方法中端口動態和隱私保護問題,受到了越來越多的關注。其中基于隱馬爾可夫模型(Hidden Markov Model,HMM)的流識別方法由于實現簡單,目前得到廣泛應用[1,3],但在QoS/業務類區分效果上存在不足,部分原因在于基于HMM識別方法,同眾多數據挖掘和機器學習方法一樣,區分的準確度依賴于所選取的區分特征。因此,面向QoS/業務類,依據QoS特征,提高HMM區分多媒體業務的性能,是執行QoS/業務類水平映射等網絡操作所面臨的挑戰。
由于區分特征選擇的合適與否,對提高流識別/分類算法的準確度有重要影響,近年來,相關研究人員在識別/分類網絡業務時,對多種業務區分特征進行研究,一般分為包水平特征和流水平特征。① 包水平特征:常用于微觀層次的細粒度測量,檢測每一個包的詳細信息,傳統的業務識別/分類方法常選取地址、端口、協議號和特定的應用數據,但存在準確度低和涉及隱私問題,而在典型的數據挖掘和機器學習算法中,包大小和包到達時間間隔是使用最廣泛的區分特征[3-7],但由于具有不同QoS需求的多媒體業務,在包大小分布上有高度相似性,且包到達時間間隔受網絡環境影響較大,面向QoS/業務類區分多媒體業務存在不足;② 流水平特征:用于宏觀層次的測量,需要聚集規則將包匹配到流。使用的特征包括單位時間內流的數目、流的比特率、流大小和流持續時間。但很多特征區分的有效性不足,如Flash流大多會影響流計數的波動。
文獻[3-7]都是基于包水平特征區分業務。文獻[3]基于包水平信息,利用HMM模型識別P2P業務。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分類算法[4]通過包間時間和載荷大小建立PLGMM-HMM,然后通過計算F-Measure值構造評估函數和區分業務?;贖MM模型的包分類算法[5]將包大小的分布作為HMM的每個狀態。張劍等人提出基于密度的在線噪聲空間聚類算法[6],使用包大小等參數對數據流進行識別。文獻[7]認為包大小和包間到達時間間隔是2個典型的描述業務流的參數,通過一個熵函數建立包大小的模型,完成業務流行為的特征分析。但實際數據分析表明,不同QoS需求的業務有相似的包大小,而同種類型業務的包大小分布也可能不同,包大小、包到達時間間隔作為區分特征,很難完全區分業務。相關文獻尚缺乏對上述特征的深入分析,具有局限性。
文獻[8-11]都是基于流水平特征區分業務。文獻[8]提出一種增強型遞歸流分類算法,使用了流水平的特征信息,但強調的是數據結構沒有深入討論識別特征問題。文獻[9]基于流持續時間、平均包大小等統計量,采用基于業務流特征的機器學習識別方法,其基本思想是基于業務流特征,通過使用機器學習的方法對HTTP視頻應用進行分類。借助機器學習的行為算法(Behavioral Algorithm)[10],利用Netflow記錄進行業務分類。Netflow以流記錄(Flow-Records)的形式報告網絡業務的聚集信息。文獻[11]基于流水平,利用機器學習設計了準確、可擴展的業務識別系統。流水平特征需要聚集規則將包匹配到流,受到較多因素的影響,準確描述很困難。
此外,文獻[12]綜合使用了包水平和流水平的信息,對游戲業務進行區分,提出新的基于簡單決策樹的分類方法——可選擇決策樹(Alternative Decision Tree,ADT),該方法利用了游戲應用統計的業務特征。文獻[13]綜合使用流特征和行為特征區分P2P IPTV業務。文獻[14]以基于端口的方法為基礎,通過移動至應用協議插入頭部的位置進行驗證,只要驗證一個流中第一個包的少數幾個字節就能成功進行業務分類。文獻[15]基于對文本信息和加密信息的觀察,提出利用連續比特的信息熵區分業務,但對連續比特的選取有較高要求,否則易受到網絡因素的影響,從而降低區分效果。
文獻[16]采用無監督k均值和期望最大化算法,基于二者之間的相似性對網絡流量應用進行聚類。文獻[17]中創建了一個分布式支持向量機(SVMs)框架,使用Hadoop對網絡流量進行分類。文獻[18]提出了一種基于冗余窗口的最優特征子集發現算法進行特征選擇,該算法利用生長算法發現相關特征,利用收縮算法剔除冗余特征,大大提高了算法的效率。文獻[19]介紹了一種在監督環境下選擇區間值特征的新特征排序準則,引入的特征排序準則適用于單變量區間值數據,每個特性都使用建議的排名標準進行評估并與一個分數相關聯。文獻[20]采用序列前向選擇(SFS)、序列后向選擇(SBS)和加L-R特征選擇方法嵌入判別比(FDR),對網絡流量進行分類。文獻[21]利用小波前導多重分形模型(WLMF)從業務流中提取多重分形特征來描述業務流,將基于主成分分析的FS方法應用于這些多重分形特征中,去除不相關和冗余的特征。
總而言之,盡管有很多對業務識別問題的研究,選擇的區分特征也很多,但由于多媒體新業務不斷出現,所采用的新技術使得傳統方法依然難以較好地解決識別問題,事實上目前尚沒有評估識別/分類方法準確度的基準,對其進一步的分析研究依然很有必要。
可見業務流識別和QoS/業務類區分都是通過選取合適區分特征構成規則C,將業務從業務集中區分出來,由于業務流識別是M維的分類問題,因此,很難在空間復雜度和時間復雜度上同時獲得最佳,而降低區分維數是降低解決問題復雜度的有效途徑。由于K?N,因此,可以利用QoS特征提高分類準確度,有利于減少計算的時間和空間復雜度。
如圖1所示,具體業務區分和聚集過程為:① 獲取區分特征。要求所選取的區分特征既容易獲得,又有利于提高業務區分的有效性。選取的區分特征可以通過標準網絡設備獲取,具有較好的通用性和實用性。而在眾多特征中選取有利于提高區分有效性的特征,需要選取當前流行的多媒體業務,對主要的區分特征進行分析,具有較好的典型性。② 基于HMM區分?;贖MM較好的識別效果,本文采用HMM進行區分。重點是特征選擇,故選取典型的HMM進行QoS類區分。針對每一個QoS類,本文選取其對應的典型業務進行訓練,以獲得其相應的HMM模型;③ 聚集業務流形成聚集流。由于屬于同一種QoS類的業務流,具有相同或相近的QoS要求,本文聚集具有相同或相近QoS要求的業務流,形成聚集流,并賦予全局唯一的標簽;④ 完成映射。根據QoS空間的投影關系,確定標簽對應的聚集流所歸屬的QoS類,這是下一步工作。
圖1 基于HMM模型的多媒體業務流QoS類區分和聚集框架
目前在通信業務中占據較大份額的多媒體業務具有較高的QoS要求。在典型的網絡中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相應的QoS類支持區分服務。而目前典型的業務區分方法主要區分協議和應用,對QoS保證考慮不足,忽略了QoS屬性的全局特性,即多媒體業務在不同網絡中流特征是變化的,但用戶接收的QoS由最差的網絡決定。因此,從QoS角度分析多媒體業務特征,基于QoS特征區分QoS類具有重要意義。
基于典型性和可實現性的考慮,本文在實驗室使用Wireshark捕獲4種多媒體業務:QQ、標清流媒體(592*252)、高清流媒體(768*326)和游戲。QQ為目前流行的即時通信工具,標清流媒體和高清流媒體是從優酷視頻隨機獲得,游戲為歐美3D動態網游《時空裂痕》。這4種業務具有較高QoS需求,目前較流行,但是在不同QoS域中屬于不同的QoS類。如在UMTS中,QQ和游戲屬于會話類,標清流媒體與高清流媒體屬于流媒體類。在WiMAX2 中QQ屬于UGS(Unsolicited Grant Service)服務類,游戲屬于AGP(Adaptive Granting and Polling Service)服務類,標清流媒體與高清流媒體屬于rtPS(Real-time Polling Service)服務類。捕獲數據時,接收端利用Wireshark分別獨立捕獲4種業務的數據流。捕獲數據過程中,發送端源端持續發送業務流。以下給出4種多媒體業務,在近10 min內幾種典型特征的統計分布情況。
4種業務包大小分布歸化后的分布情況如圖2所示。由圖2可知,高清流媒體業務(Streamchaoqing)和游戲在包大小分布的指標上相近,小包和大包的分布較均衡。而QQ視頻業務中小于100 Byte的小包最多(達到近80%),超過1 300 Byte的大包較少(不到5%)。標清流媒體業務有超過85%的包大于1 300 Byte,在小于100 Byte的小包分布上,標清流媒體業務與高清流媒體業務及游戲相近??梢缘玫揭韵陆Y論:包大小在區分QQ和標清流媒體業務時,具有較好的區分效果,但區分游戲和高清流媒體業務的效果較差。此外,標清流媒體和高清流媒體在包大小分布具有較明顯的差異,盡管流媒體內容相同(僅選取的分辨率不同),也被歸為2個不同的類別。而在UMTS等網絡域中,流媒體常歸屬為同一種QoS類??梢?,包大小特征不適合用于QoS類的區分。
圖2 4種典型業務的包大小分布
4種業務包到達時間間隔對數分布如圖3所示。由圖3可知,標清和高清流媒體業務具有相近的到達時間間隔分布,且到達時間間隔高于QQ與游戲業務,這是由于QQ與游戲屬于交互式實時業務,其對時間的QoS要求高于流媒體業務,符合各類型網絡QoS類的區分。此外,游戲的到達時間間隔明顯小于QQ業務,與WiMAX2中的QoS分類一致??紤]到提供不同業務的服務器可能分布于不同網絡,數據包所走的路徑并不一樣,且在實際網絡中很難準確獲得各業務流路徑信息。此外,網絡中存在分組丟失、亂序和重傳等因素,也影響了包到達時間間隔分布。因此,依據到達時間間隔分布區分具體業務具有局限性。鑒于業務的端到端QoS性能,由傳輸路徑上眾網絡節點中提供最低QoS指標的節點決定,因此,執行域間QoS類映射時,依據當前的包到達時間間隔區分QoS類,較區分業務更為合理。
圖3 4種業務包到達時間間隔對數分布
4種業務歸化吞吐量對數分布如圖4所示。由圖4可知,高清流媒體業務的吞吐量波動較大,這是由于高清多媒體業務對帶寬要求較高,當網絡負荷輕時,高清多媒體得以高速傳輸,此時有較大的吞吐量。但當網絡負荷重時,高清流媒體服務處于等待狀態,此時吞吐量近乎為零。
圖4 4種業務歸化吞吐量對數分布
需要說明的是,在一定時間段內,這種不穩定的情況也影響了包大小分布的統計,在業務區分時需要考慮這一情況。標清流媒體業務吞吐量較高清多媒體業務穩定,這是由于標清流媒體對帶寬要求低于高清流媒體業務。由于流媒體業務允許緩沖,可以看到其吞吐量在時間軸上出現斷續現象,當吞吐量為零時,說明流媒體處于緩沖狀態。QQ和游戲業務的吞吐量較低、波動平穩,這是由QQ和游戲業務對帶寬需求較低,但對延時要求較高的特點決定的。但從吞吐量指標上,無法對QQ和游戲業務進行區分。
在抖動方面,抖動也可以作為一個重要的區分特征。一般來說,QQ和游戲的抖動要求高于流媒體,游戲業務的抖動最小,標清流媒體最大,且相對穩定。而高清流媒體和QQ視頻的抖動分布相近,但也相對集中。
綜上可以得出不同特征在區分4種業務時的特點,如表1所示。
表1 4種業務在4個特征下的分布狀況
首先將采集的業務流特征序列統計處理,將經處理后得到的特征向量當作觀測值,為每一類業務擬合一HMM;然后計算各類業務在不同模型下的產生概率;最后對特征進行聚類劃分并構造和訓練各類應用的分布模型。上述過程采用典型的基于HMM的流識別算法[4],算法流程如圖5所示。
詳細描述如下:
① 初始化:依據特征分析結果,為每類業務設計一個HMM模型。
② 聚類分析:采用K均值(K-means)聚類算法對QoS特征進行動態聚類。K均值算法選定初始聚類中心,按類內距在特征空間距離最小,類間距在特征空間距離最大的原則進行聚類。
④ 判決輸出:將提取的未知多媒體流QoS特征序列依次輸入每個HMM,分別計算各個模型產生該觀測序列的概率,然后根據最大似然準則,選擇概率最大的模型作為最合適該觀測序列的模型。
目前,盡管HMM在網絡業務流識別中已進行較多的研究工作[3-5],但區分的粒度不一致,區分特征有差異,區分目標不相同,且由于沒有基準的數據集可用,所使用的訓練/測試數據集相差較大,且很難獲得,給算法性能評估帶來困難。鑒于本文主要關注基于QoS特征區分多媒體業務,所以使用Wireshark從實際網絡中捕獲幾種典型的多媒體業務數據,作為樣本流,用于評估本文所選特征和文獻[3-5]中所選取區分特征的識別性能。
由于游戲、即時通信和流媒體在目前網絡業務中占據較大的份額,本節選擇4類流行的多媒體業務:即時通信類、標清類流媒體、高清類流媒體和游戲類業務,分別為它們建立HMM以識別其業務流,并與已有識別方法文獻[3-5]進行比較。即時通信類由QQ和MSN業務組成,通過Wireshark在實驗室獲取。游戲類由《時空裂痕》和《三國》組成,由 Wireshark在實驗室獲取。標清類流媒體和高清類流媒體則是從優酷網站隨機獲得。
校園網通過100 Mbit/s光纜與CERNET連接,測試主機的CPU為 AMD Athlon(tm) X2 DualCore QL-64,主頻2.1 GHz,內存大小為1 GB。在校園網內設置各應用的客戶端,在測試階段分別獨立運行。運行Wireshark捕獲分組,得到包括前100 Byte應用層數據在內的分組信息。為了比較分析HMM的識別能力,使用人工結合Wireshark捕獲的分組信息和各業務客戶端運行信息,基于端口、特征字和業務流特征,以離線方式識別分組流所屬應用,并假定人工分析的結果是正確的。
在校園網中采集樣本流并進行人工識別,將已識別的流分為訓練樣本和離線測試樣本,其統計信息如表2所示。針對樣本,依據經驗,設置HMM的狀態數目為N=4,每個狀態對應的觀測值數目M=3(高、中、低),即對所有多媒體業務QoS特征抖動和吞吐量,利用K平均聚類算法聚成3類。利用訓練集為不同業務類型構造獨立的HMM。
表2 樣本統計信息
為了考察特征對QoS類區分的影響,分別采用上面特征分析中的不同特征組合進行區分,結果如表3所示。
表3 本文方法與文獻[3-5]方法在區分QoS類有效性上的對比
由表3可知,在現有數據集下,本文選取的區分特征為吞吐量和抖動時,4種業務的區分準確度較高,而現有方法選取區分特征為包大小和包到達時間間隔時,業務區分效果較差。
綜上可知,對基于QoS/業務類的應用(如QoS/業務類水平映射、異構網絡端到端QoS保證及網絡資源優化等),現有的業務流識別方法在特征選擇上區分效果不足,基于業務的QoS特征區分業務更為合理,這是因為QoS指標直接影響用戶體驗,關系到業務能否被用戶接受,體現業務最本質的要求。
目前,隨著新業務的大量出現和網絡吞吐量的急劇增加,QoS/業務類區分的緊迫性已愈來愈為人們所認識,通過QoS/業務類區分來為相關網絡操作提供保證,是當前網絡在市場和技術雙重驅動下的發展趨勢。本文提出從QoS特征角度區分典型應用,實現業務類別的區分;基于新發現的QoS特征,設計了一種新的基于HMM的多媒體業務類區分方法。由于QoS/業務類區分是一個長期演進、復雜而龐大的問題,相關研究也處于不斷發展的階段,一些其他關鍵問題,例如,統一的識別策略建立、業務流模式自學習等問題,還需要今后進一步深入的研究。