?

基于高階圖卷積自編碼器的網絡流量預測

2020-01-05 05:37崔兆陽李昭樺
計算技術與自動化 2020年4期

崔兆陽 李昭樺

摘? ?要:網絡流量預測是有效保障用戶QoS措施之一。當前深度學習為基礎的網絡算法預測中沒有充分利用網絡拓撲信息。為此,提出了基于高階圖卷積自編碼器的網絡流量預測模型。該流量預測模型基于軟件定義網絡(SDN)架構,利用高階圖卷積網絡(GCN)獲取網絡拓撲中的多跳鄰域之間的流量相互影響關系,采用門控遞歸單元(GRU)獲取網絡的時間相關性信息,利用自編碼模型來實現無監督學習和預測。在Abilene網絡上采用真實數據進行了仿真對比分析試驗,結果表明,提出的方法在網絡流量檢測方面的MAPE值為41.56%,低于其它深度學習的方法,同時預測準確率方面也達到最優。

關鍵詞:流量檢測;高階圖卷積;GRU自編碼器;網絡擁塞預測

中圖分類號:TP39? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A

Network Traffic Prediction Based on k-hops

Graph Convolutinal Autoencoder

CUI Zhao-yang1,LI Zhao-hua2

(1. Guangzhou Power Supply Bureau Co.,Ltd.,Guangzhou,Guangdong 510620,China;

2. Guangdong Electric Power Design and Research Institute Co.,Ltd.,China Energy Construction Group,

Guangzhou,Guangdong 510663,China)

Abstract:Network traffic prediction is one of the effective way to improve user QoS. The network topology information is not fully utilized in current network algorithm prediction. A network traffic detection model based on high order graph convolutional network algorithm is proposed,and further predicts network congestion based on traffic information. The traffic prediction model utilizes the graph convolutional to capture the mix-hop effect of traffic. And the gated recurrent unit (GRU) obtains the time correlation information of the traffic in the network. The autoencoder model implements the unsupervised learning and traffic prediction. The simulation experiment is on the real data of the network Abilene. The experimental results show that the mean absolute percentage error(MAPE) value of the method in network traffic detection is 41.56%,which is lower 1.64% than DCRNN methods,at the same time,the prediction accuracy is also optimal.

Key words:network traffic detection;k-hops graph neural network;GRU autoencoder;network traffic prediction

隨著5G的發展,電信網絡變得越來越復雜,擁有準確及時的流量預測對于大多數網絡運營/管理任務至關重要,如網絡異常檢測、流量計費、短時流量調度或重新路由,長期容量規劃,網絡設計[1-3]。由于網絡流量具有自相似性、多量級、長距離依賴性和高度非線性,這些統計特征決定了網絡流量具有可預測性[4]。通??紤]兩類基于長期和短期的預測方法,長期流量預測用于估計未來的容量需求,從而實現更有效的規劃決策。短期流量預測(即,在幾分鐘甚至幾秒內的預測)通常與動態資源分配相關聯,并且可用于改進服務質量(QoS)機制以及擁塞控制和最佳資源管理。

電信網絡的拓撲結構是具有圖網絡結構性質的,路由器和交換機構成網絡的節點。電信網絡的流量是在節點之間交換并跨越網絡鏈路。通過網絡節點的流量與網絡節點的相鄰鏈接的節點相互影響,即相鄰的節點彼此之間的流量具有相關性。 例如,已經發生擁塞鏈路的相鄰鏈路中發生擁塞的可能性更大。盡管當前有很多方法在對網絡流量進行預測,但是,這些傳統機器學習算法并沒有考慮電信網絡的拓撲結構[1-2]。

為此,提出了基于圖網絡自編碼器的網絡流量預測方法。與傳統的流量預測相比較,所提出的方法利用圖網絡獲取網絡拓撲屬性,通過自編碼方式來解決網絡流量的數據標簽標記的問題。在真實數據集上與以CNN為基礎的預測方法、LSTM(Long Short Term Memory networks)方法等相比,所提出的方法有明顯的優勢。

1? ?相關工作

高帶寬和低延遲則是以5G網絡發展的需求,因此,準確預測網絡流量[1,2,5-7]對于網絡運營商來說至關重要,因為它可以實現資源的高效管理和負載平衡。隨著深度學習技術的發展,將深度學習算法引入到網絡流量主動預測成為一個備受關注的研究方向[2,8-11]?;谥鲃泳W絡流量預測方法允許提供商根據用戶需求來進行網絡資源優化和分配,滿足用戶對網絡QoS的要求。

Nie等[2]采用深度學習架構來探索網絡流量的動態特性,提出了一種基于鏈路計數和路由信息統計的深度信念網絡流量預測方法。Zhuo等[12]提出了一種基于時間序列自相關系數分析的預測模型,以提高預測的準確性。在考慮模型參數的自相關特征的基礎上,實現了長短期記憶(LSTM)與遞歸神經網絡(RNN)相結合的預測算法。Azzouni等[6]提出了一種基于LSTM RNN的網絡流量矩陣預測框架。他們利用該框架驗證了來自GEANT網絡的真實數據框架,顯示出非常低的均方誤差。

Liu等[13]提出了一種將卷積和循環模塊結合起來的端到端深度學習架構,該架構可以從網絡流量提取空間和時間信息。Cao等提出[14]了一種門控遞歸單元(GRU)和卷積神經網絡(CNN)的組合,用于數據中心的網絡流量預測任務。Lei等[5]提出了利用深度自編碼器來對網絡流量進行預測。Alawe等[3]中通過遞歸神經網絡(RNN)方法研究了5G網絡的前傳和回程資源流量估計。

然而上述的這些基于深度學習在網絡流量預測中將網絡作為歐式空間數據對待,都沒有明確考慮網絡的拓撲信息。而通信網絡屬于非規則的拓撲結構,傳統的CNN和RNN難以有效地提取網絡相關信息[15]。Li等[16]采用提出基于圖結構數據網絡的擴散卷積遞歸神經網絡來捕獲交通網絡中的時空相關性,實現對交通流量的預測。Wang等[17]將整個城市道路網絡采用圖網絡進行建模,采用圖回歸神經網絡(GraphRNN,GRNN)來對整個網絡信息進行分析,實現對所有路段的交通流量預測,并可對未來的交通流量趨勢進行預測。Troia等[18]利用GRU編碼器來對網絡流量進行預測分析。

網絡中的流量分布與網絡的拓撲結構密切相關,某一節點的網絡擁塞不僅與該節點相關,同時與該節點相連的網絡通路都相關。為此,將利用高階圖卷積模型來分析鄰域網絡通路對網絡流量的影響。

2? ?系統模型

2.1? ?問題描述

在電信網絡流量預測中,采用深度學習的方法來進行預測,即根據網絡中的歷史流量負荷來預測未來的網絡流量負荷。假設網絡的交換設備都支持SDN,則SDN控制器可以實時地動態感知網絡各個節點的流量負載。

電信骨干網絡是網狀拓撲結構,其中的路由器和交換機可以認為是網絡中的節點,交換設備之間的光纖等物理網絡可以認為是拓撲網絡中的邊。假設節點之間交換的流量根據最短路徑進行路由。在時間t時刻,SDN控制器感知的網絡各個節點的流量負荷可以表示為矩陣X(t)∈RM×1≥0,其中M是網絡的鏈路數。

網絡的流量矩陣序列{X(1),X(2),…,X(k),X(k+1),X(k+2),…}具有時間和空間的相關性,因此可以通過歷史的流量矩陣序列來對未來的流量進行預估。傳統的機器學習方法如線性回歸等,以及RNN、LSTM等深度學習方法可以實現預測。但這些預測方法僅僅考慮了流量矩陣X(t)的時間相關性,而沒有考慮流量矩陣所蘊含的空間拓撲邏輯關系。

網絡的拓撲信息可以用圖(Graph) G來表示,網絡節點的鄰接矩陣A,經過網絡的流量表示為X(t)。則網絡拓撲的預測問題可以表示為:

X(t+j)=P(A,X(t-1),X(t-2),…,X(t-i))? ?(1)

其中,P表示流量預測器,i表示用于預測的歷史時間段,j表示未來待預測的時間段。預測問題表示的含義為,未來j時刻的網絡流量,可以用過去的i個時間段的流量來進行預測。

網絡的流量不僅與當前時刻的流量相關,同時與相鄰的節點也相關。即網絡流量存在時空相關性,因此,預測器P需要能夠同時考慮網絡的時空相關性。

2.2? ?門控遞歸單元(GRU)網絡

遞歸神經網絡(RNN)作為一種特殊的神經網絡模型結構,解決了歷史信息保存的問題。通過RNN的結構,神經元跟蹤過去的信息并用它來影響當前時刻的輸出,使其適用于預測時間序列數據。但是,由于RNN存在梯度消失的問題[19],LSTM是一種特殊的RNN類型被廣泛應用到時間序列預測。門控遞歸單元遞歸神經網絡(GRU RNN)[20],是LSTM的簡化模型,GRU 是新一代的循環神經網絡,與 LSTM 非常相似。與 LSTM 相比,GRU 去除掉了細胞狀態,使用隱藏狀態來進行信息的傳遞。它只包含兩個門:更新門和重置門。其中,更新門的作用類似于 LSTM 中的遺忘門和輸入門,它決定了要忘記哪些信息以及哪些新信息需要被添加。重置門作用是決定遺忘先前信息的程度。GRU 的張量運算較少,因此它比 LSTM 的訓練更快。

GRU狀態更新過程[20]如下:

zt = σ(Wz·[ht-1,xt])? ? ?(2)

rt = σ(Wr·[ht-1,xt])? ? ?(3)

■t = tanh(W·[rt * ht-1,xt])? ? ?(4)

ht = (1 - zt)*ht-1 + zt * ■t? ? ?(5)

2.3 高階混合圖網絡自編碼模型(GGRU-AE)

通信網絡是一種典型的圖結構網絡。假設通信網絡的節點集合用V表示,圖中邊的集合用E表示,如果節點Vi和Vj相連則Eij = 1,否則為 。則通信網絡的拓撲可以表示為G = (V,E)。假設網絡傳遞的信息表示為X∈RN × P,其中N為網絡中節點的個數,P為節點傳遞的信息的維數。網絡節點的鄰域權重矩陣A∈RN × N為實對稱矩陣,網絡節點的度矩陣為對角矩陣,可以表示為Dii = ∑j Aij。網絡的圖拉普拉斯矩陣定義L = D - A,其正則化表示為Ls = D■LD■。

信息X在通信網絡中的傳播過程采用LSTM或者CNN的方式較為容易處理??紤]到信息X在網絡G中的傳遞過程與網絡的鄰域權重矩陣相關,同時信息傳遞過程為每個節點對所有其他節點的影響提供了重要的線索。在擴散卷積遞歸神經網絡中[16],只考慮了一階形式來定義信息傳遞的過程,這將與實際的情況有差距,因此,在研究中采用高階形式來定義信息傳播過程。信號X∈RN × P在圖網絡中的傳遞過程為信息X與圖濾波器fθ卷積過程,定義如下:

X*g fθ = ■(θk,1(D■AD■)k +

θk,2(D■AD■)k)·X? ? ?(6)

其中,*g表示圖卷積,θ∈Rk×3是濾波器的參數,D■AD■是擴散過程的狀態轉移矩陣,參數C為常數,不同的C表示鄰域的階數。

假設■ = D■AD■,則(D■AD■)k = ■k。當c=2時,按照文獻[21]的方法將式(6)展開形式為:

X*g fθ = (θ1,1 ■ + θ1,2 ■)·X+(θ2,1 ■2 + θ2,2 ■2)·X

= ■XW1 + ■2XW2? ? ? ?(7)

其中,W1 = θ1,1? + θ1,2 ,W2 = θ2,1? + θ2,2。如果選擇的階數c越大,對于大尺度的圖網絡中,直接計算■k將是消耗大量的計算資源,■kXWk = ■(■k-1XWk)的迭代方式降低計算復雜度。

信息的傳遞卷積算子采用基于GRU的傳遞卷積層來構建,可實現將信號矩陣X∈RN×P映射到傳播輸出矩陣H∈RN×Q:

H:,q = σ(■X:,q* fθq,p,:,:),?坌q∈{1,…,Q}? ? (8)

其中,θ∈RQ×P×K×3為可訓練權重參數的高階張量表示形式。

與經典的GRU狀態更新過程(2)~(5)相似,采用高階擴散圖卷積的信息傳遞GRU的結構也與圖1相同,只是相關的參數變為張量。張量GRU的狀態更新[16]實現過程定義如下:

r(t) = σ(θr*g [H(t-1),X(t)] + br)? ? (9)

■(t) = tanh(θt*g [(r(t)⊙H(t-1)),X(t)]+bt)

(10)

Z(t) = σ(θz*g [H(t-1),X(t)] + bz)? ? (11)

H(t)=Z(t)⊙■(t)+(1-Z(t))⊙H(t-1) (12)

其中,r(t)為復位門的輸出,■(t)為GRU狀態,

Z(t)為更新門的輸出,⊙為張量乘法。待訓練的參數為θr,θt和θz及對應的偏置br,bt和bz。訓練過程采用梯度下降法。

在GRU和高階GCN的基礎上,提出的GGRU-AE模型框架如圖2所示。模型以高階圖卷積層為基本單元,包括編碼器和解碼器。模型的輸入為圖網絡的流量矩陣虛擬{X(t-i)},輸出值為預測值H(t + j)。

模型的訓練階段包括預訓練和微調兩階段。在預訓練中,采用逐層貪婪(Greedy Layer-Wise)無監督學習算法來訓練網絡模型。在參數微調階段采用基于梯度的優化技術反向傳播算法進行模型參數微調。

3? ?實驗及結果分析

3.1? ?數據集

為了評估提出GGRU-AE模型,采用公開的真實數據集Abilene網絡來進行評估。Abilene網絡的拓撲結構如圖3所示,該網絡的包含12個交換節點和30條節點之間的物理鏈路(可以認為是12個節點,15條邊的有向圖)。因此,可以根據這些公開信息構建出網絡的鄰接矩陣及其圖拉普拉斯矩陣。

從Abilene網絡的拓撲結構信息,可以獲得了一個12×12的鄰接矩陣,表示其節點與網絡鏈路唯一關聯的圖形。為了方便后續的流量預測,對鄰接矩陣中實際存在的節點連接進行編碼。即圖網絡可以構建為矩陣形式,該矩陣為稀疏矩陣,其中的30個值為非零,其余的值為0。非零的值代表Abilene網絡中的物理相鏈接。

在真實數據集Abilene網絡公開了網絡節點的流量數據,本文選擇2004年3月1日到2004年9月10日期間的網絡節點的5分鐘間隙的公開數據流量作為測試驗證數據集。采用文獻[1]的方法對數據進行預處理。

假設Abilene網絡中任意兩個節點之間的路由采用最短路徑路由算法Dijkstra。根據公開的流量數據信息及網絡拓撲信息,可以計算獲得以1個小時為時間度量單位的網絡流量聚合信息,這些信息反映每條鏈路每個小時的流量信息。將每一個小時構建為輸入矢量X(t) = {x1(t),…,x30(t)}。將這些流量信息按照時間先后順序進行排列構成向量序列{X(t),1≤t≤4 000}。為了有效的進行模型訓練和預測,將流量數據集中的70%的向量用于模型參數的訓練,將其中的20%用于驗證訓練參數,其中的10%的數據用于測試驗證。

3.2? ?評估方法

為了評價本文的基于圖編碼器的模型的性能指標。 使用三個性能指標:均方根誤差(RMSE),平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)。 這些指標的具體計算公式如下:

RMSE = ■? ? (13)

MAE = ■■Ik - Pk? ? ? ?(14)

MAPE = ■■■? ? ? ?(15)

其中Ik表示在k時刻時網絡中所觀察的流量數量,Pk是k時刻時網絡中流量的預測值,N表示評估樣本的總數。RMSE測量極值效應和預測值的誤差范圍,MAE測量平均預測值的特異性。它們都評估絕對誤差。MAPE反映了相對誤差。當MAPE最小化時,將該模型視為最佳模型。

3.3 試驗基準

為了和所提出的模型進行對比,選擇了典型的深度學習預測算法,包括基于LSTM的網絡,基于CNN的網絡,基于CNN-LSTM的網絡和完全連接的神經網絡(FC)?;贚STM的網絡由5個循環層組成,每個層包含20個LSTM單元?;贑NN的網絡由1層組成,使用32個大小為2的內核實現卷積?;贑NN-LSTM的網絡由1個復合層20個LSTM單元堆疊在CNN層之上(16個內核尺寸為2)。全連接神經網絡由3層30,20和10個單元組成,對其輸入應用Sigmoid函數作用于輸入。

所提出的GGRU-AE模型參數中,設置學習率為0.005,采用早期停止來中斷訓練,訓練輪數為100輪。

3.4? ?實驗結果

實驗結果以訓練100次所得到的平均結果作為模型的實驗結果的輸出。本模型中考慮不同階數的鄰域,構成了兩種類型的模型。模型GGRU-AE-1表示采用的鄰域為1階鄰域,即公式(6)中C = 1。模型GGRU-AE-2表示采用2階鄰域,即在公式(6)中C = 2。

GGRU-AE模型的試驗對比結果如表1所示,其中對比測試方法的基準值源于文獻[1]。從實驗結果的各項對比指標來看,提出的考慮高階鄰域的網絡預測模型取得了最好的結果。從結果上來看,以圖網絡模型為基礎的方法,包括兩種模型和DRCNN模型比傳統的深度學習模型有顯著的優勢。

在MAE指標上,GGRU-AE-2和GGRU-AE-1比一階圖擴散模型DCRNN分別提高約5.2Mbit/s和2.8Mbit/s。在RMSE指標上,GGRU-AE-2和GGRU-AE-1比一階圖擴散模型DCRNN分別提高約25.7Mbit/s和14.5Mbit/s。在MAPE指標中,GGRU-AE-2和GGRU-AE-1比一階圖擴散模型DCRNN下降了1.64%和0.27%。

將GGRU-AE預測模型用于對網絡擁塞進行預測。在Abilene網絡中,假設流量負荷網絡高于網絡中流量負荷的平均值,則認為是出現網絡擁塞。假設參數β為高出平局負荷水平的倍數。通過對網絡中原始數據的進行統計分析,可以得到任意時刻網絡中的平均流量負荷及任意一個網絡節點的流量負荷。因此,可以得到相應的真值的標簽。預測結果如圖4所示,水平軸表示負荷倍數,縱軸表示預測準確率。從圖中來看,隨著負荷量增加,各個模型的預測準確率均上升。本文的2階方法GGRU-AE-2在所有的負荷量下均取得最優。

4? ?結? ?論

利用高階圖卷積網絡自編碼器對網絡流量進行了檢測,并在檢測的基礎上進行了流量擁塞的預測。高階圖卷積GRU自編碼模型,通過圖卷積獲得網絡的空間信息,通過GRU獲得時間序列信息。仿真結果表明提出的GGRU-AE一階網絡和二階網絡無論是在流量檢測和擁塞預測方面的都較基準方法更優。

參考文獻

[1]? ? ANDREOLETTI D,TROIA S,MUSUMECI F,et al. Network traffic prediction based on diffusion convolutional recurrent neural networks[C]. IEEE INFOCOM 2019 - IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS),Paris,France,2019:246-251.

[2]? ? NIE L,JIANG D,GUO L,et al. Traffic matrix prediction and estimation based on deep learning in large-scale IP backbone networks[J].? Journal of Network and Computer Applications,2016, 76:16-22.

[3]? ? ALAWE I,HADJADJ-AOUL Y,KSENTINI A,et al. Smart scaling of the 5G core network:an RNN-based approach[C].2018 IEEE Global Communications Conference (GLOBECOM),Abu Dhabi,United Arab Emirates,2018:1-6.

[4]? ? BABIARZ R,BEDO J S. Internet traffic mid-term forecasting:a pragmatic approach using statistical analysis tools[C]. International Conference on Research in Networking. 2006:Springer, Berlin Heidelberg,2006:110-122.

[5]? ? LEI F,DAI Q,CAI J,et al. A proactive caching strategy based on deep learning in EPC of 5G[C].? International Conference on Brain Inspired Cognitive Systems. 2018:Springer,Berlin Heidelberg 2018:738-747.

[6]? ? AZZOUNI A,PUJOLLE G. NeuTM:a neural network-based framework for traffic matrix prediction in SDN[C].? NOMS 2018 - 2018 IEEE/IFIP Network Operations and Management Symposium,Taipei,2018:1-5.

[7]? ? SHUKLA S,BHARDWAJ O,ABOUZEID AA,et al. Proactive retention-aware caching with multi-path routing for wireless edge networks[J]. IEEE Journal on Selected Areas in Communications,2018. 36(6):1286-1299.

[8]? ? 郭馮寧,宋超,朱琪超,等. 面向交通流量預測的多組件時空圖卷積網絡[J].? 軟件學報,2019,30(03):759-769.

[9]? ? 袁魏彬. 相空間重構和極限學習機的網絡流量預測模型[J].? 控制工程,2018,25(11):2087-2091.

[10]? 余郭佳,楊晨陽. 基于全注意力機制的多步網絡流量預測[J].? 信號處理,2019,35(05):758-767.

[11]? LEI F,CAI J,DAI Q,et al. Deep learning based proactive caching for effective WSN-enabled vision applications[J].? Complexity, 2019,2019:1-12.

[12]? ZHUO Q,LI Q,YAN H,et al. Long short-term memory neural network for network traffic prediction[C]. 2017 12th International Conference on Intelligent Systems and Knowledge Engineering (ISKE),Nanjing,2017:1-6.

[13]? LIU Y,ZHENG H,FENG X,et al. Short-term traffic flow prediction with Conv-LSTM[C].2017 9th International Conference on Wireless Communications and Signal Processing (WCSP),Nanjing,2017:1-6.

[14]? CAO X,ZHONG Y,ZHOU Y,et al. Interactive temporal recurrent convolution network for traffic prediction in data centers[J].? IEEE Access,2017,6:5276-5289.

[15]? BRONSTEIN M M,BRUNA J,LECUN Y,et al. Geometric deep learning:going beyond euclidean data[J].? IEEE Signal Processing Magazine,2017,34(4):18-42.

[16]? LI Y,YU R,SHAHABI C,et al. Diffusion convolutional recurrent neural network:Data-driven traffic forecasting[J].? arXiv preprint arXiv:170701926,2017.

[17]? WANG X,CHEN C,MIN Y,et al. Efficient metropolitan traffic prediction based on graph recurrent neural network[J].? arXiv preprint arXiv:181100740,2018.

[18]? TROIA S,ALVIZU R,ZHOU Y,et al. Deep Learning-based Traffic Prediction for Network Optimization[C]. 2018 20th International Conference on Transparent Optical Networks (ICTON),Bucharest,2018:1-4.

[19]? BENGIO Y,SIMARD P,FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J].? IEEE transactions on neural networks,1994,5(2):157-166.

[20]? CHO K,VAN MERRI?NBOER B,BAHDANAU D,et al. On the properties of neural machine translation:Encoder-decoder approaches[J].? arXiv preprint arXiv:14091259,2014.

[21] KIPF TN,WELLING M. Semi-supervised classification with graph convolutional networks[J].? arXiv preprint arXiv:160902907, 2016.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合