?

基于改進自回歸差分移動平均模型的網絡流量預測*

2022-01-25 14:11武潤升王軍良
通信技術 2021年12期
關鍵詞:網絡流量時序差分

汪 堯,黃 寧,2,武潤升,王軍良

(1.北京航空航天大學 可靠性與系統工程學院,北京 100000;2.北京航空航天大學 云南創新研究院,云南 昆明 650000)

0 引言

伴隨著因特網(Internet)和5G 通信技術的不斷發展,網絡提供的業務種類越來越多,相應地,網絡出現擁塞的頻率也隨之增高。網絡流量作為網絡中最為重要的參數,可以反映網絡某一時刻或者某一段持續時間網絡業務的被使用情況,因此網絡流量的建模分析成為很多學者研究的重點[1-5]。

網絡流量生成的經典模型有馬爾可夫模型、泊松模型和自回歸差分移動平均模型等。這一類模型結構相對比較簡單,模型參數較少,但由于網絡流量具有突發性與偶然性,這些模型的預測效果不穩定。于是,許多研究對經典模型進行一定程度的改進以提高模型預測的精度與穩定性。文獻[6]提出了改進灰狼算法優化支持向量機的網絡流量預測模型,結果顯示該模型的預測精度高于其它對比模型。文獻[7]提出了一種模型參數聯合求解的網絡流量混沌預測模型,并運用遺傳算法對模型參數進行求解,提高了模型的預測性能。文獻[8]設計了基于小波變換和極限學習機的網絡流量預測模型,使用極限學習機模型對流量數據進行機器學習,預測精度較高。文獻[9]提出了一種改進的自回歸差分移動平均(Autoregressive Integrated Moving Average Model,ARIMA)方法,該方法通過Box-Cox 指數變換消除了非平穩流量時間序列的長期自相關引起的異方差性。然而,這些改進后的經典模型依然存在預測效果不穩定的缺點。

隨著人工智能領域技術的發展,越來越多人運用深度學習的知識對網絡流量進行預測。文獻[10]提出了一種改進的雙線性卷積神經網絡,用來對惡意網絡流量進行預測分類。文獻[11]利用高階圖卷積神經網絡獲取網絡鄰域之間的流量作用關系,利用自編碼模型對網絡流量實現無監督學習與預測。文獻[12]提出了一種改進的長短期記憶神經網絡預測方法,該方法有效避免模型陷入過擬合,減小了噪聲對模型預測造成的誤差。文獻[13]提出了一種新的端到端的深度學習模型——時空注意力卷積長短期記憶網絡,實驗表明,該方法比其它基準方法有更高的預測精度。文獻[14]基于極限梯度提升的機器學習方法,應用改進量子粒子群算法進行流量分析。文獻[15]建立了一種優化的徑向基神經網絡流量預測模型,并實現了網絡流量的量化預測。然而基于深度學習的方法需要大量數據樣本,且模型的復雜度較高,當訓練樣本量較少時,預測效果不夠理想。

本文對網絡流量進行建模分析:首先對ARIMA模型進行改進,增加了誤差擴散因子λ這一參數,使得原先的線性模型能夠較好地描述非線性時序數據的變化規律;其次在訓練新模型時,對傳統的啟發式優化算法(粒子群算法)進行改良,通過增加算法的隨機擾動項以防止算法在搜索過程中陷入局部最優解;最后對一個具體網絡進行案例分析,根據歷史流量數據訓練得到的網絡流量分析模型,并使用給定測試數據集對提出的模型進行驗證分析。實驗結果表明,與傳統的自回歸差分移動平均模型的預測效果比較,改進后的模型預測效果更好。

1 模型介紹

對于網絡流量而言,由于其自身具有突發性,偶然性與隨機性等特點,其數據規律難以直接被數學解析描述,需要根據歷史流量數據訓練得到模型來對流量進行預測分析。在這里,本文提出一種改進的ARIMA 模型可以有效地進行流量預測。本節將詳細介紹這一內容。

1.1 經典的ARIMA 模型

ARIMA 模型是時間序列數據處理與分析的基本方法之一,是將自回歸模型(Auto regression Model,AR)與移動平均模型(Moving Average Model,MA)相結合的時間序列分析模型。該模型的參數序列為(p,d,q),其中p為自回歸項數,d為使時間序列平穩所需要做的差分次數,q為移動平均項數。ARIMA 模型與AR 模型和MA 模型相比可以通過多次差分運算,來處理平穩性較差的時間序列。其一階時間序列的差分運算數學表達式為:

n階差分運算表示式為:

自回歸差分移動模型的具體表達式為:

式中:y(d)t為對t時刻的原時序數據做d次差分運算得到的結果;yt為當前t時刻的時序數據值;μ為常數項,通常用歷史數據的均值來代替;γi、θi為相關系數;εt為誤差項,并假設誤差項是均值為0,方差為σ2>0的高斯白噪聲。

下面對ARIMA 模型的適用條件和建模過程進行簡單介紹。

ARIMA 模型的使用需要時間序列滿足的條件:處理的時間序列需要具有平穩性。ARIMA 模型可以通過多次差分運算,來使時序數據具有一定的平穩性。此外,ARIMA 模型要求處理的時序數據具有非高斯白噪聲的性質,因此一般需要進行高斯白噪聲檢驗。

建立ARIMA 模型對時間序列進行預處理,具體步驟如圖1 所示。

圖1 時間序列的預處理

ARIMA 模型是一種經典的時序數據分析預測模型。它的優點在于模型的結構較為簡單,且只需要根據源數據的內生變量進行分析與預測而不需要借助其它的外生變量;然而,其模型的本質是線性模型,缺乏對非線性關系的描述能力。因此,本文對經典ARIMA 模型進行改進,在盡可能不提高模型復雜度的情況下,使模型具有分析數據非線性關系的能力。

1.2 改進的ARIMA 模型

傳統的ARIMA 模型善于對數據的線性關系進行描述,然而,網絡流量數據具有突發性與偶然性。因此本文提出一種對ARIMA 模型的改進模型。改進后的ARIMA 模型在原(p,d,q)基礎上新增加了誤差擴散因子λ這一新的參數,該參數用來描述隨機誤差項在網絡中的擴增倍數,本文將改進后的模型稱作λ-ARIMA 模型。由于存在高斯白噪聲εt~N(0,σ2),可能會出現負值,因此在λ-ARIMA 模型中,通過控制平均移動項數q前面的系數值來消除白噪聲的負性。其具體數學模型為:

式中:μ為常數項,通常為歷史數據的均值;y(d)t為對t時刻的原時序數據做d次差分運算得到的結果;εt為t時刻服從均值為0,方差為σ2的高斯白噪聲;γi、θi為相關系數。

根據樣本大小為n的歷史數據集(y1,y2,…,yn),給出μ和σ的估計值的具體解析式:

對于γi和θi相關系數的取值范圍,往往通過經驗值給定范圍的上界與下界,對其上下界允許存在一定程度的誤差,這里不給出其具體的解析式。對于經典的ARIMA 模型,往往通過赤池信息準則(Akaike information criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)確定最優的模型參數。而對于λ-ARIMA 模型,需要根據歷史數據得到的預測值與真實值之間的誤差盡可能小的準則,得到最優的模型參數,即滿足:

顯然,該問題是一個非凸的優化問題,經典的解決凸優化問題的算法都不再適用。對于非凸優化問題,往往會采用一些啟發式算法,如遺傳算法、粒子群算法、模擬退火算法等來進行尋找最優解的過程。本文將介紹一種改進的粒子群算法,以避免算法找到局部最優解而過早收斂。

2 改進粒子群方法

粒子群優化算法(Particle Swarm Optimization,PSO)是一種常見的智能優化算法,它源自于前人對鳥群覓食生理行為的科學研究。其算法流程步驟如下文所述。

(1)初始化:設置最大迭代次數,粒子的維度,粒子每一維度的最小和最大速度,粒子每一維度的最小位置和最大位置;設置粒子群的規模,并在速度區間和位置區間內隨機初始化粒子的速度與位置。

(2)個體極值與歷史最優解:根據優化的函數目標,設計適應度函數,粒子在迭代和尋找的過程中會出現個體粒子的最優解和全體最優解。其中,個體極值表示每個粒子找的最優解,而粒子群中的最優解稱作全局最優解。將本次的全局最優解與歷史的全局最優解相比,如果本次得到的結果優于歷史的全局最優解,則進行更新,速度與位置的更新公式為:

式中:w為慣性因子;c1和c2為加速常數,一般地,c1,c2∈[0,4];pbestj為第j個粒子的取個體最優解所處的位置;gbest為粒子群達到全局最優解時所處的位置;xj、vj為第j個粒子任一維度的位置和速度。

通過多次迭代,對粒子的位置和速度進行多次更新,當達到設定的迭代次數時,結束循環過程,得到優化問題的最優解。

傳統粒子群算法具有解決非凸的優化問題的能力。然而,該算法也存在著一些缺點,容易陷入局部最優解(當優化的目標函數為復雜的多峰函數時)。為了有效解決該問題,本文對粒子群算法進行改進。

本文創新性設置了變異擾動函數,其解析表達式為:

式中:tmax為預設的最大迭代次數;t為當前進行過的迭代次數;b為初始值,且。

可以看出,該函數為遞增函數,隨著迭代次數的增加,變異擾動函數的函數值越大,粒子位置發生擾動的可能性越大。設ρm為變異概率,當變異擾動函數值大于變異概率時,即ρ(t)>ρm時,粒子的位置發生擾動。發生擾動后粒子所處的位置為:

改良后的粒子群算法收斂速度更快,尋求到的目標函數的最優解優于傳統粒子群算法,具有較好的性質。

3 案例分析

航空電子系統是飛機的重要組成部分,被喻為飛機的“大腦”。該系統采用先進的軟件、網絡和電子信息技術,將機載電子設備集成在信息共享的統一管理平臺,是航電系統的重要載體。研究航電系統網絡對飛機安全起到了至關重要的作用,因此本文以航空電子網絡為對象,對網絡中一段時間內流經某一交換機的歷史流量數據進行統計分析。

3.1 數據來源

為驗證λ-ARIMA 模型對網絡流量預測的有效性,本例中的實驗數據來自于某一航空電子系統網絡,選擇9:00—9:27 之間收集得到的流量數據集,數據集大小為143,使用的采樣間隔為5 s。對得到的數據進行流量模型的建立與分析,其一段時間內流量數據的變化如圖2 所示。

圖2 原始網絡流量時序

3.2 模型獲取

本文使用SPSS 軟件對時序數據進行一系列的分析。首先對流量數據進行檢驗,發現數據進行一階差分運算后,具有平穩性且為非高斯白噪聲,滿足ARIMA 模型的基本要求。其一階差分運算后的時間序列如圖3 所示。

圖3 一階差分后的時間序列

本文使用SPSS 軟件利用判定準則,得到最優的ARIMA 模型參數,結果自回歸項數p為0,移動平均項數q為12。

采用改進的粒子群算法的參數設置為:慣性因子w為1.2,粒子的個數為50,最大迭代次數為500,學習因子c1、c2均為1.4,b為350,變異概率ρm為0.65。本文使用的仿真軟件為Matlab2019a,使用改進粒子群算法對模型參數進行求解,并與經典粒子群優化算法和遺傳算法進行比較。每種算法各運行10 次,計算算法結果的平均值,不同算法找到的最優目標函數值、迭代次數和算法的收斂時間列于表1。由表1 可見,改進粒子群優化算法的尋優效果要優于經典粒子群算法和遺傳算法,且算法的收斂速度更快。

表1 不同算法的尋優效率比較

3.3 模型預測效果

使用λ-ARIMA 模型建立流量分析預測模型,并與傳統的ARIMA 模型的預測結果進行分析比較。這里使用平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)來表示預測的準確度計算公式為:

式中:xi為輸入值;h為預測函數;h(xi)為實際預測值;yi為真實值;m為訓練的樣本量。在本例中,從原始數據樣本抽取前116 個流量樣本作為訓練集,剩余的27 個樣本作為測試集,預測結果如圖5所示。

圖5 模型預測效果對比

本文對比ARIMA 模型和改進ARIMA 模型的預測效果,并進行定量分析。在相同的條件下分別運行5 次,將每次的結果與測試集的真實數據進行比較,所得對比結果如表2 所示。

表2 兩種算法的平均絕對百分比誤差 %

根據表2的數據計算可得:ARIMA 模型的MAPE 均值為17.5%,均方差為1.51%;改進ARIMA 模型預測精度的均值為11.2%,均方差為0.78%。從表2 可以看出,改進后的ARIMA 模型的MAPE 指標均值降低了6.3%。同時發現改進后的ARIMA 模型相比于傳統的ARIMA 模型,預測精度的均方差降低了0.73%,穩定性會更高。

4 結語

本文對已有的網絡流量時序數據進行分析建模,通過引入誤差擴散因子λ,對經典的ARIMA模型進行改進;同時建立目標函數,通過對傳統的粒子群算法的改進,增加了算法的隨機擾動項,避免陷入局部最優解,加快了算法的收斂速度。由于改進后的模型變成了非線性模型,相比于經典的ARIMA 模型,可以更加準確地描述非線性時序數據的變化規律。最后,本文通過案例分析證明了,相較于經典的ARIMA 模型,改進后的模型的預測精度和穩定性均得到顯著提高。

猜你喜歡
網絡流量時序差分
RLW-KdV方程的緊致有限差分格式
顧及多種弛豫模型的GNSS坐標時序分析軟件GTSA
符合差分隱私的流數據統計直方圖發布
大數據驅動和分析的艦船通信網絡流量智能估計
清明
基于雙向長短期記憶循環神經網絡的網絡流量預測
數列與差分
你不能把整個春天都搬到冬天來
大數據環境下的網絡流量非線性預測建模
基于FPGA 的時序信號光纖傳輸系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合