?

基于ARIMAX 的城市道路交通流短期預測模型

2021-02-25 03:37袁鵬程周天樂
智能計算機與應用 2021年10期
關鍵詞:交通流量占有率交通流

袁鵬程, 周天樂

(1 上海理工大學 管理學院, 上海 200093; 2 上海電科智能系統股份有限公司, 上海 200063)

0 引 言

隨著交通擁堵和不確定性逐漸成為新常態,車聯網、自動駕駛和大數據技術也得到了不斷發展,交通流研究將會進入重要的變革期。 而交通流特性主要由交通流速度、密度和流量三個部分組成,其中交通流量尤為重要,并能直接反映交通運行狀況。 精準短時交通流量預測就可以直觀反映調查路段或地區的交通變化狀況,為交通控制與管理提供可靠依據。 同時,也能為出行者提供準確地道路信息,避免不必要的擁堵。

目前,國內外對于交通流量預測已經做過很多研究[1]。 最常見的就是基于統計方法的模型和神經網絡模型。 自上世紀七十年代末,ARIMA 模型[2]提出以來,即已廣泛應用于各個領域[3]。 但由于ARIMA 模型的局限性等因素,往往會結合數據自身特點加以調整[4-5]。 例如,針對模型單一的問題,田瑞杰等人[6]提出一種時間序列與人工神經網絡相結合的預測模型;基于時間序列分析方法,韓超等人[7]提出一種短時交通流實時自適應預測算法,減小遺忘因子進一步提高預測的性能;針對ARIMA 模型獲取非線性特性的局限性,王曉全等人[8]加入廣義自回歸條件異方差—均值,相比于ARIMA-SVR模型和ARIMA-GARCH 模型得到了更好的預測精度;通過證實交通流量存在時序上的周期性,祁偉等人[9]引入季節性ARIMA 模型融合了鄰近的交通流觀察值和交通流數據的周期性。 此外,也有深度學習[10]、基于相空間重構理論的局部預測方法[11]等研究。 在上述交通流預測過程中僅僅利用了交通流量自身信息進行預測,并沒有加入其他影響因素用于提高預測精度,丁永兵等人[12]通過結合路網結構,利用主成分回歸建立上下游交通流回歸模型,對模型殘差進行ARIMA 建模,得到的ARIMAX 模型要優于ARIMA 模型。 但在交通領域并沒有考慮將影響交通流量的因素(例如:道路占有率等)加入模型進行預測,而在其他的一些研究方向[13-14]就考慮將相關的參數加入模型進行預測,并取得了不錯的效果。

構建傳統時間序列模型的前提條件就是時間序列的平穩。 通常為了達到序列的平穩性會對原序列進行差分處理,但卻會丟失了數據信息。 本文考慮引入道路占有率等因素來增加原始數據信息提高預測精度。 研究中,首先介紹了ARIMAX 模型的原理,接著對原始數據進行預處理,使其達到平穩的條件,然后通過利用Python 來搭建ARIMAX 模型擬合參數,繼而對構建的模型加以驗證,最后進行交通流預測。 通過分析最終評價指標結果可知,模型擬合效果較好,各種誤差結果均偏小,達到了預期的效果。

1 模型理論

1.1 ARIMAX 模型

差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model,ARIMA 模型)是通過自回歸移動平均模型(Auto Regression Moving Average Model,ARMA 模型)擴展而來的。 ARIMA模型中,先對時間序列進行差分使其達到平穩狀態,再對差分后的時間序列建立ARMA 模型。 而ARMA 模型是將自回歸模型(Auto Regression Model,AR 模型)和移動平均模型(Moving Average Model,MA 模型)有機組合而成的。 對此擬展開研究分述如下。

1.1.1 自回歸模型AR

p階自回歸模型,記為AR(p),是一種處理時間序列的方法,用同一變數如x的之前各期,即xt至xt-p的值來預測xt的值,并假設各數值之間為線性關系。 公式如下:

其中,c為常數項;εt是均值為零,標準差為σ的隨機誤差項。

當引入延遲算子B,即Bn xt =xt-n,并將AR(p)模型中心化后,可簡記為:

其中,Φ B( )=1-φ1B -φ2B2-…-φp Bp,稱為p階自回歸系數多項式。

1.1.2 移動平均模型MA

q階移動平均模型,記為MA(q),是一種簡單平滑預測模型,可根據時間序列xt至xt-p的平均值,以預測xt的值。 其公式如下:

其中,μ是序列均值,θ1,…,θq是參數,εt,…,εt-q都是白噪聲。

當引入延遲算子B,即可得到Bn xt =xt-n,并將MA(q) 模型中心化后,可簡記為:

其中,Θ B( )=1- θ1B - θ2B2-…- θq Bq,稱為q階移動平均系數多項式。

1.1.3 ARIMAX 模型

ARIMAX 模型就是帶輸入變量的ARIMA 模型,其構造思想是:假設響應序列yt{ } 和輸入變量序列(即自變量序列)x1t{ },x2t{ },…,xkt{ } 均平穩,首先構建響應序列和輸入變量序列的回歸模型:

其中,B為延遲因子,即Bn xt =xt-n;Φi B( ) 為第i個輸入變量的自回歸系數多項式;Θi B( ) 為第i個輸入變量的移動平均系數多項式;li為第i個輸入變量的延遲階數;εt{ } 為回歸殘差序列。

因為yt{ } 和x1t{ },x2t{ },…,xkt{ } 均平穩,而且平穩序列的線性組合仍然是平穩的,所以殘差序列εt{ } 為平穩序列,即:

使用ARMA 模型繼續提供殘差序列εt{ } 中的相關信息,最終得到的模型為:

其中,Φ B( ) 為殘差序列自回歸系數多項式;Θ B( ) 為殘差序列移動平均系數多項式;at為零均值白噪聲序列。

2 參數估計

在選擇了擬合模型后,就要利用時間序列的值確定模型的口徑,即估計模型中未知參數的值[15]。ARIMAX 模型可以通過許多不同的方法來估計,包括將模型轉換為非線性最小二乘法、GLS 或極大似然估計。 由于極大似然估計不需要從樣本開始時丟棄觀測值,或者需要從后期投射來創建觀測值,因此比較適用于模型擬合。 未知參數的極大似然估計(Maximum Likelihood Estimation,MLE)就是使得似然函數、即聯合密度函數達到最大的參數值[16]。 使用極大似然估計必須已知總體的分布函數,而在時間序列分析中,序列總體的分布通常是未知的[17-18]。 為了便于分析和計算,通常假設序列服從多元正態分布[19]。

設K維隨機向量x =[x1,…,xk]-1的密度函數為:

其中,K表示向量x的維度;均值向量μ是K維向量;協方差矩陣Σ是一個K ×K的對稱正定陣,則稱x服從K元正態分布,也稱x為K維正態隨機向量,簡記為:x ~NK μ,Σ( ) 。 其似然函數為:

對數似然函數為:

其中,為一個常數。 接著對μ,Σ求偏導、整理,最終得到極大似然估計為:

其中,N為樣本個數。

3 評價指標

在前文基礎上,還要對預測值的優劣進行評價,研究中用到的評價指標主要有:平均絕對百分誤差、平均絕對誤差、均方誤差。 這里將給出分析表述如下。

(1)平均絕對百分誤差(Mean Absolute Percent Error,MAPE),又叫平均絕對離差,是所有單個觀測值與算術平均值的偏差的絕對值的平均。 平均絕對誤差能夠避免誤差相互抵消的問題,因而可以準確反映實際預測誤差的大小。 具體數學公式為:

(2)平均絕對誤差(Mean Absolute Error,MAE),又叫平均絕對離差,是所有單個觀測值與算術平均值的偏差的絕對值的平均。 平均絕對誤差能很好地反映預測值誤差的實際情況。 具體數學公式為:

(3)均方誤差(Mean-Square Error,MSE) 是參數估計值與參數真值之差平方的期望值。MSE可以評價數據的變化程度。MSE的值越小,預測模型描述實驗數據則具有更好的精確度。 具體數學公式為:

式(12)~(14)中,yi為預測值,xi為真實值。

(4)擬合優度。 是指模型的預測值對實際值的擬合程度。 度量擬合優度的統計量是可決系數(亦稱確定系數)R2。R2最大值為1。R2的值越接近1,說明回歸直線對觀測值的擬合程度越好;反之,R2的值越小,說明回歸直線對觀測值的擬合程度越差。具體數學公式為:

其中,y為模型預測值;為流量觀測值;ˉ為觀測值的平均數。

4 模型構建

4.1 數據

本文采用的數據來自于美國加利福尼亞州交通局的公開數據集(Peformance Measurement System,PeMS),采用的是維克多維爾城市的某一條路從2018 年3 月5 日至4 月13 日工作日期間每5 min為間隔的交通流數據,共8 640 組數據,分析可得每天數據的基本統計特征見表1,截取前一周(即2018年3 月5 日至2018 年3 月9 日)的數據如圖1 所示。

圖1 一周的交通流量、占有率圖Fig.1 Traffic flow and occupancy in a week

表1 交通流量、占有率數據的基本統計特征Tab.1 Statistical characteristics of traffic flow and occupancy

4.2 數據的平穩性檢驗

考慮到現存的虛假回歸問題,在模型擬合前就要對各序列的平穩性進行檢驗。 只有當每個序列都平穩時,才能使用ARIMAX 模型擬合多元序列之間的動態回歸關系。

觀察圖1 能發現交通流量與占有率的呈周期性變化,為了直觀展示其規律,繪制交通流量和道路占有率的自相關圖如圖2 所示。 從2 個自相關圖中,研究發現序列的自相關系數遞減至零的速度相當緩慢,在很長的延遲時期里,自相關系數一直為正,而后又一直為負,顯示出明顯的三角對稱性,這是一種具有單調趨勢的非平穩序列。 為了將序列達到平穩狀態,考慮采用簡潔、有效的差分方法。 因此,研究中將原序列進行一階差分,再對差分后的序列檢驗平穩性。 為了檢驗序列的平穩性,陸續提出了許多方法,其中應用最多的是單位根檢驗,而適用范圍最廣的則是ADF 檢驗,即增廣DF 檢驗(Augmented Dickey-Fuller,ADF)檢驗。 檢驗時,原假設為序列非平穩,通過構造ADF 檢驗統計量:

圖2 交通流量、道路占有率原始數據的自相關圖Fig.2 Autocorrelation of original data of traffic flow and occupancy

其中,為參數ρ的樣本標準差。

通過蒙特卡洛方法,可以得到τ檢驗統計量的臨界值表。 當臨界值小于0.05 時,拒絕原假設,認為序列平穩。 對一階差分后的交通流量和道路占有率進行檢驗,檢驗結果參見表2。 觀察ADF 檢驗結果顯示,經過一階差分后的交通流量{?yt}、 占有率{?xt} 均達到平穩狀態,因此可以用于構建ARIMAX 模型。

表2 交通流量、道路占有率一階差分后的單位根檢驗Tab.2 ADF test after first-order difference of traffic flow and occupancy

4.3 模型的建立

經過平穩性檢驗,一階差分后的交通流量和車道占有率平穩,可以建立動態回歸模型。 首先,構建車輛流量 { ?yt} 與占有率 { ?xt} 的回歸模型,由此推得數學公式為:

接下來,要確定自回歸系數p與移動平均階數q的值。 通過計算使模型的赤池信息準則(Akaike Information Criterion,AIC) 和 貝 葉 斯 信 息 準 則(Bayesian Information Criterion,BIC) 達到最小值的p、q值。 為此,分別計算各種p,q組合的AIC和BIC值,并繪制AIC、BIC的熱力圖,如圖3 所示。 通過圖3 來尋找AIC、BIC值最小的p與q的組合為(6,5)。再將差分后的序列帶入模型,用極大似然估計進行擬合得到參數值,詳見表3。 至此,最終模型可寫為如下形式:

表3 ARIMAX(6,1,5)模型參數擬合Tab.3 Parameter fitting of ARIMAX (6,1,5)

圖3 p、q 各種組合的AIC、BIC 熱力圖Fig.3 AIC and BIC thermodynamic diagram of various combinations of p and q

考慮到差分的方法對確定性信息的提取可能不充分,因此還要進一步地對殘差序列進行檢驗。 如果檢驗結果顯示為殘差序列的自相關性不顯著,就說明ARIMAX 模型對信息的提取比較充分。 在此基礎上,就是對模型的殘差序列進行檢驗,判斷是否存在殘存有效信息。 為此,對其進行ADF 單位根檢驗和Durbin-Watson 檢驗(D-W 檢驗),結果見表4以及繪制殘差的Q-Q 圖,見圖4。

表4 ARIMAX 模型殘差檢驗Tab.4 Residual test of ARIMAX

從表4 中可以發現D-W 值趨近于2,即接受原假設:殘差序列不存在1 階自相關性;單位根檢驗結果P值遠小于0.05 說明殘差顯著平穩。 從圖4 可以看出,散點基本落在直線兩端,故殘差滿足均值為0 的正態分布。 滿足以上條件后,就可用ARIMAX模型對此后一周的交通流進行擬合預測。 其中,這一周的預測流量與真實流量如圖5 所示。

圖4 ARIMAX 模型的殘差Q-Q 圖Fig.4 Residual Q-Q diagram of ARIMAX model

圖5 預測流量與真實流量值Fig.5 Comparison between predicted and actual data

然后用平均絕對誤差、均方誤差、平均絕對百分比誤差來衡量交通流量實際值與ARIMAX 模型的預測值(見表5),并計算模型的擬合優度為0.876 95。

表5 預測與實際值的MAE,MSE,MAPETab.5 MAE,MSE and MAPE of predicted and actual data

通過模型可以發現,平均絕對誤差、均方誤差分別為1.47 和3.74,效果較好, 并且一般認為MAPE的值低于10%時預測精度較高,本文中MAPE僅為6.87,說明ARIMAX 模型預測效果較好。

5 結束語

構建ARIMAX 模型的過程與傳統的ARIMA 模型類似,但與ARIMA 模型相比,豐富了數據信息,從而提高了預測的精度。 將交通流量、道路占有率作為輸入序列,先要確保其序列的穩定性,為此采用差分來提取確定性信息。 經過一階差分后,通過單位根檢驗,序列達到了平穩形態。 接下來,就是構建ARIMAX 模型,以及確定ARIMAX 模型的階數。 在模型定階過程中,相比于直接觀察繪制的自相關、偏自相關圖確定p、q值的辦法,本文通過計算所有p與q組合的AIC和BIC,尋找使得AIC和BIC最小的那一組數值。 如此一來,既提高了精確度,又節省了調參的時間,預測效率明顯提高。 在模型階數確定后,利用極大似然估計的方法來擬合參數,得到了一個ARIMAX 模型。 雖然擬合求出了參數模型,但是并不能保證差分的方法能夠充分提取確定性信息,因此還要進一步來檢驗殘差。 經過D-W 等方式檢驗、并發現殘差不存在自相關性后,就可以用得到的ARIMAX 模型進行交通流量預測。 為了防止偶然事件的產生,研究中預測了接下來一周的交通流量,并運用多種評價指標進行驗算。 最終結果顯示,采用道路占有率作為外生變量的交通流量ARIMAX 模型能夠很好地擬合流量序列的變化規律,也有著良好的預測精度。 而且作為統計類的模型其未知參數對比于神經網絡要少得多,具有更快的預測速度,既滿足了交通流預測的實效性,也得到了很高的預測精度。

本次研究中,雖然利用道路占有率作為外生變量加入到了交通流量的預測中來減少序列預處理時差分所減少的有效信息量,但是并沒有研究道路占有率的加入對預測精度具體提高了多少的百分比,以及道路占有率的加入能否彌補因差分所帶來的有限信息量的丟失,這些都是未來課題的有效考察重點。 而且作為交通流參數,還有如速度、車頭時距等,若將其也加入交通流量的預測模型中,能否提高預測的精度以及彌補因差分丟失的信息內容,也是下一步需要深入探討的研究方向。

猜你喜歡
交通流量占有率交通流
燕山路與曹雪芹西道交叉口運行有軌電車可行性研究
無人車對交通流的影響分析
微軟領跑PC操作系統市場 Win10占有率突破25%
廣州港大濠水道定線制引航要領
基于交通波理論的山地城市快速路擁堵研究
交通流量增長下的空管安全預警系統研究
基于元胞自動機模擬滬金高速道路車流中的應用
城市道路交叉口仿真評價及優化配時
9月服裝銷售疲軟
試析提升公司產品市場占有率的方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合