?

考慮多特征的高速公路交通流預測模型

2021-06-29 07:05李桃迎王婷張羽琪
交通運輸系統工程與信息 2021年3期
關鍵詞:交通流收費站天氣

李桃迎,王婷,張羽琪

(大連海事大學,航運經濟與管理學院,遼寧大連116026)

0 引言

高速公路交通擁堵現象不僅給人們出行帶來極大不便,也制約了高速公路服務質量的提升,影響區域經濟和社會發展。雖然高德地圖、百度地圖等多款APP都提供了實時交通狀態查詢,但并未提供未來12 h、24 h 甚至更長時間的交通流預測功能。提前一天或多天預知高速公路交通流,不僅可以輔助高速公路管理人員提前安排部署、合理誘導車輛分流、疏散,緩解高速公路擁堵現象,也可以為公眾出行提供參考。

高速公路交通流預測作為研究熱點在不同發展時期均取得較為豐碩的成果,研究趨勢從單一的參數模型過渡到非參數模型及混合模型。典型的參數模型有自回歸積分移動平均(Autoregressive Integrated Moving Average,ARIMA)模型和卡爾曼濾波器模型。如Williams 等[1]提出使用季節性ARIMA 模型對交通流進行預測以提高預測精度。相較于非參數模型,參數模型依賴于平穩性假設,不能反應交通流的非線性和不確定性特征,因此,非參數模型成為交通流預測的有效方法。非參數模型包括支持向量機回歸(Support Vector Regression,SVR)模型、貝葉斯模型以及深度學習模型[2]等。其中,深度學習模型通過其強大的非線性擬合和深層特征表達能力可以更精準地表達交通流數據內部的復雜結構。如Zhao 等[3]將長短期記憶(Long-Short Term Memory,LSTM)神經網絡應用于交通流預測以提高模型預測精度。Wu 等[4]提出將卷積神經網絡(Convolutional Neural Network,CNN)和門控循環單元神經網絡(Gated Recurrent Unit,GRU)結合,CNN捕獲路網交通數據的空間分布,GRU捕獲數據短期分布的變化及長期依賴。

LSTM 能夠處理具有長期依賴關系的時序數據,而GRU是LSTM的變體,通過犧牲預測精度而減少計算量。LSTM和GRU的集成解決了多層LSTM計算量大的問題,同時又維持了模型的精確度。但LSTM和GRU只能提取交通流的動態時序特征,無法提取交通流數據的空間相關性,往往需要手工將空間信息編碼作為網絡輸入。為了更好地刻畫交通流的空間特征,一些學者又引入了CNN 進行空間建模,通過CNN 共享卷積核能夠處理高維數據,并自動學習數據的空間特征,從而提高模型的預測精確度,但單一CNN 模型只能捕捉短期局部依賴關系。

由于高速公路交通流的變化不僅與歷史交通流存在長期的時間依賴關系,還與其上下游交通流的空間分布存在明顯相關性,且容易受天氣、路況等外界環境影響,為此,本文針對高速公路交通流的時空特性和外部因素影響,提出考慮多特征的高速公路交通流預測模型。該模型利用CNN自動提取交通流的空間特征,運用LSTM和GRU 提取數據的周期性和趨勢性特征,解決時序數據的長期依賴性問題。采用某高速公路交通流數據進行實驗,驗證本文模型的預測精度。結果表明,本文模型與4 種典型深度學習模型(LSTM、GRU、CNN-LSTM、CNN-GRU)相比具有更高的預測精度。

1 集成深度學習預測模型

本文所提模型為一種集成深度學習模型(Hybrid Deep Learning,HDL),其框架如圖1所示,主要包括數據預處理、特征矩陣構建、CNN和LSTM、GRU 這4 個方面。該模型首先針對高速公路交通流數據進行預處理,構造包含時空和天氣的二維特征矩陣,隨后將構造的二維特征矩陣經過CNN提取交通流的空間特征,然后利用一層LSTM和一層GRU 提取交通流的時間特征,最后通過全連接層,得到最終輸出的結果。

圖1 集成深度學習模型的框架Fig.1 Framework of Hybrid deep learning model

1.1 數據預處理與滑動窗口

高速公路交通流數據和天氣數據存在數據缺失的問題,為提高數據質量需要考慮數據的預處理。線性插值是代數插值法中最簡單的形式,是處理非線性函數運用最多的方法,其以線性平滑的方式維系了數據趨勢的漸進性,適用于連續缺失長度小的數據集。鑒于此,本文選擇線性插值作為缺失值填充的方法。

其次,為保證預測結果的可靠性,對數據進行分析之前,先將數據進行歸一化處理,消除不同屬性之間的量綱。選用應用最為廣泛的min-max 方法對原始數據進行線性變換,將數據統一映射到[0,1]區間上。min-max方法的公式為

式中:xi為第i個原始數據;為歸一化后的新數據;xmin為最小值;xmax為最大值。

隨后,考慮到外界因素對交通流預測結果的影響,將數據中的屬性兩兩之間進行皮爾遜相關性分析,并根據相關系數大小選取相關特征。

另外,時間序列數據的序列長度可能影響預測精度,本文采用滑動窗口方法[5]確定序列長度,該方法為每一個時間序列t構造一個樣本。[t0-Δt,t0)上的值作為特征,t0作為標簽構造樣本,Δt被稱為窗口大小。為了更直觀地介紹滑動窗口方法,圖2給出利用滑動窗口構造時間樣本序列的例子。該例假設有10 條時間序列記錄,包括T1,T2,…,T9、T10。當Δt=5 時,對于樣本1來說,T1,T2,…,T5作為特征,T6作為標簽;對于樣本2 來說,T2,T3,…,T6作為特征,T7作為標簽。以此類推,共得到5個樣本;當Δt=6 時,T1,T2,…,T6作為特征,T7作為標簽,以此類推,共得到4個樣本。

圖2 滑動窗口Fig.2 Sliding window

窗口大小會影響構造樣本的數量和樣本中的特征數量??梢钥吹剑寒斀o定一個數據集,窗口越小,單個時間序列涵蓋的時間越短,構造的時間序列樣本越多;窗口越大,單個時間序列涵蓋的時間越長,構造的時間序列樣本越少。因此,選擇一個合適的窗口大小對高速公路交通流預測至關重要。

1.2 構建特征矩陣

由于當前道路交通流的變化與該道路的歷史交通流,上下游的交通流以及天氣的變化相關。構建一個包含時間、空間以及天氣信息的二維特征矩陣,即

式中:t時刻的交通流量數據為{xs1,t,xs2,t,…,xsm,t},其中,xsm,t為第m個目標站口sm在t時刻的交通流量數據;t時刻的天氣數據為{wq1,t,wq2,t,…,wqn,t},其中,wqn,t為第n個天氣屬性qn在t時刻的數據量;Δt為窗口大??;xsm,t-Δt為站口sm在當前時間前Δt個時間統計單位的時刻交通流量數據;wq1,t-Δt為天氣屬性q1在當前時間前Δt個時間統計單位的時刻數據。

1.3 卷積神經網絡

CNN 是一個多層監督學習網絡,用來處理類似網格結構的數據,被廣泛應用于圖像分類、語音識別、自然語言處理等領域,并獲得顯著成果。在處理時間序列型數據時,一維CNN 可以很好地識別出數據的簡單空間模式,并據此在更高級的層中生成更復雜的模式。CNN 主要由卷積層、池化層和全連接層構成,3個級聯層描述為

式中:xl-1,i為卷積層的輸入;cl,j為卷積層的輸出,同時也是激活層的輸入;xl,j為激活層的輸出;wl,ij為第l層第j個單元和上一層第i個單元之間的權重;b為偏置項;φ(?)為非線性的激活函數;pool(?)為池化函數。式(3)表示CNN網絡中的卷積運算。

高速公路交通流數據具有周期性、長時間變化的特性,在構建特征矩陣之后,將特征矩陣輸入到一維的CNN中,以提取交通流數據的空間特征。

假設將一個樣本為504×7的矩陣輸入一維卷積,經過64 個大小為2的濾波器后,輸出的特征維度為503×64,如圖3所示。

圖3 數據經過一維卷積后的結果Fig.3 Results of data after 1-D convolution

1.4 長短期記憶網絡和門控神經網絡

運用CNN 提取數據空間特征后,需要提取高速公路交通流數據的時間特征。LSTM 是RNN的結構變種,是解決長期依賴問題的有效技術。與傳統RNN的區別在于它在算法中加入了一個判斷信息有用與否的“處理器”,該處理器作用的結構被稱為cell,具體涉及3 個門函數:輸入門、遺忘門和輸出門,分別控制輸入值、記憶值和輸出值。當一個信息輸入LSTM網絡時,網絡根據規則判斷該信息是否有用。只有符合算法認證的信息才會留下,無用的信息則通過遺忘門被遺忘。

而GRU 相較LSTM 結構更簡單,收斂速度更快。GRU同樣可以解決RNN網絡中的長期依賴問題,也是當前非常流行的一種網絡。GRU 中引入兩個門函數,如圖4所示。

圖4 GRU結構圖Fig.4 Structure of GRU

式中:σ(?)為sigmiod激活函數;Xt為當前t時刻的輸入;Ht-1為上一時刻即t-1時刻的輸入;Wxr、Wxz和Whr、Whz分別為當前時刻和上一時刻的權重參數;br、bz、bn為偏置項;為候選的隱含狀態;Ht為最終的隱含狀態;⊙為哈達瑪積。重置門Rt有助于捕捉時序數據中短期的依賴關系,更新門Zt有助于捕捉時序數據中的長期依賴關系。且式(8)滿足

式(9)滿足

在CNN 提取空間特征之后,經過扁平層和防止模型過擬合的Dropout 層,再經過一層LSTM和一層GRU,提取交通流數據的時間特征,最后通過一層全連接層,得到預測結果。

2 高速公路交通流預測

2.1 數據來源與趨勢分析

本文所用數據集來自KDD CUP 2017 提供的某省某高速公路交通流數據和天氣數據。目標區域路網拓撲如圖5所示。交通流數據來源于3個收費站(1、2、3號,除了2號收費站只允許車輛進入高速公路,其他收費站允許車輛雙向通行(入口:0,出口:1)),交通流數據的時間周期為2016年9月19日-10月17日,數據頻率為每隔20 min記錄一條,即1 d有72條數據記錄。收費站1號,入口(1-0)共有2084條記錄,出口(1-1)共有2084 條記錄;收費站2 號入口(2-0)共有1725 條記錄;收費站3 號,入口(3-0)共有2086 條記錄,出口(3-1)共有2085 條記錄。在該期間,收費站1 號入口、出口的交通流量數據各有缺失值4 個,收費站2 號入口的交通流量數據共有缺失值362個,收費站3號入口、出口的交通流量數據各有缺失值2 個、4 個。天氣數據的時間周期為2016年9月19日-10月17日,天氣數據包含氣壓、海水壓力、風向、風速、溫度、濕度、降雨量共7個特征,數據頻率為每隔3 h記錄一條,而一天中天氣指標數據的值通常是連續變化的,故將天氣數據通過頻率線性填充為每隔20 min 一條記錄。以降雨量數據為例說明天氣數據的可靠性,圖6為降雨量與交通流量數據的關系,可以看出,當降雨量累計超過15 mm時交通流才會有明顯變化,而累積降雨量隨著時間的推移呈連續上升趨勢,通過線性插值方法可以較好地擬合降雨量的累積過程[6],如圖7所示,將頻率間隔為3 h的降雨量平均分割成9段,即每隔20 min一個值,最終得到2088個值。

圖5 目標區域路網拓撲Fig.5 Road network topology of target area

圖6 交通流量與降雨量Fig.6 Traffic flow and rainfall

圖7 降雨量的線性填充Fig.7 Linear filling of rainfall

圖8給出3個站口各個方向2016年9月19日-10月17日共29 d的交通流變化趨勢,可以看到,3個站口交通流變化有很強的相似性,即上、下游收費站的交通流變化具有明顯的空間相關性,并且從圖中可以看到,高速公路交通流變化有明顯的日周期性。圖9為氣壓、海水壓力、風速、溫度、濕度、降雨量特征取值變化圖。

圖8 3個收費站口的交通流趨勢Fig.8 Traffic flow trend of three stations

圖9 特征可視化圖Fig.9 Distribution of multiple features

為更好地分析高速公路交通流的時間變化情況,圖10分別給出3 周(2016年9月19日-10月9日)、1周(2016年9月21日-9月27日)、1 d(2016年9月20日)的高速公路交通流的變化趨勢,可以看出,高速公路交通流具有明顯的日周期性、周周期性、趨勢性以及復雜性。圖10(a)包含國慶期間7 d的交通流數據,可以看出,國慶期間與平日的交通流變化趨勢有明顯差異。

圖10 交通流變化趨勢Fig.10 Trend of traffic flow

為評估預測模型的性能,選擇平均絕對誤差(EMAE)、均方根誤差(ERMSE)兩個評價指標,即

式中:y=(y1,y2,…,yp)為觀測值;為預測值;p為交通流數據觀測點數量。

2.2 特征選擇與滑動窗口設置

對高速公路收費站數據進行缺失值填充和歸一化后,分析不同屬性和交通流之間的皮爾遜相關系數,以此判定各個屬性對交通流變化的影響。一般情況下,相關系數的絕對值越大,相關性越強;反之,相關系數越接近于0,相關性越弱。通常認為:[0.8,1.0]為極強相關,[0.6,0.8)為強相關,[0.4,0.6)為中等程度相關,[0.2,0.4)為弱相關,[0.0,0.2)為極弱相關或無相關。

圖11給出站口1-0、2-0、3-0、1-1、3-1的交通流與7 個天氣屬性之間的皮爾遜相關系數。從圖中可以看出,3 個站口雙向交通流彼此之間的相關系數絕對值均大于0.6,說明這3個站口雙向的交通流之間具有強或極強的相關性,故本文在預測目標站口交通流時,其他站口的交通流均考慮在內。

圖11 屬性之間的皮爾遜相關系數圖Fig.11 Pearson correlation coefficient between attributes

氣壓與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關系數分別為:-0.150、0.001、-0.064、-0.013、-0.008,相關系數均小于0.2,說明氣壓與目標站口交通流的相關性為極弱相關或無相關,故預測目標站口交通流時,不考慮氣壓對交通流變化的影響。同理,海水壓力、風速、風向、溫度與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關系數均小于0.2,說明這些因素與目標站口交通流的相關性為極弱相關或無相關,故預測目標站口交通流時,不考慮這些因素對交通流變化的影響。

濕度與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關系數分別為-0.260、-0.20、0.210、0.20、0.190,降雨量與站口1-0、2-0、3-0、1-1、3-1交通流之間的相關系數分別為0.270、-0.250、0.210、0.220、0.200,說明濕度、降雨量與目標站口交通流的相關性為弱相關,為確保交通流預測的準確性,預測目標站口交通流時,將濕度、降雨量考慮在內。最終本文同時考慮3 個站點雙向的交通流量、濕度、降雨量作為模型輸入分別預測1-0、2-0、3-0、1-1、3-1未來1 d的交通流量。

如1.1 節中分析,窗口較小無法保證模型有足夠的長期輸入,窗口較大則會增加不相關的輸入和計算復雜性。因此有必要確定一個最優的窗口大小值,確保模型的預測性能。

2.1節分析得出高速公路交通流數據具有明顯日、周的周期性,為了讓樣本數據保持原本周期性特點,并選擇出合適的滑動窗口大小,將滑動窗口值Δt分別設為72(1 d)、144(2 d)、216(3 d)、288(4 d)、360(5 d)、432(6 d)、504(7 d)、576(8 d)進行比較并選擇。

表1為不同滑動窗口時,HDL模型預測誤差的比較結果。較低的平均絕對誤差和均方根誤差值表明,該模型預測值與觀測值的總離差較小。從表1中可以看出,當Δt=504 時平均絕對誤差和均方根誤差均為最小,分別為5.530 輛·(20 min)-1、7.700輛·(20 min)-1。所以,將窗口大小設定為504,即將長度為504(7 d)的數據作為輸入,預測未來長度為72(1 d)的高速公路收費站交通流。

表1 窗口大小對誤差的影響Table 1 Influence of window size on error

2.3 網絡參數設置

網絡結構設置會對預測模型的性能產生很大影響,針對高速公路收費站交通流數據,采用Hyperband 算法[7]對模型中濾波器個數(con_filter,cf)、卷積核數(con_kernel,ck)、池化層(maxpool)、LSTM 單元數(lstm_units,ls)、GRU 單元數(gru_units,gs)、學習率(learning rate,lr)、優化器(optimizer)、Dropout(dp)8 個參數進行優化,確定最佳參數組合。

經過 128 次迭代,得到預測誤差(val_loss_score)從小到大的前10組超參數組合,如表2所示,在128次迭代產生的最優值數據中,cf的搜索覆蓋范圍為2~256,步長為8;ck的搜索覆蓋范圍為2~8,步長為1;maxpool的搜索覆蓋范圍為2~8,步長為2;ls的搜索覆蓋范圍為2~256,步長為8;gs的搜索覆蓋范圍為2~256,步長為8;lr的值在[0.1,0.01,0.001,0.2,0.02,0.002,…,0.5,0.05,0.005]中選??;optimizer 在[Adam、SGD、RMSprop]中選??;dp的搜索覆蓋范圍為0.1~1.0,步長為0.1。本文選擇誤差最小的第1組參數組合。

表2 前10組超參數組合Table 2 Top-10 super parameter set

2.4 結果分析與比較

考慮到工作日和節假日的高速公路交通流變化有明顯的差異,分別訓練和預測工作日和節假日(國慶假期)的交通流,同時為驗證HDL 模型的性能,將其與4種典型的深度學習模型(LSTM、GRU、CNN-LSTM[8]、CNN-GRU[9])進行對比分析,并針對工作日、十一假期做了兩組對比實驗。其中,工作日交通流預測實驗中,考慮到交通流數據的周期性,將2016年9月30日-10月7日交通流數據剔除,3 個站口各個方向均得到936 條訓練數據,576條測試數據;十一國慶假日交通流預測實驗中,3個站口各個方向均得到864 條訓練數據,567 條測試數據。

2.4.1 工作日交通流預測結果

圖12為考慮空間、時間、天氣特征的HDL模型和4種典型深度學習模型對3個收費站口各個方向(1-0、2-0、3-0、1-1、3-1)的交通流預測結果(以2016年10月12日為例)。從圖12中可以看出,本文所提HDL模型的預測值與期望值吻合度均為最高。

圖12 5種模型對3個站口各個方向交通流預測結果Fig.12 Prediction results of traffic flow in all directions of three stations by five models

表3為HDL模型對3個站口各個方向在8 d工作日(2016年10月10日-17日)的交通流預測誤差。

表3 HDL模型對8 d工作日的預測誤差Table 3 Prediction error of HDL model for eight working days

為評估模型穩定性,表4給出5種模型對8 d工作日(2016年10月10日-17日)的平均預測誤差。

由表4可知,預測工作日交通流時,本文所提HDL模型的MAE和RMSE在3個站口各個方向上的平均預測誤差值均為最低,表明本文模型在多次實驗后預測誤差仍最小,且集成模型比單一模型的預測精度高。HDL 模型在3 個站口各個方向的MAE平均值為5.450輛·(20 min)-1。

表4 5種模型對8 d工作日的平均預測誤差Table 4 Average prediction error of five models for eight working days

2.4.2 十一國慶假日交通流預測結果

表5為考慮空間、時間、天氣特征的HDL 模型對3 個站口各個方向在十一國慶假日7 d(2016年10月1日-7日)的交通流預測誤差。

表5 HDL模型對十一國慶假日7 d的預測誤差Table 5 Prediction error of HDL model for seven days during National Day

為評估模型的穩定性,表6給出5 種模型對十一國慶假日7 d(2016年10月1日-7日)的平均預測誤差。

由表6可知,預測高峰期(十一國慶期間)交通流時,本文所提HDL 模型的MAE和RMSE 在3 個站口各個方向上的平均預測誤差值均為最低,同樣表明本文模型在多次實驗后預測誤差仍最小,且集成模型比單一模型的預測精度高。

表6 5種模型對十一國慶假日7 d的平均預測誤差Table 6 Average prediction error of five models for seven days during the National Day

為驗證天氣等外部因素對當前道路交通流變化的影響,給出4 種典型深度學習模型在結合時間、空間及天氣因素下(MF),在3 個站口各個方向上對8 d工作日(2016年10月10日-17日)和十一國慶假日7 d(2016年10月1日-7日)的平均預測誤差,如表7和表8所示。

表7 加入外部因素后工作日期間5種模型的預測誤差比較Table 7 Comparison of prediction errors among five models of working days after adding external factors

表8 加入外部因素后十一國慶期間5種模型的預測誤差比較Table 8 Comparison of prediction errors among five models of during the National Day after adding external factors

通過表4和表7、表6和表8的對比發現:考慮天氣等外部因素后,集成模型的預測精度都有所提高,但總體來說本文所提HDL 模型的預測精度仍高于其他模型。預測工作日交通流時,CNNLSTM 模型、CNN-GRU 模型的預測精度最大分別提高3 輛·(20 min)-1、6 輛·(20 min)-1。預測十一國慶期間交通流時,CNN-LSTM 模型、CNN-GRU模型的預測精度最大分別提高1 輛·(20 min)-1、5 輛·(20 min)-1??紤]多因素后,單一模型LSTM和GRU的預測精度下降,原因是單一模型無法捕捉多個特征的信息。

因此,無論是在工作日還是高峰期,集成模型的預測誤差都要小于單一模型,且本文所提HDL模型對高速公路交通流的預測精度明顯優于其他4種典型深度學習模型。由于國慶假期數據量遠少于工作日的數據,且國慶假期交通流變化的不可控因素更多、波動較大,故國慶假期交通流的預測精度低于工作日。

為充分體現本文交通流預測效果,表9給出近兩年有關交通流預測結果的對比情況。

表9 現有文獻對交通流的預測結果Table 9 Prediction results of traffic flow in existing literature

文獻[8-9]考慮了交通流的時空因素,但未考慮天氣等因素對交通流變化的影響;文獻[10-11]只考慮了交通流的時間特征,未考慮空間及天氣等因素對交通流變化的影響,故其預測精度都低于本文HDL 模型。再次說明,考慮多種因素可以提升高速公路交通流預測精度。

3 結論

精準地預測高速公路交通流,不僅可以為高速公路管理人員提供決策輔助,還可以為公眾出行路線選取提供參考,便于車輛分流,進而緩解高速公路交通擁堵狀況。為更準確地預測高速公路交通流,本文提出一種集成深度學習模型,該模型考慮高速公路交通流數據的周期性和趨勢性特點,發揮了CNN 對空間特征提取,LSTM和GRU 對長期依賴性特征提取的優勢來實現預測過程,并采用某省某高速公路2016年9月19日-10月17日的數據進行模型驗證。首先,為因勢利導,將交通流數據分成工作日和十一國慶假期兩部分分別進行訓練和預測,利用滑動窗口方法,以數據的周期性特點確定了最佳窗口大小為7 d;其次,構建包含時間、空間和天氣的特征矩陣作為模型的輸入;再次,利用訓練數據對HDL模型進行訓練;然后,利用測試數據對訓練好的模型進行測試同時評估該模型;最后,將本文所提HDL 模型和CNN、LSTM、CNNLSTM、CNN-GRU這4種典型的深度學習模型進行對比分析,同時將本文預測結果與近兩年有關交通流預測文獻進行對比。結果表明:集成深度學習模型對交通流的預測結果要優于單一深度學習模型;本文提出的HDL 模型,由于綜合考慮了時空及天氣因素,其交通流的預測精度明顯高于其他模型,同時也體現出天氣對交通流有很大影響,是預測交通流不可忽略的因素。

在未來的研究中,我們將探討更多可能影響交通流預測性能的因素,例如探討車輛的行駛速度、腹地城市人口與經濟情況等因素,以期進一步提升高速公路交通流的預測精度。

猜你喜歡
交通流收費站天氣
江蘇20個高速收費站實施“準自由流”改造
浙江首個“云收費站”投用
天氣冷了,就容易抑郁嗎?
誰是天氣之子
盛暑天氣,覓得書中一味涼
基于Spark的高速收費站大數據系統的設計與實現
基于加權組合模型的短時交通流預測研究
一種平穩化短時交通流預測方法
Weather(天氣)
一種收費站排隊模型的模擬實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合