?

基于路警數據與LightGBM算法的高速公路行程時間預測*

2022-12-14 04:07景峻仝瑤李鵬么新鵬王孜健
公路與汽運 2022年6期
關鍵詞:門架路段高速公路

景峻, 仝瑤, 李鵬, 么新鵬, 王孜健

(1.山東高速集團有限公司, 山東 濟南 250098;2.北京工業大學 城市交通學院, 北京 100124;3.北京市交通工程重點實驗室, 北京 100124)

行程時間是現代交通管理和控制系統的關鍵輸入,也是道路服務水平評價的常用指標,對出行者是最有價值的信息。高速公路行程時間預測是一個十分重要的課題,大量學者對此進行了研究。在預測算法方面,邢雪等采用高速公路實測歷史數據構建特征集,建立了一種預測強度修正的k-means方法;王翔等基于最鄰近算法(KNN),考慮歷史交通狀態特征,對高速公路短時行程時間進行了預測;劉偉銘等將最小二乘支持向量機(LSSVM)應用于行程時間預測,并利用粒子群算法(PSO)對LSSVM的參數進行優化,最終利用PSO-LSSVM模型預測行程時間;杭明升等將卡爾曼濾波成功應用于高速公路行程時間動態實時預測;江周等采用多源數據融合的方法,基于卡爾曼濾波算法建立了城市道路網絡行程時間預測模型;李萌等考慮惡劣天氣情況對高速公路行程時間預測的影響,將降雨量作為影響因素,利用遺傳算法優化的徑向神經網絡(RBF)實現了不同降雨強度下行程時間預測;劉松等基于高速公路收費站的刷卡數據獲取行程時間,利用門限遞歸神經網絡對行程時間進行了預測;林培群等對不同機器學習算法及長短時記憶神經網絡模型(LSTM)進行融合,并引入高速公路時空特性,實現了不同時間步長下高速公路行程時間預測;為同時得到預測結果及置信度,文獻[10-11]將貝葉斯理論納入行程時間預測框架。上述方法用于行程時間預測各有所長,其中神經網絡具有強大的非線性映射能力,能處理海量數據;機器學習有著更好的解釋性,但在處理大量數據時力不從心。LightGBM算法融合了二者的優點,其運算速度快、內存消耗低、模型精度高、支持并行訓練、可處理海量數據,被廣泛應用于行程時間、客流等預測。

在數據源方面,現有行程時間預測方法所依賴的數據主要源于傳統交通調查、“兩客一?!北倍范ㄎ患案榆嚁祿?。傳統交通調查設備檢測精度不高,耐久性較差,布設與維修成本高昂;“兩客一?!睌祿c浮動車數據僅包含旅游客車、危險品運輸車輛或出租車與公交車,預測出的行程時間對于高速公路整體交通狀況不具有代表性。此外,受限于視頻卡口的覆蓋范圍及檢測精度,視頻數據在行程時間預測應用方面的效能一直無法充分展現。2019年中國高速公路“撤站”后,全國共建設完成約2.7萬套ETC(電子不停車收費系統)門架,發展ETC用戶約2.26億,日均生成3億多條天線交易數據和4億多條車牌識別數據。如此廣闊的覆蓋范圍和龐大的數據體量及高精度檢測特性使ETC門架數據在交通流預測、交通事件識別、交通協同管控等方面具有先天優勢。當前視頻卡口數據主要歸屬于公安交警,ETC門架數據主要歸屬于高速公路管理部門。融合路警雙方的數據源,在充分挖掘ETC門架數據的基礎上,應用視頻卡口數據對其進行補充,可有效提高檢測器與數據采集密度,支撐更加準確的行程時間預測應用,助力高速公路精細化監管。因此,本文以高速公路ETC門架與交警視頻卡口數據為基礎,應用LightGBM機器學習算法進行高速公路行程時間預測,以快速獲取較高精度的行程時間預測結果,為高速公路智能化實時管理控制與出行信息服務等應用提供數據支撐。

1 數據處理與特征集構建

1.1 數據來源與數據結構

研究數據源為ETC門架交易數據和視頻卡口過車數據。ETC門架原始交易數據主要字段見表1,包括通行標識、通行介質、門架ID、車牌號、車牌顏色、交易時間、車型等信息。相鄰點位交易信息比對結果表明,全日ETC門架檢測車輛檢出率可達99%,可識別車型達16種。

表1 ETC門架原始數據主要字段

視頻卡口原始數據主要字段見表2,包括卡口樁號、車速、號牌號碼、采集時間、車牌顏色、車輛顏色等信息。相較于ETC門架數據,卡口數據具有更多的交通檢出信息(包括車速、分方向車道的交通量等)。值得注意的是,由于高清視頻卡口檢測依賴于能見度,在夜間等能見度不足的情況下存在漏檢、錯檢等問題。

表2 卡口原始數據主要字段

1.2 數據預處理

由于ETC門架原始數據中僅存儲交易時間數據,且ETC交易分為OBU(車載單元)收費和CPC(復合通行卡)收費兩種方式,交易延遲不統一,存在實際通行時間不明確的問題,難以與視頻卡口車輛通行時間匹配。視頻卡口檢測存在重復檢測、車牌字段缺失等問題。因此,原始數據不能直接用于行程時間預測,需對數據進行預處理,校正時間并剔除異常數據。此外,兩種數據源的車型、車牌分類標準存在差異,需對ETC門架及卡口數據進行關聯融合處理。數據預處理流程如下:

(1) ETC門架數據時間校準。根據通行介質字段區分兩種交易方式,分別針對兩種交易方式,根據交易系統平均延時將交易時間字段校正為通行時間。

(2) 卡口異常數據清洗。剔除卡口原始數據中車牌號為空或錯誤的過車數據,對數據以30 min為窗口進行去重。

(3) 路段單元構建。根據各ETC門架及卡口安裝樁號及檢測范圍,對檢測設備先后順序進行排序,將連續兩設備及其中間路段作為一路段單元,并計算路段單元長度。

(4) 路警數據融合與車輛匹配。通過車牌號、車牌顏色字段對路段單元起終點設備檢測到的過車數據(ETC門架或卡口)進行關聯,獲取完整通過路段單元(未經立交駛入、駛出高速公路)的車輛及其通過路段起終節點的時間。

(5) 行程時間計算與異常值剔除。計算車輛行程時間,結合各路段單元長度,剔除過長或過短的行程時間數據。

1.3 特征集構建

在訓練模型前,從數據集中提取對車輛行程時間可能有影響的特征。特征的選取直接影響預測精度。通過對數據的初步分析,參考文獻[3,9,16-19],選取以下8個特征作為模型的輸入(見表3):

表3 特征集含義及分類

(1) 路段流量。當前路段歷史各時段交通流量。本研究中,由于兩檢測器間可能存在立交及高速公路出入口,選取路段單元起點檢測器流量作為路段流量。

(2) 大車混入率。當前路段歷史各時段二型以上大車占總體交通量的比例。

(3) 天氣。當前時刻天氣狀況(晴/雨/霧)。不良的天氣對駕駛員駕駛行為具有較大影響,可能導致車速不穩定和行程時間增加。天氣信息從互聯網爬取,每小時更新。

(4) 日期類型。當前日期屬工作日或節假日等。

(5) 時間。當前時段起始時間。

(6) 車型。根據ETC門架交易數據將車輛分為14種類型。以某路段2021年5月部分時段數據為例,進行分車型的行程時間統計,結果見圖1。從圖1可見各車型間行程速度差異較大。

圖1 各車型行程時間

(7) 路段長度。當前路段道路長度,為靜態值。

(8) 平均行程時間。當前路段歷史各時段的平均行程時間。當前時間路段行程時間可能與歷史上一時段的行程時間具有相關性。

以5 min為一個時間單元進行模型訓練及預測,在該時間單元內,交通狀態及天氣環境不會出現較大變化,且能保證樣本車輛完整通過每一路段單元(檢測器平均間隔5 km,符合道路限速條件的最大行程時間為5 min)。

將數據集中的參數link_flow、large_mix_rate、weather、is_holiday、time、vehicle_type、link_distance、avg_travel_time分別設為U={X1,X2,X3,…,X8},基于數據的歷史時間序列對原始數據集進行重構,形成預測的特征集:

(1)

將特征集矩陣Q按行展開成一個行向量,并基于整體數據構建訓練集Qtre:

(2)

2 模型構建

2.1 LightGBM算法

LightGBM算法是XGBoost(極限梯度提升樹)的改進算法,與XGBoost相比有著更快的計算速度和更高的精度。LightGBM與XGBoost是在GBDT(Gradient Boosting Decision Tree)基礎上發展而來的大規模并行計算提升樹,與GBDT不同的是,LightGBM的目標函數在損失函數的基礎上增加了正則化項,考慮了樹過于復雜而帶來的過擬合問題。LightGBM的目標函數如下:

(3)

式中:Loss(·)為模型預測的損失函數;ω(ft)為正則化項。

(4)

目標函數可表示為:

(5)

根據式(5),只需求出ft(xi),便可進一步得到目標函數fobj。根據二階泰勒展開公式,得:

f(x+Δx)=f(x)+f′(x)·Δx+

(6)

將目標函數fobj展開為二階泰勒公式,得:

(7)

問題的核心是怎樣對特征空間進行劃分,即遞歸地尋找最優切分變量和切分點。最優切分變量和切分點的計算方式與GBDT類似,基于貪心算法的思想,對于每個節點,針對每個特征采用啟發式算法計算最優切分點,再遍歷所有特征變量,找到最佳切分變量。重復上述算法直到滿足停止要求。XGBoost算法對損失函數應用了二階泰勒展開,相對于GBDT的一階展開其精度更高;加入正則化項,可有效避免過擬合;可自動對缺失值進行處理,且可并行計算,計算速度更快。但XGBoost算法在計算最佳切分變量及最優切分點時需遍歷每個特征及每個數據,會消耗大量內存,計算復雜。LightGBM算法在XGBoost算法之上進行改進,使用帶深度限制的Leaf-wise算法防止模型過擬合,采用直方圖加速算法降低內存消耗和計算復雜度。

帶深度限制的Leaf-wise算法中,樹的生長策略有兩種生成方法:一是Level-wise基于層的生長方法,對每層每個節點都進行分裂;二是Leaf-wise方法,對于每層,只分裂增益較大的節點,可減少計算量,同時利用最大深度限制防止過擬合(見圖2)。

圖2 不同的樹生長策略

基于直方圖的加速算法將輸入層中已排序的參數數據集轉換為具有指定數量的數據區間或Bins的直方圖(見圖3)。轉換之后,每個數據間隔(Bin)擁有相同的索引。該算法在大大提高LightGBM模型訓練速度的同時只需較少的內存消耗。

圖3 直方圖加速算法示意圖

2.2 LightGBM模型訓練

2.2.1 數據準備

研究路段為山東省濟南市濟廣(濟南—廣州)高速公路唐王收費站至濟南零點收費站區間,共22 km,單向四車道,自東向西途徑臨港、小許家、東客、華山立交。對濟廣高速公路2021年5月車流量及大車混入率按小時進行統計,結果如下:濟廣高速公路車輛出行時間主要集中在6:00—19:00,以二型及以下小型車為主,小型車占比為90%左右;夜間流量較低,以大型車為主,大型車占比最高達45%(見圖4)。

該路段單向共設置3處ETC門架、2處視頻卡口。選取這5個點位2021年5月共2 450 387條ETC交易數據及2 145 281條視頻卡口過車數據進

流量為一個月各時段平均值

行高速公路行程時間預測。

2.2.2 模型主要參數設置

LightGBM模型有較多的超參數,不同參數值對模型性能有顯著影響,需針對具體應用場景對模型超參數進行優化。采用文獻[18]中方法對參數進行優化調整。為防止數據訓練過擬合,采取K折交叉驗證(KCV)的方法將特征數據集分成m份,其中c份用作訓練集,m-c份數據用作驗證集,對模型進行訓練。模型的主要參數及相關字段見表4。

表4 模型重要參數表及相關字段

基學習器的數量對模型預測精度有很大影響,數量過大或過小會導致模型訓練結果過擬合或欠擬合。為解決這個問題,以均方根誤差RMSE為指標,通過不斷迭代學習尋找合適的基學習器數量。如圖5所示,模型預測的RMSE隨著基學習器的數量增大而減少,最后達到收斂狀態。選取500個基學習器。

圖5 RMSE隨模型基學習器數量的變化

LightGBM模型的learning_rate對算法的計算速度及預測精度有很大影響。在LightGBM模型中,learning_rate的默認值為0.1。在其他參數不變的情況下,將learning_rate分別設置為0.01、0.05、0.1,分析不同learning_rate下模型誤差與迭代次數的關系,結果見圖6。由圖6可知:對于上文構建的預測模型及數據集,LightGBM算法中learning_rate對模型預測精度幾乎沒有影響,但learning_rate越大,算法收斂越快。

圖6 不同learning_rate下模型誤差與迭代次數的關系

在LightGBM模型中,max_depth和num_leaves控制決策樹的復雜性,其取值過大會使模型陷入過擬合,導致預測精度達不到預期。為此,研究誤差隨不同max_depth和num_leaves參數值組合的變化,獲取超參數的優化值,結果見圖7。由圖7可知:虛線圈中顏色最深,max_depth的最佳取值約為4,對應于num_leaves參數的最佳取值約為10,與利用文獻[15]中基于貝葉斯的參數方法所得結果吻合;隨著max_depth與num_leaves取值的增大,誤差逐漸增大,表明模型可能出現過擬合。因此,兩參數的取值不宜過大,該結論與LightGBM模型本身的性質也相符。

圖7 誤差隨num_leaves與max_depth不同取值的變化熱力圖

其他超參數的取值見表5。

表5 超參數的優化取值

3 模型結果分析

3.1 模型驗證指標

選取均方根誤差RMSE、平均絕對誤差MAE、平均絕對百分比誤差MAPE作為預測模型精度驗證指標。RMSE反映預測結果與實際值之間的偏差,計算公式如下:

MAE是預測值與實際值絕對誤差的平均值,反映誤差的真實情況和大小,計算公式如下:

MAPE是預測值與實際值絕對誤差和實際值的比值的百分比,反映預測結果的可靠度,計算公式如下:

3.2 模型對比驗證

為驗證LightGBM模型在高速公路行程時間預測方面的優越性,選取隨機森林(RF)、支持向量機回歸(SVR)、最鄰近(KNN)3種常用機器學習算法進行對比驗證。根據5個ETC門架及視頻卡口檢測器分布將該高速公路分為4段分別進行預測。各路段不同模型預測值與實際值的對比見圖8。

圖8 不同模型預測值與實際值對比

從圖8可看出:LightGBM模型能較好地預測數據的趨勢和走向。實際值中存在一些異常值(偏離均值程度很大),可能是由高速公路上突發狀況(如車禍、異常天氣等)所致。LightGBM模型對于這些異常情況的預測效果不是很好,但總體預測精度較高。

為進一步分析LightGBM模型的預測性能,將該模型的RMSE、MAE、MAPE及耗時與KNN、RF、SVR算法進行對比,結果見表6。

表6 各路段不同模型預測效果評價

從表6可看出:1) LightGBM模型預測值的RMSE、MAE低于KNN、RF、SVR模型,除路段3的MAPE略高于RF模型外,其他路段均低于KNN、RF、SVR模型。對于路段1和路段2,KNN、RF、SVR模型的3個指標預測精度大致相同;對于路段3,SVR模型預測值的RMSE明顯大于其他模型;對于路段4,RF、SVR模型的預測精度類似,KNN模型的預測精度低于其他模型。2) 從運算耗時來看,KNN模型因其簡易的計算原理,耗時最短,其次是LightGBM模型,兩模型的耗時差距較小,都小于1 s;SVR模型的耗時為10~20 s,排名第三;耗時最長的是RF模型,路段1~3的運算時間在40 s以上??傮w來說,RF、SVR模型的運算時間遠高于KNN、LightGBM模型,不適用于實時預測;KNN的耗時最短,但與LightGBM模型的差距較小,而后者的預測精度和穩定性優于前者。綜合來看,LightGBM模型滿足高效、準確的實時預測要求,是性能最好的高速公路行程時間預測模型。

4 結語

針對高速公路行程時間預測中存在的數據來源單一、預測時效性不足等問題,本文提出一種基于路警融合數據的LightGBM模型,實現高速公路行程時間的高效預測。利用ETC門架、視頻卡口多源融合關聯數據,采用該模型進行預測,與其他傳統機器學習算法相比, LightGBM算法的綜合性能最好,有助于節省計算與存儲資源,可應用于高速公路路網級的行程時間實時預測。但該預測模型采用的訓練和測試路段線形較平順,且采用的是交通暢通條件下數據,后期需利用更多不同路段、不同交通狀態下數據進行模型驗證,以推廣到整個高速公路網,提高路網整體監測與管理能力。

猜你喜歡
門架路段高速公路
冬奧車道都有哪些相關路段如何正確通行
基于新能源技術的高速公路ETC門架供電系統
高速公路ETC門架供電系統的保障方案
基于“云-管-端”體系的ETC門架健康監測平臺
自由流ETC門架可靠供電系統設計分析
基于XGBOOST算法的擁堵路段短時交通流量預測
高速公路重要路段事件檢測技術探討
基于元胞自動機下的交通事故路段仿真
基于元胞自動機下的交通事故路段仿真
為什么高速公路上不用路燈照明
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合