?

基于改進RF-XGBoost算法的列車運行晚點預測研究

2023-03-14 08:32劉魯岳肖寶弟岳麗麗
鐵道標準設計 2023年3期
關鍵詞:晚點決策樹高鐵

劉魯岳,肖寶弟,2,岳麗麗

(1.蘭州交通大學自動化與電氣工程學院,蘭州 730070;2.北京康吉森交通技術有限公司,北京 101318)

引言

伴隨著中國經濟的快速發展,新時期“八橫八縱”高速鐵路網不斷加密并覆蓋各級城市。截至2021年底,全國高速鐵路運營里程已達到4萬km。高鐵服務旅客出行的同時,由于惡劣天氣,設備故障及客流量大等影響,列車晚點的現象時有發生。據資料顯示,京廣高鐵和滬昆高鐵等繁忙干線經常因為暴雨導致列車晚點,晚點時間長達數小時。而且高鐵存在行車密度大,客流量多以及交路圖復雜等特點,晚點將會打亂列車正常運行計劃,增加在區間運行的風險及加重車站調度員的工作量[1]。

列車晚點分為初始晚點和連帶晚點。由于設備故障和惡劣天氣等原因造成的晚點稱為初始晚點;由于前行列車晚點而導致后行列車晚點稱作連帶晚點[2]。因此,為了使列車晚點損失降到最小,在鋪畫列車運行圖時需要設置一定的緩沖時間。設置緩沖時間能夠使列車實現晚點自身恢復[3]。近幾年,國內外有大量學者針對列車晚點預測進行研究。張琦等[4]通過特征識別方法,將晚點類型分為四類,運用神經網絡對連帶晚點現象智能預測;莊河等[5]基于廣鐵集團高速列車的運行實績,通過K-S檢驗比較初始晚點分布曲線的擬合效果;黃平等[6]運用隨機森林回歸模型,將晚點恢復時間作為因變量研究武廣高鐵晚點恢復情況;廖璐等[7]建立基于GBDT的列車晚點時長預測模型,經過模型調參后發現預測精度提高;張路凱等[8]提出在狀態空間下的模型架構,設計傳統誤差的二次線性調節器對晚點預測誤差控制,與貝葉斯網絡后比較效果更佳;SANJIN[9]提出運用一種模糊Petri網模型來預測列車晚點情況,并對晚點時長等級進行評估;SHI等[10]將貝葉斯優化與極端梯度提升相結合預測列車到達晚點時間,研究發現在異常情況下預測結果更精確;HUANG等[11]采用多數據融合的方式,結合3D CNN、RNN、LSTM和FCNN預測列車到達延遲,發現各項指標趨于更優。

綜上,現有的研究理論主要是應用傳統數學模型和機器學習方法實現列車晚點預測。比較發現,機器學習的預測精度明顯高于數學模型。在現有晚點預測文獻中,晚點因素的選取主要由經驗決定,但憑借經驗容易遺漏重要變量,而將無關變量輸入到模型中,導致預測精度降低。另外,大部分預測模型僅使用一種算法,單一算法存在許多局限性。鑒于此,本文將隨機森林(RF)與極端梯度提升(XGBoost)相結合實現列車晚點預測,RF對原始數據特征選擇,以挖掘與列車晚點關聯度較大的特征量,并將降維后數據集輸入XGBoost模型中學習訓練,分析得出RF-XGBoost模型具有更高的預測精度。

本文首先概述實驗原始數據及預處理過程,選擇列車晚點預測的自變量與因變量,并分別介紹RF和XGBoost算法,建立基于RF-XGBoost的晚點預測模型;隨后進行模型調參與評估,通過劃分不同比例的訓練集和測試集,對比RF-XGBoost與原XGBoost模型的性能指標;最后在不同允許誤差范圍內分析實驗結果,并提出下一步的重點研究方向。

1 數據描述與預處理

1.1 線路介紹

本研究使用的列車運行實績數據來源于中國鐵路濟南局集團的濟青高鐵,濟青高鐵于2015年開工建設,2018年底竣工運營,全長328 km,從濟南東站到青島北站共有12座車站和11個線路區段。線路設計時速為300 km,采用CTCS-3級列控系統和調度集中控制系統。C3列控系統是基于GSM-R無線通信系統實現車-地信息的雙向傳輸,將無線閉塞中心生成的行車許可傳給車載系統,軌道電路檢查列車占用股道情況,應答器對列車運行實時定位監督[12-13]。

由于線路開通運營初期,高鐵列車跨線運行、交路運行復雜且列控設備不完善,列車晚點的現象時有發生,因此選擇此線路進行列車晚點預測分析。高速列車晚點歷史數據均來源于調度中心,時間跨度為2019年10月至2020年1月,一共包括2019年第四季度所有列車到發站事件。數據具體記錄了每趟列車的車次、日期、計劃到達時間與出發時間、實際到達時間與出發時間等相關信息,部分數據如表1所示。

表1 濟青高鐵列車部分原始數據

1.2 數據預處理

由于得到的是調度中心原始數據,存在一些缺失值與異常值,不能直接將其輸入模型訓練,需要對原始數據預處理[14]。數據預處理包括對數據的缺失值、重復值和異常值的處理,最后將數據標準化。

(1)缺、重值處理:由于數據遺漏或屬性不同,原始數據表中存在個別數據的缺失或重復,這對研究結果會造成一定影響。因此將重復值予以刪除,將缺失值插補處理。

(2)異常值處理:異常值包括不合常理的值以及正晚點偏差極大的不平衡值。此類數據會使預測結果不準確,因此將明顯錯誤的異常值數據剔除。

(3)數據標準化:將處理過的數據進行清洗,把數據集按照比例和范圍縮小,將其放入相同的特定區間,實現數據標準化,減小數據差異對晚點預測建模的影響。將預處理后的列車晚點數據做成易于觀測的頻率分布直方圖,如圖1所示。

圖1 濟青高鐵列車晚點到達觀測直方圖

列車到達晚點符合“長尾分布”的特點,大多數高鐵晚點時間在10 min以內,只有極少數晚點在20 min以上,而且部分列車會提前5 min之內到達。這種現象符合常規的列車晚點分布,便于分析訓練。

2 模型建立

2.1 隨機森林(RF)算法及原理

隨機森林(Random Forest,RF)算法是在2001年由美國貝爾實驗室提出,屬于傳統決策樹的一種集成學習算法[15]。隨機森林通過對數據建模和分類回歸,可用于風險等級預測和模型狀態評估。在處理預測問題方面,大量回歸樹組合處理多維度的復雜數據,不易出現過擬合,并且具有較高的準確率。RF算法的原理圖解如圖2所示。

圖2 隨機森林算法原理

RF算法是基于Bagging思想的集成學習理論和隨機子空間的一種多分類模型,其基本單元是分類回歸決策樹,由多個決策樹構成“一片森林”的集合。當輸入一組數據集參與訓練時,RF隨機建立多棵決策樹,經過訓練后產生決策樹的組合,RF輸出的結果是由決策樹多數投票決定的[16]。由于RF采取有放回的隨機抽樣,從概率的角度分析,有部分數據將無法參與訓練而被浪費,此類數據稱為袋外數據(out of bag data,obb)。RF中決策樹生成過程如下。

Step1:設訓練集數據為D個,每棵決策樹有放回的隨機抽取m個樣本作為訓練子集。

Step2:在M個特征集合中隨機挑選k個樣本作為特征子集,從k個特征中選擇最優的一個特征進行分裂。

Step3:在不剪枝的情況下,讓每棵樹一直分裂下去,然后重復上述過程。

RF算法雖然常用于預測問題研究,但是由于算法的參數需要人工調節,若調節不當,預測精度可能有差別。因此需要調整參數并深入研究。

2.2 特征自變量選擇

初始列車的晚點時長將會影響后續列車的晚點情況,若前一列車在某車站造成延誤,需考慮相同股道的下一列車是否受影響在該站晚點。由于在鋪畫運行圖時設置了緩沖時間,所以當列車發生小延誤時能夠被吸收,但在大延誤時無法恢復還將波及下一車站,關鍵要預測列車在下一車站的到達晚點時間。

結合列車原始數據,分析可能造成列車晚點的影響因素,初步選出以下13個變量并分別標記為X1~X13。

(1)列車i在S站實際到達時間(X1)

(2)列車i在S站實際出發時間(X2)

(3)列車i在S站實際停留時間(X3)

(4)目標列車i的車次編碼號(X4)

(5)列車i在S站計劃到達與實際到達時間偏差(X5)

(6)列車i在S站實際出發與計劃出發時間偏差(X6)

(7)管轄范圍內接入始發車站編碼(X7)

(8)管轄范圍內終到交出車站編碼(X8)

(9)列車i在區間內(S-1站至S站)圖定運行時間(X9)

(10)列車i在區間內(S-1站至S站)實際運行時間(X10)

(11)S-1站至S站的區間長度(X11)

(12)列車i經停車站的編碼(X12)

(13)列車i的屬性及類型(X13)

隨后,運用RF算法進行數據集降維,依據重要度排序的結果篩選出特征數據集,經過多次訓練,重要度的數值及排序結果均未發生變化。各變量排序結果如圖3所示。變量X9重要度評分與前7個變量相差較大,因此,提取特征排序前7個量(X1、X2、X3、X5、X6、X10、X11)作為影響晚點的特征自變量,組成特征空間集作為預測模型的輸入,模型因變量(預測變量)為預測列車到站晚點時間。分析7個特征變量間的關系,繪制其散點圖矩陣,如圖4所示。比較得出特征變量X1與X2線性相關度最大。但X1與X11間也存在較強相關性,其他各參數均存在多重共線性,不能直接進行線性回歸,因此選用機器學習來處理。

圖3 影響列車晚點特征重要度排序

圖4 各特征變量之間的散點圖

2.3 XGBoost算法及原理

XGBoost(eXtreme Gradient Boosting)全稱為極端梯度提升樹,它由梯度提升決策樹(GBDT)發展而得到。XGBoost算法的主要特點是不斷增加新的決策樹參與訓練,然后去擬合預測真實值與之前所有決策樹預測真實值的殘差,從而形成眾多樹規模的強學習器,將之前所有決策樹的預測結果累加形成最終的預測值[17]。因此,XGBoost算法在每棵決策樹之間為串行運算,而在分列樹的節點時遵循并行運算。

比GBDT更優的是,XGBoost算法在損失函數中加入了正則項,控制規模的復雜程度,防止出現過擬合[18]。XGBoost算法的目標函數定義如下

(1)

(2)

最后,XGBoost可應用于特征選擇,利用貪婪算法計算所有葉子節點分裂前后的信息增益,增益用于確定最佳分割節點,公式如下

gain=

(3)

式中,IL和IR分別為在分割后重新發送左節點和右節點的樣本,I=IL+IR。增益得分越高,則XGBoost的特征重要度得分越高,說明對應的特征更重要有效[20]。

XGBoost算法的關鍵流程為輸入特征子集、樹的最大深度、弱學習者最大數量和葉子對象最小權重的總和等,輸出為訓練數據的預測值。XGBoost算法通常有3種類型的參數,分別是通用類型參數、booster參數和學習任務參數[21]。本研究使用的主要參數設置值如表2所示。

表2 XGBoost算法主要參數設置

2.4 RF-XGBoost預測模型構建

RF算法擁有建模速度快、訓練效率高、能夠處理高維數據和避免過擬合等特點,同時,XGBoost算法利用連續迭代的思想不斷優化訓練模型,通過累加最終得到預測值,且在其他領域預測中,均取得優良的擬合效果。鑒于上述兩種算法的優勢,將二者相結合,提出一種RF-XGBoost算法來預測列車晚點問題。

基于RF-XGBoost算法的列車晚點預測模型實現步驟如下。

Step1:整理高鐵晚點原始數據集,清洗數據,刪除其中的重復值、缺失值和異常值,將數據標準化處理。

Step2:選擇列車實際到達時間等參數作為自變量,將預測列車到站晚點時間作為因變量輸出。

Step3:使用RF對預處理過的數據集按照重要度排序并降維,將特征排名的前7個特征量作為訓練的特征變量輸入,完成特征選擇。

Step4:利用交叉驗證的思想,將數據集分別按70%和30%劃分成訓練集和測試集。

Step5:劃分完的數據集輸入XGBoost分類器進行學習訓練,不斷調整模型參數以提高預測精度,對預測結果用R語言擬合。

Step6:最后計算預測評估指標,分析此模型的準確性,并與原XGBoost算法相比較,查看模型的預測效果。具體RF-XGBoost算法流程如圖5所示。

圖5 RF-XGBoost預測模型基本流程

3 模型驗證與評估

為驗證模型預測的準確性,選取R2(決定系數),MAE(平均絕對誤差),MSE(均方誤差)和RMSE(均方根誤差)共4個性能指標評估[22]。當R2越趨近于1,MAE、MSE和RMSE的值越小時,表明數據的非線性擬合程度越高,模型預測的結果越精確。這些指標的計算公式如下

(4)

(5)

(6)

(7)

將原XGBoost模型與改進后的RF-XGBoost模型相對比,分別計算反映預測指標的R2、MAE、MSE和RMSE的值,得到的結果如表3所示。

表3 原模型與改進后模型的性能指標對比

由表3發現,RF-XGBoost模型在各項性能指標方面較XGBoost模型均有所提升,選用此預測模型取得了較小的MAE與RMSE值及較大的R2值,其中MAE值降低了60.5%,RMSE值降低了44.8%,而R2值提高了14.6%,獲得了較為滿意的預測效果。與XGBoost算法相比,RF-XGBoost處理大量數據擁有更高的擬合能力和更強的魯棒性,因此該方法可有效預測列車晚點。

為進一步研究選用RF-XGBoost模型的預測精度,本文選取允許預測誤差在不同范圍內比較,結果如表4所示。研究發現,允許誤差在1,3,5 min范圍內的預測精度均達到90%,而且在允許預測誤差5 min內的精度達到97.78%,取得良好的預測效果。本文以前200次列車為例,繪制了預測晚點時間與實際晚點時間的結果擬合圖,發現兩條曲線的變化趨勢大致相同,擬合程度較高,如圖6所示。

表4 模型的預測精度對比結果

圖6 RF-XGBoost模型預測晚點與實際晚點時間擬合曲線

4 結論與展望

本文將RF與XGBoost算法相結合,建立RF-XGBoost模型實現高速列車晚點預測,基于濟青高鐵的運行數據,以特征重要度排序為標準,選擇前7個變量輸入預測模型訓練分析。將此模型與原XGBoost方法相對比,各項預測評估指標均有較大提升,驗證了RF-XGBoost模型能夠提高預測精度。盡管此方法在研究中取得良好的效果,但后續依然有工作需要進行,進一步的研究方向總結如下。

(1)本研究中僅利用一個季度的列車運行數據,數據訓練的容量有限,由于選取的列車晚點數量和區間線路長度有差異,預測結果可能不全面,下一步擴大訓練數據集分析。

(2)本文暫未考慮高鐵運行時因暴雪等惡劣天氣,軌道異物入侵以及春運節假日時客流量大導致的列車大面積晚點的情況,下一步對此類異常情況重點分析。

(3)在探究晚點預測問題新模型時,對比其他各種算法的性能指標和計算機運算時間,以分析出更加優質預測方法和全面的預測結果。

猜你喜歡
晚點決策樹高鐵
基于馬爾科夫鏈的高鐵列車連帶晚點橫向傳播
晚點的火車(外三首)
一種針對不均衡數據集的SVM決策樹算法
高鐵會飛嗎
高速鐵路初始晚點致因-影響列車數分布模型
決策樹和隨機森林方法在管理決策中的應用
人地百米建高鐵
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應用
第一次坐高鐵
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合