?

鐵路旅客列車客座率分類及預測模型研究

2018-03-20 06:38朱建生呂曉艷賈新茹王煒煒
鐵道運輸與經濟 2018年3期
關鍵詞:客座率樣本數聚類

張 永,朱建生,馮 梅,呂曉艷,賈新茹,王煒煒

ZHANG Yong,ZHU Jian-sheng,FENG Mei,LYU Xiao-yan,JIA Xin-ru,WANG Wei-wei

(1.中國鐵道科學研究院 研究生部,北京 100081;2.中國鐵道科學研究院 電子計算技術研究所,北京 100081;3.中國民用航空華北地區空中交通管理局 通信網絡中心,北京 100710)

(1.Postgraduate Department,China Academy of Railway Sciences,Beijing 100081,China; 2.Institute of Computing Technology,China Academy of Railway Sciences,Beijing 100081,China; 3.Center for Communication Networks,CAAC North China Regional Administration,Beijing 100710,China)

鐵路旅客列車客座率的目標通常是根據現有列車運行信息下達的,傳統的做法是將這些列車信息輸入到電子表格中,利用人工進行列車信息的處理、分類和客座率的預估,形成一張決策表。在實際工作中,這樣的做法存在誤差較大、決策信息不一致等問題。在既有的客座率或客運量的預測研究中,主要利用 BP 神經網絡、多元非參數回歸模型、時空序列和灰色線性回歸算法,根據歷史客座率或客運量作為訓練集進行預測,并沒有根據列車屬性挖掘出目標變量的生成規則[1-3]?;谏鲜鰡栴},提出一種基于隨機森林算法的旅客列車客座率分類及預測模型,并以 2013 年和2014 年全路開行的 5 種類型的列車 (非臨客) 數據作為訓練集,2015 年新開行的列車 (非臨客) 開行前一個月的數據作為測試集,對新運行圖列車進行日均客座率的分類和預測。

1 旅客列車客座率分類及預測模型

1.1 數據預處理

首先,收集列車基礎信息,包括列車類型、始發時間、終到時間、停站個數、列車運行里程、運行時間、始發站等級 (始發站日均發送人數)、終到站等級 (終到站日均發送人數),并將這 8 個因素作為輸入屬性??梢钥闯?,除第 1 個屬性為離散型變量外,后 7 個變量和目標變量客座率均為連續型變量。其次,根據隨機森林算法的要求,通過離散化算法將連續型變量轉化為離散型變量。數據離散化可以有效地克服數據中隱藏的缺陷,避免極端值影響分類結果。

1.1.1 目標變量的離散化

離散化算法分為非監督離散化算法和監督離散化算法[4]。非監督離散化算法,如等頻、K 個區間比例加權離散化算法 (WPKID)[5]和基于聚類的算法[6]等;監督離散化算法,如 CACC 算法[7]、ChiMerge 算法[8]、Hellinger 算法[9]和基于信息熵的離散化算法[10]等。由于目標變量為連續型變量,因而需要對目標變量進行非監督的離散化。但是,上述非監督離散化算法忽略了數據分布信息,區間邊界的確定不具有代表性。

為解決上述問題,提出一個解決目標變量離散化的算法模型:譜聚類-CACC 模型。該算法首先對客座率利用譜聚類進行非監督的劃分,譜聚類是一種基于圖論劃分[11]的聚類算法,它將數據點和點間距離看做帶權無向圖,并根據定義的 K 值進行子圖的分割。分割結束后,呈現出同簇內部節點之間相互連接密集,不同簇的節點之間連接稀疏的特征。根據聚類之后的類標號,利用 CACC 算法對目標變量進行監督的離散化。目標變量離散化結果和切分點如表 1 所示。

表1 目標變量離散化結果及切分點Tab.1 Discretization of target variables and segmentation points

1.1.2 因素數據離散化

在對目標變量離散化結束之后,根據目標變量離散化結果,對因素數據進行監督離散化。CACC算法是一個自底向上的算法,充分考慮了數據的分布,在后續的決策樹算法中準確率更高[4]。將連續型數據中相鄰元素的均值作為備選切分點,每次計算數據被切分后,通過公式 ⑴,計算各個區間中目標變量分布的相關性。

式中:C 為 CACC 算法的類-屬性相關指數;y' 為目標變量分類在屬性變量切分區間的分布;M 為樣本總數;S 為目標分類個數;n 為切分區間的個數;qir為目標變量第 i 類,切分區間 [dr-1,dr] 中的樣本數;Mi+為目標變量 i 中的樣本數;M+r為切分區間 [dr-1,dr] 中的樣本數。

在該算法的每次迭代過程中,總是選取相關性最大的點作為切分點,剩下的備選點重復上述步驟,直到全局的相關性達到最大,則切分停止。

對于因素數據,在進行離散化之前,先將始發時間、終到時間和運行時長 3 個與時間有關的屬性數據進行取整,如始發時間是 8 ∶ 57,處理為9 ∶ 00,記為 9;再如列車運行時長為 1 h 45 min,轉變為小數 1.75,四舍五入結果為 2 等。屬性變量離散化結果及切分點如表 2 所示。

1.2 分類結果中最優客座率選取

由于業務的需求,不僅要按照列車不同的屬性將客座率進行分類,還要找出在不同客座率分類目標中能滿足一定誤差的客座率準確取值。在訓練集中,經過目標變量的離散化后,每個客座率分類對應一個客座率集合,在這個集合中,要找出一個能使一個分類中在誤差范圍內樣本數達到最大的最優客座率取值。設計一個基于誤差區間交集和樣本密度的最優客座率選取算法,其在給定的誤差范圍內,計算每個類中每個值的誤差范圍,并對它們進行交集運算,統計其中的樣本數,最終得到數據密度最大的區間,計算得到最優值。

表2 屬性變量離散化結果及切分點Tab.2 Discretization of factor variable and segmentation points

設在第 k 個客座率分類中,對應 N 個實際的客座率,存在按照樣本中客座率降序排列樣本數據集D = {( y0,k,m0,k,x0,k),( y1,k,m1,k,x1,k),…,( yj,k,mj,k,xj,k),…,( yN,k,mN,k,xN,k)}。其中,yj,k為第k 個客座率分類中第 j 個客座率;mj,k為第 k 個客座率分類中第 j 個客座率所對應的樣本個數;xj,k為第 k 個客座率分類中第 j 個客座率所對應的一個客座率取值,使得其在誤差范圍 [b,a] 內滿足集合Aj,k={xj,k| xj,k∈[b + yj,k,a + yj,k]},其中 Aj,k為包含第 k 個客座率分類中第 j 個客座率所在誤差范圍內的所有客座率取值,則在樣本數據集內,存在集合A ={A0,k,A1,k,…,Aj,k,…,AN,k}包括樣本集中各個客座率分類中每個客座率實際值在規定誤差下所包含的客座率取值。如果在 A 中同一個客座率分類存在幾個集合的交集,則滿足交集部分的取值覆蓋了幾個集合所有的樣本數?;谡`差區間交集和樣本密度的最優客座率選取算法步驟如下。

(1)初始化 j = 0,i = 0。

(2)第一重迭代開始,從集合{A0,k,A1,k,…,Aj,k,…,AN,k}中取 Aj,k,并初始化交集集合={Aj,k},計數器 count = 0。

(3)i = j + 1;從原結合中截取子集合{Ai,k,Ai+1,k,…,AN,k}。

(4)第二重迭代開始,從子集合中取 Ai,k。

(5)如果 Ai,k與存在交集,則利用它們的交集更新,更新計數累加器 count = count + length (),更新和保存計數器值最大的交集 max_。

(6)i = i + 1。

(7)第二重迭代結束,j = j + 1。

(8)所有迭代結束后,得到一個交集集合。如果初始化時每個客座率對應的樣本數相同,且計數器最終得到的值也為這個樣本數,則表明在誤差范圍內數據無交集,計數器沒有累加,最優值為全部數據的均值;否則,利用交集所覆蓋的樣本數除以對應區間的長度計算樣本密度,樣本密度最大的交集為最優值存在的集合。

利用訓練集計算出每個分類對應的最優值,當利用測試集進行驗證時,使預測分類與這些最優值相對應,這樣不僅可以為決策者提供一個參考的分類 (離散化后為客座率取值范圍),也為其提供了一個參考的客座率取值 (誤差范圍為 [-10%,10%])。分類結果中客座率最優值計算結果如表 3 所示。

表3 分類結果中客座率最優值計算結果Tab.3 Optimal occupancy rates among classi fi cation results

1.3 基于隨機森林算法的預測

隨機森林算法由 Breiman[12]于 2001 年提出。該算法主要是通過隨機重采樣技術-自助法(bootstrap) 進行采樣和隨機子空間的思想進行特征的選取,構建多個互相沒有關聯的決策樹,通過投票得到最終分類結果。近年來,隨機森林算法在很多領域發揮了重要作用[13],其優點主要表現在:①由于在每次迭代之前引入隨機采樣,使得算法不容易陷入過擬合,并且具有很好的抗噪能力,同時,由于很好地解決了過擬合問題,在算法執行之前和結束不用再進行前或后的剪枝處理;②由于采取了隨機子空間的方法進行特征選取,使得在進入算法前不必再進行特征選擇的預處理。隨機森林算法流程如下。

(1)當訓練集進入算法之前,利用 bootstrap 方法進行隨機采樣,對于大小為 N 的樣本,隨機地有放回地選取大小為 k (k << N) 的樣本,隨機選取多個這樣的樣本構建多個決策樹。

(2)在全部的 M 個特征中,每一顆樹的每一個節點隨機抽取 m (m << M) 作為決策樹的決策屬性。

(3)利用決策樹 C4.5[14]算法對每顆決策樹進行分類,使決策樹進行最大限度的增長,不做任何剪枝操作。利用決策樹 C4.5 算法主要原因是,其利用信息增益率進行節點的分裂,防止了選擇屬性時偏向選擇取值多的屬性的不足。

(4)將生成的多顆分類樹組成隨機森林,用隨機森林算法分類器對新的數據進行判別與分類,分類結果按樹分類器的投票多少而定。分類器投票公式可表示為

式中:H (x) 為組合分類模型;hi(x) 為單個決策樹模型;Y 為目標變量;I (·) 為示性函數,當預測某個分類器預測結果超過總預測結果的百分之 50%,則保留該結果,否則拒絕預測。

2 實驗結果及分析

2.1 分類精度評估

利用 Kappa 指數檢驗分類的精度是否在可接受的范圍內,Kappa 指數的計算公式可表示為

式中:Pii為對角線二者完全一致占樣本數的比值;Pi+和 P+i分別為第 i 個檢驗數據點的合計數和列合計數占總樣本數的比值。

利用實際客座率分類和預測的客座率分類頻數建立一張二維表。不同列車類型的 Kappa 指數如表 4 所示。

表4 不同列車類型條件下的分類 Kappa 指數Tab.4 Kappa coef fi cients for different types of train

Landis 等[15]提出 Kappa 值在 0.21 至 0.40 之間被認為是可接受的;在 0.40 至 0.60 之間被認為是中等的;在 0.61 至 0.80 之間被認為是精度較優的;大于0.81 被認為是完美的分類。根據表 4,可以看出對于不同類型列車的分類精度均在中等或中等以上的一致性范圍內。

2.2 目標變量離散化算法有效性驗證

為了驗證提出的基于譜聚類-CACC 的目標變量離散化模型是否有效,保持模型中的其他模塊方法不變,只是將目標變量離散化的方法替換成對比實驗中的等頻,WPKID 和聚類算法這幾個主流的非監督離散化方法。為了驗證 CACC 能否改進譜聚類算法的離散化精度,保持數據中的分布信息,在對照的聚類離散化方法中選取譜聚類算法。目標變量離散化算法預測結果如表 5 所示。

表5 目標變量離散化算法預測結果Tab.5 Comparison of predicted results from discretization algorithm of target variables

從上述實驗可以看出,譜聚類-CACC目標變量離散化方法相比于其他方法能夠顯著提高預測的分類精度;譜聚類離散化算法自身較等頻和WPKID 算法有著更高的預測精度,經過 CACC 的優化,使模型具有更高的預測精度。

2.3 因素變量離散化有效性驗證

將 CACC 算法與主流的監督離散化算法ChiMerge、基于信息熵的離散化算法、基于 Hellinger的算法等相比較,來驗證所選用方法的有效性。因素變量離散化算法預測結果如表 6 所示。

從表 6 的實驗結果可以看出,CACC 算法較其他有監督的離散化算法在分類精度上表現更優。

2.4 分類算法有效性驗證

為了驗證論選取的隨機森林算法的是否合理,是否較其他分類算法能突出其優點,將隨機森林算法的分類預測結果與支持向量機 SVM 和決策樹C4.5 算法分類結果相比較。不同分類算法預測結果如表 7 所示。

從表 7 可以看出,相對于其他分類算法,隨機森林算法在分類預測方面有著較高的精度。特別是相對于決策樹 C4.5 算法,隨機森林算法的特征隨機選取過程和投票機制是一種改進和優化。

2.5 客座率預測精度

分類結束后,利用之前的基于誤差區間交集和樣本密度的算法對最優客座率進行選取,考慮不同類型的列車,在相對誤差范圍 [-10%,10%] 內的開行列車數占總開行列車趟數的占比作為正確率。為了驗證提出算法的有效性,提出的選取方法與選取對象所計算的正確率相比較,客座率預測結果如表 8 所示。

從表 8 可以看出,提出的選取客座率的方法能夠顯著地提高客座率的預測精度。同時,對于不同的列車類型,在誤差范圍內的列車數占總開行列車數量的 2/3 以上,這也是符合業務需求的。

表7 不同分類算法預測結果Tab.7 Comparison of predicted results from different classi fi cation algorithms

表8 客座率預測結果對比Tab.8 Comparison of predicted passenger occupancy rates

3 結束語

旅客列車客座率分類及預測可以為清算部門下達新開行列車客座率目標提供依據,同時可以為制定旅客列車開行方案提供支撐。新開行旅客列車客座率分類及預測模型的研究,能夠得到一張簡明、易于理解的決策表,直觀地為相關管理部門下達客運指標,比原有方法提高了工作效率和結果的準確性。隨著我國高速鐵路的快速發展,應進一步收集更多的旅客出行信息進行分析[16-17],以便為鐵路旅客運輸提供更為科學合理的決策依據,優化列車開行方案,提升旅客運輸效率及效益。

[1] 王 卓,王艷輝,賈利民,等. 改進的 BP 神經網絡在鐵路客運量時間序列預測中的應用[J]. 中國鐵道科學,2005,26(2):127-131.WANG Zhuo,WANG Yan-hui,JIA Li-min,et al. The Application of Improved BP Neural Network in the Prediction of Railway Passenger Volume Time Serial[J]. China Railway Science,2005,26(2):127-131.

[2] 徐廣巖. 高速鐵路動車組列車客座率預測及盈虧分析[D].北京:北京交通大學,2016.

[3] 侯麗敏,馬國峰. 基于灰色線性回歸組合模型鐵路客運量預測[J]. 計算機仿真,2011,28(7):1-3.HOU Li-min,MA Guo-feng. Forecast of Railway Passenger Traffic based on a Grey Linear Regression Combined Model[J]. Computer Simulation,2011,28(7):1-3.

[4] 張鈺莎,蔣盛益. 連續屬性離散化算法研究綜述[J]. 計算機應用與軟件,2014,31(8):6-8.ZHANG Yu-sha,JIANG Sheng-yi. Survey on Continuous Feature Discretization Algorithm[J]. Computer Applications and Software,2014,31(8):6-8.

[5] YANG Y,WEBB G I. Weighted Proportional K-Interval Discretization for Naive-Bayes Classi fi ers[M]. Heidelberg:Springer,2003.

[6] GUPTA A,MEHROTRA K G,MOHAN C. A Clusteringbased Discretization for Supervised Learning[J]. Statistics &Probability Letters,2010,80(9):816-824.

[7] CHENGJUNG T C I L,WEI P Y. A Discretization Algorithm based on Class-Attribute Contingency Coefficient[J].Information Sciences,2008,178(3):714-731.

[8] SU C T,HSU J H. An Extended Chi2 Algorithm for Discretization of Real Value Attributes[J]. IEEE Transactions on Knowledge & Data Engineering,2005,17(3):437-441.

[9] LEE C H. A Hellinger-based Discretization Method for Numeric Attributes in Classi fi cation Learning[J]. Knowledgebased Systems,2007,20(4):419-425.

[10] 高建國,崔業勤. 基于信息熵理論的連續屬性離散化方法[J]. 微電子學與計算機,2011,28(7):187-189.GAO Jian-guo,CUI Ye-qin. A New Discretization Method for Continuous Attributes based on Information Entropy[J].Micro Electronics & Computer,2011,28(7):187-189.

[11] LUXBURG U V. A Tutorial on Spectral Clustering[J].Statistics and Computing,2007,17(4):395-416.

[12] BERIMAN L. Random Forests[J]. Machine Learning,2001,45(1):5-32.

[13] 方匡南,吳見彬,朱建平,等. 隨機森林方法研究綜述[J].統計與信息論壇,2011,26(3):32-36.FANG Kuang-nan,WU Jian-bin,ZHU Jian-ping,et al. Survey on Random Forest Methods[J]. Statistics &Information Forum,2011,26(3):32-36.

[14] QUINLAN J R. C4.5:Programs for Machine Learning[M].San Mateo:Morgan Kaufmann,1993.

[15] LANDIS J R,KOCH G G. The Measurement of Observer Agreement for Categorical Data[J]. Biometrics,1977,33(1):159-174.

[16] 張 航,趙 鵬,喬 珂,等. 高速鐵路旅客出行時間選擇 Logit 模型與分析[J]. 鐵道運輸與經濟,2017, 39(1):55-60.ZHANG Hang,ZHAO Peng,QIAO Ke,et al. Analysis on Logit Model of High-speed Railway Passengers` Travel Time Choice[J]. Railway Transport and Economy ,2017,39(1):55-60.

[17] 潘玲巧. 基于集對分析的鐵路大客戶等級模糊綜合評價[J].鐵道貨運,2017,35(5):36-40.PAN Ling-qiao. Fuzzy Comprehensive Evaluation of Railway Major Client Level based on SPA[J]. Railway Freight Transport,2017,35(5):36-40.

猜你喜歡
客座率樣本數聚類
提升高鐵列車開行效益的實踐與思考
境外蔗區(緬甸佤邦勐波縣)土壤理化狀況分析與評價
勘 誤 聲 明
孟連蔗區土壤大量元素養分狀況分析
基于K-means聚類的車-地無線通信場強研究
航空:上半年各航司運營數據解析
南航迎旺季 油價跌利好
航空:客座率同比改善
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合