?

基于梯度提升的城市軌道交通客流量預測分析

2018-09-27 08:27倪少權呂紅霞
城市軌道交通研究 2018年9期
關鍵詞:客流量客流梯度

丁 聰 倪少權 呂紅霞

(1.西南交通大學信息科學與技術學院,611756,成都;2.西南交通大學交通運輸與物流學院,610031,成都//第一作者,碩士研究生)

客流量的預測和分析是城市軌道交通規劃和建設的重要依據。城市軌道交通客流與群眾出行規律密切相關,通常具有較強的時間序列特征。過去已有相關領域的研究人員基于ARIMA模型實現了客流量的預測,通過對模型進行各方面優化,提升了預測效果[1-2]。近年來機器學習技術得到廣泛應用,有的采用特殊結構神經網絡[3-4]、支持向量機[5]等方法實現客流量預測,并通過分析客流特征研究居民出行規律和交通規律。本文在參考已有算法的基礎上[6-8],使用梯度提升決策樹混合模型預測城市軌道交通客流量,并分析相關影響因素特征。

1 梯度提升決策樹基本原理

梯度提升決策樹是一種通過構建多個弱學習器、并將之組合形成強學習器的集成模型。通常使用分類回歸決策樹作為弱學習器。分類回歸決策樹是一種應用較為廣泛的決策樹實現方法,其每一次訓練盡可能遍歷所有可能的屬性取值,依據最佳分割點將樣本數據分為2個部分,以遞歸分割的方式,不斷循環直至終止條件。

梯度提升屬于提升算法體系的一種,由斯坦福教授J.H.Friedman提出[6-7]。其基本思想是利用損失函數的負梯度在當前模型下的值作為模型本次訓練結果殘差的近似,并以該值作為下一次訓練的目標。模型的輸出結果將向著損失函數減小的方向移動。以分類回歸樹為弱學習器的梯度提升法的基本原理可表示如下:

對于樣本空間N={(x1,y1),(x2,y2),…,(xN,yN)},目標是找到1個預測函數F(x),使得在所有x到y的映射下的損失函數L(y,F(x))最小。預測函數表示為:

(1)

式中:

h(x;am)——弱學習器的第m棵子樹,m=1,2,…,m;

am——第m棵子樹的參數;

βm——該子樹的權重。

若第m次訓練生成的預測函數為Fm(x),則優化問題等價于找到新子樹的參數(βm.am),使:

(2)

針對上述條件,整個梯度提升模型的更新流程為:

第1步,初始化第1棵回歸樹:

(3)

第2步,對于m=1,2,3,…,M,損失函數的負梯度為:

(4)

(5)

(6)

更新預測函數:

Fm(x)=Fm-1(x)+νβmh(x;am)

(7)

式中:

ν——控制學習速率的步長。

ν越小,則需要更多的訓練次數才能達到要求的預測精度;而ν設置得過大,則可能無法達到較高的預測精度。

梯度提升法中可使用最小二乘回歸為損失函數。此時,損失函數的負梯度就是預測值與真實值之間的殘差,其表示形式為:

(8)

隨機森林的核心思想是僅選取部分樣本及部分特征訓練子樹,訓練速度更快,其子模型之間相互獨立,不容易出現過擬合問題。由于每次訓練是隨機的,子樹之間缺少關聯性,預測結果不會固定朝著某一方向移動,雖然最終預測的方差能隨著子樹數量的增加而降低,但偏差難以降低。梯度提升法每次訓練都依賴于前一次模型的預測結果,預測結果的方差和偏差均能隨訓練次數的增加而下降。但是,該算法屬于中心化算法,不易并行計算,故訓練速度較慢。

為解決隨機森林與梯度提升法存在的問題,構建隨機森林和梯度提升的混合模型,使用隨機采樣后的屬性特征和樣本子集作為訓練樣本,并在上層使用梯度提升法。這樣既能較好地解決訓練速度問題,也能較好地提升預測效果。

2 客流預測模型機理及數據集特征處理

2.1 模型預測機理

地鐵日均客流量具有明顯的周期性和季度性。其時序性決定了日客流量與日期、歷史客流量直接相關。天氣、氣溫及節假日等則是引起客流量波動的重要因素。使用樹模型的實質,即通過樣本數據探究以上相關因素的差異性對流量大小的影響。

根據樹模型的原理,在理想狀態下,對于任意1組特征組合,都應存在1個客流量集合與之對應,同1集合內客流量的均值將作為符合該特征組合的客流量預測值。模型每一次迭代都將根據以上特征對樣本進行若干次劃分,特征與預測目標較高的相關性保證了分類效果。根據梯度提升算法,模型第一次訓練以實際客流進行擬合,此后以上一次預測結果與實際值的殘差來訓練子樹,從而逐步縮小預測殘差,降低擬合偏差。

數據樣本及其特征的選擇將極大影響模型的預測結果,只有合理的樣本特征才能實現模型的最大作用。因此,需選定樣本的輸入與輸出,并對樣本數據進行特征工程處理,以保證樣本屬性與特征的有效性。

2.2 數據集特征處理

根據預測機理及相關研究,在分析影響城市軌道交通日客流量的若干因素后,搜集相關數據進行特征處理形成合適的訓練樣本。本試驗采用的數據來源為北京地鐵2015年1月1日至2017年7月17日15條運營線路的日客運量及對應時間的相關特征數據,共929個樣本。特征數據包含離散值和連續值。離散值應按等級分類、合并或進行one-hot編碼。為保證決策樹分類效果,應根據特征與客流間的相關性作為評價標準,應將不相關數據或具有較多噪音數據進行剔除、替換和合并處理,以實現降維,最終形成適用于模型的數據集。

根據以上分析對相關屬性特征進行處理,得到訓練特征。工作日與周末使用同一個狀態進行分類;天氣數據按照類別進行合并處理,分為7個等級;節假日對客流量有較大的影響,春節、國慶與其他節假日的差異性通過4個類別劃分。通過Python模塊Seaborn和Pandas可進行編程,以實現數據圖表的可視化輸出,圖1以熱圖形式展示了預處理后數據集各向量間的皮爾遜相關系數。

圖1 皮爾遜相關系數熱圖

由圖1可見:地鐵的日客流量與年、月具有一定的相關性;結合人口統計分析,北京地區常住人口居住人口具有緩慢增長趨勢,客流量也隨之增長;日平均溫度的相關系數達到0.19,反映了地鐵客流一定的季節性,但相關性較弱;高度相關的屬性特征包括星期、周末,表現了客流量的時序性和周期性;節假日是客流量波動的重要原因;日客流量與前一周歷史客流量也具有相關性,故歷史客流可考慮選作為訓練特征,但是如直接使用這些數據,則可能因信息量重合而造成過擬合等問題。將前一周的歷史客流量均值作為修正后的訓練特征值代替同期客流量,并參與模型訓練,以對預測進行修正,即

(9)

最終使用的樣本數據及存儲形式說明如表1所示。

表1 數據集說明

3 試驗與仿真

使用Python機器學習模塊Scikit-learn[9]實現模型的建模與仿真。取前850個樣本作為訓練集,后79個樣本作為測試集,模型輸出為對應測試集下的日客流量。對模型參數進行多次調整,每種參數組合進行2 000次訓練。令T為樣本的特征總數,選取部分參數組合下的預測結果如表2所示。由表2可知,回歸子樹的深度N與訓練子集使用的特征數t越大,訓練時間越長。

表2 各參數下模型訓練結果

圖2 客流量均方誤差與模型訓練次數的關系

圖3為樣本中每個屬性特征參數對預測結果的貢獻度的排名。由圖3可知,客流量均值對模型每次訓練的特征貢獻度較大,節假日、工作日及周末3個參數的特征貢獻度靠后。特征貢獻度靠后不代表該特征不重要。分析認為,以上多個特征相關度較高(如周末與星期特征之間信息量存在重疊),故無法對模型產生更大的影響。而節假日所對應的樣本較少,通常放在回歸樹底層作為最后考慮,因此其貢獻度較低。

圖3 樣本中不同屬性特征參數對預測結果的特征貢獻度

圖4 客流量預測值與實測值

圖4為從2017年5月20日至7月17日客流量的模型預測結果與實際值。由圖4可見:隨機森林模型和梯度提升模型的預測效果高于無特殊處理的ARIMA模型,梯度提升及隨機森林預測結果基本符合實際客流的變化趨勢,梯度提升混合模型的預測結果相較于隨機森林有進一步的提升。

對梯度提升模型的部分預測結果進行分析(見表3)。預測結果涵蓋節日、工作日與周末的預測客流。分析發現,個別日期實際客流與預測客流存在較大誤差。這是訓練集特征不夠完善引起的,應還存在其他未被考慮的客流影響因素。大多數預測結果均能較好匹配實際值變化,且預測誤差在可接受范圍之內。

表3 預測結果分析

4 結語

本文分析了梯度提升法的概念和基本原理,將梯度提升法和隨機森林的混合模型應用于城市軌道交通客流預測。通過分析北京地鐵客流特征及多種影響因素,制定了適用于模型的訓練集。試驗分析了梯度提升混合模型及其他兩種基本模型的預測結果,基于梯度提升的混合模型能實現更高精度。綜上所述,梯度提升混合模型能夠適用于城市軌道交通客流量的預測與分析,且能取得較好效果。未來研究需進一步完善數據集,擴大樣本規模,并結合智慧交通及大數據技術,深入分析城市人口出行規律,為城市軌道交通規劃及管理提供新的研究思路及參考。

猜你喜歡
客流量客流梯度
客流增多
一個帶重啟步的改進PRP型譜共軛梯度法
一個改進的WYL型三項共軛梯度法
城市軌道交通節假日期間大客流行車組織思考與實踐
一種自適應Dai-Liao共軛梯度法
一個具梯度項的p-Laplace 方程弱解的存在性
2018年中國地鐵客流量年度總結篇
基于嵌入式系統的商場客流量統計算法
基于自學習補償的室內定位及在客流分析中的應用
基于AFC數據的城軌站間客流量分布預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合