?

基于機器學習模型的民航客流預測仿真研究

2018-06-14 07:15陳煥東陳明銳
軟件 2018年5期
關鍵詞:回歸方程殘差向量

劉 夏,邱 釗,陳煥東,陳明銳

(1. 三亞航空旅游職業學院人文社科學院,海南 三亞 572000;2. 海南大學信息科學技術學院,海南 ???570228;3. 海南師范大學教務處,海南 ???571128)

0 引言

準確地預測機場的旅客客流量,對于機場的運力安排、航線調整以及規劃發展有著至關重要的作用。在客流量預測方面,許多學者做了有益嘗試。文獻[1]采用了Holt-winters模型、ARMA模型、一元回歸模型基于近十年的客流預測預測了未來兩年的數據,其中ARMA模型的預測精度達96.94%,一元回歸模型的預測精度達 99.83%,但是 Holtwinters模型和組合模型精度較差,預測模型仍可改進。文獻[2]分別根據時間序列 ARIMA模型和 BP神經網絡模型得到的誤差平方和,利用單項預測模型權數計算公式計算得到時間序列 ARIMA 模型和BP神經網絡模型的權數,在根據組合預測模型的計算公式得到組合預測模型的預測結果,組合預測結果優單項預測結果。文獻[3]運用了灰色預測模型預測了2017年某一航線每月的客流量,但是預測結果時序圖呈線性趨勢,預測精度也僅為87%,預測方法仍可改進。文獻[4]運用了ARMA模型、灰色預測GM(1,1)模型、ARMA改進回歸模型進行了數據擬合仿真。經實證分析,結果表明:三個模型的平均絕對百分誤差分別為 4.19%,4.20%,1.97%,預測精度較高。文獻[5]采用了多元回歸模型,通過逐步回歸的方法篩選出對物流量預測的主要因素,并基于時間序列模型進行擬合并對江蘇省未來十年的物流量進行預測,雖然擬合優度達99.99%,但是對于長期的預測仍然存在不確定性。文獻[6]分別采用了多元回歸模型和基于 ARIMA的時間序列模型對人口進行了預測,經與真實值對比,發現多元回歸模型的預測精度較高,但是對變量的處理又會造成共線性或異方差等情況,方法仍可改進。文獻[7]首先建立了農藥和時間的回歸模型,然后對時間序列的非白噪聲建立ARMA模型,預測精度有所提高,但是不適用于長時間序列預測。文獻[8]運用多元回歸分析建立了旅客吞吐量模型,通過逐步回歸剔除了不相關因素后對旅客年吞吐量進行了預測,結果顯示,平均相對誤差僅為2.49 %,精度較高。但因數據只是基于統計年鑒數據,沒有預測到每月的旅客吞吐量。文獻[9]基于ARIMA模型對時間序列進行回歸分析,通過建立的一元線性回歸方程來提高預測精度,但是其一元線性回歸方程的變量僅為年份,較之多元線性回歸方程用于預測精度較差。文獻[10]分別用SPSS和MATLAB建立GM(1,1)模型和多元線性回歸模型對未來的入境客流進行了預測,預測結果表明,GM 模型精度高于多元線性回歸模型,但是單一模型預測仍欠缺說服力,預測精度仍可改進。文獻[11]運用SPSS對安徽省入境游客人數在經過二次差分的基礎上剔除了趨勢影響因素,確立了預測模型在對并對未來的人數進行了預測,但是結果顯示短期內的精度較好,長期預測誤差加大,模型有待改進。文獻[12]先通過指數合成的進行協整檢驗和格蘭杰因果分析,在基于合成指數預測模型開展旅游收入預測,其精度提高了32.42%。文獻[13]通過多元線性回歸模型和時間序列模型對首都機場2012年-2016年的客流量進行了預測,并在此基礎上采用加權的方式進行組合預測,但是權重各占50%的則顯得說服力不夠。文獻[14]運用ARIMA模型預測客流吞吐量的線性部分,再用 BP神經網絡對 ARIMA模型的殘差進行修正,得到非先行特征趨勢后將ARIMA模型的結果和BP模型的的結果進行組合,預測誤差值僅為 2.12%。但是該模型僅是對已有數據的驗證,并沒有預測未來的數據。文獻[15]通過利用灰色模型,利用2007~2012年的旅游人數數據,對2013、2014年旅游人數進行了預測,然后建立 GM(1,1)模型,運用移動平均趨勢剔除法去除季節影響,對季度城鎮旅游人口進行預測,預測值與實際值較好的吻合,并依此對2013和2014年季度城鎮旅游人口進行預估。文獻[16]介紹了BP神經網絡和SVM算法的分類原理,結合兩個算法特點,給出層次分類法并做為今后研究方向。文獻[17]基于遺傳算法(GA)優化的最小二乘支持向量機(LSSVM)的MBR膜通量預測算法,通過對比預測結果和實驗數據,得出該算法預測精度高。文獻[18]的預測模型可以達到預期結果,對短時流量的預測精度和性能都有所提高。文獻[19]對深度學習技術進行了綜述,概述了CNN、RNN、LSTM的應用特點和場景。

1 變量選擇及數據來源

本文選取了某航空公司2010年至2016年北京到三亞航線每天的客流量的數據作為實證分析,數據包括旅客數等在內的8個變量,將旅客數作為被解釋變量,其他的變量均作為解釋變量,如表1所示。

表1 衡量指標、變量及符號Tab.1 Measurement index, variable and symbol

2 基于多元回歸模型建立與預測

2.1 模型建立

回歸分析是處理變量與變量之間關系的一種最為常用的統計分析方法,應用非常的廣泛。它的主要目的是研究被解釋變量與解釋變量之間的數量關系。本文根據選取的變量建立了多元回歸模型,其模型的表達式為:

其中tε是隨機誤差項,利用R軟件,對數據進行回歸分析得到表2所示。

表2 回歸分析結果Tab.2 Regr ession analysis result

根據表 2,可得回歸方程的 F檢驗的統計量為718.2大于 0.05顯著水平的臨界值,說明回歸方程的總體是顯著的。對回歸方程進行多重共線性檢驗,得到的結果如表3所示。

表3 相關系數矩陣Tab. 3 Correlation coefficient matrix

根據表3可得,在0.05的顯著水平下,解釋變量之間存在高度相關性,例如:架次和飛行時間之間的相關性達到0.997,說明上述建立的回歸方程存在多重共線性,采用逐步回歸建立回歸模型,得到的結果如表4所示。

表4 逐步回歸結果Tab.4 Result of stepwise regression

根據表4可以得出整個回歸方程的檢驗的P值為 0.0000也是顯著地,并且調整后的擬合優度值= 0 .9838,說明方程的擬合效果非常好。因此,建立的回歸方程為:

2.2 模型預測

利用上述建立的回歸模型對2010至2016年的北京到三亞的客流量進行預測,得到的結果如圖1所示。

圖1 回歸模型的預測時序圖Fig.1 Forecasting time sequence chart of the regression model

根據圖 1,可得上述回歸模型能夠很好的預測樣本周期內的旅客量的變化,計算回歸模型預測的平均絕對誤差 M PAE= 5 .27%。

3 基于支持向量機回歸(SVR)模型建立與預測

3.1 模型建立

本文選取了平均票價,平均折扣率,總收入,促銷費和客座率作為旅客量的特征屬性,利用R3.2.3軟件,并通過調用 e1071軟件包,對北京到三亞航線旅客量進行預測得到的結果如表5所示。

表5 SVR 模型的最優參數Tab.5 Optimal parameters of SVR model

根據表5可得,SVR模型采用徑向基核函數,得到的相關最優參數為:模型的約束違反成本 c =1,徑向基核函數中的gamma函數因子為 g = 0 .2,估計誤差ε=0.1,支持向量機的個數為57個,預測的客流量的平均絕對百分誤差為 M APE= 7 .61%。

3.2 模型預測

利用上述建立的支持向量機模型對 2010至2016年的北京到三亞的客流量進行預測,得到的結果如圖2所示。

圖2 支持向量機回歸預測時序圖Fig.2 Forecasting time sequence chart of support vector regression

根據圖2可得上述支持向量機能夠較好的預測樣本周期內的旅客量的變化,計算出支持向量機回歸預測的平均絕對誤差 M PAE= 7 .61%。

4 基于殘差檢驗

對上述兩個模型的殘差進行檢驗,觀察其是否服從白噪聲序列。對上述殘差進行穩定性檢驗,得到的結果如表6所示。

表6 穩定性檢驗Tab.6 S tability Test

根據表6可得多元回歸模型和支持向量機回歸模型的殘差均是原序列平穩。然后利用R畫出多元回歸ACF和PACF圖如圖3所示。

圖3 多元回歸殘差的PACF和ACF圖Fig.3 PACF and ACF chart of multi-variable regression residuals

根據圖 3可得多元回歸模型殘差的 ACF和PACF圖均在一個標準差之內,說明多元回歸模型的殘差是白噪聲序列。作出支持向量機回歸殘差的ACF和PACF圖,得到的結果如圖4所示。

根據圖 4可得支持向量機回歸殘差存在自相關,需對支持向量機模型的殘差建立ARMA模型,才能進行預測。

5 基于ARMA改進模型預測

根據圖4建立ARMA(28,28)對支持向量機回歸模型的殘差進行預測,得到的結果如表7所示。

圖4 SVR 的PACF和ACF圖Fig.4 PACF chart and ACF chart of SVR

表7 SVR 殘差的ARMA(28,28)的回歸結果Tab.7 Regression result of ARMA (28,28)of SVR residuals

根據表7建立的ARMA(28,28)模型對上述支持向量機模型的殘差進行預測,得到的結果如圖5所示。

根據圖5可得建立的ARMA模型能夠較好的擬合 SVR模型的殘差,下面利用建立的 SVR和ARMA(28,28)對樣本周期內的旅客量進行組合預測。得到的結果如圖6所示。

根據圖6可得組合預測能夠很好的預測樣本內旅客數,得到 M APE= 5 .07%,比較各個模型預測誤差,得到的結果如表8所示。

根據表8可得組合模型的預測效果在三種模型中是最佳的,超過了回歸模型的預測效果,且預測誤差很小。因此,支持向量機回歸和ARMA模型的組合預測效果較好,能夠很好的預測出航線的旅客量,如圖7所示。

圖5 SVR 殘差預測圖Fig.5 Forecasting chart of SVR residual

圖6 組合預測時序圖Fig.6 Time sequence chart of combined forecasting

表8 各個模型的平均絕對誤差Tab.8 Average absolute error of various models

6 基于神經網絡(RBF)模型鑒于與預測

本文選取了平均票價,平均折扣率,總收入,促銷費和客座率作為旅客量的特征屬性,對北京到三亞航線旅客量進行預測。利用 caret包中的 train函數確定合適的隱藏層節點數和權重衰減參數decay,得到結果如表9所示。

根據表9可得,結合標準誤差最小原則,調整后的擬合優度值最大原則,確定神經網絡最佳隱藏節點數為4,decay為0.5。建立神經網絡模型來預測樣本周期內的旅客數,得到的結果如圖8所示。

圖7 組合模型的預測圖Fig.7 Forecasting chart of the combined model

表9 神經網絡參數Tab.9 Ne ural network parameters

圖8 神經網絡預測時序圖Fig.8 Time sequence chart of neural network forecasting

根據圖8可得神經網絡預測能夠很好的預測樣本內旅客數,得到 M APE= 3 .34%,下面比較各個模型預測誤差,得到的結果如表10所示。

表10 各個模型預測平均絕對誤差Tab.10 Average absolute error of forecasting by various models

根據表10可得在三種模型的預測中,神經預測效果最佳,其次是回歸模型,支持向量機模型預測效果相對較差,上述3個模型均能夠很好的預測出航線的旅客量,作出三個模型的預測與真實旅客量的時序圖,結果如圖9所示。

圖9 模型預測時序圖Fig.9 For ecasting time sequence chart of the models

7 結論

綜上所述,四種模型在預測效果均較好,平均絕對百分誤差均小于10?;貧w模型是傳統的統計方法,擁有良好的預測能力,但是受到多重共線性等一些理論假設的限制較多。而支持向量機和神經網絡模型均是機器學習方法,具有良好的學習和泛化能力。支持向量機對于小樣本的學習能力能力強,泛化能力好。RBF神經網絡收斂速度較快。并且隨著基于RBF神經網絡的在線學習算法及結構優化方法的不斷的提出,使得RBF 神經網絡比較適用于于大樣本集的在線預測系統。而對于對實時性要求相對不高的預測系統。

深度學習是建立、模擬人腦分析學習的神經網絡、模仿人腦機制進行數據的解釋,是將原始數據通過一些簡單的飛先行模型變為更高層次的的表達,其學習特征對數據結構幾乎沒有什么要求,只要數據足夠大時能自學習,深度學習就能發揮其效用。此外,該算法在語音識別系統中已得到廣泛的應用,幾乎能完全一致地將聲音文件轉換為文字序列。

在后續的研究中,可以考慮使用遞歸神經網絡(Recurrent neural networks,RNN)以及增強型RNN,如LSTM(long short-term memory networks)等。RNN作為眾多深度學習算法中能更好地解決序列輸入問題的一種,它能同時考慮當前的輸入信息,并同時考慮歷史信息向量。因此,可以將一段時間內每天的數據作為輸入,基于RNN循環處理,預測出每一天航班的信息和前面若干天信息之間的關聯性,從而預測出后一天的客流人數等數據。

[1] Liu X., Huang X., Chen L., Qiu Z., Chen M. (2017) Prediction of Passenger Flow at Sanya Airport Based on Combined Methods. In: Zou B., Li M., Wang H., Song X., Xie W.,Lu Z. (eds) Data Science. ICPCSEE 2017. Communications in Computer and Information Science, vol 727. Springer,Singapore.

[2] 翟靜, 曹俊. 基于時間序列ARIMA與BP神經網絡的組合預測模型[J]. 統計與決策, 2016(4): 29-32.

[3] Xia, L., et al., Prediction for Air Route Passenger Flow Based on a Grey Prediction Model. 2016, IEEE. p. 185-190.

[4] Liu X., Huang X., Chen L., Qiu Z., Chen M. (2017) Prediction for Passenger Flow at the Airport Based on Different Models. In: Chen G., Shen H., Chen M. (eds) Parallel Architecture, Algorithm and Programming. PAAP 2017. Communications in Computer and Information Science, vol 729.Springer, Singapore.

[5] 武進靜, 韓興勇. 基于多元線性回歸模型對江蘇省物流需求的預測分析[J]. 上海農業學報, 2015(4): 62-68.

[6] 韓紹庭, 周雨欣. 多元線性回歸與ARIMA在中國人口預測中的比較研究[J]. 中國管理信息化, 2014(22): 100-103.

[7] 鄧澤培, 趙凌. ARMA模型與回歸模型在農藥用量預測中的應用[J]. 中國農學通報, 2014, 30(31): 304-307.

[8] 黃邦菊, 林俊松, 鄭瀟雨, 等. 基于多元線性回歸分析的民用運輸機場旅客吞吐量預測[J]. 數學的實踐與認識,2013, 43(4): 172-178.

[9] 鄭彥. 對時間序列的ARIMA調整與回歸分析——以民航客運統計為例[J]. 齊齊哈爾大學學報(自然科學版), 2010,26(3): 82-85.

[10] 江偉. 桂林市入境旅游客流量的預測研究——基于多元線性回歸模型與GM(1, 1)的比較[J]. 時代金融, 2014(32):65-67.

[11] 陳鵬, 吳玲, 宋徽. 基于ARIMA模型的安徽省入境旅游人數預測[J]. 安徽農業大學學報(社會科學版), 2012, 21(1):32-35.

[12] 張斌儒, 黃先開, 劉樹林. 基于網絡搜索數據的旅游收入預測——以海南省為例[J]. 經濟問題探索, 2015(8):154-160.

[13] 陳玉寶, 曾剛. 基于組合預測方法的民航旅客吞吐量預測研究——以首都機場為例[J]. 中國民航大學學報, 2014,32(2): 59-64.

[14] 堯姚, 陶靜, 李毅. 基于ARIMA-BP組合模型的民航旅客運輸量預測[J]. 計算機技術與發展, 2015, 25(12): 147-151.

[15] 邱亞利. 基于灰色模型的旅游景點人數預測分析[J]. 統計與決策, 2013(17): 114-117.

[16] 王宏濤, 孫劍偉. 基于BP 神經網絡和SVM 的分類方法研究[J]. 軟件, 2015, 36(11): 96-99

[17] 聶敬云, 李春青, 李威威, 等. 關于遺傳算法優化的最小二乘支持向量機在MBR 仿真預測中的研究[J]. 軟件,2015, 36(5): 40-44

[18] 張金飛, 黎英, 高偉, 等. 城市交通路口短時流量預測[J].軟件, 2018, 39(1): 126-131

[19] 毛勇華, 桂小林, 李前, 等. 深度學習應用技術研究[J].計算機應用研究, 2016, 33(11): 3201-3205.

猜你喜歡
回歸方程殘差向量
基于雙向GRU與殘差擬合的車輛跟馳建模
向量的分解
采用直線回歸方程預測桑癭蚊防治適期
聚焦“向量與三角”創新題
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
走進回歸分析,讓回歸方程不再是你高考的絆腳石
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
平穩自相關過程的殘差累積和控制圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合