?

基于海量序列數據的公交用戶群體出行預測研究

2020-09-09 07:07白夢娜
管理工程學報 2020年4期
關鍵詞:相空間延遲時間刷卡

馮 路,錢 宇,白夢娜,袁 華

基于海量序列數據的公交用戶群體出行預測研究

馮 路,錢 宇*,白夢娜,袁 華

(電子科技大學 經濟與管理學院,四川 成都 611731)

在海量序列數據中,預測群體用戶在未來一段時間中的可能行為模式是一個非常有意義且具有挑戰性的研究問題。本文以公交用戶群體出行為例,通過引入相空間重構法,利用海量序列數據對大型系統建立模型來模擬其動態演化模式。同時,考慮到一般相空間預測方法在大數據情況下的不足,提出了相似性拐點方法進行預測前的相似點的自動挑選工作,該方法不但降低了預測過程中的相似度計算復雜度,同時也顯著提升了預測效果。實驗證明,本文的方法對于探討利用海量(周期性)序列數據進行系統建模,以及預測一段時間內的群體行為提出了新的思路。

海量序列數據;相空間重構;相似性;預測

0 引言

公共交通是我國城市居民出行的重要交通方式,實現對公交用戶群體出行行為的準確預測,對于提升公共資源使用效率[1],優化城市公共交通的管理,促進城市計算智慧化具有重要意義[2]。

交通流相關的預測研究經歷了很長時間的發展。最常用的研究方法是直接探討交通流數據中的數據變量相關性,即各種參數(回歸)方法。簡單的如歷史平均法和各種(非)線性回歸模型[3]。這類方法操作簡單且計算方便,但是預測精度較低。因此,進一步的研究中開始重視數據的時序相關性,進而形成了目前最成熟的時序預測方法――自回歸移動平均模型(ARMA/ARIMA),它的各種模型在交通預測領域有著廣泛的應用[4,5,6]。但是該類模型需要比較平穩的序列數據,抗干擾和波動性差。為了提高模型的穩定性和預測精度,一些考慮參數的智能方法,如Kalman濾波[7]、支持向量機(SVM)[8,9]、貝葉斯網絡[10]、神經網絡[11-13]以及它們的組合[10,14]方法等都被應用到研究中。這類方法的預測精度雖然很高,但是通常會面臨復雜的數據及特征選擇問題[15,16]。神經網絡雖然很適合模擬數據的非線性關系,但模型訓練過程收斂速度較慢,容易陷入局部最優。隨著研究的不斷深入,人們逐漸認識到以往的方法多是基于對系統基本結構的假設來進行對系統的預測,而城市交通是一個非常復雜的巨型系統[17]。因此,有研究分別從多因素、非參數方法和非線性系統的角度來分析預測交通流。多因素的研究認為,公交客流不僅受到用戶自身的影響,還受到諸如經濟狀況、天氣等多因素的影響[13]。非參數(回歸)方法研究不需要任何先驗知識,在有特殊情況時預測更有效[18-20],能反映交通數據本身的非線性特征[20]。而非線性系統則引入非線性和系統動力學的方法對交通流動態及混沌特性進行識別,進而為短時交通流在小數據量上的預測提供基礎[17,21]。

前述研究的共同問題是僅僅只針對短時交通流量的預測進行研究,而較長時間交通流的合理預測則能更好地為交通管理提供服務[22]。但是,傳統方法在處理長時間預測任務時,由于觀察(數據)的局限,容易陷入過渡預測(Over Prediction)的情況[23]。隨著智慧交通的出現,人們期望利用公交大數據對較長時間的用戶群體出行行為實現精準預測。然而,傳統建模預測方法在大數據環境下面臨著技術挑戰[24]:一是系統復雜度高,內部成分(如用戶)多樣,應用場景也不盡相同,很難從中提取出具有代表性的用戶行為;二是系統快速演變,這使得基于樣本的模型很快就不能反映系統當前的情況。此外,在大數據下對復雜系統建模而不考慮混沌特征可能導致不可預期的結果[25]。因此,我們需要一個基于海量數據驅動且更穩定的建模方案來實現對公交出行系統的歷史狀態描述和未來狀態預測功能。

城市公交是一個復雜的非線性系統[17,20],積累了海量用戶出行數據。為了對其建立穩定的數據驅動的系統模型并實現較長時間的系統狀態預測,本研究將首先引入相空間重構法[26]來描述海量公交群體行為產生的數據序列的性質和規律。相空間重構是數據驅動的建模方法[27],它以Takens嵌入定理[28]為基礎,具有很好的數學性質。由于能夠較好地捕捉時間序列的動態等價性,它被廣泛應用于復雜系統特征描述和狀態預測[17,21,29]。然后,本文提出了一種新的方法來預測目標點的下一狀態。為此,作者先計算出目標點在相空間中盡量多的相似點集合。接著,利用目標點與其相似點之間的相似性變化拐點,從大量相似點里自動挑選“最相似”的點集合。最后,通過擬合這些“最相似”點與其臨近下一狀態點的關系來實現預測。實驗結果表明,本文提出的新方法在大數據環境下,能夠同時達到避免過渡預測和提高預測精度的目的。

1 延遲坐標相空間重構

1.1 問題定義

混沌時間序列重構相空間的工作始于Packard等人的研究[26],他們提出了重構相空間的兩種方法:導數重構法和延遲坐標重構法。鑒于數值微分的計算過程對誤差很敏感,普遍采用的是以Takens嵌入定理為基礎的延遲坐標相空間重構法。該方法利用時序系統某一狀態變量() 的延遲變量(+) 來構造一個維的狀態向量,即:

這樣,從一維混沌時間序列中可以重構一個與其原動力系統在拓撲意義下等價的相空間。() 即是相空間中的點。實際應用中,如果對延遲時間和嵌入維數作出合理選擇,那么我們能夠在重構的相空間中將反映時間序列特征規律的軌跡恢復出來,并構造一個反應鄰近序列關系的映射來實現預測:

1.2 延遲時間τ的確定

確定延遲時間的方法主要有互信息法[30,31]和自相關函數法[32]?;バ畔⒎ㄊ峭ㄟ^計算時間序列的互信息值,并尋找到互信息第一個極小值所對應的時間延遲作為重構相空間的延遲時間?;バ畔⒎ú⒉荒鼙WC互信息總存在極小值,即使存在,也有可能是系統的震蕩引起的,而且計算互信息也相對較復雜。自相關函數法,是通過計算自相關函數來確定延遲時間,自相關函數的定義為:

1.3 嵌入維數m的確定

根據Takens嵌入定理[28],嵌入維數應滿足≥ 22+1,這里2為吸引子的關聯維數。關聯維數是判別吸引子類型以及復雜程度的表征量,它可以描述系統在整個變化中穩定性和確定性的程度。顯然,如果關聯維數2確定,則嵌入維數的范圍也隨之確定。本文采用的是由Grassberger和Procaccis提出的G-P算法[33]來估計關聯維數2。

在確定的情況下,考察維重構相空間中的兩個不同點:

給定一個距離閾值,計算所有距離小于的“相點對”數占全部“相點對”數的比例,即

2 基于重構相空間的預測方法

顯然,在局部預測算法中選擇一個合適的值非常重要。然而,在大數據環境下選擇也將面臨困境:如果選取的較小,則參與預測的歷史點很少,模型容易受到噪音點很大的影響或者對那些與當前點非常相似點產生過擬合;反之,如果選取的較大(這也是在大數據環境下的通常做法),參與預測的歷史點很多,此時固定的個點與() 相似性變化會變得劇烈。而且,隨著預測的任務從傳統的預測一個點的值提升到需要預測一段時間的值,則對于每一輪(不同的)預測任務選定的個相似點中與() 真正相似的點的個數并不相同。這樣,如果預測過程中一直選取一樣的值,那么預測結果將會有很大誤差。為了獲得() 的真正相似點的集合,在值較大的情況下,我們提出一個基于相似性拐點的方法來剔出那些與() 不太相似的點。假設獲得的拐點位置為1 ≤≤,顯然只有相似性關系排在前的相似點才與() 最相似。這樣,在減少計算的過程中還可以提高預測精度。

表1 相似性拐點算法

表2 基于相空間重構的預測算法

獲得() 的個最相似點及相似性關系的拐點位置之后,則可以獲得個相似狀態點及其各自對應的個下一狀態點。通過考察這2個點之間的一一對應關系就可構建最合適的映射關系(·)。最終,可以利用(·) 來實施有效的預測。預測的計算過程見算法2(表2)。

給定訓練集重構的相空間,預測算法首先獲得() 的個最相似點(Line 3-5);然后調用算法1獲得相似性關系的拐點位置(Line 6-7);最后,通過擬合這個() 的相似點來獲得映射關系(·) (Line 8-12)。為了減少運算復雜度,本文采用簡單線性回歸的方法進行局部擬合:

3 相空間生成實驗

3.1 數據

實驗數據為2014年8月1日至12月31日共5個月內廣州市某公交線路的用戶全部乘車記錄。該公交線路每天運行時間為早上5:00 到晚上23:00,共18小時。以一張公交卡識別一個獨立的用戶(乘客),共有用戶近162萬人。用戶乘車時需要刷卡一次,并且在系統中生成一條記錄其消費行為的數據,共生成4,857,644條記錄且以刷卡的順序存儲。原始數據集大小為2.12G。另外,考慮到用戶在本線路乘車(刷卡)平均刷卡3 次,且刷卡頻次呈長尾分布。且為了方便計算,剔除5個月里乘車次數不滿10 次的乘客,剩下有效用戶共78,704人,共有1,829,119 條乘車刷卡記錄,平均23.2 次。

本研究的預測目標為:一段時間里,公交系統中每個工作小時的用戶群體出行情況。為此,我們以小時為單位并將同一時間區間的所有乘車數據累計匯總。然后,取2014年12月8日之前的2,340小時(每天只考慮公交線路正常工作的18小時)的用戶群體乘車情況作為訓練集,之后的三周共378 小時作為預測的測試集。訓練集中用戶出行情況如圖1所示。其中,橫軸為2014年8月1日開始到2014年12月8日為止的工作小時序列,縱軸為對應的匯總乘車人次。此外,橫軸200 附近的數據為缺失值,1000 附近的數據為國慶節數據。為了檢驗抗噪音特性,實驗并未對缺失值和異常值進行特殊處理。而且,在4.4小節我們對刷卡次數較少的用戶數據也進行了討論。

圖1 訓練數據集中用戶的日常公交出行分布

Figure 1 Distribution of daily bus trips for users in the training data set

3.2 確定初始延遲時間

在確定初始延遲時間時,通常使用實際觀測數據做出自相關函數隨延遲時間變化的函數圖像,然后觀察圖像的變化。將實驗的訓練數據以小時為單位分割后,當延遲時間取不同值時,自相關函數根據式(2)畫出的圖像如圖2所示。其中可以發現看出,自相關函數衰減到經驗值1時,附近可選的延遲時間值有= 1 和= 2。本文的后續實驗中選取了最接近1的= 2 作為延遲時間。

圖2 自相關函數值圖像

Figure 2 Image of autocorrelation function values

3.3 確定初始嵌入維數m

圖3 關系曲線

3.4 參數影響及相圖變化趨勢

前面的實驗得出結論:最合適的延遲時間為2,嵌入維度大于等于5。為了印證這個結果是否合理,本文針對嵌入維數和延遲時間做了拓展實驗。對于一個合理的相空間映射,在映射空間上,數據應該表現出明顯的混沌吸引子,且各點取值應該偏多樣化?;诖?,我們需要根據前面計算得到的延遲時間值和嵌入維度范圍,將公交出行數據(訓練集)映射到高維相空間后進行相應的觀察。由于嵌入維度太大,本文利用主成分分析法(PCA[34])將相空間映射點降維到三維空間來可視化相圖,從而觀察實驗結果。

當延遲時間= 2 保持不變,嵌入維數分別取5, 15, 25, 35, 45, 55 得到的相圖如圖4所示。從圖4中的變化趨勢可以看出:隨著嵌入維數的變化,系統相圖也在發生變化??傮w上可以看出嵌入維數范圍(= 5)則是相圖趨于穩定的下界;隨著嵌入維數的增加,相圖逐漸趨近于平穩。這一實驗結果說明了對相空間重構的影響:嵌入維數越大,相圖就越趨于平穩。

圖4 不同嵌入維數m 得到的相圖

Figure 4 Phase diagrams from different embedding dimensions m

在清楚了的影響前提下,我們可以選擇一個較大的嵌入維數值(例如= 50),利用實驗來觀察延遲時間對相空間構建的影響。變化延遲時間從1 變到9,我們得到的相圖如圖5所示??梢詮膱D5中的趨勢看出:當延遲時間為= 2 時,所對應的相圖最為穩定且吸引子狀態更多樣化;雖然= 1 所對應的相圖也不錯,但是穩定性和吸引子狀態多樣性都弱于= 2 的情況。這與圖2的實驗結果相吻合。然而當延遲時間分別為3, 5, 6, 7, 8 和9 時,相圖雖然看上去很有規律,但沒有表現出多態,只是在少數幾個狀態間跳躍變換。

圖5 不同延遲時間τ得到的相圖

Figure 5 Phase diagrams from different delay times τ

4 用戶群體出行預測實驗

4.1 預測評價指標

對于提出的公交出行預測目標,本文采用兩個評價指標為:平均絕對百分誤差(MAPE)[35]和希爾不等系數(TIC)[36]。其定義分別如下:

4.2 預測結果

傳統的預測方法認為每一個目標點都具有相似的近似點數量,因此取的相似點數目完全一樣,為固定值,這樣的假設顯然不合理。圖6給出了四個需要預測的目標點與其最相似的= 20 個點的相似度變化曲線。圖中紅色的點為這20個點中與目標點相似性排序的拐點。如果設定0= 10,對于= 5 圖中這類目標點與其相似點的相似度變化拐點0,因而需要在排序為到的相似點集合中繼續計算相似性續拐點,直到找到的拐點排序大于0。對于= 16 類似的目標點,它們與相似點之間的相似度變化很均勻,如果不找拐點,對其影響不大。而對于= 13 和= 11圖中的目標點,能明顯找出一個相似度變化劇烈變化的地方。拐點之后的點雖然還在目標點相似度排序的前20 范圍中,但是它們與目標點的相似度差已迅速增大。如果將這些通過固定值方法找到的所有點一視同仁,(尤其是值比較大時)將會導致擬合效果欠佳。

圖6 部分目標點與相空間中20個最相似點的相似度變化曲線示例

Figure 6 Examples of similarity curve between some target points and the 20 most similar points in phase space

在一個值比較大的相似點集合中,將拐點之前的點看作是目標點的“最相似”點集,本文提出了一個實現更準確預測的新思路:找到足夠多的,且與目標點“最相似”的歷史狀態點,進而通過擬合這些“最相似”點與各自下一時刻點之間的關系對系統下一狀態的進行預測。為了說明這一方法的優勢,表3為當延遲時間為= 2,嵌入維數為41到60時,本文的方法和傳統固定值(= 20)方法的MAPE和TIC指標具體變化情況對比(其中*表示用找相似性拐點的方法的預測結果)??梢钥闯?,本文提出的找拐點的方法,不僅MAPE 值有相當可觀的下降(約10%),而且TIC值也有很大程度的降低,且穩定時TIC值小于0.1,這表明擬合效果很好。

進一步,我們選擇表3中預測效果最好的實驗參數(延遲時間為2,嵌入維數為53),本文方法在測試的三周共378 小時上的預測值與真實值的匹配結果如圖7所示(其中藍線為真實值,紅線為預測值)。

為了更清晰地展現實驗效果,我們從圖7的全部時間中選出四個時間片段(即0-30小時,100-130小時,200-230小時,300-330小時)的實驗情況進行放大展示,結果如圖8所示。圖中的藍線(實線)表示真實發生的刷卡數據,紅線(虛線)表示本文方法的預測結果。實驗結果表明,本文方法的預測結果能夠很好地擬合公交用戶真實的刷卡行為。

表3 新方法與固定值方法(k = 20)預測結果的MAPE和TIC變化情況對比

圖7 預測值與真實值的匹配結果示意(τ = 2, m = 53)

Figure 7 The matching result between the predicted value and the real value(= 2,= 53)

4.3 對比實驗

本文的方法與時間序列預測研究中常用的“ARMA模型”和“對應位置回歸”(Cor Reg)[19]兩種方法進行了對比實驗。ARMA模型是最常用的平穩時間序列擬合模型。對應位置回歸方法認為系統的周期中具有相關性的時間點在狀態上也應該相關。因此需要一定先驗知識來確定周期(延遲時間),以及在一系列相關的狀態集合上,再運用回歸(如非參數K-NN)進行相關性擬合來實現預測。例如,若要預測某個星期一早上8點的公交流量,則在數據集中去尋找所有星期一早上7點的數據,并回歸擬合這些數據與其下一時刻(星期一早上8點)的關系。這里需要先驗地確定時間延遲為7天(一周),并找到預測目標(星期一早上8點)的相關狀態集合(所有星期一早上7點)。

圖8 預測值與真實值在四個時間片段上的放大顯示效果

Figure 8 Enlarged display effect of predicted value and real value in four time segments

圖8(續) 預測值與真實值在四個時間片段上的放大顯示效果

Figure 8(continue) Enlarged display effect of predicted value and real value in four time segments

表4為在公交大數據集上,三種預測方法的MAPE值和TIC值。本文提出的新方法無論是MAPE值還是TIC值都優于其他兩種方法。值得一提的是,對于Cor Reg方法,其MAPE值和TIC值雖然與本文提出的方法很接近,但是此方法基于很強的先驗知識,在實際應用中,很可能因為數據缺失或異常值導致預測結果很不穩定。

表4 對比實驗結果

4.4 討論

在前述實驗中的數據中,我們剔除了5個月時間里乘車次數不滿10 次的乘客,用剩余部分38%的數據對乘客的公交出行行為進行預測。但是我們進一步發現,乘車次數不滿10 次的這類乘客雖然人均刷卡次數較少,但是人數眾多且占到近62%的刷卡記錄。顯然,被剔除的乘客乘車次數雖少但數量巨大,也應當作為被預測的群體之一。

本部分的實驗工作,用于討論分析本文方法對于噪音數據的處理能力。本文將乘車“刷卡次數”作為變量進行考慮。分別以“刷卡次數”= 1次,= 2次,…,直到= 15次分別作為不同的依據進行數據劃分。即每次實驗中我們把“刷卡次數”大于等于次的作為一部分實驗數據;同時將對應的“刷卡次數”小于次的作為另一部分實驗數據。這樣我們可以獲得15對的數據集,可以用來檢驗在不同噪音水平下本文方法的預測效果。檢驗的指標仍然采用MAPE值和TIC值,實驗結果見圖9。

圖9中藍色實線表示“刷卡次數”小于數據集的預測結果(圖中用標識),紅色虛線表示“刷卡次數”大于數據集的預測結果(圖中用標識)。首先,隨刷卡次數的增加,圖中的紅色虛線均低于藍色實線。這表明刷卡次數多的用戶比刷卡次數少的用戶表現出更強的出行規律性。其次,圖中的藍色實線呈逐步下降趨勢,意味著本文預測方法的準確度在不斷提高。即隨著刷卡次數的增多,用戶乘坐公交車的規律性也在不斷增強。最后,圖中的紅色虛線存在緩慢上升趨勢,表明那些刷卡次數非常多的用戶,其乘車非規律性的出行行為也在隨之增加,本文預測方法的準確度將會受到一定影響。

圖9 剔除不同“噪音”數據的預測結果變化實驗

Figure 9 Experiments of changing prediction results by excluding different “noise” data

5 結論

公交系統實現智能化的關鍵是對公交客流的全面、準確把握和預測。公交客流的刷卡行為可以生成海量序列數據,因而如何利用這些海量序列數據,來提高對群體用戶在未來一段時間中的可能行為的預測效率是一個非常有意義的研究問題。但是,傳統的建模預測思路在大數據環境下會面臨模型數據選擇的合理性和長期預測的準確性挑戰。

本文引入相空間重構的方法研究了海量序列數據的系統建模,讓更多的系統數據參與到模型構建過程中來。此外,為了獲得更準確的預測結果,本文通過先構建一個較大的相似點集合,并在此基礎上通過尋找拐點的方法,無監督地根據目標點的不同進而選擇不同的(最)近似點數量,以至于對預測模型結果進行優化。該方法不但降低了預測過程中的相似度計算復雜度,同時也顯著提升了預測效果。實驗證明,本文提出的方法對于利用復雜系統的海量(序列)觀察數據進行系統建模,以及基于模型預測較長一段時間的群體行為模式提供了新的思路和方法。

[1] 楊浩雄, 李金丹, 張浩, 劉淑芹. 基于系統動力學的城市交通擁堵治理問題研究[J]. 系統工程理論實踐, 2014, 34(8): 2135-2143.

Yang H X, Li J D, Zhang H, Liu S Q. Research on the governance of urban traffic jam based on system dynamics[J].Systems Engineering-Theory & Practice, 2014, 34(8): 2135-2143.

[2] Yu Zheng, Licia Capra, Ouri Wolfson, Yang Hai. Urban Computing: Concepts, Methodologies, and Applications[J]. ACM Transaction on Intelligent Systems and Technology, 2014, 5(3), 38:1-55.

[3] Liang Dai, Wen Qin, Hongke Xu, et al. Urban traffic flow prediction: A MapReduce based parallel multivariate linear regression approach[C]. In Proceedings of the 17th International IEEE Conference on Intelligent Transportation Systems, 2014: 2823-2827.

[4] M. Gong, X. Fei, Z. H. Wang, et al. Sequential framework for short-term passenger flow prediction at bus stop[J], Journal of the Transportation Research Board, 2014, vol. 2417: 58–66.

[5] 朱廣宇, 王雨晨, 張彭等. 基于變點發掘的城市軌道交通客流預測模型[J]. 中南大學學報(自然科學版), 2016, 47(6): 2153-2159.

Zhu G Y, Wang Y C, Zhang P. A forecasting model for urban rail transit passenger flow based on change-point detection method[J]. Journal of Central South University (Science and Technology), 2016, 47(6): 2153-2159.

[6] 梁昌勇, 馬銀超, 陳榮等. 基于SVR-ARMA組合模型的日旅游需求預測[J]. 管理工程學報, 2015, (1):122-127.

Liang C Y, Ma Y C, Chen R. The Daily Forecasting Tourism Demand Based on SVR-ARMA Combination Model[J]. Journal of Industrial Engineering and Engineering Management, 2015, (1):122-127.

[7] 張春輝, 宋瑞, 孫楊. 基于卡爾曼濾波的公交站點短時客流預測[J]. 交通運輸系統工程與信息, 2011, 11(4): 154-159.

Zhang C H, Song R, Sun Y. Kalman Filter-Based Short-Term Passenger Flow Forecasting on Bus Stop[J]. Journal of Transportation Systems Engineering and Information Technology, 2011, 11(4): 154-159.

[8] 袁健, 李茂同, 范炳全. 短時交通流預測FSMSVR模型[J]. 系統工程與理論實踐, 2014, 34(6): 1607-1613.

Yuan J, Li M T, Fan B Q. A FSMSVR model of short-term traffic forecasting[J]. Systems Engineering-Theory & Practice, 2014, 34(6): 1607-1613.

[9] Yuxing Sun, Biao Leng, Wei Guan. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system[J], Neurocomputing, 2015, Volume 166: 109-121.

[10] 王建, 鄧衛, 趙金寶. 基于貝葉斯網絡多方法組合的短時交通流量預測[J]. 交通運輸系統工程與信息, 2011, 11(4): 147-153.

Wang J, Deng W, Zhao J B. Short-Term Freeway Traffic Flow Prediction Based on Multiple Methods with Bayesian Network[J]. Journal of Transportation Systems Engineering and Information Technology, 2011, 11(4): 147-153.

[11] Wei Y, Chen M C. Forecasting the short-term metro passenger flow with empirical mode decomposition and neural networks[J]. Transportation Research Part C: Emerging Technologies, 2012, 21(1): 148–162.

[12] Zhao S Z, Ni T H, Wang Y, et al. A new approach to the prediction of passenger flow in a transit system[J], Computers & Mathematics with Applications, 2011, 61(8): 1968-1974.

[13] Y. Mo, Y. Su. Neural networks based real-time transit passenger volume prediction[C]. In Proceedings of the 2nd International Conference on Power Electronics and Intelligent Transportation System (PEITS), 2009, pp. 303-306.

[14] 沈國江, 王嘯虎, 孔祥杰. 短時交通流量智能組合預測模型及應用[J]. 系統工程理論實踐, 2011, 31(3): 561-568.

Shen G J, Wang X H, Kong X J. Short-term traffic volume intelligent hybrid forecasting model and its application[J]. Systems Engineering-Theory & Practice, 2011, 31(3): 561-568.

[15] Isabelle Guyon, Andr′e Elisseeff. An Introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3:1157-1182.

[16] JoséA. S′aez, J. Luengo, F. Herrera. Predicting Noise Filtering Efficacy with Data Complexity Measures for Nearest Neighbor Classification[J]. Pattern Recognition, 2013, 46(1): 355-364.

[17] 董超俊, 劉智勇, 邱祖廉. 基于混沌理論的交通量實時預測[J]. 信息與控制, 2004, 33(5):518-522.

Dong C J, Liu Z Y, Qiu Z L. Prediction of Traffic Flow in Real-time Based on Chaos Theory[J].Information and Control, 2004, 33(5):518-522.

[18] 張曉利, 賀國光, 陸化普. 基于K-鄰域非參數回歸短時交通流預測方法[J]. 系統工程學報, 2009, 24(2):178-183.

Zhang X L, He G G, Lu H P. Short-term traffic flow forecasting based on K-nearest neighbors non-parametric regression[J]. Journal of Systems Engineering, 2009, 24(2):178-183.

[19] 張曉利, 陸化普. 非參數回歸方法在短時交通流預測中的應用[J]. 清華大學學報(自然科學版), 2009, 49(9):39-43.

Zhang X L, Lu H P. Non-parametric regression and application for short-term traffic flow forecasting[J]. Journal of Tsinghua University (Science and Technology), 2009, 49(9):39-43.

[20] 張濤, 陳先, 謝美萍等. 基于K近鄰非參數回歸的短時交通流預測方法[J]. 系統工程理論實踐, 2010, 30(2): 376-384.

Zhang T, Chen X, Xie M P,. K-NN based nonparametric regression method for short-term traffic flow forecasting[J]. Systems Engineering-Theory & Practice, 2010, 30(2): 376-384.

[21] 張洪賓, 孫小端, 賀玉龍. 短時交通流復雜動力學特性分析及預測[J]. 物理學報, 2014, 63(4): 55-62.

Zhang H B, Sun X D, He Y L. Analysis and prediction of complex dynamical characteristics of short-term traffic flow[J]. Acta Physica Sinica, 2014, 63(4): 55-62.

[22] 周浩, 胡堅明, 張毅等. 基于隱Markov模型的短時交通崩潰事件預測[J]. 清華大學學報(自然科學版), 2016, 56(12): 1333-1340.

Zhou H, Hu J M, Zhang Y,. Short-term traffic breakdown prediction using a hidden Markov model[J]. Journal of Tsinghua University (Science and Technology), 2016, 56(12): 1333-1340.

[23] Kenneth Button. Transport safety and traffic forecasting: An economist’s perspective[J], IATSS Research, 2014, 38(1):27-31.

[24] 孟小峰, 慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013, 50(1): 146-169.

Meng X F, Ci X. Big Data Management: Concepts,Techniques and Challenges[J]. Journal of Computer Research and Development, 2013, 50(1): 146-169.

[25] Lei L, Shulin Z, Zhilou Y, et al. A big data inspired chaotic solution for fuzzy feedback linearization model in cyber-physical systems[J]. Ad Hoc Networks, 2015, Volume 35: 97-104.

[26] Packard N H, Crutchfield J P, Farmer J D, et al. Geometry from a time series[J]. Physical review letters, 1980, 45(9): 712.

[27] Wu, C. L., K. W. Chau, Y. S. Li. Predicting monthly streamflow using data-driven models coupled with data preprocessing techniques[J]. Water Resources Research, 2009, 45: W08432.

[28] Takens F. Detecting strange attractors in turbulence[M]. Dynamical systems and turbulence, Warwick 1980. Springer Berlin Heidelberg, 1981: 366-381.

[29] 董春嬌, 邵春福, 李娟等. 基于混沌分析的道路網交通流短時預測[J]. 系統工程學報, 2011, 26(3):340-345.

Dong C J, Shao C F, Li J,. Short-term traffic flow prediction of road network based on chaos theory[J]. Journal of Systems Engineering, 2011, 26(3):340-345.

[30] Fraser A M, Swinney H L. Independent coordinates for strange attractors from mutual information[J]. Physical review A, 1986, 33(2): 1134.

[31] Rosenstein M T, Collins J J, De Luca C J. Reconstruction expansion as a geometry-based framework for choosing proper delay times[J]. Physica D: Nonlinear Phenomena, 1994, 73(1): 82-98.

[32] Abarbanel H D I, Brown R, Sidorowich J J, et al. The analysis of observed data in physical systems[J]. Rev. Mod. Phys, 1993, 65(4): 1331-1392.

[33] Grassberger P, Procaccia I. Measuring the Strangeness of Strange Attractors[J]. Physica D: Nonlinear Phenomena. 1983, 9(1-2): 189- 208.

[34] Shukuan L, Jianzhong Q, Guoren W, et al. Phase Space Reconstruction of Nonlinear Time Series Based on Kernel Method[C]. In Proceedings of the 6th World Congress on Intelligent Control and Automation, 2006, pp. 4364-4368.

[35] Armstrong J S, Collopy F. Error measures for generalizing about forecasting methods: Empirical comparisons[J]. International journal of forecasting, 1992, 8(1): 69-80.

[36] Theil H. Economic forecasts and policy[M]. Amsterdam: North- Holland Publishing Company, 1958.

Study on prediction of public transportation user group trips based on massive sequence data

FENG Lu, QIAN Yu*, BAI Mengna, YUAN Hua

( School of Management and Economics, University of Electronic Science and Technology of China, Chengdu 611731, China)

In massive sequence data, predicting the behavioral patterns of user groups over a period of time in the future is a very meaningful research endeavor. In this field, research on the behavioral patterns of public transportation user groups is particularly representative and reflective of the main characteristics of urban residents and cities, as public transportation is the primary means by which urban residents travel. To improve the efficiency of public resource use and optimize the management of urban public transportation, it is of great significance to promote the intellectual development of urban computing.

Traffic flow-related prediction research has undergone a long period of development. Previous research considered only the prediction of short-term traffic flow, however the reasonable prediction of long-term traffic flow may provide better services for traffic management. With the emergence of intelligent transportation, people expect to use public transit big data to accurately predict the travel behavior of long-term user groups.

Taking the behavior of public transport user groups as an example, this paper introduces the phase space reconstruction method to predict the nature and regularity of mass transit group sequence behaviors, and uses massive sequence data to model the large-scale system to simulate its dynamic evolution process. However, the phase space reconstruction method faces two problems: one is the selection of number of similar points in the phase space; the other is the quality of the phase space reconstruction.

With respect to the first problem, after the general phase space reconstruction method maps the data to the phase space, the K-proximity method is normally used to find similar points within the time frame for prediction. However, this method is sensitive to the adjacent number of values K and produces a large error. Given these flaws, this paper proposes the similarity inflection point method for the automatic selection of similar points before prediction, that is, the most similar P points are automatically selected for prediction in a large K-near neighborhood. This method not only reduces the complexity of similarity calculation in the prediction process, but also significantly improves the prediction effect.

With respect to the second problem, previous studies have only evaluated the quality of phase space reconstructions through prediction effects. This paper not only measures the quality of the phase space reconstruction from the forecast result, but also compares and defines relationships between different prediction results and phase diagrams through a series of parameter experiments. The parameter experiments show that the phase diagram changes significantly under different parameters, and that there is a certain correlation between the high-quality phase diagram and high-precision prediction. This shows that the phase space reconstruction method can better describe the behavioral patterns of public transportation user groups, and shows the effectiveness of the prediction method used for the phase space reconstruction in this paper.

The final experimental results show that the method in this paper has obvious advantages over other time series prediction methods. The similarity inflection point method proposed in this paper, in particular, has significantly improved the prediction accuracy. At the same time, this paper proposes new ideas for exploring the use of massive (periodic) sequence data for system modeling and predicting group behavior over a period of time.

Massive sequence data; Phase space reconstruction; Similarity; Prediction

2017-12-28

2018-08-27

Supported by the National Natural Science Foundation of China (71572029, 71671027, 71490723, 71271044)

TP311

A

1004-6062(2020)04-0126-009

10.13587/j.cnki.jieem.2020.04.014

2017-12-28

2018-08-27

國家自然科學基金資助項目(71572029、71671027、71490723、71271044)。

錢宇(1978—),女,重慶人;電子科技大學經濟與管理學院副教授,博士;研究方向:信息經濟學與商務智能。

中文編輯:杜 ??;英文編輯:Boping Yan

猜你喜歡
相空間延遲時間刷卡
二氧化碳對乙烷燃燒著火延遲時間的影響
LTE 系統下行鏈路FDRX 節能機制研究
基于分層COX模型的跟馳反應延遲時間生存分析
相干態輻射場的Husimi分布函數在非對易相空間中的表示
延遲時間對氣輔注射成型氣體穿透行為影響的數值模擬和實驗研究
刷卡
非對易空間中的三維諧振子Wigner函數
刷臉就可以購物
相空間中含時滯的非保守力學系統的Noether定理*
宅急送開始推行終端POS機刷卡結算
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合