?

改進的固定交通檢測器缺失數據綜合修復方法

2019-10-29 06:51王忠宇鄒亞杰
同濟大學學報(自然科學版) 2019年10期
關鍵詞:檢測器向量精度

苗 旭,王忠宇,鄒亞杰,吳 兵

(1.同濟大學 道路與交通工程教育部重點實驗室,上海 201804;2.上海海事大學 交通運輸學院,上海 201306)

固定交通檢測器的數據采集缺失現象對交通數據分析和挖掘等均帶來不利的影響,因此有必要進行缺失數據修復.常見的數據修復方法有歷史均值法[1-3]、插值法[4-5]、主成分分析法[6-8]、時間序列法[9]及機器學習算法[10-11].歷史均值法是最早發展起來的數據修復方法.陸化普等[1]提出了基于歷史數據和當前數據加權平均的數據修復方法.姜桂艷等[2]利用相鄰時段及路段數據對故障數據進行修復.孫玲等[3]基于缺失數據的時空相關性將相關數據加權重構作為缺失數據的修復值.插值法主要分為指數平滑法、樣條插值法及回歸方法.Smith等[4]基于相鄰時段數據的指數平滑值進行故障數據修復.Boyles[5]比較了簡單線性回歸模型、多元線性回歸模型、局部和全局回歸模型、非正態貝葉斯線性回歸模型等方法后指出,雖然回歸算法簡單且容易構建,但是數據修復結果在不同交通狀態下不可靠.Qu等[6-7]和Li等[8]提出了概率主成分分析法、貝葉斯主成分分析法及核概率主成分分析法,指出該類方法數據修復精度優于歷史均值法及樣條插值法.ARIMA(autoregressive integrated moving average model)是常用的時間序列數據修復方法.Ghosh等[9]比較了ARIMA與Holt-Winters指數平滑數據修復方法及隨機游走算法,指出ARIMA是一種有效的數據修復方法.近幾年,機器學習模型也逐漸應用于缺失數據修復.Tang等[10]提出基于模糊C均值與遺傳算法相結合的數據修復方法.Zhang等[11]衡量同一時刻不同地點交通參數的相關性,并提出基于最小二乘支持向量回歸的缺失數據修復方法.

對于上述數據修復模型,選擇解釋變量時的主要依據為交通流數據的時空相關性,所有檢測器均采用固定的解釋變量,但是不同檢測器數據與同一相關序列的相關性存在較大差異,解釋變量固定勢必影響部分檢測器缺失數據的修復精度,而且數據的連續缺失容易導致修復誤差的逐步傳遞和累積.另外,一個有效的數據修復方法既要考慮交通流數據的周期變化特性,又要捕捉復雜交通環境引起的交通流數據的實時變化,這對目前的研究仍具有較大的挑戰.為避免連續數據缺失造成的誤差累積,基于數據的相關性及連續缺失情況為修復方法動態地選擇解釋變量,并綜合考慮交通流數據的周期性變化趨勢和實時變化特性,提出一種改進的數據修復方法.

1 數據來源

本研究選取的數據為2017年3月6日—31日上海市南北高架東側徐家匯路至大沽路路段20個工作日內固定檢測器采集的流量數據.該段快速路長度約為3 km,單向四車道,設計車速為80 km·h-1.主線共布設了7組完好的固定檢測器,采集字段為檢測器編號、采集時間、流量、平均速度、平均時間占有率等.其中,流量為5 min內經過檢測器所處斷面的車流量總數.為滿足交通管理實時控制的需求,對修復時段t的缺失數據,僅采用歷史時段(t-h)(h≥1)的數據進行修復.為方便說明,將分析范圍內的檢測器重新編號,從南向北方向行駛的車輛依次經過的檢測器為1號至7號.檢測器空間位置分布如圖1所示.

圖1 上海市南北高架檢測器分布

2 綜合數據修復方法

所提出的綜合數據修復方法將檢測器采集的流量數據分成兩部分,即周期性變化趨勢與實時變化殘差值.描述周期性特征的函數主要有三角級數法[12]、簡單平均值法(SAM)[13]及雙指數平滑法[14].選擇簡單且常用的簡單平均值法進行周期性變化趨勢描述,采用動態選擇解釋變量的支持向量回歸(DV-SVR)算法進行實時變化殘差值的預測.下文稱所提出的綜合數據修復方法為SAM-DV-SVR,計算式如下所示:

Y(t)=D(t)+R(t)

(1)

式中:Y(t)為t時段檢測器采集的流量實際值;D(t)為流量數據的周期性部分;R(t)為殘差值.

2.1 簡單平均值法周期分析

圖2為3號檢測器2017年3月份一周工作日的流量數據分布.可以非常明顯地看出,流量數據呈現出以24 h為一個周期的反復特性.計算每個檢測器3月份任意2個工作日的數據相關系數,并進一步得到相關系數均值,該均值可以反映檢測器的日變化趨勢的一致性.計算得出3號、4號、5號檢測器的流量數據相關系數均值分別為0.978、0.927、0.944,可以看出3號檢測器流量數據的日變化趨勢更為相似.假設連續采集N天的工作日數據,每天采集樣本數為n,每天采集的流量數據可記為

(2)

簡單平均值法計算式為

(3)

本研究選取3月6日至3月22日的13個工作日的數據計算周期趨勢,因此N=13,n=288.

圖2 工作日流量的周期性分析

2.2 動態選擇解釋變量的支持向量回歸模型

2.2.1備選相關序列構建

每個檢測器每天采集的流量數據可組成288維的向量,將缺失數據所在的向量稱為目標向量S,而由相關數據組成的向量稱為相關序列.根據以往研究結論[15],共選擇了8個備選相關序列,如表1所示.將目標向量S分別與相關序列S1至S8進行相關系數計算,可分別得到目標向量與各相關序列的相關系數,將相關系數的大小作為缺失數據修復模型解釋變量的重要選擇依據.相關系數計算式為

(4)

2.2.2解釋變量動態選擇

為充分考慮流量數據的時空相關性,解釋變量的選擇至少包括一個時間相關序列向量及一個空間相關序列向量.解釋變量動態選擇的依據一是目標向量與相關序列向量相關系數的大小,二是連續缺失數據的數量.首先,構建相關序列S1至S8,若數據存在連續缺失現象,如檢測器(t-1)時段及t時段數據均缺失,則由(t-2)時段數據作為相關序列S1,記為S1,2,(t-3)時段數據作為相關序列S2,記為S2,3,依次類推;然后,計算相關系數R1至R8,根據相關系數大小選擇解釋變量來進行缺失數據修復.解釋變量選擇流程如圖3所示.圖3中,m為解釋變量的數量.

表1 相關序列描述

圖3 解釋變量選擇流程

2.2.3支持向量回歸模型

設訓練樣本集M={(yi,Va,i,Vb,i,Vc,i,Vd,i),i=1,…,l},其中Va,i、Vb,i、Vc,i、Vd,i為動態選取的輸入變量,yi為相應的輸出值,本研究中yi為目標檢測器的缺失數據,l為訓練樣本個數.支持向量回歸模型的基本思想是尋找一個從輸入空間到輸出空間的非線性映射函數φ(x),通過該函數將訓練樣本集映射到高維特征空間P,因此可在空間P中對原始問題進行線性回歸[16].映射關系如下所示:

f(x)=(w·φ(x))+b,w∈P

(5)

式中:w為權重值;(·)為內積運算;b為偏置項.w和b通過最小化下列函數進行估計:

(6)

(7)

(8)

(9)

(10)

通過式(5)和式(9),可以將f(x)表示為

K(xi,x)=φ(xi)·φ(x)

(11)

式中:K(xi,x)為核函數.核函數不同,模型決策函數的最終形式也不相同.SVR模型支持常見的線性、多項式、徑向基(RBF)、Sigmoid等4種核函數,本研究選取最常用的RBF核函數.

在ε-SVR的構建時,常數C作為懲罰系數控制損失的大小,模型求解中C可作為調節參數,影響訓練模型的分類性能.此外,RBF核函數中參數g的數值也會明顯影響模型的預測性能.在參數設置過程中,采用網格分析法及交叉驗證法對支持向量回歸中的常數C及RBF核函數參數g進行參數尋優.交叉驗證法為:將原始數據均分成3組,對每組子集數據做1次驗證集,其中2組子集數據作為訓練集,最后得到3個模型,用這3個模型最終驗證集的分類準確率平均值作為性能評價指標.網格分析法是通過編程枚舉的方式對不同參數下的模型預測效果進行對比.此處以數據缺失一個的情況為例介紹懲罰系數C及核函數參數g的選擇對SVR模型的影響.該實驗采用均方誤差(αMSE)作為評價指標,計算公式為

(12)

式中:n1為修復數據個數.

圖4為懲罰系數C及核函數參數g對SVR模型預測結果的影響.從圖4可以看出,懲罰系數C較小時,SVR處于“欠學習”狀態,預測誤差并不是最小,隨著C的增大,誤差減小隨后又逐漸增大,說明當C大于某一值后,SVR模型處于“過學習”狀態.C在一定的區間內時,不同的取值得到的誤差相差不大,說明對于固定的g,存在多個C可以使得SVR模型取得較好的預測能力.同樣,隨著g的增大,預測均方誤差呈現先減小后增大的兩邊大中間小的趨勢,說明當g增大到一定程度之后,SVR模型呈現“過學習”現象.可見,g的變化對模型的預測能力也有非常大的影響.通過網格學習方法,遍歷log2C及log2g2個參數在-5到5之間的所有組合,選擇最優的參數建立數據修復精度最高的回歸模型.另外,針對不同的檢測器選擇及不同的解釋變量輸入,SVR模型依據網格分析法及交叉驗證法對2個參數進行重新選擇.

圖4 C與g對SVR模型的影響

3 實際案例及結果分析

選擇編號為3號、4號、5號的檢測器作為模型測試對象.將3月6日—10日(周一至周五)數據作為相關序列構建的基礎數據,如3月13日缺失數據修復時的相關序列S4的構建需要使用3月6日的歷史數據.3月13日—22日的8個工作日數據作為模型訓練數據,用來進行模型參數的標定.3月23日—31日的7個工作日數據作為模型預測結果的測試數據,用來評價模型的泛化能力.如前所述,數據采集時不僅存在單個數據缺失現象,還存在連續數據缺失現象.選取的3月6日—31日3個檢測器數據均為100%檢測無缺失數據,將3月23日—31日的7天數據隨機剔除10%的數據,分別構建連續缺失1~10個數據的場景進行數據修復,進而與采集的真實數據進行比較,從而驗證模型的修復精度.數據修復精度評價指標包括平均絕對誤差(βMAE)、平均絕對百分比誤差(γMAPE)、均方根誤差(δRMSE).3個指標的表達式如下所示:

(13)

首先,基于第2.1節所述簡單平均值法計算3個檢測器的周期;其次,根據第2.2節所述方法構建8個相關序列來計算相關系數,并根據數據缺失情況及相關系數的大小動態選擇解釋變量;然后,基于支持向量回歸模型預測缺失數據的殘差值;最后,將預測的殘差值與周期值相加組成缺失數據修復值.

(1) 解釋變量動態選擇

圖5為3個目標檢測器僅缺失一個數據且相鄰檢測器的相關數據完整時構建的8個相關序列.可以看出,不同的檢測器與同一個相關序列的相關系數差異較大.3號檢測器與時間相關序列S1至S4的相關性明顯高于空間相關序列S5至S8.與4號和5號檢測器相關性最強的序列均為空間相關序列,4號檢測器與S6、S7相關序列的相關性最大,5號檢測器與S5、S8相關序列的相關性最大.可以看出,為所有的檢測器動態選擇不同的解釋變量是非常有必要的.

圖5 相關序列的相關系數

圖6為3個檢測器的自相關系數.橫坐標1至9代表的是(t-1)至(t-9)時段,縱坐標為t時段分別與(t-1)至(t-9)時段數據的相關系數.可以看出,隨著時間距離的增加自相關系數逐漸減小.3號檢測器數據的自相關系數明顯大于4號與5號檢測器的自相關系數.

圖6 檢測器數據的自相關系數

表2為目標檢測器連續缺失1~10個數據且相鄰檢測器數據完整、歷史日期數據完整時解釋變量的選擇方案.因相鄰檢測器數據缺失或者歷史日期數據缺失時解釋變量的選擇方案較多,故此處不予列出.可以看出,對于不同的檢測器,解釋變量的選擇存在較大差異.其中,Si,k表示選取的(t-k)時段數據作為相關序列Si,S1S2S3S7表示選擇4個相關序列作為解釋變量,分別為相關序列S1、S2、S3、S7.

(2) 支持向量回歸模型

根據表2中連續缺失1~10個數據的條件下解釋變量的選擇方案來動態選擇模型的輸入數據,如3號檢測器某個需要修復的數據連續缺失數為1時,則選擇S1、S2、S3、S74個相關序列的數據作為模型的輸入數據,輸出數據為缺失數據的殘差值,再加上該時段對應的周期值得到缺失數據的修復值.表3為3號檢測器根據表2選擇不同解釋變量時模型的懲罰系數C及核函數參數g的選擇方案以及殘差預測結果的平均絕對誤差.可以看出,解釋變量的動態選擇,避免了預測誤差隨著連續缺失個數的增多而導致的誤差累積現象.

(3) 數據修復結果

將以往研究中提出的數據修復方法與本研究提出的綜合修復方法SAM-DV-SVR進行修復精度對比.參與對比的修復方法包括雙指數平滑(DES)方法、常規SVR模型、歷史數據平均方法(HDAM)、多元線性回歸(MLR)方法、反向傳播神經網絡(BPNN)模型、僅考慮周期趨勢的SVR(SAM-SVR)模型、僅考慮解釋變量動態選擇的SVR(DV-SVR)模型及本研究提出的綜合數據修復模型SAM-DV-SVR.其中,歷史數據平均法為同一檢測器前4個時段值均值.常規SVR模型及MLR方法選取常用的4個解釋變量作為預測模型輸入,分別為目標檢測器前2個時段數據(S1,S2)及前后斷面同時刻數據(S5,S6).為保證模型的可對比性,本研究提出的綜合模型同樣選擇4個解釋變量.為排除模型預測結果的偶然性,隨機剔除10%的數據并對結果驗證過程進行了3次重復實驗.圖7為5號檢測器3次重復實驗的平均絕對誤差.可以看出,3次數據修復平均絕對誤差雖然數值大小有所差異,但各模型數據修復精度的排名基本保持一致.從圖7還可以看出,HADM及DES方法因僅考慮了交通流數據的時間相關性,只采用本身檢測器的歷史數據作為解釋變量,數據修復精度明顯低于其他幾種模型,并且隨著數據缺失個數的增加,修復誤差均明顯增加.因此,在下面的討論中,僅對其他6種模型的數據修復結果取平均值進行深入分析.

表2 解釋變量選擇結果

表3 SVR模型參數選擇結果及數據修復平均絕對誤差

a 第1次實驗

b 第2次實驗

c 第3次實驗

圖7 5號檢測器3次重復實驗平均絕對誤差

Fig.7βMAEof 3 repeated experiments on No.5 detector

圖8~10分別為6種模型的數據修復平均絕對誤差、平均絕對百分比誤差及均方根誤差.分析3個檢測器的數據修復結果,可以看出:

(1) 相較于傳統的SVR模型,SAM-DV-SVR模型對缺失數據修復的精度顯著提升.

(2) 3號檢測器中SAM-SVR模型預測精度明顯優于DV-SVR模型,而4號及5號檢測器則呈現相反的結論.原因為3號檢測器工作日每天流量的周期性變化趨勢更為一致,考慮周期性的SAM-SVR模型可充分利用流量數據的周期性更好地進行缺失數據的修復.同時,3號檢測器的時間相關序列的相關系數明顯大于空間相關序列的相關系數,采用DV-SVR模型在數據連續缺失達到7個時會選擇空間相關序列進行數據修復,數據修復精度明顯較低.4號和5號檢測器空間相關序列的相關性大于時間相關序列的相關性,采用動態變量的DV-SVR模型可選擇相關性強的空間相關序列作為輸入變量以提升缺失數據修復精度.

a 3號檢測器

b 4號檢測器

c 5號檢測器

圖8 不同連續缺失數據個數下6種模型修復平均絕對誤差

Fig.8βMAEof 6 models for different numbers of continuous missing data

a 3號檢測器

b 4號檢測器

c 5號檢測器

圖9 不同連續缺失數據個數下6種模型修復平均絕對百分比誤差

Fig.9γMAPEof 6 models for different numbers of continuous missing data

a 3號檢測器

b 4號檢測器

c 5號檢測器

圖10 不同連續缺失數據個數下6種模型修復均方根誤差

Fig.10δRMSEof 6 models for different numbers of continuous missing data

(3) SAM-DV-SVR模型對5號檢測器的數據修復精度提升最為明顯,相較于傳統的SVR模型,在數據連續缺失1~10個的情況下,平均絕對誤差平均減小了25.23%,而且平均絕對百分比誤差均低于5%.原因為5號檢測器的流量數據既具有較為一致的日變化趨勢,又與相鄰檢測器的空間相關序列具有較強的相關性.因此,相較于傳統的SVR模型,考慮周期性的SAM-SVR模型可提升數據修復精度,動態選擇解釋變量的DV-SVR模型在數據連續缺失時也可利用相關性強的空間相關序列進行數據修復以保證缺失數據的修復精度.SAM-DV-SVR模型將上述2種因素進行綜合考慮,因此可較大幅度地提升5號檢測器的數據修復精度.

4 結語

SAM-DV-SVR模型不僅為數據修復模型選擇了最佳的解釋變量,還綜合考慮了交通流數據的周期性變化趨勢和實時變化特征.與常用的幾種數據修復模型在數據連續缺失1至10個的條件下數據修復精度的對比結果可以看出,SAM-DV-SVR模型體現了更高的數據修復精度.

目前僅驗證了快速路交通流數據中的流量數據修復,未對普通道路的間斷交通流數據進行模型應用驗證,在后期研究中予以考慮.另外,本研究采集的數據為斷面交通流數據,因此在空間相關序列選擇時未考慮同一斷面相鄰車道情況,后續研究可補充該數據以進行模型的驗證.

猜你喜歡
檢測器向量精度
向量的分解
熱連軋機組粗軋機精度控制
聚焦“向量與三角”創新題
超高精度計時器——原子鐘
分析誤差提精度
基于二次否定剪切選擇的入侵檢測方法*
基于DSPIC33F微處理器的采集精度的提高
車道微波車輛檢測器的應用
一種柱狀金屬物質量檢測器的研究
向量垂直在解析幾何中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合