?

EM方法對缺失數據的處理及對MNL模型的影響

2017-06-01 11:29李綱周海軍郭姝娟左忠義
大連交通大學學報 2017年3期
關鍵詞:原始數據偏差交通

李綱, 周海軍, 郭姝娟,左忠義

(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*

EM方法對缺失數據的處理及對MNL模型的影響

李綱1,2, 周海軍1, 郭姝娟2,左忠義1

(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*

以印度尼西亞首都雅加達都市圈居民個人出行調查數據為例,研究EM數據修補方法對數據以及MNL模型的影響.首先,以原始數據為基礎,通過人為刪除和EM修補分別獲得缺失數據和修補數據.其次,通過Z檢驗,驗證EM修補后的數據更貼近原始數據特征.最后,以三組數據分別建立三組MNL模型,通過Z檢驗等對比分析,表明EM數據修補方法能很好地修正數據缺失對構建模型造成的偏差,為交通政策的制定提供良好的數據基礎.

數據修補方法;期望最大化(EM)算法;MNL模型;交通方式劃分;雅加達都市圈

0 引言

居民個人出行數據是城市交通規劃、設計、控制和研究工作的重要基礎,但由于調查中的各種原因,獲得的個人出行數據通常是不完整的,這可能會給數據分析和研究結果帶來不利的影響,所以利用數據修補方法對其進行矯正變得非常重要.韓衛國[1]等人敘述了數據的缺失方式和常用的修補方法,根據交通流量數據時間上的周期性和空間上的相關性,采用平均值方法、最大期望法和數據增量法等確定性和隨機性方法修補缺失數據,分析了這些方法的優缺點,并對修補結果進行比較.鄒曉芳[2]對交通流的故障數據進行有效識別及分析的基礎上,利用自適應權重的兩階段故障數據修復組合模型,研究對故障數據進行修復的方法.Henrickson等[3]基于鏈式方程的多重插補對美國華盛頓州際公路車檢器缺失數據進行處理,結果表明該方法對隨機缺失、日缺失和月缺失數據的修補效果均優于傳統線性回歸法.目前對缺失數據修補方法的研究主要針對交通流檢測缺失數據展開[4],但針對居民出行數據的修補仍極為有限.

1 數據修補理論

1.1 數據缺失原因

調查中數據缺失產生的原因主要由兩個方面,其一是調查中由于各種因素形成的無回答,另外是在調查中得到不可使用的信息[5].

1.2 數據缺失機制

數據缺失機制描述的是獲取到的數據集中變量值和缺失數據之間的關系,是將缺失數據視為一個隨機變量并且有指定分布.其主要分為隨機缺失,完全隨機缺失和非隨機缺失三種形式.本文假定數據為隨機缺失[6].

1.3 數據缺失模式

數據缺失模式研究的主要內容是缺失數據 R 的分布.主要有單變量缺失、多變量缺失、單調缺失、任意缺失、文件匹配和因素分析六種模式[6].

1.4 EM修補方法

在統計上對數據缺失值的處理方法有三種:刪除法,填補法和不處理.刪除法對于缺失數據占較大比例時會導致錯誤的結論[7];而不處理的方法對一個沒有任何認知的總體情況下是不實用的,于是如何填補缺失的數據成為大量研究的對象.

EM(expectation maximization)數據修補方法是以觀測數據為基礎,利用缺失數據與未缺失數據的內在聯系等輔助信息以及缺失值的性質,給數據集中的缺失值提供一種預測分布的方法[8].一般分為E步和M步兩個步驟:

p(θ/Y) 表示參數θ基于觀測數據的觀測后驗分布;p(θ/Y,Z)表示添加數據Z后的關于θ的添加后驗分布;p(Z/θ,Y)表示在參數θ和觀測數據Y一定時,數據Z的條件分布.

假設θ(t)是經過t次迭代之后第(t+1)步開始時后驗分布參數θ的估計值,則第(t+1)次的迭代為

E步:對p(θ/Y,Z)或者logp(θ/Y,Z) 關于Z的條件分布求期望值,目的是把Z積分掉:

(1)

M步:將E步中積分得到的Q(θ/θ(t),Y) 極大化,即求最大值,也即尋找一個值θ(t+1),使得:

(2)

經過以上的E步和M步就會形成一次迭代θ(t)→θ(t+1),θ(t+1)∈M(θ(t)),M(θ(t))是在整個參數空間內使得Q(θ/θ(t) ,Y)取得最大值的θ的每次迭代值所組成的集合.將E步和M步一直循環,直至│θ(t-1)-θ(t)│或者│Q(θ((t+1)/θ(t),Y)-Q(θ(t)/θ(t),Y)│充分小而停止循環[9].相對于多重修補法,EM修補在實際中更加容易操作[10].

2 個人出行數據修補

本次研究選擇由JICA提供的印度尼西亞首都雅加達都市圈的居民個人出行調查數據作為研究基礎數據,對其先分別隨機刪除實際中容易出現缺失值的4個變量,形成缺失數據,再運用EM方法修補得到修補數據,最后對三組數據進行對比分析.

2.1 完整數據

原始數據包括出行者特征和出行特征共37個變量,21 157條數據.

2.2 缺失數據

利用SPSS隨機生成功能產生含有缺失值的數據集,即對原始數據中的年齡、性別、私家車的出行費用和出行時間分別隨機選擇10%,將其刪除,形成缺失數據集.缺失數據集的樣本數為13 943個,缺失率為34.1%.

2.3 修補數據

根據缺失數據的特性將其分為兩部分分別進行修補,對出行者特性中的缺失數據,即家庭收入和出行者年齡,運用家庭類別、家庭成員數、每月支出、交通費用占支出比、職業、性別、個人收入變量進行修補.對出行特性中的缺失數據,即小汽車的出行時間和費用,利用過路費和停車費以及各種交通方式的出行費用和時間進行修補.

2.4 修補前后數據對比分析

將完整數據、缺失數據和修補數據進行比較,如表1所示:

表1 修補前后數據對比分析

從期望值可以看出修補數據要比缺失數據更貼近原始數據,標準差也是如此,說明修補數據離散度等統計特性比缺失數據更接近原始數據.

為更為準確的驗證數據修補前后的整體差異,本文采用獨立大樣本情況下的兩個總體均值之差的檢驗方法,即Z檢驗法對數據整體特征進行檢驗.

假設他們兩兩之間期望值無顯著差異, 當兩個方差未知,分別用樣本方差替代,此時的檢驗統計量為:

(3)

表2 修補前后均值Z檢驗

完整數據和缺失數據在變量小汽車出行費用上Z值顯著(Z>1.96),說明缺失對數據估計帶來的明顯偏差.缺失數據和修補數據在出行費用上差異同樣顯著,但完整數據和修補數據均無顯著差異,這說明EM修補數據對缺失數據有很好地矯正作用,相比直接刪除缺失數據,能更好地反映總體特征.

3 EM修補方法對MNL模型的影響

本次研究采用出行方式劃分中的非集計多項Logit模型(MNL)為研究對象.MNL模型采用隨機效用理論,即假設每個出行者都會選擇效用最高的選擇肢,其效用函數由兩部分組成:

(4)

Unj為個人n關于選擇枝j的效用;Vnj為能夠觀測到的因素構成的效用確定項;εnj為不能觀測到的因素構成的效用隨機項.假設每一個隨機εnj項彼此獨立且服從Gumbel分布,則第i個選擇肢被選中的概率為:

(5)

Xik為交通方式i的第k個說明要素(所需時間、費用等);ak為待定參數;j為交通方式個數;Ui為交通方式i的效用函數;Pi為分擔率[11].

3.1 MNL模型的對比分析

以原始完整數據、缺失數據和修補數據為基礎,分別建立三個MNL模型,進行參數標定,結果如表3所示.

表3 三組數據模型參數對比

三個模型整體上標定效果都很好,且整體特征大體一致.以摩托車為參照,對于公交車、小汽車和出租車,這三種交通方式的常數項均99%顯著.相對于摩托車,年齡越小的人越喜歡乘坐公交車,而年齡大的人更喜歡乘坐小汽車.家庭收入可以顯示出收入高的人群更愿意乘坐小汽車和出租車,其次是摩托車,最后是公交車.

與缺失數據模型相比,部分修補數據模型參數的期望值更接近原始數據模型.從標準差看,完整模型到缺失模型變量參數離散程度變大了,缺失數據修補后,變量參數離散程度明顯更接近原始數據,反映出EM方法對模型較好的修補性.

3.2 修補前后MNL模型參數差異性檢驗

從統計意義上對其兩兩分別進行模型參數估計值的差異的顯著性檢驗,即Z檢驗,如表4所示.

以完整數據建立的模型和缺失數據建立的模型參數差異皆顯著,說明數據缺失對模型標定已產生顯著性地影響,產生了不可忽視的偏差.修補數據模型和缺失數據模型在各個變量上的參數都具有顯著性差異,說明數據修補對構建MNL模型產生了積極的影響.修補模型與完整模型也存在差異,這可能是因為EM修補法作為單一修補方式未考慮修補方法本身帶來的誤差.修補數據和原始數據的參數估計差異與缺失數據和原始數據的參數估計差異大部分方向相反,說明EM修補有效地修正了缺失數據對模型估計值產生的偏差,修補趨勢是趨于接近原始數據模型的,修補后的參數估計的標準差也證明了這一點.未來研究中,可以采用多重修補方法考慮數據修補所帶來的偏差.

4 結論

經過對原始數據、缺失數據和修補數據的總體特征及以其分別建立的三個MNL模型參數的對比分析可知,在數據特征方面,EM修補方法對缺失數據所引起的偏差有較好的修正作用,可以在一定程度上還原原始數據的特征.比如在本文分析中,由于小汽車出行費用值的部分缺失,導致了整體出行費用均值顯著偏低,EM修補方法很好地對其進行修正.數據缺失對數據的整體特征的估計產生顯著性的影響,EM修補方法對其有明顯的修正作用.

在模型構建方面,以缺失數據和修補數據所建的MNL模型的參數均與完整數據所建立的MNL模型參數有顯著性的差異,但從參數差異顯著性檢驗統計量Z值來看,修補數據和原始數據的差異與缺失數據和原始數據的差異方向相反,說明EM修補出有效地修正了缺失數據對模型估計值產生的偏差,修補趨勢是趨于貼近原始數據模型的,由此可知,數據缺失對MNL模型的參數估計產生顯著地偏差,而EM修補可以有效地緩解這一偏差.

無論從實踐還是原理方面,相對于簡單地刪除缺失數據的處理方法,EM修補方法可以挽救大量有價值的信息,為交通政策的制定提供良好的數據基礎.

[1]韓衛國,王勁峰,胡建軍.交通流量數據缺失值的插補方法[J].交通信息與安全,2005(1):39- 42.

[2]鄒曉芳.城市快速路交通流故障數據修復方法研究[D].北京:北京交通大學,2014.

[3]HENRICKSONK,ZOUY,WANGY.FlexibleandRobustMethodforMissingLoopDetectorDataImputation[J].JournaloftheTransportationResearchRecord,2015(2527):29- 36.

[4]錢超,陳建勛,羅彥斌,等.基于隨機森林的公路隧道運營缺失數據插補方法[J].交通運輸系統工程與信息,2016(3):81- 87.

[5]馮麗紅.調查數據缺失值常用修補方法比較的實證分析[D].石家莊:河北經貿大學,2014.

[6]LITTLE,RUBIN.StatisticalAnalysiswithMissingData[M].NewYork:JohnWiley&Sons,Inc.,2002.

[7]KALTONGRAHAM.CompensatingforMissingSurveyData[M].AnnArbor:SurveyResearchCenter,1983.

[8]LIYB,LIZH,LIL.Missingtrafficdata:comparisonofimputationmethods[J].IETIntell.Transp.Syst.,2014(8)1:51- 57.

[9]龐新生.缺失數據插補處理方法的比較研究[J].統計與決策,2012(24):18- 22.

[10]李昌利,沈玉利.期望最大算法及其應用[J].計算機工程與應用,2008(29):61- 64.

[11]DUSˇANTEODOROVICANDMILANJANIC.TransportationEngineering-Theory,Practice,andModeling[M].London:Butterworth-Heinemann,2016.

EM Imputation to Missing Data and Its Effect on the MNL Model

LI Gang1,2,ZHOU Haijun1,GUO Shujuan2,ZUO Zhongyi1

(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)

This paper explores the influences of EM imputation on data and MNL models based on personal trip data collected in Jabodetabek metropolitan area, Indonesia. First, missing dataset and imputed dataset are obtained by manually deleting the cases of complete original data and EM imputation, respectively. Secondly, dataset by EM imputation is verified to be more close to the original dataset by statisticsZtest.Finally,theanalysissuchasZtestisconductedtocomparethreeMNLmodelsbuiltonoriginaldataset,missingdatasetandimputeddataset.TheresultrevealsthatEMimputationcaneffectivelycorrectthebiascausedbymissingdatainmodelingbuilding,whichcouldofferagooddatabaseforpolicymaking.

data imputation;expectation maximization (EM) algorithm;multinomial logit model;modal split;Jabodetabek metropolitan area

1673- 9590(2017)03- 0007- 05

2016- 10- 18

中央高?;究蒲袠I務費專項資金資助項目(3132016213)

李綱(1982-),男,高級工程師,博士,主要從事交通規劃和出行行為方面的研究E-mail:LIGangPE2012@hotmail.com.

A

猜你喜歡
原始數據偏差交通
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定變化趨勢限制的傳感器數據處理方法研究
繁忙的交通
如何走出文章立意偏差的誤區
兩矩形上的全偏差
小小交通勸導員
全新Mentor DRS360 平臺借助集中式原始數據融合及直接實時傳感技術實現5 級自動駕駛
關于均數與偏差
世界經濟趨勢
自適應兩級UKF算法及其在時變偏差估計中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合