?

基于互信息貝葉斯網絡的交通事故嚴重程度分析*

2022-01-08 04:57呂通通陸林軍張延猛
交通信息與安全 2021年6期
關鍵詞:財產損失省際互信息

呂通通 張 湛 陸林軍 張延猛

(上海交通大學船舶海洋與建筑工程學院 上海 200240)

0 引 言

省際客運行業因其運載量大、靈活機動等特點,存在多種事故風險。隨著交通運量不斷拉升,行業安全問題愈發凸顯。以上海市省際客運事故數據為例,從2014—2019年,事故數量總體呈遞增趨勢,增量達到80%。因此,有必要對事故嚴重程度進行分析,探究事故規律,以合理制定對策降低事故風險。

近年來,國內外學者從多個方面對道路交通事故進行了研究。宗芳等[1]利用結構方程模型結合貝葉斯網絡對常規公交失火事故成因進行了組合評估。Zhang Yingyu等[2]利用因果分類框架與促成因素交互模型相結合的方法宏觀分析了全國28省道路交通行業事故成因。Sam等[3]利用廣義有序Logit模型分析加納地區公共汽車事故成因。Miyama等[4]采集了日本301名公交司機的調查問卷,并利用多元回歸模型進行分析,探究疲勞駕駛對客運事故的影響。陳昭明等[5]利用混合Logit模型分析事故嚴重程度與道路、環境、駕駛員等因素間的關系。Jiang Chenming等[6]使用偏態logistic分析人-車碰撞事故致因。Wang Xuesong等[7]利用隨機效應兩水平Logit模型分析了上海某公交公司725名駕駛員問卷,尋找事故主要原因。對于省際客運行業,研究多從單車車輛結構[8-9]及制動性能[10]對行車事故影響進行分析。此外,還有研究從運營管理[11]角度對安全風險及決策進行探究。針對省際客運事故綜合成因分析的研究較少。Besharati等[12]用Logit模型對伊朗省際客運司機問卷調查結果進行分析,從人、車、環境層面分析了撞車事故成因。

上述研究多使用回歸模型分析方法,其本身難以篩選特征因素,且在處理非線性問題上表現不佳。此外,這些研究多通過問卷調查方式獲取數據,存在較大主觀性,且忽視了對既有數據的挖掘?;诖?,本文選用貝葉斯網絡分析方法處理非線性問題,引入1種有監督的離散算法優化樣本數據分類,提出互信息與交叉驗證相結合的方法進行因素相關性排序,并構造數個先驗網絡分別進行結構學習,通過比選得到最優模型,從人、車、路、環境方面對事故嚴重程度影響進行綜合分析。以期從方法層面彌補行業安全評估樣本量小及主觀偏差影響,從應用層面有針對性的為行業管理部門提供決策依據,進而降低行業事故率。

1 建模方法

1.1 CACC數據離散方法

由于省際客運行業事故數據相對其他行業較少[7],且存在樣本分布不均勻的問題。為了充分利用有限數據,本文引入Tsai ChengJung等[13]提出的1種基于類屬性相依系數(class-attribute contingency coefficient,CACC)的離散算法。該算法是1種靜態、全局、自上而下的有監督離散算法,能夠有效進行數據離散并保留更多知識。

式中:M為樣本總量;n為區間數;qir為在區間[dr-1,dr]中的第i類的樣本量(i=1,2,…,S;r=1,2,…,n);Mi+為第i類樣本的總量;M+r為區間[dr-1,dr]內的樣本總量。算法利用式(1)~(2)作為評分函數來衡量變量之間依賴程度。CACC算法較目前流行的CAIM、CDD算法可以充分考慮所有樣本分布,避免發生過擬合[13]。執行流程如下。

步驟1。給定1個樣本量為M,具有l個待離散變量及S個目標類的數據集。文中M=741,l=7,S=3(“死亡事故”“受傷事故”“財產損失事故”)。

步驟2。對于每1個待離散變量Xl,找到其中的最大值和最小值作為初始化區間邊界。

步驟3。將初始區間中的值按升序排列,計算所有相鄰值的中點。

步驟4。對變量進行迭代劃分,并利用式(1)生成每一次迭代的cacc值,若該值不再提高,輸出最優區間劃分結果。

1.2 先驗網絡構建

為提高貝葉斯網絡學習效率,避免形成局部最優解,一般需構造部分先驗網絡以縮小搜索空間。對交通事故建模一般使用專家知識,也有結合專家知識與機器學習的混合方法。研究希望盡可能排除主觀誤差,擬采用機器學習方法建模。近年因果推斷理論逐漸發展,對于構建先驗網絡有較高實用價值,但其只適用于二值變量。而DBe方法雖然適用多值變量,卻需要至少3 000條樣本數據支撐以滿足建模效果[14]?;バ畔⒎椒軌蛴行幚砀呔S小樣本數據,但傳統方法存在估計偏差,且要解決邊定向的問題[15]。結合本研究實際,提出1種先驗網絡構造方法。在進行方法論證后,采用1種改進的互信息(mutual information,MI)方法[16]。該方法以最大k臨近(k-nearest neighbor,KNN)思想近似地估計Shannon信息熵,熵值與相關度成正比,以此找到變量間相關關系。

式中:I(X,Y)為X,Y之間的互信息值;ψ(x)為digamma函數,Γ(x)為伽馬函數,ψ(x)=Γ(x)-1dΓ(x)/dx,它滿足遞歸函數ψ(x+1)=ψ(x)+1x,ψ(1)=-C,C≈0.577 215 6;…為求均值;mx,my分別為水平與垂直方向落入k鄰域的樣本點的數量。方法關鍵在于k值選取,k值越小,一般系統誤差越??;k值越大,可以相應減小統計誤差。下面給出本文先驗網絡構造方法。

步驟1。選取最佳k值。由于方法基于KNN理論構造,本文改用交叉驗證方法,將經過CACC算法處理的數據集分為若干子集,為了控制模型偏差,經過測試選取其中70%作為訓練集,30%作為測試集,計算所有訓練樣本到測試樣本的歐氏距離并建立距離降序矩陣,選定第k個距離確定為k鄰域,利用k鄰域分類所有訓練樣本,再用測試集測試分類準確性,輸出分類準確率最高的k值。

步驟2。形成變量關聯度序列。根據最佳k值,進行互信息計算得到變量間相關關系。從因果邏輯出發對變量劃分因果,提取目標變量的關聯變量按互信息值降序排列,形成關聯度序列。

步驟3。部分邊的定向策略。為避免互信息方法估計偏差[15],在關聯度序列基礎上,設置不同互信息值作為閾值,由因至果連接事故嚴重性相關節點,建立先驗網絡,反復經過模型驗證選取最優網絡。

1.3 基于互信息的貝葉斯網絡模型

貝葉斯網絡是1種有向無環圖,由變量節點和有向邊組成。本文選用基于評分函數的GTT(greedy thick thinning)算法建模,該算法可在給定先驗網絡條件下,執行網絡加邊和網絡減邊2個步驟,不斷迭代直至整體網絡結構評分最高并輸出初始網絡。結合本文先驗網絡構造方法,可以有針對性的應對個體錯誤敏感性[17]。

得到初始網絡后,利用最大期望算法(expectation-maximization algorithm,EM)進行參數學習,得到各因素節點的條件概率。本文模型建立流程見圖1。

圖1 模型建立流程圖Fig.1 Flow of modeling

2 省際客運事故嚴重程度模型構建

2.1 數據來源

數據來源于上海市交通委員會安全生產監督管理平臺數據庫,提取了全市2005—2019年790條省際客運事故數據,每條數據包含18個變量。通過數據清洗剔除缺失、錯誤數據后,剩余有效數據741條。

針對事故嚴重程度進行分析,篩選其中14個相關變量(離散變量12個,連續變量2個)。為便于研究,按照因果邏輯將變量分為影響因素變量(含蓋人員、車輛、道路、環境類別)及事故結果變量(含蓋傷亡及財產損失情況)2類,各變量具體信息見表1。

2.2 構建先驗網絡

2.2.1 數據離散

利用Matlab R2020a軟件根據步驟實現CACC算法,為便于研究,設置最大區間數為5,以“事故類型”為監督變量進行離散。各變量區間劃分見表1。

表1 建模變量區間劃分Tab.1 Variable-interval division of modeling

2.2.2 構造先驗網絡

執行交叉驗證(見圖2),得到最優k=21。

圖2 最佳k值選取Fig.2 Selection of the optimal k value

利用Matlab編程計算各變量間互信息值,得到MI矩陣,見表2。

表2 互信息矩陣Tab.2 Mutual information matrix

提取“事故類型”相關MI值,將對應變量根據變量劃分降序排列(見表3)。將各變量節點按此序列排列,作為先驗網絡初始節點序列。以0.1為間隔,從9.6~10.7設置12個MI值作為閾值,根據給定互信息閾值,將大于閾值的影響因素變量節點逐一向結果變量節點作有向邊構造先驗網絡。再加入全連、全不連先驗網絡作為對照組,進行貝葉斯網絡結構學習。利用“留一法”(leave one out,LOO)交叉驗證對14個模型進行精度測試,留一法被證明較k折交叉驗證更貼合本研究實際[18]。由測試結果(見圖3)可知,當連接閾值為10.5時網絡最優,見圖4。

表3 變量節點序列Tab.3 Variable node sequence

圖3 不同互信息模型測試結果Fig.3 Test results of different mutual information models

圖4 貝葉斯先驗網絡Fig.4 Prior networks of Bayesian

2.3 模型構建

根據選定先驗網絡構造貝葉斯網絡模型,利用GeNIe 3.0軟件實現模型可視化。隨后利用軟件自帶EM算法進行參數學習,得到各變量條件概率分布情況見圖5。

圖5 省際客運事故嚴重程度分析模型Fig.5 Accident severity analysis model of inter-provincial passenger transport

2.4 模型驗證

為衡量數據挖掘效果及模型實用性,利用受試者工作特征曲線(receiver operating characteristic curve,ROC)檢驗模型泛化能力[19],曲線右側面積稱為AUC(the area under the ROC curve),AUC>0.5表示模型可行,面積越大模型泛化能力越好。

對比相同建模方法下本文模型與等寬離散、Hierarchical聚類離散模型,以及相同離散方法下本文模型與純數據、專家知識模型(專家知識由上海市道路運輸行業安全數據需求分析及標準化體系建設試點項目實地調研獲?。┑氖鹿蕠乐爻潭阮A測表現,各模型對比結果見圖6。

圖6 不同模型ROC曲線對比Fig.6 Comparison of ROC curves of different models

算得本文模型的泛化能力及穩定性優于其他模型,AUC面積均值達到0.644 588。同時,交叉驗證結果顯示:103條“死亡事故”命中102條,512條“受傷事故”命中497條,125條“直接財產損失”命中121條,命中率達到97.3%。

3 省際客運事故嚴重程度分析

3.1 事故嚴重性總體致因分析

1)敏感度。敏感度分析可以揭示變量節點的微小變化對于事故嚴重性的擾動程度。以結果變量為目標項進行敏感度分析(見圖7),灰度越高表示該節點越容易對事故造成擾動。對各個結果變量進行敏感度指數計算并取均值,得到:天氣、性別、車輛類型對事故嚴重性的影響最大,敏感度均值分別達到0.184,0.148 6,0.101 2。

圖7 敏感度分析Fig.7 Sensitivity analysis

2)影響權重。進一步討論3個變量中每個狀態對事故嚴重性的影響,根據區間劃分特征,將“事故類型”中的“死亡事故”“受傷事故”“財產損失事故”類表征為3個嚴重程度級別,以“死亡事故”為最嚴重。通過設置3個變量中某類為“證據”(即絕對發生),利用軟件更新目標變量的后驗條件概率,觀察“死亡事故”類及“死亡人數”最嚴重類的條件概率變化情況,取平均值并進行歸一計算,得到某一類在變量中的權重。將影響因素變量的敏感度指數作歸一處理,乘以類權重,得到該類對事故嚴重性的影響權重,見表4。

表4 條件概率分析Tab.4 Conditional probability analysis

觀察結果發現“女性駕駛員”“中型客車”“雪、大風、霧”對事故嚴重程度影響最大,應著重關注。注意到“男性”權重僅占到“女性”的45%,但其權值依然較高;“大型客車”對事故嚴重性影響程度僅次于“中型客車”,“小型客車”相對安全,說明客車尺寸與安全性并非單調關系[3]。

3.2 不同事故嚴重性致因分析

1)后驗概率。進一步分析各類事故嚴重程度關聯因素。針對各

結果變量分別進行后驗概率分析,提取對“死亡人數”“輕傷人數”“重傷人數”及“財產損失”有明顯影響的分析結果見表5~6。

2)分析結果。由表5可知,“女性”駕駛員引起3人以上死亡概率提高12%;駕駛員“年齡”與死亡人數成正比;大、中型客車更易引起死亡事故,“中型客車”造成多人死亡概率同比上升6%?!奥范巍备讓е滤劳霭l生;秋冬季較其他季節更易引發死亡;天氣對死亡人數整體影響較大,天氣惡劣程度與死亡人數呈正相關;凌晨00:00—05:00時引發死亡風險上升5%;“左轉彎、停車、倒車、掉頭”或其他違規駕駛更易導致死亡發生,這可能是由于上述行為會增加與其他車輛或行人的沖突點。

表5 死亡人數后驗概率分析Tab.5 Posterior probability analysis of the number of deaths

由表6可知,對于受傷人數,“女性”駕駛員造成事故引發群體受傷概率最高;“27歲以下”駕駛員反而易引發受傷事故,這可能與年輕駕駛員高應變能力但缺乏經驗、易低估危險性有關[3];與文獻[7]不同,47歲以上駕駛員,其年齡與死亡、財產損失風險呈正比;此外,年齡因素對群死群傷事故貢獻不大;“小型客車”事故易引發人員受傷,且重傷概率上升6%;路口雖然受到交通管制死亡事故風險降低[3],但引發受傷概率較路段平均提高5%;秋冬季節引發受傷風險增加,秋季風險更大,但冬季重傷率降低3%;天氣惡劣程度與受傷風險成正比,且更易引發群傷事故;00:00—05:00時引發群傷事故概率平均上升9%。對于財產損失:“年齡”與財產損失呈正相關,且“27歲以下”駕駛員造成重大財產損失風險下降7%;“中型客車”事故風險更高,但“大型客車”易造成更多財產損失,這可能與車輛自身價值有關;“路口”事故造成重大財產損失的風險明顯低于“路段”;行駛狀態為“變更車道、躲避障礙、駛離路面”對傷亡人數無明顯影響,卻會導致財產損失風險上升。模型學習結果還認為“天氣”“季節”“時間”3個因素與財產損失無直接關聯。

表6 受傷及財產損失后驗概率分析Tab.6 Posterior probability analysis of injury and property loss

綜上,女性及47歲以上駕駛員、中型客車、路段、秋冬季、惡劣天氣、凌晨00:00—05:00時及左轉彎等駕駛行為會增加事故死亡風險;女性駕駛員、惡劣天氣及凌晨00:00—05:00時增加了7人以上受傷風險;女性及大齡駕駛員、大中型客車、路段及行駛狀態為“變更車道、躲避障礙、駛離路面”增加了重大財產損失風險。

4 結束語

1)以省際客運為例,建立了基于互信息貝葉斯網絡的交通事故嚴重程度分析模型。通過CACC算法提高了數據利用率,選擇最優互信息值連接變量節點,適用于小樣本數據建模。通過ROC分析證實了模型泛化能力。

2)從人員、車輛、道路、環境4個方面進行定量分析。結果顯示,“女性”“中型客車”“雪、大風、霧”對整體事故嚴重性有明顯影響。進一步討論了各因素對于不同事故嚴重程度的影響。

隨著數據量增加,模型精度會逐步提高。由于數據庫記錄要素有限,不免存在其他影響因素未被考慮的情況。未來行業安全生產監管大數據會更加完善,在利用專家知識及行業經驗進行安全評價之外,使用數據挖掘結合機器學習方法對事故致因進行定性關聯和定量分析,可有效提升風險防控及隱患排查精細化水平。

猜你喜歡
財產損失省際互信息
基于偏序集的省際碳排放效率評價
論詐騙罪的財產損失類型化研究
——兼論“二維碼偷換案”
省際路網聯動機制的錦囊妙計
東部地區物流業競爭力省際差異比較分析
基于互信息的貝葉斯網絡結構學習
聯合互信息水下目標特征選擇算法
瘋狂的“殺手”
開放與我國居民收人增長*——來自2001~2012年省際面板數據的考察
改進的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合