?

基于CNN-LSTM網絡的道路交通事故嚴重程度致因分析

2024-03-04 13:35程世達王銘鑫王健宇
交通工程 2024年2期
關鍵詞:因變量交通事故程度

程世達, 王銘鑫, 張 蕊, 王健宇, 郄 堃

(1.北京建筑大學 土木與交通工程學院, 北京 100044;2.倫敦大學學院 土木,環境與地理工程學院, 倫敦 WC1E6BT)

0 引言

世界衛生組織發布的《2018年全球道路安全現狀報告》顯示,因道路交通事故,全世界每年死亡約130萬人,受傷2 000~5 000萬人. 道路交通事故是造成人口非正常死亡的一大原因[1]. 而在我國的道路交通中,事故量多發,死亡率高. 隨著交通強國戰略的施行,降低道路交通事故的嚴重性是極其重要的[2].

降低道路交通事故的嚴重性可從事故的嚴重程度致因進行分析[3]. 針對事故數據對道路交通事故的嚴重程度進行致因分析是制定交通安全對策的基礎,可高效識別出不同地區發生的交通事故的關鍵因素[4-5]. 這些關鍵因素有利于讓交通管理部門針對不同影響的因素制定相應的解決對策,從而減少因交通事故引發的生命財產損失[6]. 目前的研究中,王希琳等[7-8]使用了多項Logit模型進行事故影響因素層級的排序,這種基于回歸的事故分析方法能較為精準的擬合數據間的相關性. 在數據挖掘方面,孫鐵軒[9]利用交通事故的大數據普遍分析事故的影響致因,有助于精準定為事故的易發生因素以及快速鎖定影響事故嚴重程度的主要因素,但是這種方法需要較大的數據量進行支撐,因此在面對較少的事故數據時適用性較差. 對于大量的交通事故數據,傳統回歸的方法沒有考慮到交通事故數據的時間相關性,而在熊曉夏等[10]研究中,利用時間序列的預測方法能較為精準地利用時間相關性分析事故的主要致因. 根據這些原因,在本文的研究中,引入時間序列的方法對事故數據分析進行建模. 另外考慮到事故還存在著空間分布,因此同樣對數據的空間關聯性進行考慮. 對此選用LSTM模型和2D CNN模型進行其特征提取,集合2種模型的優勢構建出1種考慮時空相關性的CNN-LSTM時空卷積模型,利用該模型分析事故嚴重程度與其影響因素之間的關聯性,分析事故的主要致因,以提出有針對性的意見,促進事故的管理以及道路安全性的提升.

綜上所述,本文的主要貢獻如下:①針對道路交通事故數據的時空特征,構建了1種基于CNN-LSTM時空卷積模型的關聯性分析方法,通過對事故影響因素進行關聯性分析,尋找事故的主要致因;②根據CNN-LSTM模型分析出的事故主要致因,有針對性的提出提升交通安全,降低事故發生率的管理建議,促進道路交通安全水平的提升.

1 數據描述

1.1 數據選取

本文基于美國的公開交通事故數據進行分析,數據集代號“US-Accidents”. “US-Accidents”覆蓋美國49個州的車禍數據. 在此基礎上選擇加利福尼亞州洛杉磯市進行深入研究. 洛杉磯市位于美國加利福尼亞州西南部,是美國第2大城市,并且是美國最擁堵的城市之一,在專注于交通領域的數據分析公司 INRIX2022年公布的“世界擁堵城市榜單”中排名美國第6,全年平均擁堵程度達到了41%,尤其在早晚高峰時段和工作日,道路上的交通擁堵情況非常普遍,早高峰擁堵率達到了64%,晚高峰達到了80%. 主要高速公路和主干道經常會出現擁堵,導致車輛行駛速度緩慢,交通延誤.

本文所選研究城市為美國加利福尼亞州洛杉磯市,選取2021年洛杉磯市中心區域的道路交通事故進行研究.

首先將道路交通事故的特性進行梳理,在后續研究中對比其對交通事故發生率和嚴重程度的影響情況,選取主要影響因素進行相關性分析和提出針對性措施. 并且選取分析區域,進行道路交通事故數據的補齊并進行數據結構化及預處理.

最后基于對數據分析和預處理,選定了包括事故發生季節、能見度、體感溫度等因素作為自變量,選定了交通事故持續時間作為因變量.

1.2 交通事故影響因素概分析

以“US Accidents (2016—2021)”數據庫中道路交通事故屬性為依據進行交通事故影響因素劃分,可分為時間因素、環境因素、位置因素.

1.2.1 時間因素

時間因素是指道路交通事故的發生時間,根據全年劃分為季節,根據1 d內時間劃分為白天和黑夜以及是否處于高峰小時. 不同時間因素會對事故產生一定影響.

季節會影響到晝夜長短、溫度、濕度和出行習慣. 節假日與非節假日的區別會影響道路交通狀況. 高峰小時期間,道路擁堵可能會增加. 白天黑夜會影響道路上的光線條件,也可能對駕駛員的注意力和反應速度產生影響.

1.2.2 空間因素

空間因素是指道路交通事故發生的位置,包括在路網中的位置和在道路橫斷面上的位置,同時也考慮了周邊設施的情況.

在路網中的位置包括事故發生位置是否在公路上、交叉口附近、軌道交通附近,這些因素會對事故的性質和發生機理產生影響. 另一方面,事故發生地點在道路中的位置也很重要,比如事故發生的車道位置、路側等. 該位置可提供關于事故類型和影響因素的重要信息. 此外,發生地周邊的設施情況也需要考慮,如是否在交通標識附近、是否位于交通信號燈附近等,這些信息也會對事故發生時的駕駛員行為產生一定程度的影響.

1.2.3 環境因素

環境因素是指道路交通事故發生時的自然環境,包括氣溫、濕度、風力、能見度、體感溫度、氣壓以及天氣等外部環境. 這些因素對事故發生具有著較大的影響,特別是在極端天氣環境下,如霧雨雪天氣.

不良或極端天氣可能導致路面濕滑,甚至結冰. 路面潮濕時,由于天氣條件導致的路面摩擦系數降低. 另一方面,不良或極端天氣還會影響能見度,使駕駛員視線受阻,導致交通事故的發生概率增大.

因此,時間、空間、環境因素均對交通事故具有重要的影響. 了解事故發生地的時間、空間、環境等特征因素,有助于分析事故的致因及特點,進而采取相應的交通安全措施,提出相應的管理建議,以減少事故的發生和減輕事故造成的后果.

2 數據預處理

從“US-Accidents”數據庫中直接得到的2021年洛杉磯市道路交通事故數據中包含有32 768條事故記錄,每條事故都含有47條事故屬性,經過分析,發現數據集中存在數據異常值、自變量無效等問題,針對這些問題進行事故預處理工作.

2.1 異常數據與無效數據剔除

經過初步分析,數據集中存在著異常數據,包括時間過長“本研究規定超過24 h”或為負值,體感溫度極高或是極低等異常數據,我們通過針對各項事故的屬性進行異常檢查,剔除異事故數據179條.

另外,因為總數據集包含了美國大部分州和城市,本研究僅針對洛杉磯市,故國家、城市、時區等自變量唯一,將此種自變量進行剔除. 經過剔除,原數據中的32 768條事故數據剩余31 742條,現有數據量滿足本研究項目.

2.2 變量轉換與優化

在進行特性相關性分析時,需要對自變量進行適當的優化. 其中部分屬性已經以虛擬變量的形式表示,例如白天黑夜等屬性,而對于一些連續的變量,如風速或是能見度,需要將其轉化為分類變量. 根據以往的研究經驗,體感溫度對于交通事故也是會呈現一定的影響,因此可通過使用大氣壓、濕度、氣溫和風速等屬性來計算體感溫度,見式(1). 并將計算的體感溫度作為CNN-LSTM模型的自變量. 而原始數據中的大氣壓、濕度、氣溫和風速等特性在分析中選擇舍棄.

AT=1.07T+0.2e-0.65V-2.7

(1)

式中,AT為體感溫度(℃);T為氣溫(℃);e為水汽壓(hPa);V為風速(m/s);RH為相對濕度(%).

通過這樣的轉化和選擇,可使得自變量更加符合CNN-LSTM模型的要求,并能更好地捕捉到體感溫度對交通事故的影響. 這樣的分析方法可提供更準確和有用的分析結果,提升后續特性分析與提取的精度.

2.3 變量選取

將事故持續時間定義為因變量Y,將事故嚴重程度的影響因素定義為自變量Xk,影響因素Xk共包含 13項,如表3所示.

2.3.1 因變量選取

本文選取事故的持續時間作為衡量事故嚴重程度的因變量,而不是采用事故中已經劃分的四級事故標準為因變量,由于利用原本的四級事故標準,99.8%的事故為一般事故(具體的劃分結果如表 1所示),使得因變量設為原本的四級事故標準很難分析出有效的結論.

表1 原始數據因變量取值定義

選取事故持續時間作為衡量事故持續時間作為衡量事故嚴重程度,事故持續時間具體指的是事故從開始時到事故現場處理結束并恢復正常通行所消耗的時間,因變量有其優點:以此作為因變量,既可反映事故本身的嚴重程度,同時在另一方面也可反映事故對整體交通的影響程度,以此我們對數據進行3分類,如表3所示,其分布結果顯示數據量分布均勻.

表2 本研究因變量取值定義及分布情況

在表2的結果中可看到,根據事故的持續時間把事故分成3個等級,而事故數量的分配呈現出一定的平均分布,不同嚴重程度的事故數量差異最大不超過15%.

2.3.2 自變量選取

交通事故持續時間影響因素不同取值定義如表3所示.

表3 事故嚴重程度影響因素不同取值定義

3 CNN-LSTM模型構建

CNN-LSTM模型結合了CNN在空間特征提取方面的優勢和LSTM在時間序列建模方面的優勢,能有效地捕捉數據序列中的空間和時間相關性. 這使得它在處理時空數據時具有以下優點:①多尺度特征學習:該模型結合了CNN和LSTM的優勢,能在不同時間尺度上學習特征. CNN層可學習局部和全局的空間特征,而LSTM層可學習時間序列中的短期和長期依賴關系. 這種多尺度特征學習可更全面地捕捉數據中的有用模式和結構; ②參數共享和減少過擬合:該模型中的卷積層具有參數共享的特性,這意味著同一卷積核可在整個輸入空間上共享. 這種參數共享可減少模型的參數量,降低過擬合的風險,提高模型的泛化能力. 因此我們構建的CNN-LSTM模型在特征及圖上的較大優勢,能較好的捕捉數據之間的相關性.

為了充分捕捉道路的時空拓撲關系,并考慮城市道路平均車速的時空相關性,本文使用CNN-LSTM模型進行預測. 在城市路網中加入構建空間特征,并且根據模型訓練過程能判斷數據間的相關性. 確定2類輸入特征:①路網中發生事故時,事故的空間分布位置以及事故的發生時間;②因變量:事故嚴重程度的評價指標數據;③自變量:影響事故的多項特征. 通過選擇適當的批量大小,將這3種輸入特征輸入到CNN網絡中. 經過卷積層、池化層和Relu激活函數的處理后,得到3個(batch size·s)特征矩陣a、b、c. 將這3個特征矩陣整合展平為1個(3·batch size·s)的矩陣,并輸入到LSTM網絡中. 接下來經過3個全連接層,輸出整個路網中事故特性分析結果RMSE、MAE、R-squared、EVS、MAPE等指標,為了判斷在自變量與因變量之間的影響程度強弱,選擇了RMSE與R-squared來表示. 然后輸出預測值與實際值進行比較,驗證模型的精準度,證明特性強弱的準確性. 通過這樣1個疊加的CNN-LSTM網絡模型,充分考慮了數據的時空相關性,提升了模型的精準度. 為了更直觀的表達模型的結構,Algorithm 1簡單表述了代碼的架構:

Algorithm 1: CNN-LSTM Algorithm

Input:X:輸入數據集,形狀為 [batch_size, num_channels, height, width]y:測試集,形狀為 [batch_size, num_classes]

Output:predictions: 預測結果,形狀為 [batch_size, num_classes]

1: model = Sequential()

2: for each layer_params in layer_parameters:

3: layer_type = layer_params[0]

4: layer_args = layer_params[1]

5: layer_kwargs = layer_params[2]

6: if layer_type == ‘Conv2D’ the

7: layer= Conv2D(layer_args[0], layer_args[1], activation=layer_args[2], input_shape=(num_channels, height, width))

8: else if r_type == ‘MaxPooling2D’:

9: layer = Flatten()

10: else if layer_type == ‘LSTM’ then

11: layer=LSTM(layer_args[0], activation=layer_args[1])

12: else if layer_type == ‘Dense’ then

13: layer=Dense(layer_args[0], activation=layer_args[1])

14: end if

15: model.add(layer)

16: model.compile(optimizer=optimizer, loss=loss_func, metrics=metrics)

17: predictions = model.predict(X)

4 實驗結果分析與討論

4.1 實驗結果分析

在結果驗證中,根據所建立的CNN-LSTM模型去對數據進行驗證. 首先選取了季節、工作日、高峰小時等多項因素進行實驗,分析這些特性對事故嚴重程度的影響程度,利用如下指標進行評價.

表4 特性分析指標評價標準

根據這2項評價指標,多項影響因素相關性結果如圖1、2所示.

圖1 事故嚴重程度與13項影響因素相關性的RMSE

圖2 事故嚴重程度與13項影響因素相關性的R-squared

4.2 實證分析

本文中所用的CNN-LSTM模型是1種在原有CNN與LSTM模型上進行融合與改進的模型,因此本文中模型的精度還需要進一步驗證. 在本章節中,引入了XGBoost這模型進行對比驗證,將從XGBoost模型的結果中區對比本文CNN-LSTM模型的實驗結果,進行模型精度的驗證.

XGBoost是1種強大的集成學習算法,用于解決回歸和分類問題. 它是基于梯度提升樹的改進版本,具有高效性和準確性. XGBoost可通過特征的重要性排名來幫助識別最重要的特征. 通過訓練XGBoost模型并檢查特征的重要性分數,可獲得哪些特征對目標變量具有更大的影響力. 這有助于縮小特征空間,減少冗余和不相關的特征,提高模型的效率和準確性.

在本章節的實驗中,通過XGBoost模型來進行特征相關強弱的排序,具體實驗結果如圖3所示.

圖3 XGBoost實驗結果

圖3利用XGBoost模型的實驗結果,從中可看到,在事故影響因素強弱的重要性排序上,與本文所使用的CNN-LSTM模型具有較高的相似性,在能見度、高峰小時、工作日節假日、停車標線附近、白天黑夜、車站附近這六項最重要的影響因素中,呈現出相同的結果. 在其他影響程度較小的7項因素中,也產生了較高的相似性. 因此本文所使用的CNN-LSTM模型的精度可達到實際分析的需求.

4.3 結果討論

根據模型的實驗結果,可知能見度、高峰小時、工作日節假日和停車標志附近是事故發生時,其嚴重程度的主要致因,對此結果,為了提升城市道路中的安全性,降低事故嚴重程度,提出如下建議:

1)能見度較差,行車的視距會產生明顯的縮短,駕駛員無法明確了解實時路況,如果駕駛員不能正確判斷道路實時狀況,會導致交通事故的發生率增加,交通事故的影響程度加劇. 類似的結論發現在Cai Z等[11-12]普遍認為道路的能見度與事故的發生概率與嚴重程度有較高的相關性,這更加印證了本文的觀點. 因而,考慮到能見度主要影響行車的視距,可設置更加清晰的路面標線和交通標志,以及增強道路的照明設施,以提升能見度,從根源上降低嚴重事故發生的可能性.

2)高峰小時會對路段的交通流量產生較大的影響,交通流量增加時,交通擁堵和車輛密度增加意味著車輛之間的安全距離減少,駕駛員的注意力和反應時間受到影響,增加了相互之間的碰撞和事故的可能性. Liu J等[13]表明類似的觀點,他們認為對交通流量與速度實施管理控制會對路段的安全性有所改善. 因而考慮到高峰小時所影響的主要因素是交通流量,通過合理的交通流量管理措施,如交通信號燈優化、車道限制、交通導向等,以平衡高峰小時的交通流量,減少交通擁堵和事故風險.

3)工作日與節假日也會對交通流量產生一定的影響,另一方面也會對駕駛人員的行為產生一定的影響. 在工作日駕駛員可能會因為通勤時間緊張,出現超速、不遵守交通規則和駕駛疲勞等不良駕駛行為. 這些行為增加了事故的發生概率. 同樣的觀點在Chatterjee K等[13]研究中出現過,他們認為通勤時間緊張、駕駛者壓力大以及其他因素可能導致超速、不遵守交通規則和駕駛疲勞等不良駕駛行為,從而增加事故的發生概率. 因此為了提升交通安全,可改善道路和交通基礎設施,提升道路的彈性承載能力,包括增加交通信號燈、改善交叉口和道路標線等,以提高道路的安全性和流暢性,減少駕駛員的通勤壓力.

4)在停車標志附近,駕駛員會因為停車標線的干擾而產生注意力分散等行為,另一方面還會因為停車意圖產生不適當的速度變化,這些都是對交通安全產生威脅的成因. Skinner N P等[15]研究中同樣表明了這個觀點,對此可加強交通標志的可見性、提供額外的警示標志以及對停車設施周邊的道路進行重新規劃,改善停車路徑的合理性,以此來提升交通安全.

5 結論

本文針對“US Accidents”公開數據集中的美國洛杉磯市進行了事故的主要致因分析,利用CNN-LSTM模型進行了交通事故的主要致因分析,發現能見度、高峰小時、工作日節假日和停車標志附近是影響事故嚴重程度的主要致因,并對此提出管理建議,改善交通安全.

值得一提的是,洛杉磯市是個人口密集的地區,存在交通流量大以及駕駛行為多樣的問題. 為了提升交通安全,可在道路容量和交叉口信號配時以及利用交通監控技術強化執法和交通規則的違規執行上進行管理,從而在根本上提升交通安全.

在本文的研究中,選用的CNN-LSTM模型進行事故的主要致因分析,但是該模型存在著數據的長期依賴以及特征的提取限制等問題. 在后續的研究中可利用GCN等模型結合自注意力機制,對事故嚴重程度的影響因素進行全局性關聯性判斷,提升對主要事故致因的定位的精準性.

猜你喜歡
因變量交通事故程度
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
精致和嚴謹程度讓人驚嘆 Sonus Faber(意大利勢霸)PALLADIO(帕拉迪奧)PW-562/PC-562
男女身高受歡迎程度表
不同尋常的交通事故
預防交通事故
適應性回歸分析(Ⅳ)
——與非適應性回歸分析的比較
偏最小二乘回歸方法
一起高速交通事故院前急救工作實踐與探討
斷裂對油氣富集程度的控制作用
回歸分析中應正確使用r、R、R23種符號
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合