?

基于RF-PSO 的塔吊事故可能發生階段預測與分析*

2024-03-15 10:31劉冬華趙星趙江平楊震
工業安全與環保 2024年2期
關鍵詞:精確度塔吊事故

劉冬華 趙星 趙江平 楊震

(西安建筑科技大學資源工程學院,陜西西安 710055)

0 引言

隨著城市化的不斷發展,塔式起重機(簡稱塔吊)在高層建筑乃至超高層建筑的施工現場最為常見。塔吊在施工現場經歷不同的階段,包括安裝、使用、攀爬和拆卸,在這些階段的工作內容中,需要人、機、物、管、環境等方面的配合,無論任何環節發生問題,都可能引發事故[1]。因此,預測塔吊事故可能發生的階段對預防塔吊事故發生具有重要意義。

近年來,隨著機器學習的興起,相比于傳統的事故預測方法,機器學習算法在事故預測中表現的更加簡單、快捷,可以處理復雜的非線性關系,且具有更高的預測精度。例如,LIN N[2]基于神經網絡模型,考慮了人為因素、機械設備和環境因素3 個層面以預測高層建筑的塔吊風險。況宇琦[3]基于支持向量機建立了塔吊事故類型預測模型,同時比較了網格搜索法、粒子群算法、遺傳算法3 種參數優化的方法。JIANG L 等[4]利用MI 改進RF 模型,在塔吊事故數據不完整的情況下預測塔吊事故,提供了塔吊事故影響因素的重要性等級,表明塔吊安全管理更應集中在作業現場。目前,許多機器學習算法被廣泛應用于建筑事故預測。BP 神經網絡的預測準確度較高,但其計算量非常大;決策樹(DT)是一種常用的數據挖掘措施,但其容易產生過擬合;支持向量機(SVM)能夠有效防止“維數災難”,增強非線性數據的擬合能力[5]。在機器學習的眾多算法中,RF 是近幾年新出的一種機器學習模型,是集成學習思想下的產物,它的提出在運算量沒有明顯增大的前提條件下使得模型的預測精確度明顯進步,最早是由BREIMAN L[6]開發的RF 模型,是一種用于分類和回歸的集成學習方法。RF的預測精確度受參數設置的影響很大,為了提高RF 模型的精確度,可以使用優化算法對其參數進行調整。目前,常用的參數優化算法包括網格搜尋(GS)、遺傳算法(GA)、貝葉斯優化(BO)和蟻群優化算法(PSO)[5]。

本文基于HFACS 模型,從不安全行為、不安全行為的前提、不安全監管和組織影響4 個層面來構建塔吊事故致因框架,從塔吊不同作業階段入手,采用卡方檢驗對影響因素進行量化,同時,利用RF 在預測精確度和解釋能力方面的優勢預測塔吊事故可能發生的階段,此外,為了提高預測模型的精確度,采用PSO 對RF 進行參數調整,記為RF-PSO 預測模型。根據預測結果,可實施塔吊的事故預防措施。

1 塔吊事故案例數據分析與處理

1.1 數據收集

從國家應急管理部及地方應急管理局官方網站搜集整理344 份具有完整信息的塔吊事故調查報告。這344 起事故發生于2012 年至2022 年,造成390 人死亡、214 人受傷,經濟損失高達50 000 萬人民幣。其中,一般起重傷害事故294 起(占85.47%),較大起重傷害事故49 起(占14.24%),重大起重傷害事故1起(占0.29%)。按塔吊不同作業階段區分事故,在塔吊的安拆階段發生事故149 起(占43.31%),吊裝階段發生事故161 起(占46.80%),攀爬階段發生事故34 起(占9.88%)。

通過分析報告的內容,根據HFACS 模型[7]建立起重機操作風險目錄,得到了影響塔吊安全的34 個因素,如表1 所示。

表1 塔吊事故影響因素

1.2 特征篩選

HFACS 模型包含了系統中組織管理-監管-作業人員的行為,定性地給出了影響因素之間的關系。但塔吊作業過程是一個復雜的動態過程,事故的發生原因有顯性和隱性的區別,因此,需要利用定量的方法研究影響因素之間的關系。

根據HFACS模型各層次的特點,運用統計學中卡方檢驗對34 個塔吊事故影響因素進行量化分析??ǚ綑z驗是以Pearson卡方的統計量為基礎,通過比較理論頻數分布與觀察頻數的差距,由此推斷p值的大?。?]??ǚ綑z驗的統計量如式(1)所示:

式中,r為列聯表的行數;c為列聯表的列數;fij0為觀察頻數;fije代表理論頻數,其中×CT,RT代表總的行觀察頻數,CT代表總的列觀察頻數。

卡方檢驗是一種假設檢驗方法,它表示統計樣本的實際觀測值與理論推斷值之間的偏離程度。當f0=fe時2=0;當f0與fe相差很大時2的值也很大,反之2的值則越小。

這里涉及的因變量是三分類變量,自變量是二分類。利用2×3 列聯表的形式對卡方檢驗的數據進行統計,如表2 所示,其中,a、b、c、d、e、f分別代表各單元格對應的實際觀測頻數(一般情況下,1:發生;0:不發生;令安拆=2,吊裝=3,攀爬=4)。

表2 2×3 列聯

一般認為當p<0.05 時,有較強的證據拒絕原假設H1,即塔吊不同作業階段與事故影響因素之間的關聯性較強;當p<0.01 時,有極強的證據拒絕原假設H1,即塔吊不同作業階段與事故影響因素之間的關聯性極強。將p<0.05 的結果統計如表3 所示。

表3 2 值統計結果

表3 2 值統計結果

影響因素images/BZ_65_724_1399_749_1426.png2 p O038.5210.014 O047.6100.022 O0821.5950.000 O0911.7620.003 US0111.6150.003 US0224.6890.000 US0412.0930.002 P0122.8130.000 P0220.5930.000 P0312.2420.002 P0417.3360.000 P0730.3430.000 P1030.3400.000 P1137.8330.000 UA0114.7680.001 UA0246.7360.000 UA0369.7330.000 UA0429.8040.000 UA0510.3550.006

對34 個事故影響因素進行檢驗,發現有19 個影響因素拒絕原假設,即有理由認為塔吊不同作業階段與事故影響因素之間存在顯著關聯,在預測建模時應考慮將這些因素作為輸入變量。

1.3 數據預處理

在搜集的334 起塔吊事故調查報告中,攀爬階段發生事故僅占所有事故的9.88%,安拆和吊裝階段的事故數量明顯高于攀爬階段。樣本數據不平衡現象十分嚴重,這種不平衡的數據可能會導致預測模型的不合理,降低其精確度。在這種情況下,采用SMOTE算法來解決數據不平衡的問題,該算法的核心是在最接近某個少數樣本的k個樣本之間插入n個人工合成的少數樣本,從而增加少數樣本的數量[9]。

利用SMOTE算法對樣本進行擴充,通過多次實驗確定最佳k值,不同k值下RF-PSO 模型的精確度及AUC 如圖1 所示??梢钥吹?,當k=2 時模型的表現最好,因此,在后文的預測中選擇k=2 時的數據樣本進行模型訓練及預測。

圖1 基于RF-PSO 的塔吊事故可能發生階段預測模型的精確度及AUC 值

2 RF-PSO 預測模型的建立

2.1 隨機森林(RF)

隨機森林(RF)本質上就是一個包含多個決策樹的分類器,構建隨機森林,首先從原數據中采取有放回的抽樣,構造出一個和原數據集數據量相同的子數據集,它控制決策樹各不相同的方法就是控制最優的特征,使其隨機選?。?]。圖2 描述了RF 算法的原理。

圖2 RF 算法原理

相關研究表明,影響RF預測性能的主要參數包括隨機森林中決策樹的個數(n-estimators)和最大特征數(max-feature),本文將主要針對這2 個參數對RF 模型進行優化改進[5]。

2.2 參數優化

參數優化能提高預測模型的精確度[10]?;趨⒖嘉墨I[5]的研究結果可以看出,對于RF 來說,PSO比常用的參數優化算法模型具有更好的效果。

PSO 是一種基于群智能的算法,與GA 相比,PSO 更關注種群中個體之間的交互。假設粒子的運動速度為V、位置為X,決策變量的維數為d,則第i個粒子的參數為:

式(3)—式(6)中,Pidt、Pgdt為t時刻個體與群體經歷過的最佳位置;為慣性權重;r1、r2為[0,1]中的隨機數;c1、c2為加速度常數;t為當前的迭代次數。其中,t和t+1 表示算法的連續2 次迭代。

用PSO 算法優化RF 參數的步驟如下:

①初始化粒子的初始速度與位置以及群體規模、最大迭代次數、加速度常數等參數。

②依據分類性能的評價函數,計算各個粒子的適應度值。

③將每個粒子當前位置的適應度值同其歷史最佳位置Pidt的適應度值進行對比,如果更優,則用當前位置更新粒子最優位置,否則維持不變。

④將每個粒子當前位置的適應度值同群體最佳位置Pgdt的適應度值進行對比,如果更優,則用當前位置更新群體最優位置,否則維持不變。

⑤按照式(5)—式(6)更新粒子的速度和位置。

⑥判斷是否滿足尋優中止條件,如果滿足則求出最優解,如果不滿足則轉至步驟②。

RF-PSO 預測模型的構建流程如圖3 所示。

圖3 基于RF-PSO 的塔吊事故可能發生階段預測模型

2.3 模型評價

評價RF 模型效果可利用精確度(Precision)、召回率(Recall)和F1 分數(F-Score)3 個指標對模型預測性能進行評價[6]。其中,測試集中被正確分類的數量記為TP(True positive),被錯誤分類的數量記為FP(False positive),被正確分類為其他類型的數量記為TN(True negative),被錯誤分類為其他類型的數量記為FN(False negative)。則精確度、召回率及F1 分數可由式(7)—式(9)計算:

3 結果分析

3.1 模型比較

為了驗證RF-PSO 模型在預測塔吊事故可能發生階段的性能,將其與幾種常用的預測模型進行比較,包括SVM、BP、RF 及RF-PSO。比較各預測模型的精確度、召回率、F1 分數及AUC,結果如表4 所示,可以看出RF-PSO 模型效果最好。

表4 模型比較

幾種模型在預測塔吊事故可能發生階段的預測性能如圖4所示,可以看出RF-PSO的分類性能最好。

3.2 模型解釋

RF 的一個重要優點是可以得到特征重要性排序,如圖5所示。根據圖5,安拆人員違規操作(UA03)、個人防護設備缺失(P07)和塔吊司機違規操作(UA01)的重要程度較高。根據分析塔吊事故,當UA03 發生時,即安拆作業人員錯誤操作,塔吊容易在安拆階段發生事故。當P07 發生時,即作業人員在攀爬塔吊的過程中缺少防護措施,塔吊容易在攀爬階段發生事故。當UA01 發生,即塔吊司機存在錯誤操作,塔吊在吊裝階段容易發生事故。

圖5 特征重要性排序

實際上,在塔吊事故可能發生的階段中,安拆階段的作業程序十分復雜,需要專業和詳細的操作規程來指導作業,這也是安拆階段發生事故數量較多的原因之一。塔吊在吊裝階段需要塔吊司機、信號司索工等各類作業人員的密切配合。監管人員不僅要對作業人員進行資格審查,更應在日常作業階段在作業現場進行安全監管。

除此之外,為了更好地解釋預測模型,結合圖5,根據RF-PSO 模型中的部分依賴圖(Partial dependence)來研究輸入變量對塔吊事故可能發生階段的影響,如圖6 所示。影響因素O03、US02、UA03 的發生概率越大,塔吊在安拆階段發生事故的可能性越大。影響因素P11、UA01、UA02 的發生概率越大,塔吊在吊裝階段發生事故的可能性越大。影響因素P01、P03、P07 的發生概率越大,塔吊在攀爬階段發生事故的可能性越大。

圖6 塔吊事故關鍵影響因素的部分依賴關系

4 結論

(1)利用HFACS模型,從人的不安全行為、人的不安全行為的前提、不安全監管和組織影響4 個層面,著重分析了塔吊不同作業階段的事故致因,總結得到34 個塔吊事故影響因素,同時利用卡方檢驗對其進行特征篩選和量化分析,得到19 個影響因素與塔吊不同作業階段存在顯著關聯。

(2)提出了一種混合機器學習模型RF-PSO,利用SMOTE進行數據不平衡處理,并將其應用于塔吊事故可能發生階段的預測分析,模型精確度高達85%。

(3)結果表明,影響因素塔吊安裝不符合設計要求(O03)、缺乏溝通(P11)、個人防護設備缺失(P01)發生的概率越大,塔吊事故分別在安拆階段、吊裝階段、攀爬階段發生事故的可能性越大,針對不同作業階段的塔吊需要采取不同的事故預防措施。

猜你喜歡
精確度塔吊事故
兒童主動學習行為的分析及支持策略——以扭扭積木《塔吊》為例
學中文
研究核心素養呈現特征提高復習教學精確度
多標段工程群塔布置與安裝
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
塔吊檢查
超高層建筑塔吊選型和布置分析
廢棄泄漏事故
小恍惚 大事故
近似數1.8和1.80相同嗎
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合