基于特征優選和SVM的船舶航行事故致因分析

2023-02-22 03:01石榮麗林藝舒

運籌與管理 2023年12期

石榮麗, 林藝舒

(1.廣東藥科大學醫藥商學院,廣東中山 528000; 2.廣東省藥品監管科學研究基地,廣東中山 528000; 3.國家藥品監督管理局藥物警戒技術研究與評價重點實驗室,廣東中山 528000; 4.廣東金融學院互聯網金融與信息工程學院,廣東廣州 510521)

0 引言

在“海運強國”戰略和建設“海上絲綢之路”的大背景下,我國的水上交通運輸量不斷增長,船舶趨于大型化和高速化,這使得船舶通航環境日益惡化,水上交通事故頻發。由于搜救難度大,這些事故往往會造成嚴重的經濟損失、人員傷亡和環境污染[1]。其中,船舶航行事故占所有水上交通事故的絕大部分。因此,分析船舶航行事故致因具有重要意義。

關于事故致因模型的研究,最早的事故因果模型之一是由HEINRICH等[2]在1931年提出的多米諾模型(DominoModel),該模型為鏈式模型,成為很多事故模型的基礎。REASON[3]在1990年提出瑞士奶酪模型(SCM)用于分析流行病學事故致因,并基于SCM模型開發了HFACS和ICAM等實用工具。但由于這些模型及工具都沒有考慮系統部件之間的動態和非線性交互,因此不適合分析復雜事故系統的致因。為了分析復雜的、相互關聯的事件網絡,一些學者們基于系統理論,提出系統性事故致因模型,如社會技術系統層次模型、基于社會技術系統層次模型形成的AcciMap、系統理論模型和流程分析法(STAMP)模型、基于認知系統工程原理的認知可靠性和誤差分析方法(CREAM)、24Model模型和功能性共振分析法(FRAM)。然而,這些基于系統理論的模型,不可同時避免缺乏客觀性、效率低及缺乏對事故原因概率的充分分析的問題。由于機器學習具有相對客觀、高效、可用于深層分析復雜的網狀指標關聯性、可用于預測概率等優勢,一些機器學習模型漸漸地應用到事故致因的分析中[4]。

當前對于水上交通事故致因的研究方法主要包括FRAM模型、24Model模型、貝葉斯網絡、文本挖掘、有序模型、決策樹模型和Logistic分類模型等。FRAM模型能全面系統地考慮事故致因,并通過網狀系統分析復雜的事故,但是該模型需要依賴專家的深入分析。24Model模型作為模塊化的系統模型保證了模型的效率,但不能對事故原因概率進行分析。吳伋等[5]對內河船舶碰撞事故的報告進行文本挖掘,能客觀地將事故報告中頻繁出現的關聯詞識別為事故致因。分類模型能很好地對事故概率進行預測,但大多數分類模型不能像有序模型一樣直接分析各個因素對事故的影響程度[6]。

通過文獻綜述可知,當前關于水上交通事故致因的研究存在以下不足:(1)缺乏對致因的全面客觀考慮,特別是缺乏對人為因素的詳細分析,盡管很多研究表明人為因素是重要的水上交通事故致因[7];(2)由于缺乏公開數據,當前的水上交通事故樣本容量不能滿足大部分的研究模型。為了滿足樣本容量的需求,當前研究主要是通過擴大研究區域[6]和數據擴充[8]以獲得大容量樣本。但是,由于水上交通事故致因存在明顯的地域差異[4],數據擴充不能充分地反映數據特征的變化。所以擴大研究區域和數據擴充都不利于精準地挖掘出事故致因;(3)模型不可用于預測事故概率,或者不可直接用于分析各個致因對事故的影響程度;(4)關于水上交通事故致因的現有研究主要通過分析事故船舶的數據或者通過比較某類事故船舶與其他類事故船舶的數據來挖掘出事故致因[4,8]。但事實上,并非所有發生事故的船舶都具有致險特征。比如被撞的船舶雖然發生了航行事故,但其本身并不具備致險特征。針對問題一,本文將通過文本挖掘及文獻綜述篩選出潛在的航行事故致因,包括較為全面的人為因素、船舶因素、管理因素和環境因素;針對問題二,本文通過特征優選和構建改進SVM(支持向量機)模型的方法降低模型對樣本容量的要求。通過特征優選能夠降低輸入變量的維數,進而降低模型對樣本容量的要求,提高模型的精度。SVM作為一種有監督分類模型,對樣本容量的要求較小。其在交通事故嚴重程度研究中已得到了成功的運用。研究表明SVM模型對于事故影響因素的挖掘具有一定的優勢[9]。目前SVM模型還尚未涉及水上交通事故致因的分析;針對問題三,借助RFE(遞歸特征消除)算法分析自變量對目標變量的影響程度;針對問題四,本文通過比較航行事故責任船舶與其他船舶間的差異來挖掘出航行事故的致因。

綜合上述分析,本文結合特征優選、群體智能優化算法和機器學習,提出一種船舶航行事故致因分析模型。首先,通過文本挖掘、文獻綜述和相關性分析對模型特征進行優選;然后,借助網絡搜索算法(GS)、遺傳算法(GA)、粒子群算法(PSO)和帝國競爭算法(ICA)對模型參數進行尋優,構建航行事故責任船舶與其他事故船舶的SVM識別模型。最后,利用RFE算法將事故致因對事故的影響程度進行排序和篩選,挖掘出事故的關鍵致因,為預防船舶航行事故提供科學的理論基礎。

1 模型構建

如圖1所示,本模型主要包括2大步驟:基于文本挖掘和相關性分析的特征優選和基于改進SVM的航行事故責任船舶識別模型的構建與訓練。

圖1 船舶航行事故致因分析模型流程圖

1.1 基于文本挖掘和相關性分析的特征優選

為了獲得更全面的航行事故致因,本模型通過文本挖掘和文獻綜述的方法挖掘出高頻的潛在航行事故致因。首先,利用分詞程序對水上交通事故報告進行處理,挖掘出高頻詞。然后,刪除與事故致因無關的高頻詞(包括虛詞),并將同義的高頻詞進行統一。最后,將多個相近的指標合并成一個指標。篩選出潛在的航行事故致因。同時,結合文獻綜述,將現有研究中常見的水上事故致因也添加到潛在的航行事故致因集中。

為了降低模型計算的復雜性和提高模型的精確性,本模型對潛在的航行事故致因與目標變量(是否為航行事故責任船舶)之間的關系進行相關性分析。根據分析結果,將與因變量存在明顯相關關系的潛在航行事故致因識別為航行事故致因,并作為航行事故責任船舶識別模型的輸入變量。

1.2 基于SVM的航行事故責任船舶識別模型的構建與訓練

SVM分類模型是建立一個最優決策超平面,使得該平面能夠正確地將樣本進行劃分,且平面與兩類樣本之間的距離最大化。

在實際應用中,樣本往往是非線性和線性不可分的。當樣本非線性時,需要將因變量通過某種非線性映射映射到另一個高維特征空間,使得映射后的樣本在這個高維特征空間中存在線性的分類規則。

非線性映射是通過設計核函數的方法來實現。為了得到理想的事故判別模型,本文選取RBF核函數構建SVM識別模型,并通過利用RFE算法將事故致因對事故的影響程度進行排序和篩選。其中,模型的參數通過S折交叉驗證法[10]及群體智能優化算法獲得最優值?；赟VM的航行事故責任船舶識別模型的構建步驟具體如下:

(1)設置優選出來的“航行事故致因”為輸入變量,設置“是否為航行事故責任船舶”為目標變量。

(2)分別利用GA,GS,PSO,ICA算法和S折交叉驗證法優化SVM模型的懲罰參數C和RBF核函數的參數g。

(3)基于RFE理念對船舶事故致因進行排序和篩選。本模型根據特征變量的權重進行排序,每次迭代都去掉權重最小的特征變量。然后在下一次迭代中保留SVM模型的剩余特征,重新對剩余的特征變量進行排序。重復這個過程,直至刪除所有的特征變量。其中,各個特征變量的權重由刪除該變量后SVM模型的正確度所決定,正確度越高,對應的權重越小,說明其對船舶是否會引發航行事故的影響越小。

2 數據

2.1 數據來源

本文中所需要的數據為水上交通事故報告,本文中的事故報告來源于廣東海事局官網[11],共搜集廣東省2012—2020年水上交通事故報告74份。

2.2 數據處理

本文根據事故報告,對每艘事故船舶的潛在航行事故致因進行整理。通過查詢相關的船舶檔案[12]、歷史天氣預報和新聞報道,補充缺失的船舶、天氣等信息。

本文將相撞、碰撞、擱淺、翻沉、沉沒、進水等在航行中發生的事故歸類為航行事故,將其他事故(包括工傷、落水、火災、爆炸等)歸類成非航行事故。將航行事故中需要承擔責任的船舶歸類為航行事故責任船舶,將其他事故船舶歸類成非航行事故責任船舶。

通過上述處理,共整理出滿足研究要求的事故樣本83個,涉及事故67起,船舶83艘(其中相撞事故涉及多艘船舶,每艘事故船舶為1個樣本),包括航行事故責任船舶58艘和非航行事故責任船舶25艘。

3 實例驗證

3.1 特征優選結果

本算例將廣東省2012—2020年的水上交通事故報告中的事故原因分析部分梳理成文本格式,進行文本挖掘,挖掘出高頻指標作為潛在的航行事故致因。如圖2所示,為了實現數據的可視化,本節構建潛在事故致因的詞云圖。其中,圖2(a)是基于事故報告中的事故原因分析部分的分詞結果。圖2(b)是將圖2(a)中的同義項進行統一并刪除無關項后的挖掘結果。圖2(c)是將圖2(b)中近義項合并后的挖掘結果。字體越大的指標,代表出現的頻率越大。

(a) (b) (c)圖2 基于廣東省2012—2020年的水上交通事故報告的潛在航行事故致因挖掘結果

根據圖2(c)所顯示的挖掘結果,綜合現有研究中對水上交通事故造成影響的指標,篩選出41個指標作為潛在的航行事故致因(見表1)。本節對篩選出來的潛在航行事故致因與目標變量(是否為航行事故責任船舶)之間的關系進行相關性分析。檢驗結果表明:不同船型、船長、時間段、區域、能見度、通航環境、船流量、是否由第三方監管、檢驗情況、是否疏于瞭望、是否風險估計錯誤/航行技術不足、是否開啟AIS并通報港口、是否履職得當、航速是否安全對船舶的致航行事故率存在顯著影響(其p值均小于0.1),這些因素是船舶航行事故的致因。表2顯示了在這些致因下,各類船舶的致航行事故率(R)。

表1 船舶航行事故的潛在致因體系

表2 船舶的致航行事故率

3.2 模型構建與訓練結果

為了分析船舶航行事故致因對事故的影響程度,本算例將識別出來的14個事故致因設置為輸入變量,將“是否為航行事故責任船舶”設置為目標變量。利用S折交叉驗證法(設S=10)比較各類常見分類模型的泛化能力,分析結果如表3所示。其中,正確率是指9組訓練集及測試集的正確率的平均值。由表3可知,SVM模型相比其他模型具有更強的泛化能力。

為了提高SVM模型的精確度,利用GA,GS,PSO,ICA算法和S折交叉驗證法優化SVM模型,實驗結果及模型參數的設置如表4所示。根據檢測結果,本算例選取GS算法搜索模型的最優參數,記對應的模型為GS-SVM模型。通過對比,可知改進后的GS-SVM模型的泛化能力相對于未改進的SVM模型有了顯著的提高。

表3 不同模型的正確率

表4 不同算法獲得的最優參數及對應模型的正確率

利用RFE算法將事故致因對事故的影響程度進行篩選和排序。經過多次迭代得出所有致因的影響程度排序,如表5所示。

表5 船舶航行事故致因的影響程度排序

結合表2和表5可知:

(1)當GS-SVM選取前9個事故致因作為模型輸入變量時,模型的正確率達到最高值0.9020。因此,本算例篩選這9個事故致因(是否風險估計錯誤/航行技術不足、是否疏于瞭望、船型、船長、船流量、區域、時間段、是否由第三方監督和能見度)作為船舶航行事故關鍵致因,這些指標應該作為航行事故防治工作管控和安全教育的重點,且越靠前的指標越應該被重點管控和教育;

(2)借助分類模型,通過調整9個關鍵致因,可判斷船舶是否會導致航行事故。由此可為降低船舶航行事故率提供科學的參考方法;

(3)對于人為因素,風險估計錯誤/航行技術不足、疏于瞭望都會提高航行事故率;對于船舶因素,客船、漁船、游艇、集裝箱、小型船舶(船長<50米)和大型船舶(船長>90米)的致航行事故率更高;對于環境因素,當處于船流量大、海域、橋邊、錨地、夜間、能見度低劣的環境時,船舶更易發生航行事故;對于管理因素,第三方監管能有效降低航行事故率。

4 結論

為了減少船舶航行事故,本文基于水上交通事故報告,構建一種基于特征優選、群體智能優化算法及遞歸特征消除算法的SVM模型用于挖掘船舶航行事故關鍵致因,并分析各個事故致因對事故的影響程度。分析結果可為防治航行事故決策工作提供科學的理論依據。

本文以廣東2012—2020年的水上交通事故為例,驗證了所推模型的可行性及可靠性。結果表明航行事故責任船舶識別模型具有較高的正確度,這說明:(1)模型所挖掘出來的事故關鍵致因對船舶是否會引發航行事故具有決定性意義。因此,這些關鍵致因應視為安全教育和管控工作的重點。通過分析各個事故關鍵致因下各類船舶的致航行事故率,可以獲得致航行事故率較高的船舶、環境、管理單位和作業人員。對其加強管控和引導有利于提高船舶航行的安全性。(2)借助模型可判別出船舶是否會導致航行事故,通過調整事故關鍵致因的狀態,能找出避免航行事故的有效措施,從而更好地形成預警方案,降低船舶航行事故率。

未來,隨著數據量的擴大和研究深入,可進一步完善實驗,提高實驗結果的準確性。