?

基于改進YOLOV7與StrongSORT 算法的列車司機手比行為檢測*

2024-01-14 13:15宋吉超陳振棠周成才
廣西科學院學報 2023年4期
關鍵詞:乘務儀表司機

宋吉超,黃 偉,陳振棠,周成才

(柳州鐵道職業技術學院動力技術學院,廣西柳州 545000)

當下人工智能(Artificial Intelligence,AI)技術的應用場景愈發廣泛[1],軌道交通車輛的運營與維護領域也日漸成為了AI技術落地的熱門領域[2]。列車司機駕駛行為的規范性直接影響到列車的行車安全,對于列車司機駕駛行為的監測是AI技術落地軌道交通領域的重要切入點。自2012年卷積神經網絡(Convolutional Neural Network,CNN)模型Alexnet[3]被提出以來,CNN 在圖像識別方面取得了重大突破。CNN 同樣也推動了列車司機行為監控領域的進步與發展,李偉[4]通過CNN 對列車司機面部特征進行提取,隨后將特征送入長短時記憶(Long Short Term Memory,LSTM)網絡完成時序建模,增強了疲勞檢測算法的適用性與有效性。姚巍巍等[5]采用人體關鍵點檢測算法Pose proposal network,實現了對使用電話、站立、端坐、瞌睡、離崗等列車司機行為的識別,并將網絡模型通過Tensor RT 加速優化后,在Jetson TX2中完成了實際部署。所達[6]通過區域三維卷積神經網絡(Region Convolutional 3D Network,R-C3D)實現了對城軌列車司機確認手勢的快速準確識別與起始時間的精確預測。何理[7]分別采用Deep LSTM、baseline Temporal Convolutional Network (TCN)、Spatial Temporal Graph Convolutional Networks(ST-GCN)模型實現了列車司機手勢動作的識別,并通過對比分析驗證了圖卷積神經網絡的有效性。

手比行為是列車司機駕駛過程中用以確認駕駛室儀表信息、確認道路信號信息等必須進行的微小手部動作,動作執行的到位率不僅影響著列車行駛過程中的乘務安全,而且也是評價列車司機駕駛合理性的重要標準[8]?,F階段業界主要通過人工抽檢車載監控視頻來分析司機手比行為執行的到位率,但是人工分析存在效果低下、質量不高以及容易出現遺漏等問題。因此,使用計算機視覺技術對列車司機手比行為進行有效識別能夠幫助鐵路機務部門進行日常的監控與管理[9]。

現階段對于列車司機行為識別的研究多集中于對疲勞駕駛、玩手機等不規范行為的檢測,而對列車司機手比行為的分析,特別是對動車組司機乘務作業過程中不同類型的手比行為分析,國內外的相關研究基本為空白。手比行為技術動作起源于日本,在日本被稱為“指差確認”[10],目前主要是日本與中國的鐵路系統使用該技術動作,歐美鐵路系統較少應用手比行為技術。中國鐵路系統中不同路局乘務作業標準對該技術動作的要求也有所區別。

為實現對列車司機乘務作業時手比行為的有效檢測,本文依據某鐵路局機務系統列車司機乘務作業時手比行為的標準化作業要求,分析不同類型手比行為的技術特征。由于手比行為是小目標,因此本文采用目標檢測算法You Only Look Once Version 7(YOLOV7)進行檢測[11],并通過融合注意力機制的方法對算法進行改進,以增強算法的檢測效果[12]。針對司機乘務過程中手比行為不斷變化的特點,采用Strong Simple Online and Realtime Tracking(StrongSORT)算法進行跟蹤[13]。

1 準備工作

“手比眼看”是列車司機乘務作業時的規范準則。其中,“手比”指列車司機乘務作業時所進行的一系列手勢動作。本文以某鐵路局機務系統《CR400 型動車組司機一次乘務作業指導書》為依據,將列車司機乘務作業時的手比類型概括如圖1所示。

圖1 手比類型Fig.1 Gesture type

檢測司機手比行為主要存在2個難點:(1)列車司機乘務作業過程中,不同手勢的變化主要為手指狀態的改變,在監控畫面中所占范圍極小;(2)列車司機乘務作業過程中,列車運行指示信號的變化以及司機端坐、站立等不同狀態都會造成手比行為在監控畫面中位置的不同。圖2為實時監控畫面中列車司機做出的“準備停車”以及“確認儀表”的手比行為,可以看出手比行為在監控畫面中是小目標,而且手勢位置會隨著列車的運行、信號的不同而發生變化。因此檢測算法必須對小目標有著良好的跟蹤檢測能力。

圖2 監控畫面Fig.2 Monitoring screen

本文的列車司機監控影像數據來自于暢想高科CR400BF動車組駕駛仿真系統所采集的實訓操作影像。CR400BF型列車運行時,對列車司機手比行為的監控主要來自于側方攝像頭(圖2),監控畫面覆蓋整個司機室,且畫面清晰。司機室為獨立、封閉的安全環境,不存在其他惡劣外界條件的干擾。

2 檢測與跟蹤算法

2.1 YOLOV7模型

YOLO 是Redmon等[14]于2016年提出的首個單階段目標檢測算法。該算法只需提取一次特征即可實現目標檢測,目前已成為目標檢測領域最具代表性的模型。2022年7月,Alexey團隊發布了最新開源的 YOLOV7[15]。在相同體量下官方版的YOLOV7比YOLOV5精度更高,速度(單位為fps)快120%,比YOLOX 快180%,比Dual-Swin-T快1 200%,比Conv Next 快550%,比Swin-L 快500%。

YOLOV7 整體網絡結構主要由以下3 部分組成:Input 層、Backbone 層、Head 層[16]。YOLOV7網絡模型框架如圖3所示。

總之,非瓣膜性房顫抗凝的要求就是通過消除折返治療房顫,控制心室率,同時盡可能恢復竇性心律及防止血栓,以促進改善患者預后。

圖3 YOLOV7模型框架Fig.3 YOLOV7 model framework

Input層采用一系列的方法對輸入圖片進行處理,從而達到數據增強的目的。Backbone層中CBS模塊是卷積運算Convolution、批量歸一化Batch normalization與激活模塊Silu 的組合;ELAN 模塊是由多個卷積拼接而成;MP 模塊由最大池化Maxpooling和常規卷積組合而成。Head層中的SPPCSPC模塊通過CBS與Maxpooling使算法的計算量降低、計算速度加快;MCB 模塊由多個CBS 拼接而成;最后,Head層通過輸出3組包含了置信度和像素坐標等信息的特征圖,再利用非極大抑制消除多余框以尋找最佳的物體檢測位置。本文算法使用Generalized Intersection over Union(GIo U)來計算定位損失。

2.2 注意力機制的融合

注意力機制在圖像識別中的有效性已經得到證明[17]。圖4為卷積注意力模塊(Convolutional Block Attention Module,CBAM),注意力機制被用于獲取特征圖中可用的注意力信息,即經由通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)兩個子模塊輸出新的特征圖。該模塊通過強調重要特征并抑制一般特征,以提升目標檢測效果。

圖4 CBAMFig.4 CBAM

為使注意力機制盡可能突出特征圖中的關鍵信息,根據YOLOV7的特性,本文將CBAM 位置置于Backbone層與Head層之間,添加CBAM 后的模型網絡結構如圖5所示。

圖5 融合CABM 后的改進YOLOV7網絡Fig.5 Improved YOLOV7 network integrated with CABM

2.3 StrongSORT算法

考慮到列車司機進行手比行為時,手勢位置不斷發生變化,為提高檢測的效果,本文采用了Du等[18]提出的StrongSORT 算法(圖6),StrongSORT 算法是經典的DeepSORT 算法[19]的升級。StrongSORT算法具備通用性,可以應用在任何可用的視頻目標檢測模型上。

圖6 DeepSORT 和StrongSORT 的應用原理Fig.6 Application principle of DeepSORT and Strong-SORT

StrongSORT 算法與DeepSORT 相比,在外觀分支采用了更強的外觀特征提取器Bot+取代原來簡單的卷積神經網絡,以ResNeSt50為骨干,可以采集更多的判別特征。此外用特征更新策略替換特征庫,并以指數移動平均(Exponential Moving Average,EMA)方式更新幀t處的第i個軌跡的外觀狀態,計算公式如下

其中,fti是當前匹配檢測的外觀嵌入,α=0.9是動量項。對于運動分支,采用Enhanced Correlation Coefficient Maximization (ECC)進行相機運動補償。

在卡爾曼濾波算法中,噪聲尺度是一個常數矩陣。由于卡爾曼濾波器會受低質量檢測的影響,從而忽略檢測噪聲尺度的信息,因此本文采用Noise Scale Adaptively(NSA)卡爾曼算法,通過公式(2)來自適應地計算噪聲協方差[20]:

其中,Rk是預設的恒定測量噪聲協方差,ck是狀態k時刻下的檢測置信度得分。即通過預先給定Rk,再根據k時刻檢測到的置信度得分,以達到能在不同時刻自適應調整噪聲斜方差,從而使估值更為準確。

本文將CABM 融合進YOLOV7,并將融合后的算法(Our algorithm)作為目標檢測算法檢測不同類型手比行為,接著將檢測結果作為StrongSORT 算法的跟蹤目標,以實現對列車司機乘務作業過程中手勢的實時跟蹤。

3 仿真實驗與分析

3.1 實驗數據

本文的數據集采集自柳州鐵道職業技術學院10個班級400名不同學生在暢想高科CR400BF動車組模擬駕駛仿真實訓設備中的某次乘務作業時的手比行為監控視頻畫面。每位學生在站立與端坐兩種姿態下分別進行圖1中的手比行為。將監控視頻中每位同學在每種姿態下的5種手比行為各截取2張作為原始數據,即5種類型的手比行為各1 600張,共計8 000張圖片,并按照7∶1的比例劃分數據,即訓練集7份,驗證集1份。

采用Labelimg將上述數據標注為YOLO 格式。5種手比行為的標準代號分別為確認信號XH、側線運行YX、注意警惕JT、準備停車TC 和確認儀表YB。標注數據時應當注意,由于列車司機僅用單手進行手比行為,此時若僅對手掌進行標注則會誤檢左右手掌,因此為避免左右手掌的干擾,標注時應對整個進行手比行為的手臂進行框選(圖7)。

圖7 行為標注Fig.7 Behavior labeling

3.2 實驗環境搭建與參數配置

在進行模型訓練前,需對計算機及YOLOV7模型的一些參數進行初始化設置。本文所進行的實驗環境搭建與參數配置如表1所示。

表1 實驗環境與參數配置Table 1 Experimental environment and parameter configuration

3.3 評價指標

對于列車司機檢測的評價既要全面又要準確,通常精確率(Precision)和召回率(Recall)兩項指標可以評價這兩點[21],兩者構成的混淆矩陣如表2 所示。其中,FP表示將負類別預測為正類別的個數,TP 表示將正類別預測為正類別的個數,FN 表示將正類別預測為負類別的個數,TN 表示將負類別預測為負類別的個數。

表2 混淆矩陣Table 2 Confusion matrix

精確率為預測正確的正樣本個數除以真實的正樣本個數[公式(3)],其可以評價檢測的準確性。召回率為正確類別被模型預測正確的概率[公式(4)],其可以評價檢測的全面性。

綜上,本文采用精確率與召回率作為評價指標。

3.4 檢測結果

圖8為在訓練300個迭代過程中,本文算法的損失函數曲線??梢钥闯?在前50個訓練周期損失函數快速下降,在50-200個周期中損失函數的下降速度越來越緩慢,在200-300個訓練周期中變化平穩,說明訓練300個周期內損失函數逐步達到收斂狀態。

圖8 損失函數Fig.8 Loss function

在訓練300 個迭代周期后,本文算法與YOLOV7算法對各手比行為的檢測結果見表3。由表3可知,YOLOV7的2項指標的平均值分別達到了95.3%、93.3%,對5種手比行為的精確率均達到92%以上,其中,JT 的識別精度最高,可能是因為注意警惕行為除手部行為外,還具備手臂成90°的明顯特征。YX 與TC 的識別精確度較低,分別有7.6%和7.3%的錯誤率,這主要是因為這兩個動作極為接近。側線運行為握拳后比小拇指與大拇指,準備停車為握拳后比大拇指,兩者的區別僅表現在小拇指上,兩者差別過小。除YB 外的4種手比行為的召回率均達到93.0%以上,而YB的召回率僅為89.2%,說明對注意儀表行為的檢測可能存在漏檢。這可能是因為列車司機需要根據不同的儀表信息從左至右指認不同儀表。如開左門時,需要手指最左側,而開右側車門時需要手指最右側。而監控攝像頭僅在左側,則在右側指認時,距離及身體會遮擋攝像頭部分視線,從而造成漏檢。

表3 YOLOV7和本文算法的精確率、召回率Table 3 Precision and recall of YOLOV7 and our algorithm Unit:%

相比于YOLOV7算法,本文算法的效果有所提升。YX 精確率從92.4%提高到了94.6%,YC 精確率從92.7%提高到了94.8%。YOLOV7 存在確認儀表漏檢的情況,而采用StrongSORT 算法后可以有效檢出確認儀表行為,因此召回率從89.2%提高到了93.8%。在XH、JT 和TC的檢測結果中,本文算法的精確率比YOLOV7分別提升了0.7%,0.6%和2.1%,召回率分別提高了1.9%、1.1%和1.1%。

圖9、圖10為兩個算法的檢測效果。圖9中,第1、2行分別為注意停車和側線運行的檢測效果,這兩種手勢的區別僅表現在小拇指是否伸出。YOLOV7算法對注意停車與側線運行存在混檢,不能準確、有效地區分手指間的細小差別。經過改進后的本文算法可以準確檢出被混檢的圖片類型。圖10為不同算法對確認儀表的檢測效果,因為圖中手勢確認的是右側儀表,所以監控中手勢畫面大小相較在中間或左側的更小,畫質更低,這可能導致YOLOV7 算法未能有效檢測出該畫面,而本文算法可以將該情況下的手比準確檢測為確認儀表。

圖9 注意停車與側線運行檢測效果Fig.9 Ready to stop and side running detection effect

圖10 確認儀表檢測效果Fig.10 Confirmation instrument detection effect

綜上,采用融合注意力機制并添加StrongSORT算法可以有效地提高YOLOV7 算法的檢測效果。主要是因為本文算法具有更加強大的特征提取功能,可以更有效地注意到圖像中的小細節,比如手比行為中小拇指的變化。本文算法還可以更好地注意到圖像不同時刻的變化特征,比如確認儀表中不同時刻手勢移動產生的變化特征。

4 結論

本文從動車組模擬駕駛實訓系統采集了列車司機乘務作業時的手比行為數據集,并使用融合注意力機制的YOLOV7卷積神經網絡模型對列車司機不同類型的手比行為進行檢測,再通過StrongSORT算法增強了對手比行為的檢測。本文算法可以輔助鐵路院校日常駕駛培訓、機務部門考核列車司機乘務作業時的駕駛行為,是對車輛人員進行智能監測的重要一環。當然,對列車司機乘務作業時的監測與考核遠非僅有手比行為一項,對列車司機的實時監測與有效考核的全面智能監測仍然是一項龐大且復雜的工作。

猜你喜歡
乘務儀表司機
◆ 儀表
◆ 儀表
儀表
畫與理
高速動車組司機乘務交路優化編制方法
老司機
高職院??罩谐藙沼⒄Z教學實踐研究
老司機
帶立即折返的高速動車組乘務交路回路優化編制方法
高??罩谐藙諏I制服設計研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合