?

深度學習的工人多種不安全行為識別方法綜述

2024-03-12 08:58蘇晨陽武文紅牛恒茂王嘉敏汪維泰
計算機工程與應用 2024年5期
關鍵詞:卷積神經網絡精度

蘇晨陽,武文紅,牛恒茂,石 寶,郝 旭,王嘉敏,高 勒,汪維泰

1.內蒙古工業大學信息工程學院,呼和浩特 010080

2.內蒙古建筑職業技術學院建筑工程測繪學院,呼和浩特 010080

建筑業作為世界上最危險的行業之一,其生產安全事故頻發,導致了眾多損失,根據中華人民共和國住房和城鄉建設部的統計數據,2020年,全國共發生房屋市政工程生產安全事故689起,死亡794人,88%的建筑安全事故是由工人的不安全行為所引起的[1]。所以為了更好地保障工人與環境的安全,需要對不安全行為進行外部條件的監督。

對于傳統識別方法,早期通過傳感器來判斷工人與器材的位置,如在帽殼和帽襯間設置壓力傳感器[2],并與控制模塊連接,檢測工人是否佩戴安全帽,但這類方法人員與設備成本投入量大,且定位精度不高。后來發展出利用圖像處理技術來進行不安全行為的識別,如用HOG 或基于顏色的手動特征方法提取安全帽的形狀、顏色信息,送入分類器中進行識別,使用Kinect 傳感器[3-4]將動作活動高頻關節構建特征模型。使用HOG特征和人體重心[5]變化建模,利用SVM 進行分類,識別工人的跌倒情況?;谑謩犹卣鞯膫鹘y行為識別方法較為依賴特征的選擇和提取,若研究人員對特定領域了解不夠,很容易忽略關鍵的特征點,且識別速度和準確率較低,在復雜施工環境下效果并不出色。

隨著技術發展,結合深度學習進行的不安全行為識別逐漸出現,從多種個人防護設備的佩戴情況到各類違規行為,出現了許多研究,劉浩等[6]運用了多種深度學習框架,包括YOLOv3和ST-GCN來識別煤礦井下的工人多種不安全行為,含安全設備的佩戴和摔倒、跌落、疲勞作業等,達到了85.2%的平均準確率。王超等[7]也利用ST-GCN對空管工人伸懶腰、瞌睡、各種姿勢入睡的行為進行有效識別。

綜上所述,深度學習方法可以方便地對工人多種不安全行為進行識別,成為了目前的主流研究方向。

1 基于深度學習的不安全行為識別方法

對多樣的不安全行為來說,不同的施工場地、不同的工種所需要注意的不安全行為并不相同,如高空作業的工人需要關注安全繩是否佩戴,而化工企業的工人不得在禁區吸煙。因此,對于不同種類的不安全行為,針對其特點,需要用不同的深度學習方法來識別,目前來看,深度學習在不安全行為的識別應用上主要有兩大方法,目標檢測和行為識別。

目標檢測輸入主要為靜態圖像,通過學習圖像特征,輸出目標在圖像中的位置及類別。而行為識別輸入主要為視頻序列,針對具有時間上連續屬性的動作進行特征學習,輸出行為的對應類別。在需要檢測未佩戴安全帽這樣單幀圖片即可判斷的靜態狀態時,目標檢測更為合適,而當需要識別打架等動態的行為時,行為識別的效果更好。據所研究的場景與需要針對的行為不同,選擇合適的深度學習方法是目前的主流研究手段,圖1為當前不安全行為識別主流方法及其適用行為,表1列舉了當前研究方法的優勢和局限性分析。

圖1 不安全行為識別方法Fig.1 Unsafe behavior identification method

1.1 評價指標

雖然不安全行為識別包含目標檢測和行為識別兩種方法,但其同屬深度學習中的多分類任務,可以引入混淆矩陣來為分類模型建立一套評價標準,以簡單的二分類舉例,混淆矩陣如表2。各個指標的含義如下:TP,真實為正樣本,預測為正樣本;FN,真實為正樣本,預測為負樣本;FP,真實為負樣本,預測為正樣本;TN,真實為負樣本,預測為負樣本。

表2 混淆矩陣Table 2 Confusion matrix

基于此矩陣,有以下幾種評價指標:

準確率(accuracy),即分類正確的樣本占總樣本個數的比例,計算公式為:

精確率(precision),指的是預測為正,真實情況也為正的樣本占被預測為正的樣本的比例,計算公式為:

召回率(recall),指的是實際為正的樣本中被預測為正的樣本所占實際為正的樣本的比例,計算公式為:

平均精度(average precision,AP),即為PR 曲線下的面積,計算公式為:

均值平均精度(mAP),指在多分類任務中,所有類別的AP的平均值。計算公式為:

檢測速度(FPS),即每秒可以處理的圖片數量。

1.2 目標檢測和行為識別的發展

1.2.1 目標檢測方法

發展至今,目標檢測已形成兩大模型,分別為二階段目標檢測和一階段目標檢測。二階段目標檢測先進行區域生成,后通過卷積神經網絡分類,常見的有R-CNN[8]、Fast R-CNN[9]、Faster R-CNN[10]、Mask R-CNN[11]等;一階段目標檢測通過一個網絡直接提取特征和分類,常見模型有YOLOv1[12]、YOLOv2[13]、YOLOv3[14]、YOLOv4[15]、YOLOv5、YOLOv7[16]、SSD[17]等。

對于二階段目標檢測,Faster R-CNN 是迭代升級的較新版本,其復雜的網絡結構和檢測步驟帶來了較高的精度,但在速度上存在劣勢,基于其改進的Mask RCNN可以完成目標檢測、實例分割等多種任務,其模型結構如圖2 所示,由殘差網絡提取特征,送入RPN 區域預測網絡生成錨框,通過全卷積層FCN 實現像素級別的分割,配合全連接層FC layers 得到分類信息和回歸框信息,綜合得到輸出結果。

圖2 Mask R-CNN模型Fig.2 Mask R-CNN model

Mask R-CNN雖然有著全面的能力和較高的精度,但復雜度較高的網絡并不利于算力資源有限的邊緣設備使用,而YOLO 系列在復雜度上具有優勢,其中的小型網絡版本如YOLOv5-n還可進一步減輕資源消耗,成為了許多研究人員的選擇,其經典框架分為主干網絡BackBone、頸部Neck 和頭部Head。其中主干網絡負責提取特征,Neck 層負責將淺層簡單特征和深層語義特征融合,Head部分為檢測頭,分別負責大中小目標的檢測。而廣泛應用的YOLOv5 主要改進之處是在輸入端引入了Mosaic數據增強和自適應錨框計算以及圖片縮放,并且提出了Focus 結構,其核心在于切片操作,如圖3 所示,原始的640×640×3 圖像經過切片后,變成320×320×12特征圖,隨后會經過拼接和卷積操作,成為320×320×64 大小。通過該操作,平面上的信息會存儲在通道維度,在使用3×3 卷積核提取時,可以減少下采樣帶來的信息損失。

圖3 Focus結構Fig.3 Focus structure

以目前的研究內容來看,基于目標檢測方法的不安全行為識別研究最常用的模型為Faster R-CNN、Mask R-CNN和YOLO系列。

1.2.2 行為識別方法

與目標檢測相比,行為識別會加入時間特征來識別具有上下文聯系的動作,或采用人體關鍵點來建立骨骼模型框架特征體系,因此行為識別常以視頻作為輸入。目前基于深度學習的行為識別方法可分為基于卷積神經網絡的模型如3DCNN[18]、Ⅰ3D[19]、ST-GCN[20]等,基于循環神經網絡如LSTM[21]等,基于雙流神經網絡[22]如SlowFast[23]等,文獻[24]介紹了近年來群體行為識別模型的發展。

在不安全行為識別的應用方面,卷積神經網絡的優點是通用、易于實現,但在特征提取和表現能力上低于其他網絡。其分支圖卷積神經網絡依據人體姿態來建模識別,如通過OPENPOSE算法對人體骨架進行估計,再利用圖卷積神經網絡ST-GCN 進行時序上的學習,圖4 為ST-GCN 模型的網絡流程,引入可學習的權重矩陣,賦予鄰接矩陣A中重要節點較大的權重,之后與輸入骨骼特征送入GCN 中運算,通過TCN 網絡進行時間信息的聚合,得到行為分類。

圖4 ST-GCN模型Fig.4 ST-GCN model

這樣的方法在動態不安全行為識別中得到了廣泛的應用,但在于人體被遮擋時,由于節點關聯不清晰,識別效果會明顯下降。因此雙流模型進入了研究者視野,其提取兩路特征的能力可以從更多的角度建立特征模型,盡量避免了實際應用中各種外界因素的干擾,在識別精度上有很高的效果。如圖5 所示,雙流模型SlowFast設計了兩條卷積神經網絡線路,一條用來提取較慢的特征信息如顏色等,一條用來提取快速變化的特征信息如時間動作等,其中慢通道還會接受來自快通道的信息進行融合,模型性能出色,但分開處理兩路數據也讓計算量和訓練消耗變得較大,是需要在實際應用時優化的問題。

圖5 SlowFast模型Fig.5 SlowFast model

此外循環神經網絡長短時記憶單元方法LSTM 在更長的時間序列有著更好的表現,因此被眾多研究者結合到卷積神經網絡和雙流卷積神經網絡中,不足之處是計算和訓練所需要的資源和時間較多。

1.2.3 目標檢測和行為識別的模型性能

在不安全行為識別領域,目標檢測方法和行為識別方法中都有著很多模型可以使用,通常準確率與精度是研究者需要考慮的因素,除此之外,不安全行為識別的應用場所通常在戶外,部署在邊緣設備,這就對計算資源和算力有所要求。表3、表4 分別為目標檢測和行為識別中部分模型在公開數據集上的性能表現。

表3 目標檢測模型性能Table 3 Target detection model performance

表4 行為識別模型性能Table 4 Behavioral recognition model performance

從上述表格內容可以看出目標檢測模型中,YOLO系列在速度和復雜度上具有很大的優勢,且可以采用更大的網絡結構來犧牲速度換取精度,具有很強的靈活性,適合部署在邊緣設備解決實際問題。而在行為識別模型中,3D卷積神經網絡類的參數普遍較低,而雙流網絡和自注意力模型所需計算資源和參數數量較為龐大,符合高復雜度高精度的特點。

然而,在實際應用研究中,因背景、數據集、待識別行為的不同,模型性能會出現與上述分析不同的表現;同時,隨著研究者的改進方法不同,效果也會存在差異。因此,對于不同條件下的不安全行為識別應用,分析各種方法與模型的效果,是本文的主要內容。

1.3 基于目標檢測和行為識別的應用研究

1.3.1 基于目標檢測方法的應用研究

在不安全行為識別的應用中,目標檢測方法通常用來識別靜態行為,比如人員的位置、是否佩戴安全帽、人與器械間距離等。

孫勇[25]基于Faster R-CNN 構建了建筑工人不安全行為檢測系統,實現了對未佩戴安全帽、使用手機、進入危險區域、翻越護欄四類不安全行為的識別,在自建的真實場景數據集下mAP 值達到0.853。該模型的局限性在于精度和檢測速度較低,在配置平常的電腦上單幀圖片需要3 s左右才能識別。張博等[26]同樣將Faster RCNN 用于施工現場防止人車碰撞的危險,檢測工人位置,利用工人與卡車間的空間相關性計算碰撞的可能性,模型達到了98.5%的召回率,滿足實際應用需求,但其不足之處在于數據為仿真現場拍攝,并未在實地取材,同時在遮擋和光照較差的環境下效果不佳。

可以看出,對包含了多個不安全行為的識別模型,其效果并不理想,平均均值精度較低,這是由于其實驗中小樣本的不安全行為識別精度嚴重拉低了整體精度。因此,若想實現包含多類別不安全行為的識別,一定要保證數據集中各行為樣本的數量充足、比例穩定。此外,二階段目標檢測的速度有著天生劣勢,近年來一階段目標檢測發展較快,在很多數據集上速度,甚至精度都優于二階段目標檢測,因此許多研究者選擇使用YOLO為代表的一階段目標檢測來進行研究。

常捷等[27]使用YOLOv3對加油站工人抽煙、打電話進行識別,數據集覆蓋了加油站的多個角度,對工作人員與車主的不安全行為進行了統一的識別,平均精度達到了84%,但對香煙這樣的小目標檢測精度僅有67%。YOLOv4模型增加了自對抗訓練,主動添加噪聲增強模型的魯棒性,能夠在施工場景圖像質量普遍較低的情況下獲得不錯的性能,此外引入GⅠOU 損失函數,通過最小封閉矩形,避免ⅠOU 等于0 時梯度消失的問題,一定程度上改善了對小目標和復雜背景下的性能。王晨[28]使用YOLOv4 對安全帽是否佩戴、吸煙、使用手機三類行為進行識別,實驗的優勢在于數據的采集考慮到了環境因素,在多個氣候環境下,采集了人群密集與零散的數據,增強了數據的泛化能力,因此識別獲得了較好的效果,且對于天氣、光照、遮擋的情況有著很好的魯棒性,達到了0.92 的mAP 和26.2 的FPS,符合實時檢測的任務要求,但其局限性在于所需計算資源和配置較高,推理速度較慢,在邊緣設備部署具有一定難度。

近年來,其他基于目標檢測方法的不安全行為識別研究對比見表5[29-34],分析可得,目標檢測方法在識別靜態行為時有著更大優勢,二階段目標檢測方法中的Faster R-CNN 模型使用RPN 網絡生成anchor,經過回歸生成偏移量,確定候選框位置,之后RoⅠ-Pooling 收集anchor的proposals(即候選框坐標),再進行分類,精度雖然較高,但由于較為繁瑣的網絡步驟,在速度上存在劣勢,實際應用中通常不能滿足實時檢測的速度要求。而一階段目標檢測方法如YOLO將目標檢測轉變為回歸問題,將圖像整體作為輸入,利用NMS 非極大值抑制修正多目標定位,通過一個網絡直接輸出結果,在復雜度上存在優勢,但在小目標和背景復雜、遮擋條件下,效果會下降明顯,還需要增強圖像的多尺度特征提取能力,才能跟上應用所需的精度要求。

表5 基于目標檢測方法的不安全行為識別研究Table 5 Research on unsafe behavior recognition based on target detection methods

1.3.2 基于行為識別方法的應用研究

行為識別模型對具有時間上下文聯系特征的動作行為有良好表現,因此在不安全行為識別的研究中,常常用來識別打架、各種器械的操作、身體動作等動態行為。

對基于卷積神經網絡的不安全行為識別,張雷等[35]使用門控循環單元(GRU)與CNN結合形成的融合網絡對井下工作人員的摘帽子、扔東西、抽煙、跑動、行走、坐下、揮手、睡覺行為進行識別,利用注意力機制的權重分配提升了準確率。實驗表明,模型對八種動作識別的平均準確率為97.37%,但模型對于動作相似但節奏不同的動作識別性能較差。

除了提取視頻流中的特征,利用人體關鍵骨骼點形成模型后送入圖卷積神經網絡學習特征的方法也有很廣泛的應用。劉耀等[36]對建筑工人的不安全爬梯行為進行識別研究,包括身體過度傾斜,攜帶東西,背對梯子,用AlphaPose提取人體骨骼關鍵點,ST-GCN進行分類識別,達到了98.48%的準確率。較高的準確率表明了基于骨架數據的識別能夠更好地克服光照影響。

從上述研究可以看出,基于圖卷積神經網絡的方法在識別動態行為時有著較高的準確率。但工人被遮擋時,識別效果下降較多,應考慮使用更高級的算法或優化來得到工人被遮擋情況下的三維骨架信息,或采取多個方向的攝像頭獲取數據,避免某一角度人員密集帶來的識別困難問題。

對基于循環神經網絡的不安全行為識別,應用最多的是LSTM 網絡。Kong 等[37]在研究中使用目標跟蹤網絡Siammask 追蹤施工場地人群,然后利用改進的Social-LSTM 預測人的運動軌跡,實現了在同一畫面中追蹤多人的效果,對可能出現的碰撞、臨邊等行為做出預警,但實驗并未對安全設備的佩戴等常見行為做出識別。循環神經網絡

對基于雙流神經網絡的不安全行為識別,黃珍珍等[38]提出了一種雙流網絡,分別使用空洞卷積和自注意力機制來提取特征,后進行融合,對鐵路工人的走、跑、上下道以及跌倒進行識別,總體識別率達到了98%。但上道和下道以及走路因動作本身的相似性,易造成誤識別,且未對真實情況下的鐵路務工人員檢測試驗。

表6 為近年來其他基于行為識別方法的不安全行為識別研究內容對比[39-42]。從研究來看,行為識別的優勢在于準確率較高,但其仍然面臨著許多挑戰:一是在施工環境下人員背景混亂,遮擋問題嚴重;二是用于數據的視頻圖像質量不高,影響識別效果;三是當模型同時處理多目標的定位和動作識別時,由于輸入為三維數據,消耗資源較多,工作量很大;四是很多動作本身極為相似,誤判概率高,并且缺少對未佩戴安全設備這樣的靜態行為的識別,因此可以考慮引入目標檢測模型為行為識別模型提供效果更好、復雜度更低的人員定位功能。

表6 基于行為識別方法的不安全行為識別研究Table 6 Research on identification of unsafe behaviors based on behavioral recognition methods

1.3.3 基于目標檢測和行為識別結合的不安全行為識別方法

為了更全面地識別不安全行為,很多研究者開始使用兩種方法結合來研究,即使用目標檢測定位工人及檢測靜態不安全行為,使用行為識別分析動態不安全行為,互相彌補彼此一定的局限性,并且某些行為可以分別用兩種方法實現,比如抽煙這一違規動作,既可以用目標檢測模型去檢測煙頭出現在人手中的這一畫面,也可以用行為識別來判斷是否有將煙拿到嘴邊的動作。

對基于二階段目標檢測與行為識別的結合,蘇洪超[43]在雙流網絡的前端引入Faster R-CNN,解決了前者不能在一幅圖像中識別多目標的不安全行為問題,進而實現了工人的動靜態不安全行為混合識別,輸入的視頻流一路進入目標檢測網絡,獲取多個目標位置,另一路計算運動歷史圖像,經過判斷動靜態情況后送入對應模型進行不安全行為分類,通過引入目標檢測方法,解決了同一場景下多目標行為識別問題,實現了多種類的不安全行為識別。但未對模型的速度和精度進行優化,在實際使用中檢測速度較慢,需要算力較高,且不支持對雙人交互的危險動作識別。

對于性能較強的MaskR-CNN,郁潤[44]使用該模型和LSTM網絡構建識別方法,其中Mask R-CNN網絡負責檢測各類實體,如工人、梯子、挖土機等,LSTM 網絡負責對工人的行為進行分類。模型選取施工現場兩項常見的不安全行為,即在梯子上爬得過高與安全帶使用不當來進行檢測,實驗中發現,對工人、梯子和行走動作的檢測精度較高,不足之處在于對安全帶的是否佩戴識別效果較差,平均精度為60.4%,這是由于安全帶的解掛動作與其他日常動作相似,容易造成誤判的效果,并且由于實驗所用相機基于紅外原理,在室外施工場景使用時存在局限性。

可以看出,Mask R-CNN的優勢在于其兼具動靜態行為的識別能力,但其特征是從單一視圖上提取,特征的多樣化程度不夠,并且由于較大的網絡復雜度,其推理速度和消耗資源不理想,而YOLO系列作為一階段目標檢測模型的優秀代表,在速度與精度上都有良好的表現,可以很方便地與行為識別方法結合應用。

張萌[45]使用改進的YOLOv4為基礎,識別建筑工人安全帽和安全帶的穿著情況,用ST-GCN識別工人腳手架正常施工、高空探身和攀爬行為,并分別對目標檢測和行為識別方法進行了優化,使得檢測速度和精度上升,達到動態視頻檢測的要求,但不足之處在于沒有拍攝不利環境下的測試,泛化性有待提高,且對小目標的對象和險態行為的識別精度不高。孟維等[46]使用YOLOv5對人體進行跟蹤,用OPENPOSE算法和ST-GCN網絡實現人體行為的識別,包括正常行為與摔倒動作,模型部署簡單,但未對實際應用中可能出現的各類阻礙因素如光照、粉塵、遮擋等情況做出優化。

近年來,其他基于目標檢測和行為識別結合方法的不安全行為識別研究內容對比見表7[47-52],綜合上述研究,結合了目標檢測的行為識別模型在多人員場景下的定位追蹤能力得到了很大的提升,并且能夠檢測安全設備佩戴問題和多種違規危險動作。但在網絡的進一步優化上存在難點,兩種方法的輸入可能不同,提取的特征種類也有區別,如何協調兩方法的內部結構,實現多尺度特征的相互融合以達到更好的效果是挑戰性的難題,多種網絡的結合也使得訓練參數和所需資源變大,若能針對其速度和整體結構進行優化,會在識別種類和性能上成為最優的不安全行為識別方法。

表7 基于目標檢測和行為識別結合方法的不安全行為識別研究Table 7 Research on unsafe behavior identification based on combined method of target detection and behavior recognition

2 基于深度學習的不安全行為識別方法優化

2.1 目標檢測方法的優化

目標檢測方法在不安全行為識別的研究中存在局限性,因其直接學習圖片的圖像特征,當目標受到環境影響如光照、粉塵,和人員遮擋的情況時,效果會大幅下降,并且許多行為如抽煙、喝酒等,由于香煙和酒瓶目標較小,在實際應用中會經常出現漏檢、錯檢情況,因此許多學者將目光放在了針對特定的研究場景來優化目標檢測模型的思路上。

對于二階段目標檢測模型,萬子倫[53]針對Faster RCNN 在背景復雜情況下識別效果不佳的問題,制作了一組紅外信息數據加入訓練,使得模型在昏暗條件下的識別效果上升,并替換了特征提取網絡和損失函數,改進單一的RPN識別網絡以更好地生成預測框。融合全部改進措施后的模型相比原模型,mAP值提高了11.57%,盡管模型的精度提升明顯,但其改進的局限之處是在目標太多的視頻樣本中FPS下降明顯,在光照不好的情況下效果不理想,模型所需的計算次數較多,不利于部署。

對于一階段目標檢測模型,針對復雜背景下模型性能下降的問題,吳海波[54]以YOLO 系列模型為基本框架,提出了一種實力特征預訓練方法,構造一個圖像拼接模板,將輸入圖像重新構造為具有復雜背景的圖像進行預訓練。實驗表明采用該方法下的模型所需迭代次數減少為一半,收斂速度也有提升,提升了紅外目標的檢測精度,解決了小樣本下模型訓練困難的問題,迭代次數、訓練時間都得到了減少,對行人的識別正確率從77.2%提升至88.1%,但其不足之處在于對小目標的檢測效果不理想。

另外,源于自然語言處理的Transformer 模型在計算機視覺被證明有著很好的效果,其衍生的模型DETR相比之前的目標檢測方法有著更快更好的潛力。王永歸[55]基于改進的多尺度單目3D 目標檢測模型,提出了DETR 3D 目標檢測,引入Transformer 模型獲取特征的全局關系,設計了一種顯著網絡降低模型編碼器的計算量,使計算量下降了41.4%。對小目標,背景復雜等常見問題均有良好的表現,但模型不能識別具體車輛類型,精度相較于多視圖的檢測方法仍有差距,有待繼續提升。

綜上所述,由于Faster R-CNN 有著更復雜的網絡框架,對遮擋和光照不足等問題的魯棒性較好,因此對其的改進主要是針對檢測速度,而YOLO系列的改進策略通常是犧牲小部分的檢測速度換取精度的提升。表8為近年來研究目標檢測模型優化的方法、優勢及其局限性總結[56-64],總體來說,針對目標檢測的改進目的為:提升小目標的檢測能力,提升背景復雜及遮擋情況下的檢測能力或提升模型的運行速度和效率。改進的方法有:壓縮模型、引入注意力機制、改進損失函數、改進錨框策略、改進特征的融合策略和數據增強等。

表8 目標檢測方法的優化Table 8 Optimization of target detection methods

2.2 行為識別方法的優化

行為識別方法在不安全行為識別研究中的缺點在于網絡通常較為復雜,要考慮空間與時間的雙重特征,推理速度較慢,所以如何改善行為識別方法的性能成為了一個重要的研究內容。

對于卷積神經網絡類型和長短期記憶網絡的行為識別方法,金磊[65]針對這類網絡時間特征的建模能力不足問題,基于自注意力機制設計了一個時間聚合模塊,利用特征間的相關性發掘更多的時間特征,并引入3D ResNet 中改善了其性能,在UCF-101 中達到了91.79%的準確率;同時針對不同行為的動作節奏不同(如跑步和走路),在聚合模塊的基礎上進一步構建多尺度多樣性識別框架,通過不同深度的特征建模多個動作節奏,這一框架在UCF-101 上進一步達到了94.05%的準確率,其缺點在于模型較為冗余,需要大規模的數據庫進行預訓練,對算力有較高的要求,在未裁剪好的視頻和小樣本情況下識別效果不佳。對于利用圖卷積神經網絡的行為識別方法,陳泯融等[66]表示大多基于卷積神經網絡的骨架行為識別模型并沒有充分獲取骨架的隱含的特征。因此在AⅠF-CNN模型的基礎上提出了多流融合網絡模型MS-CNN,新增了kernel 特征和多運動特征,分別提取幾何信息和全局信息,使識別準確率有所提高,但是當人體骨架被遮擋時較難推理出全貌,識別效果下降明顯。

從上述優化研究內容來看,卷積神經網絡基于其從單一圖像上提取特征的特點,模型對相似行為的識別容易出現誤判,因此需要增強特征的多樣性,更多的特征角度可以更好地保證識別的準確率,但這也意味著更大的網絡復雜度。因此,研究人員將目光放在了能夠利用人體骨骼關節特征的圖卷積神經網絡上,增強其節點特征的提取數量和角度,改善相似行為的識別率,但不足在于無法很好地建立遮擋情況下的骨骼模型,在人員密集的場所如生產車間、化工企業等識別效果較差。

對于雙流神經網絡類型行為識別方法,申軍軼[67]選取SlowFast作為待改進網絡,在下采樣時添加了最大值池化層,使得采樣有了依據標準,避免了有效信息的丟失,減少了噪聲的出現;同時使用3D-ResNet50 網絡提取特征,并對殘差塊進行了切分,在不提高復雜度情況下提高了學習能力,最后替換了激活函數,提高了模型的準確率,不足之處在于檢測速度沒有達到實時檢測的要求,在人體被遮擋時識別效果下降。

可以看出,雙流神經網絡優化方向主要是為了改進兩路特征的提取能力和融合問題,但雙流模型的高復雜度問題無法避免。近年來,Transformer模型被證明在行為識別方面有著很好的表現,其核心的自注意力機制相比傳統卷積神經網絡等有著網絡參數少,性能強的優勢。高聞[68]基于Transformer 用四種不同的神經網絡層(輸入與預處理層、雙流編碼層、特征聚合層、特征映射與分類層)堆疊搭建模型,其創新之處在于雙流編碼層相比常規卷積神經網絡,參數量大幅減少,訓練以及推理速度獲得提升,準確率可達96.7%,但模型在面對大規模數據集時效果可能會有所下降,對小目標的識別效果不佳,同時也有著更易于擬合的缺點。

近年來對行為識別模型做出的改進及其局限性總結見表9[69-79],總結可知,行為識別方法優化主要是圍繞特征進行,其中卷積神經網絡和雙流神經網絡的優化是為了提升對空間或時間特征的提取能力以及兩者的融合效果,而圖卷積神經網絡的優化通常會改進對人體骨架信息的捕捉能力,加強骨骼節點包含的全局信息,讓遠距離的節點輔助識別,然而優化后的行為識別方法常常伴隨有缺點,即模型變得復雜冗余,計算所需的資源數量上升,訓練的時間變長。因此,新興的基于transformer的注意力模型由于其較低的參數和復雜度有著很大的發揮空間。

表9 行為識別方法的優化Table 9 Optimization of behavioral recognition methods

2.3 不安全行為識別應用中的優化

盡管目前的研究還著重于不安全行為的種類選擇和模型方法的搭配,還是有很多研究者針對已經確定的不安全行為對選擇的模型進行了各方面的優化嘗試,以提升精度或速度。需要注意的是,相似的優化方法,對于不同應用場景和模型的改進效果可能會有很大的差別。根據目前不安全行為識別領域的研究內容,常采用模型輕量化、引入注意力機制或改善網絡結構的方法來改進。

2.3.1 模型輕量化

隨著目標檢測模型不斷地更新,在公共數據集上的檢測速度和精度紀錄不斷地被突破,網絡的結構和參數也越來越復雜,對于不安全行為識別領域,其模型通常需要部署在邊緣設備以被使用,因此需要考慮對已選擇的模型進行輕量化處理,在盡可能保證精度的同時降低參數和計算量,以便在計算能力可能不足的邊緣設備部署。常見的處理方法有引入輕量化網絡結構進行替換,如MobileNet、ShuffleNet、EfficientNet等,這些網絡結構通常會采用組卷積等輕量卷積方式代替原有的傳統卷積,減少卷積過程的計算量,另一類方法是減少網絡本身的參數和復雜度,如利用遷移學習或知識蒸餾等方法來降低訓練和推理時間。表10為目前常見的輕量級網絡在Cifar10數據集上的性能統計,可以看出,MobileNetv2的精度表現最好,但其他數據較差,綜合性能與復雜度來看,ShuffleNetv2 的效果最優。但此結果僅為在Cifar10 數據集上的實驗結果,在不同環境和數據下的研究還需實驗進行判斷。

表10 輕量級網絡性能比較Table 10 Comparison of lightweight network performance

屈文謙[80]的研究中就針對YOLOv3 模型進行了此類工作,使用MobileNetV3替換了YOLOv3中的特征提取網絡,建立了MoblieNetV3-YOLOv3 模型,替換后網絡的效果與替換前對比,檢測速度有了極大的提升,從20.48提升為33.94,但是mAP值僅有70.97%,說明輕量化雖然使得參數減少,計算量降低,但是針對不同的數據集和模型很可能會帶來不同程度的精度下降,在該文獻研究的車輛和安全帽識別問題中尤為明顯。然而,文獻[81]在使用MobileNetV3 替換了OpenPose 算法中的VGG19 網絡前十層后,發現對于摔倒和攀爬兩種不安全行為,輕量化后的模型相比原模型不僅速度得到了提升,精確度也提高了6.18%,這可能是由于MobileNetV3中含有SE 注意力模塊,對于該問題下的數據集起到了一定程度的精度提升效果,使得輕量化手段在這一問題中達到了精度和速度的雙重提升。

綜上所述,引入合適的輕量化網絡可以較為明顯地提升模型速度,但復雜度降低意味著網絡上的神經元節點數量減少,深度變淺,在前向推理的過程中網絡所承載的信息權重降低,預測所獲得的特征表現減弱。因此會對精度產生影響,為應對這樣的問題,采取措施對特征進行多角度的強化是關鍵,增加通道提取特定特征,或在融合區域加入更多尺度信息,這樣才能彌補降低復雜度帶來的精度損失。

2.3.2 引入注意力機制

人類在觀察物體信息時,通常會選擇性地集中關注某一點,適當忽略其他的信息,注意力機制正是源于這樣的思想,目前常用的注意力機制有SE 注意力模塊、CBAM注意力模塊、NAM注意力模塊等。綜合來講,注意力機制主要貢獻兩個方面:一是要決定需要關注輸入中的哪部分,二是分配計算資源給需要關注的那部分,近些年來各種注意力機制頻出,用其提升識別準確率也成為了眾多研究人員的選擇。

文獻[82]使用YOLOv5 進行實驗后發現,模型對于焊接等操作行為的檢測結果較差,這是因為原始模型的預測結果通常忽略了焊接工具和火花的特征?;诖颂攸c設計了一個特征增強模塊以消除大多數無用的特征,最大限度地利用有用特征,即注意力機制,另外還創新性地在目標檢測方法中引入時間特征模塊,改進后的模型速度有所降低,但仍能達到30 FPS以上,并且mAP值提高了3.8%,其不足之處在于模型對算力有一定要求,推理和檢測速度有待進一步提高。

屈文謙[80]的研究中除了輕量化,也引入了SE 注意力機制,在YOLOv3主干網絡輸出的三個特征層后依次加入SeNet 模塊,得到SeNet-YOLOv3 模型。最終使得模型FPS 達到23.45,mAP 值達到95.31%,相比未改進模型精度速度都得到了提高。劉藝超等[83]在不安全行為識別研究中針對YOLOv5引入了CBAM注意力機制,從通道和空間兩方面關注特征。實驗顯示,引入CBAM模塊結合對網絡結構的優化,使改進后的YOLOv5對小目標的檢測效果得到了提升,相比原模型提高了2.7%的檢測精度,但未對人員密集和背景嘈雜的情況做出優化,也沒有對其他車間常見的作業不規范行為進行識別。

注意力模塊因其方便通用的特性,可以加入各個目標檢測或行為識別模型中,包括全局注意力、自適應注意力、多層次注意力。從已有的研究改進內容來看,研究者通常會將輕量化和注意力搭配使用來優化模型,一方面用輕量化犧牲一些精度來提高計算速度,另一方面使用注意力結構適當補償輕量化所帶來的精度損失。

2.3.3 網絡結構的優化

除上述兩個大方向外,還有許多研究人員對于已選擇的模型進行了細部的優化嘗試,如對損失函數或激活函數進行替換使模型更適合實際數據集的需要,從特征的提取和融合方面改進網絡等,經過不斷的實驗和嘗試,都可以提升一定的精度或速度。

余益鴻等[84]針對YOLOv5 進行了網絡結構優化的嘗試,通過提高網絡深度和引入空洞卷積來增大感受野,同時采用增加池化層的方法解決提高深度所增加的大量冗余信息問題。除此之外,還做了在網絡中引入殘差模塊降低特征損失,在不同大小特征圖后加入形變卷積融合多尺度特征的工作,最終改進后的YOLOv5模型平均精度相比改進前提升了6%,但模型的缺點是未對安全防護設備進行識別,在人員密集情況下效果下降。

杜俊鳳[85]在MASK R-CNN模型中針對臨邊行為數據的特點,提出了改進錨框的思路,即在模型原始錨框參數的條件下,增加64×64 的錨框尺寸,改善對小目標的檢測靈敏度,同時針對防護欄一般為長方形的情況,增加長寬比為3∶1的錨框。同時,引入Bi-FPN代替原模型中的特征金字塔網絡,使得該模塊可以同時保留自上而下和自下而上的特征采樣方法,讓高層特征和淺層特征同時得到更好地保留,以增加一定計算量的代價來提高模型的性能,最終改進后的MASK R-CNN平均準確率提高了3.1%,FPS僅降低了0.04,其缺點在于所用數據為RGB圖像且為室內拍攝,對光照問題敏感,實際使用時效果會下降,同時場景限于臨邊場景,泛化能力不足。

表11為近年來的其他優化過的不安全行為識別研究對比[86-90]。綜上所述,網絡結構的優化涵蓋模型各個角落,針對具體數據與問題具有多種方法,包括改進損失函數、優化預測框的定位策略,針對特定數據集選擇更合適的激活函數,提升模型的表達能力,與注意力、輕量化相結合,為模型帶來各個方面的性能提升。

表11 不安全行為識別上的應用優化Table 11 Application optimization on unsafe behavior recognition

3 思考和展望

由于研究中數據集的構建、待檢測的場景、對不安全行為的定義等各不相同,并不能簡單地評價目標檢測和行為識別的方法孰勝孰劣。比如在某高空作業施工場景下,待檢測的不安全行為重點放在了安全帽和安全繩的佩戴上,那么顯然只使用目標檢測模型是更優的選擇,也更方便對模型進行優化,若施工場景覆蓋面廣,待識別不安全行為種類較多,那么結合兩種模型可能會有更好的效果。通過分析不安全行為識別的研究現狀,給出該領域目前存在的難點與不足:

(1)數據集問題,在不安全行為識別領域,數據集依然面臨著種類不全、數量較少的問題,這主要是由于不安全行為的定義沒有統一,不同施工場景、不同單位、不同工作人員所需要注意的不安全行為不相同,因此難以出現數量質量雙優的公開數據集,研究者需要耗費較大精力尋找、拍攝、制作,才能用于模型訓練。目前的數據集情況表現為:部分行為充足、部分行為不足。安全帽、反光衣、口罩等安全設備佩戴的公開數據集數量和質量較高,很容易找到真實施工場景下的正負樣本,如在安全帽佩戴領域就有開源數據集SHWD,包括7 581 個不同場景、天氣、光照條件、人數、拍攝距離的圖像,分為安全帽類和未戴安全帽類,為相關研究提供了支持。同時,也有很多不安全行為存在樣本不足的情況,如摔倒、攀爬、打架斗毆、喝酒、翻越欄桿等,這些行為本身的數據數量并不少,但在施工場景下的負樣本數據嚴重缺乏,若采用非施工場景下的數據進行訓練,那在真實場景進行預測時,由于復雜的施工環境和光照變化等,效果很可能大打折扣。

綜上所述,不安全行為識別研究領域的數據集工作面臨一定難點,在各類違規、危險行為的真實施工場景數據上存在空缺,如何在小樣本的條件下實現優秀的識別性能是一個難點。

(2)融合多種類不安全行為識別后的性能問題。從目前研究現狀來看,針對靜態不安全行為的目標檢測和針對動態不安全行為的行為識別都各自達到了較高的精度,但當需要同時識別兩類不安全行為時,平均精度通常會在90%以下,還有較高的優化空間。

(3)泛化問題。不同于其他目標檢測和行為識別的研究領域,工人的不安全行為識別存在著場景多變、行為種類多變和光照角度遠近多變的問題,不同工種、施工場景下的不安全行為識別研究都需要針對性的模型、方法和數據集來訓練,這就導致后續研究人員很難在變換了場景和模型的情況下,參考前人的相關研究,做出改進和優化。

由于存在以上難點,在此結合目標檢測和行為識別的發展,給出未來該領域的研究建議和展望:

(1)對目前的數據集情況而言,研究者可以嘗試采用多場地、多角度、多距離的拍攝方法來自建數據集,同時采用數據增強對數據進行一定的模糊、亮度改變等處理,盡可能真實模擬施工場景下的圖像,以此獲得更好的訓練和測試效果。在已有的研究中,研究者受限于條件,多選擇在室內模擬場地進行數據集的拍攝構建,在更為復雜的真實場景下識別時就會出現效果下降的問題,如果可以在構建數據集時就利用真實場景建立,一定可以更好地避免此問題。

(2)為了實現更準確的不安全行為識別,可以嘗試轉變思路來對某些不安全行為獲得更高的識別率,比如目標檢測通常對遠距離工地場景下的抽煙這一行為識別率較低,因為在數據集中只標注香煙的話,目標太小,識別困難,如果連帶胳膊抬起這一姿勢一同標注,其余胳膊抬起的非抽煙情況也會對預測造成干擾,那么可以嘗試使用目標檢測檢測香煙,加上行為識別去識別“胳膊抬起”這一動作,結合檢測抽煙行為,可能會有更好的效果。

(3)為了實現更快速的不安全行為識別,針對邊緣設備部署所需要的輕量化研究,可以不局限于減少參數量這一方面,文獻[91]指出,各類輕量化網絡的工作集中在減少浮點運算數量上,然而這種減少不一定會帶來相應的快速,反而可能因為內存訪問的增加(輕量化網絡所采用的卷積方法導致)而出現負優化。因此為了部署邊緣設備,可以從內存訪問的減少這一思想入手,達到真正意義上的加速,比如使用文中提出的部分卷積(PConv)和FasterNet輕量網絡。

(4)對于未來的工人不安全行為識別研究,會出現基于背景和施工內容的種類劃分,即:基于礦洞和隧道等自然背景施工,該分類下識別研究要針對光照和復雜地貌帶來的影響做出優化,容易出現與危險區域靠近相關的不安全行為?;诮ㄖㄔ斓姆亲匀槐尘笆┕?,該分類下的識別研究要針對灰塵和工程車輛的遮擋影響做出優化,對更多類別的個人防護設備進行識別?;谑覂鹊墓S工人施工等劃分,該分類下的識別研究要針對人員密集情況等室內特殊情況做出優化,重點對各種違規操作進行識別。在如此分類下,便可以為相似場景的后續不安全行為識別研究提供更好的參考和改進方向。

猜你喜歡
卷積神經網絡精度
基于3D-Winograd的快速卷積算法設計及FPGA實現
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于DSPIC33F微處理器的采集精度的提高
基于傅里葉域卷積表示的目標跟蹤算法
GPS/GLONASS/BDS組合PPP精度分析
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合