?

基于MCN的起重吊裝指揮手勢信號自動識別

2023-01-18 11:18周曉潔郭辰顥原毅璨郭聖煜
土木工程與管理學報 2022年6期
關鍵詞:手勢吊裝卷積

張 淦, 周曉潔, 郭辰顥, 原毅璨, 吳 迪, 郭聖煜

(中國地質大學(武漢) a. 經濟管理學院; b.機械與電子信息學院, 湖北 武漢 430074)

起重作業具有設備體積龐大、操作視野盲區多、作業覆蓋范圍廣和作業環境復雜等特點,人 - 機交互過程中容易發生如物體打擊類等嚴重的安全事故[1],屬于典型的高風險施工場景。起重吊裝指揮手勢信號是該場景下信號工與起重機駕駛員之間常用的交流方式,用于嘈雜施工環境下傳遞信息,消除盲區碰撞等施工風險。但是,實際交流過程中常因手勢信號不規范、交流視野被遮擋和人員注意力不集中等問題引發安全事故[2]。因此,探究起重吊裝指揮手勢信號的自動識別,降低因交流問題引發安全事故的概率,對提高工程安全管理水平具有重要意義。

起重吊裝指揮手勢信號主要由手臂和手的動作共同完成。識別指揮手勢信號需要對動作發出者的空間信息和運動信息進行提取,再根據這兩種信息進行動作分類。當前提取這兩種信息的方式主要有接觸式識別和非接觸式識別兩種[3]。相比于基于穿戴式傳感器設備的接觸式識別[4],基于計算機視覺(Computer Vision,CV)的非接觸式識別抗環境干擾能力強,識別準確率高,以及識別過程對被識別者正常工作影響小,適用于起重作業過程的手勢信號自動識別。當前利用CV技術識別指揮手勢信號的研究被廣泛應用于交通[5]、軍事[6]、采礦業[7]等領域。在工程領域的應用主要集中在工人姿態評估[8]、績效評估、施工現場火焰檢測[10]等方面。針對人 - 機交互高風險場景下指揮手勢信號識別的研究正在興起[11]。Wang等對比了各領域指揮手勢識別的研究,討論了在工程領域利用CV技術識別指揮手勢信號的可行性[12],并提出基于ResNeXt的指揮手勢信號目標識別機制[13]。這些研究重點在于準確識別指揮手勢信號,在識別速度上關注不足。文中將綜合考慮指揮手勢信號識別的準確率和速度,使其滿足實際工程應用中實時性等方面的需求。

本文按照國家標準分類指揮手勢信號,提出基于混合卷積神經網絡(Mixed Convolutional Neural Network,MCN)的起重吊裝指揮手勢信號識別模型,建立指揮手勢信號識別 - 確認機制。提高信號傳遞的準確性和穩定性,全過程記錄信號員和駕駛員的行為,預防起重作業中因交流問題導致事故,方便事故后的分析和責任認定,提高工程安全管理水平。

1 起重吊裝指揮手勢信號

2019年12月10日國家市場監督管理總局和國家標準化管理委員會聯合發布中華人民共和國國家標準GB/T 5082—2019《起重機手勢信號》[14],標準正文中規定了用于起重吊裝操作的25種指揮手勢信號。表1列出了其中部分指揮手勢信號。將指揮手勢信號按照是否為連續動作,劃分成動態指揮手勢信號和靜態指揮手勢信號2種,具體劃分情況如表2所示,可以看出起重吊裝操作的指揮手勢信號大多由連續的動作組成,故不同種類的指揮手勢信號需要根據其空間特征和運動特征進行區分。

表1 指揮手勢信號(部分)

表2 動靜態指揮手勢信號劃分情況

2 MCN算法

傳統2D卷積神經網絡無法提取視頻幀之間包含的運動信息[15]。預先提取光流圖[16]或人體骨骼關鍵點[17]等,再通過2D卷積提取運動信息,這類模型雖展現了良好的性能,但復雜的預處理增加了計算量,導致識別速度慢。借助體感攝像設備采集人體骨骼關鍵點[18],存在識別距離的限制。3D卷積神經網絡[15](3D Convolutional Neural Network, C3D)中的3D卷積核可以同時提取單個視頻幀的空間信息和多個相鄰視頻幀之間的運動信息。3D卷積核是2D卷積核在時間軸上的拓展,將多幀視頻幀圖像在z軸上進行疊加,得到一個圖像組,3D卷積核以滑動窗口的形式分別在圖像組的x,y,z軸上逐一進行卷積計算,得到特征圖像組。C3D的計算流程如圖1所示。

圖1 C3D計算流程

Tran等[19]認為C3D的高層特征相比于低層特征包含較少的運動信息,基于此構建了MCN。MCN將C3D中高層的卷積層(Convolutional Layer,Conv)由3D卷積核換成2D卷積核。以微小的性能損失,大幅度減少網絡參數量。同時為保證深度網絡的性能表現,引入殘差塊結構(ResBlock)。

MCN由1個底層模塊(Stem Module, SM)、2個3D殘差卷積模塊(3D Residual Convolutional Module, 3D-RCM),6個2D殘差卷積模塊(2D Re-sidual Convolutional Module, 2D-RCM),1個平均池化模塊(Average Pooling Module, APM)、1個全連接模塊(Full Connected Module, FCM),共11個模塊組成。由FCM根據RCM提取的空間信息和運動信息,對視頻動作進行識別分類。RCM的具體結構如圖2所示(圖中:Conv為2D/3D卷積層;BN為批歸一化層;ReLU為激活函數層),MCN的網絡結構如圖3所示。MCN具體參數如表3所示。

圖2 RCM結構

表3 MCN結構詳述

圖3 MCN結構

3 指揮手勢信號識別模型

起重吊裝指揮手勢信號識別模型的建立包括指揮手勢信號數據集構建和模型訓練兩部分。將MCN在指揮手勢信號數據集中訓練后,得到起重吊裝指揮手勢信號識別模型。

3.1 指揮手勢信號數據集

按照國家標準中的規范動作,構建指揮手勢信號數據集。為提高模型的泛化能力,每種指揮手勢信號由多名信號員在不同環境下,以左側45°、正視、右側45°三個角度,以不同速率執行多次。指揮手勢信號數據集如圖4所示。

圖4 指揮手勢信號數據集樣例(部分)

3.2 模型訓練

模型訓練前需要對數據進行預處理操作:(1)對輸入視頻進行抽幀處理;(2)為減少模型參數,且不損失視頻幀中主要空間信息和運動信息,將視頻幀尺寸縮放為h×w=128×171;(3)提高模型的泛化能力和抗干擾性。在不影響動作流暢的前提下,將128×171的圖像在一定波動范圍內隨機裁剪成112×112;(4)考慮到起重吊裝指揮手勢信號的動作持續時間稍長,為保證模型能夠學習到完整的運動信息,將16幀視頻幀組合成一個圖像組,即l=16。

由于MCN采用3D卷積核的網絡,參數量較大,訓練需要大量數據,否則無法發揮網絡的完整性能,同時訓練過程中可能出現過擬合現象。為此,對模型進行遷移學習,在大型基準數據集Kinetics-400上進行預訓練,再將模型在指揮手勢信號數據集上微調,以提高模型在小型數據集上的表現。

訓練過程中,選擇交叉熵函數作為損失函數。選擇隨機梯度下降算法作為梯度優化算法,其中初始學習率為10-3,動量為0.9,權重衰減為5×10-4。為避免出現過擬合或梯度消失問題,訓練過程中添加學習率衰減機制,衰減周期為10,衰減系數為0.9。批處理量為4,訓練周期為60。

4 指揮手勢信號識別 - 確認機制

為了利用起重吊裝指揮手勢識別模型降低因指揮手勢信號不規范、交流視野被遮擋、人員注意力不集中等問題引發安全事故的概率,提高安全管理水平。筆者構建了指揮手勢信號識別 - 確認機制。該機制的框架由作業準備模塊、信號識別模塊、信號確認模塊、數據記錄模塊四部分組成。機制流程如圖5所示。

圖5 起重吊裝指揮手勢信號識別 - 確認機制流程

首先,在起重吊裝作業開始前,駕駛員需對作業環境進行檢查,判斷在自己的視野中信號工的位置和姿態是否清晰可辨。如果難以辨識,需要向現場安全管理人員申請使用視覺輔助工具,在信號工周圍布置監控設備。同時在起重機駕駛艙處布置監控設備,監控視角與駕駛員相同。駕駛員輔以監控畫面觀察信號工的指揮命令。待駕駛員能夠清晰觀察到信號工的姿態及位置后,申請作業開始。

信號員發出吊裝指揮手勢信號,攝像頭實時采集指揮手勢信號視頻圖像,然后利用基于MCN的起重吊裝指揮手勢信號識別模型對指揮手勢信號進行識別,將模型識別的結果與直接觀察的結果進行對比。若結果相同則執行命令,同時保存視頻片段、模型識別結果和操作內容,用于未來事故調查。若結果不同,則說明存在問題,需要保存問題視頻片段,用于后期問題分析:若是模型問題,需要對模型進一步優化;若是指揮手勢信號不規范問題,需要對信號員進行動作糾正指導。

起重吊裝作業環境復雜,操作端與指揮端未必處于同一水平面,有線傳輸視頻數據難以滿足應用需求。操作端與指揮端處于同一連通空間中,操作端與指揮端之間的距離較近,建筑結構對無線信號的干擾較小,采用無線傳輸方式可以滿足起重吊裝作業中視頻圖像實時傳輸的需求。

該機制的設計不會干擾起重機吊裝作業的正常進行,可以輔助駕駛員明確操作指令,糾正信號員不規范的指揮手勢信號動作,對吊裝作業全過程進行視頻監控。若后期發生安全事故,可根據視頻片段、模型識別結果、駕駛員操作內容三部分,進行事故分析和事故追責。明確事故責任,減少由于信號溝通問題引起的安全風險,提高施工現場安全管理水平。

5 案例分析

5.1 構建數據集

選取國家標準中操作開始、正常停止、勻速起升、慢速起升、勻速下降5種指揮手勢信號,再加上無任何指令動作的站立動作,共6種動作種類。構建指揮手勢信號數據集,將數據集按照7∶1∶2的比例,劃分成訓練集(Train)、檢驗集(Val)和測試集(Test),共計1495個視頻數據,各類動作的樣本數滿足均勻分布。數據集劃分情況如表4所示。用以驗證基于MCN的起重吊裝指揮手勢信號識別模型在起重機作業中的適用性。

表4 數據集劃分情況

5.2 模型效果檢驗

MCN的識別性能如表5所示,MCN在測試集上的準確率為97.13%。除“立正動作”外,各手勢信號種類預測結果的準確率均高于96%。各手勢信號種類的召回率均高于95%,其中,對于動作特征顯著的正常停止和操作開始兩種手勢信號的召回率達到了98%以上。MCN的識別效果如圖6所示。

表5 MCN的識別準確率統計 %

圖6 MCN識別效果

MCN與其他3D卷積類網絡的性能對比如表6所示。MCN的參數量為C3D的14.7%,R3D的34.7%,R(2+1)D的36.7%。在硬件條件有限的情況下,MCN在準確率、識別速度和參數上都優于其他3D卷積類網絡。實際識別中,在使用GTX 1650加速條件下,MCN網絡運算速度平均73 ms,平均13.7 fps。在使用RTX 2060 SUPER加速條件下,網絡速度可以達到36.9 ms,實時識別時可達27.1 fps。在不使用GPU加速的情況下,運算速度平均333.3 ms,平均3.0 fps。MCN網絡在硬件條件允許的情況下,基本具有實時識別的能力。

表6 MCN與其他3D卷積類網絡的性能對比情況

6 結 論

本文主要研究結論如下:

(1)基于MCN的起重吊裝指揮手勢信號識別模型在各種環境下均表現出了較好的識別準確率,同時模型參數量少,識別速度快,適用于起重機作業中吊裝指揮手勢信號的實時識別。

(2)指揮手勢信號識別 - 確認機制可有效提高起重吊裝信號的傳遞準確性和穩定性,對不規范的指揮手勢信號動作進行糾正,降低起重機作業過程中因交流問題導致工程安全事故發生的風險。對信號員和駕駛員的行為進行全過程監控,發生安全事故后,可根據視頻片段、模型識別結果、駕駛員操作內容三部分,進行事故分析和事故追責,提高安全管理質量。

(3)文中研究仍存有一些不足,包括識別畫面中若運動物體較多,會對識別準確性造成一定影響;數據集的動作種類有待豐富;指揮端在多場景變換時,需要根據變換程度,人工調整視頻畫面采集角度和距離。未來研究擬搭建更輕量化的模型,對視頻中動作發出者的區域進行抽取,明確識別對象,減少外界噪音對準確度的影響;豐富模型的動作識別種類;指揮端多場景變換視頻時,實現視頻畫面采集角度和距離的自動調整。

猜你喜歡
手勢吊裝卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
半圓形溜尾提升吊蓋吊裝應力分析
卷積神經網絡的分析與設計
挑戰!神秘手勢
從濾波器理解卷積
V字手勢的由來
基于傅里葉域卷積表示的目標跟蹤算法
大跨度懸索橋鋼箱梁吊裝之跨纜吊機吊裝探討
“華龍一號”核電機組穹頂吊裝成功
勝利的手勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合