?

基于骨骼關鍵點的散打動作識別與評價方法

2023-12-28 02:51張冰冰趙柏山
微處理機 2023年6期
關鍵詞:關鍵點骨骼殘差

張冰冰,趙柏山

(沈陽工業大學信息科學與工程學院,沈陽 110870)

1 引 言

人工智能的快速發展促進了人體動作識別技術的研究,該技術在智能家居、智能安防、運動分析等領域中得到廣泛應用。在運動分析領域,將人體動作識別技術與散打動作結合,可以實現散打動作識別,再通過比較相似度,可以實現輔助打分效果。目前有兩種主要的人體動作識別方法,一種是使用可穿戴設備獲取人體運動參數識別人體動作[1],此方法依賴硬件設備,而且成本較高;另一種是通過雙流法[2]或三維卷積法[3]識別人體動作,但識別效果容易受到環境影響。為了解決現有研究中存在的問題,從骨骼信息的角度出發,使用改進YOLOv5s-CBAM 目標檢測模型進行人體目標檢測,在此基礎上使用改進的HRNet-DSC-CBAM 人體姿態估計模型提取人體骨骼關鍵點坐標,可以減少背景干擾,然后將骨骼信息構造成骨架時空圖輸入ST-GCN 動作識別算法進行散打動作識別[4],將骨骼關鍵點坐標轉換為關節角度特征,通過DTW 動態時間規整算法[5]進行動作評價。

2 實驗數據

實驗使用自制散打數據集,選取散打中的10 式動作進行視頻拍攝,分別是前直拳、后直拳、前擺拳、后擺拳、前正蹬腿、后正蹬腿、前鞭腿、后鞭腿、前側踹踢、后側踹踢。為提高網絡的識別效率及精度,采用基于視頻聚類的方法進行關鍵幀提取與雙邊濾波的方法進行圖像去噪。

3 網絡設計及實驗分析

3.1 YOLOv5s-CBAM 目標檢測網絡

CBAM 卷積注意力機制模塊[6]可以從特征圖中提取或學習出特征的權重,再將權重進行重新分配以抑制無效特征增強有效特征。CBAM 模塊包括通道注意力模塊和空間注意力模塊,如圖1 所示。

將通道注意力模塊所得的通道關注度與輸入特征圖F 相乘,可以將通道權重進行再分配,得到新的通道特征圖F'。將空間注意力模塊所得的空間關注度與輸入特征圖F'相乘,得到最終生成的特征圖F''。

在目標檢測任務中,為了對目標進行更加精準的檢測,需要對目標的關鍵特征信息進行重點關注,因此此處將CBAM 模塊添加到目標檢測算法YOLOv5s 的網絡結構中,將更多注意力資源置于目標的關鍵區域[7]。在YOLOv5s 網絡模型中,共有三個尺度的輸出,針對目標尺寸差異可以生成不同尺度預測框。為了不使模型參數量大幅度增加,并且不使網絡推理速度變慢,CBAM 模塊不可放置過多;同時由于淺層提取不到充分的特征信息,無法對關鍵位置和通道信息進行關注,因此CBAM 模塊不可以放置在網絡淺層部分。綜上考慮,將CBAM 模塊加在YOLOv5s 每個檢測尺度前,不僅可以幫助模型更充分地提取特征,提高檢測準確性,而且由于添加數量較少,網絡推理速度也不會受到較大影響。改進后的YOLOv5s-CBAM 網絡結構如圖2 所示。

圖2 YOLOv5s-CBAM 網絡結構

將改進后的YOLOv5s-CBAM 網絡與其他網絡進行性能對比實驗,實驗結果如表1 所示。

可以看出,YOLOv5s-CBAM 網絡模型的MAP值比YOLOv5s、SSD 模型分別提高了1.1%、6.5%,模型權重比YOLOv5s 模型增加了1.75 MB,比SSD 模型減少了19.15MB。

這表明,YOLOv5s-CBAM 網絡模型在小幅度增加模型權重的情況下優化了對于目標物體的搜索能力,帶來較大幅度的MAP 值增加,可以更準確地對散打人員進行目標檢測。

3.2 HRNet-DSC-CBAM 骨骼關鍵點檢測網絡

DSC 深度可分離卷積[8]將標準卷積拆分成深度卷積與點卷積。DSC 卷積與標準卷積的參數量與計算量比值分別如下式所示:

由于DSC 卷積的卷積核通常為3×3,且輸出通道數N 很大,DSC 卷積的參數量與計算量約為標準卷積的1/9,因此利用DSC 卷積可提高模型訓練和運行的速度。

在骨骼關鍵點檢測任務中,人體姿態估計算法HRNet[9]的殘差模塊使用標準卷積,存在參數量與計算量較大的問題,在網絡層數較深時效果不佳。因此,此處以DSC 卷積和CBAM 模塊構成的輕型殘差模塊替換原網絡殘差模塊,兼顧檢測準確率的同時大幅度降低參數量與計算量。改進后的輕型殘差模塊如圖3 所示。

圖3 改進后的輕型殘差模塊

同樣,將改進后的輕型殘差模塊與其他模塊進行性能對比實驗,實驗結果如表2 所示。

表2 LCD 屏幕位置顯示實例

由表2 可以看出,HRNet-DSC-CBAM 網絡模型的AP 值相較于HRNet、AlphaPose 模型分別提高了0.8%、4.3%,參數量分別降低了9.0M、8.3M,計算量分別降低了8.4、16.1。這表明,HRNet-DSC-CBAM網絡模型的輕型殘差模塊能夠在大幅度減少網絡參數量與計算量的同時保持骨骼關鍵點檢測準確性不會下降,從而能夠更準確更快速地檢測散打人員的骨骼關鍵點信息。

4 動作識別及評價

4.1 動作識別

將由上述改進網絡處理過的骨骼數據構造成骨架時空圖,輸入ST-GCN 網絡模型以實現散打動作識別。首先對輸入數據進行批量規范化處理,然后經過9 個ST-GCN 單元,每個單元都進行特征殘差融合,使得模型的學習能力有所增強,最后經過池化層、全連接層把數據轉化為256 維向量,將其送入softmax 分類器進行分類。

在自制散打數據集上分別對C3D、LSTM 和ST-GCN 算法進行網絡訓練測試,實驗結果如表3所示。

表3 動作識別網絡模型性能比較

可以看出,ST-GCN 算法的準確率相比LSTM、C3D 算法分別提升了4.6%、22.1%,表明了ST-GCN算法的高效性,在散打動作識別分類任務上有著優異的效果。散打動作識別結果如圖4 所示,圖中所顯示的字母a 代表前擺拳。

圖4 散打動作識別結果

4.2 動作評價

首先將骨骼坐標轉換成關節角度信息,選取左肩、左肘、右肩、右肘、左膝、左胯、右膝、右胯8 個關節點,利用余弦定理進行關節角度計算,如下式:

其次,由DTW 計算待測樣本和模板樣本8 個關節角度的DTW 距離。假設有測試序列B=(B1,B2,…,Bi,…,Bm),模板序列D=(D1,D2,…,Dj,…,Dn),其中Bi代表第i 幀的特征向量;Dj代表第j 幀的特征向量。若m 與n 相等,直接對兩個動作序列計算累加距離。當m 與n 不等,則采用DTW 算法使兩個動作序列對齊,具體做法是將兩個序列構造成m×n的矩陣,矩陣中的元素(i,j)表示兩個動作序列對應點Bi與Dj間的距離d(Bi,Dj),如下式:

式中,Biw與Djw分別表示動作序列B 和D 的第i 幀和第j 幀的特征值;N 表示動作序列維度。

兩個序列間的最佳匹配路徑定義為規整路徑,用W 表示,如圖5 所示。

圖5 規整路徑示意圖

它有3 個約束條件,條件滿足后每個格點路徑剩下3 個方向,如果路徑通過了格點(i,j),則下一步通過的格點只能是(i+1,j)、(i,j+1)、(i+1,j+1)其中之一。為得到最佳規整路徑,定義累加距離,如下式:

選擇數據集中的前擺拳作為評價對象,選取20個樣本作為測試序列,采用DTW 算法計算測試序列與標準序列的DTW 距離,作為相似性評估的指標。實驗部分結果如圖6 所示。

圖6 左肩關節角度的DTW 距離分布

從圖6 中可以看出,左肩關節角度的DTW 距離大部分分布在630°到1200°之間,少部分分布在1200°到1300°之間。舍棄少部分值,對8 個關節點的實驗數據進行分析,定義前擺拳評價方法,如下式:

式中,ea是單個角度特征的得分;ec是單個角度分配的分數,共有8 個關節角度,因此令ec取值為12.5,使得滿分達到100 分;d1是DTW 距離值;dmin是DTW 距離有效區間內的最小值;fc是損失參數。

最后,即可用E 代表8 個關節角度得分的總和:

5 結束語

本研究通過YOLOv5s-CBAM 進行人體目標檢測,基于目標檢測結果利用HRNet-DSC-CBAM 進行人體骨骼關鍵點檢測,將得到的骨骼關鍵點坐標構造為骨架時空圖輸入ST-GCN 網絡實現散打動作識別。其對自制數據集識別率達到92.8%。利用關節角度的DTW 距離也實現了對動作評價公式的定義。實驗結果表明方法具有有效性,對于輔助打分這一專業領域具有一定的實用價值。

猜你喜歡
關鍵點骨骼殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
聚焦金屬關鍵點
做家務的女性骨骼更強壯
肉兔育肥抓好七個關鍵點
三減三健全民行動——健康骨骼
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
骨骼和肌肉
平穩自相關過程的殘差累積和控制圖
醫聯體要把握三個關鍵點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合