?

3DCNN人體動作識別中的特征組合優選

2021-03-30 22:21郭志濤曹小青王寶珠高妍
河北工業大學學報 2021年1期
關鍵詞:卷積準確率神經網絡

郭志濤 曹小青 王寶珠 高妍

摘要 為了提高人體動作識別準確率,改進原有3D CNN網絡模型以獲得更為豐富細致的人體動作特征,并通過對比實驗為模型輸入優選出識別效果最好的特征組合。該模型主要包括5個卷積層、3個下采樣層和2個全連接層,二次卷積操作有利于提取到更為細致的特征,BN算法和dropout層用以防止模型過擬合,空間金字塔池化技術可以使網絡能夠處理任何分辨率的圖像,提高模型適用性。通過在KTH和UCF101數據集上做識別測試實驗,特征組合“ViBe二值圖+光流圖+三幀差分圖”作為模型輸入可以得到較高的識別準確率,尤其針對背景較復雜、動作類別多且差異性較小的數據集提高明顯,具有較好的實際應用價值。

關 鍵 詞 深度學習;人體動作識別;三維卷積神經網絡;BN算法;dropout技術;空間金字塔池化

中圖分類號 TP391.41? ? ?文獻標志碼 A

Abstract In order to improve the accuracy of human motion recognition, a new 3D CNN network model is constructed to obtain more detailed human motion features, and the best combination of features is selected through comparative experiments as input of the model. The model consists of five convolution layers, three undersampling layers and two full connection layers. The secondary convolution operation is beneficial to extract more detailed human motion features, BN algorithm and dropout layer are used to prevent model over-fitting. Spatial pyramid pooling technology can enable the network to process any resolution image and improve the applicability of the model. Through the recognition test on KTH and UCF101 data sets, the combination of feature "vibe binary graph + optical flow graph + three frame difference map" as model input can obtain higher recognition accuracy, especially for the data set of complex background, multiple action categories and small differences which has obviously improved and has good practical application value.

Key words deep learning; human motion recognition; three-dimensional convolution neural network; BN algorithm; dropout technology; spatial pyramid pooling

隨著計算機視覺技術的飛速發展,人體動作識別[1]已被廣泛應用于視頻監控、運動輔助分析、家居養老、體感游戲等各個領域,具有十分廣闊的商業前景和可觀的經濟價值。傳統的人工設計特征[2]方法需要研究人員有豐富的經驗,工作量大,魯棒性較差,而逐步興起的深度學習[3-4]可以很好解決這一問題。二維卷積神經網絡[5]雖可以自動學習特征,但只能處理圖像,不能直接處理視頻,損失了運動目標的時間信息。石祥濱等[6]提出一種融合深度特征和時空特征的人體動作識別方法,雖然能夠取得較好的識別準確率,但是特征設計復雜,算法魯棒性較差。Gessert[7]提出了一種結合單幀圖像和光流圖的卷積神經網絡結構,通過3個卷積層、2個下采樣層和1個全連接層實現對人體極限姿態的估計,雖然通過使用CNN網絡可以滿足自動學習特征的需求,但仍無法獲取視頻相鄰幀間的運動信息。Ji[8]首次將時間維引入卷積神經網絡,提出了1個可以直接處理視頻的三維卷積神經網絡模型[9],在數據集KTH上達到90.2%的識別準確率,但是仍存在特征提取不完善的問題,需進一步提高特征學習率。為了更好地獲取運動目標的時空信息,進一步提高模型識別準確率,本文通過多次卷積加池化操作得到更豐富細致的特征信息,并引入BN算法、空間金字塔池化技術和dropout技術優化網絡結構,并在標準行為識別視頻庫上進行特征優選實驗,選出識別率最高的特征組合作為模型輸入,并通過與其他算法比較,驗證該模型的有效性。

1 3D CNN原理結構

卷積神經網絡是人工神經網絡的一種,是一種前饋神經網絡[10],執行有監督的訓練學習。卷積神經網絡是專門針對二維數據設計的多層感知器,對比例縮放、平移操作、傾斜等變化都具有高度不變性。三維卷積神經網絡是在二維卷積神經網絡的基礎上發展而來的,可以直接處理視頻序列,獲得更加豐富細致的人體動作特征,具有更高的識別準確率。

1.1 3D CNN原理

3D CNN的構造原理是在2D CNN的基礎上加入時間維,根據視頻數據的時間連續性和空間局部相關性[11]的特點,以3D卷積和池化操作替代原本的2D卷積和池化操作。

1.2 3D CNN典型結構

學者Ji等[8]首次將時間維引入卷積神經網絡,并使用3D卷積核進行卷積操作,可以提取到連續多幀圖像間的目標運動信息,獲得更加豐富的動作特征,其模型的通道特征輸入為連續7幀圖像的灰度圖、光流圖和梯度圖,最終在KTH數據集上獲得90.2%的識別準確率,其模型結構如圖1所示。該模型與人工設計特征和2D CNN方法相比,有效提高了識別準確率和算法魯棒性,但仍有一定可改進之處。比如該3D CNN模型只利用3D卷積核進行卷積操作,卻仍然使用傳統的二維池化方式進行池化操作,沒有很好地達到降低數據處理量的池化目的;該模型只包含3個卷積層和2個下采樣層,特征學習不夠充分,還需要增加卷積層數提高特征學習率,從而進一步提高人體動作姿態識別準確率。

2 3D CNN模型設計

本文通過分析卷積神經網絡結構的特點及經典3D CNN模型的不足之處,引入多個算法改進原有3D CNN模型進行人體動作識別,并通過優化網絡結構進一步增強模型區分相似動作的能力,提高動作識別準確率。

2.1 改進的3D CNN模型

本文通過分析3D卷積的特點及經典3D CNN模型的不足之處,改進原有3D CNN模型進行人體動作識別,并通過在輸入數據前增加BN算法+ReLU模塊解決數據分布不穩定問題,引入空間金字塔池化技術和dropout方法優化網絡結構,進一步提高動作識別準確率和算法魯棒性。該模型結構如圖2所示。

該3D CNN網絡各層參數設置如表1所示。

本文改進的3D CNN的輸入為連續7幀圖像,得到的feature map構成H1層;第2、3層為連續兩個3D 卷積層C2、C3,分別用64個大小為3×3×3的3D卷積核對上一層的feature map做卷積處理;第4層為三維池化層S4,池化方式為最大值池化,池化尺寸為2×2×2;第5、6層同第2、3層一樣,為兩個連續卷積層C5、C6,3D卷積核的尺寸為3×3×3,數量分別為32個;第7層同第4層一樣,為三維最大值池化層S7,池化尺寸為3×3×3;第8層為卷積層C8,包含32個大小為3×3×3的3D卷積核;第9層為dropout層,為了防止模型出現過擬合,該層將會以設定置零率的比例將卷積層C8與下一層之間的神經元斷開,減少學習參數的數量;第10層為空間金字塔池化層(SPP),通常置于全連接層前,可以處理任意大小的圖像并得到固定長度的特征向量送入全連接層;第11、12層均為全連接層,FC11的256個神經元與SPP層得到的特征向量進行全連接,并輸出包含256個元素的一維特征向量,FC12的128個神經元再與上一層的一維數組全連接,最終經過softmax分類得到動作類別。

2.2 改進3D CNN模型的優勢

1)學者Ji等[8]提出的3D CNN模型只在卷積層使用3D卷積核進行卷積操作,在下采樣層仍然使用傳統的二維池化操作,且一共只包含2個卷積層和2個下采樣層。本文改進的3D CNN模型包含5個卷積層和3個下采樣層,多層卷積可以獲得更細致的動作特征,在下采樣層使用三維池化方式進行池化操作,可以更好地降低特征圖維度,減少數據處理量,提高整個網絡輸出對于位移和形變的魯棒性,從而進一步改善網絡性能。

2)使用BN算法+ReLU。CNN訓練過程中每一層的權重都在改變,只要淺層網絡權值有微小變化,后面層將會累積放大這些變化。為了保證每一層適應其輸入數據的分布,訓練過程不得不使用較小的學習率,盡可能降低代價函數損失值。而這種多層網絡反復學習數據分布的操作將會嚴重影響整個網絡的訓練速度。為了解決數據分布不穩定的問題,本文在兩次3D卷積和三維下采樣組合操作后,各加入1個BN+ReLU模塊,為下一層的輸入數據做批量歸一化處理(歸一化為均值為0,標準差為1),從而加快網絡收斂速率,提高模型學習速度。

3)使用空間金字塔池化技術(SPP)。卷積神經網絡中的卷積層和下采樣層都可以處理任意分辨率的輸入數據,并得到對應尺寸的特征圖,但是全連接層只能接收固定長度的特征向量,因此傳統CNN要求輸入數據必須具有統一維度。為了克服這一限制,提高模型適用性,本文模型在全連接層前加1個SPP層,能將任意大小的特征圖轉換為固定大小的特征向量,因此只需要訓練1個網絡模型就可以識別不同分辨率的輸入圖像。

4)使用dropout技術。在卷積神經網絡的訓練過程中,模型泛化能力強弱是該網絡訓練好壞的重要考量,但是過擬合問題(over-fitting)在深度網絡中普遍存在,尤其是在較復雜的神經網絡中訓練小樣本時,嚴重影響整個網絡模型的泛化能力,降低網絡對未知樣本的學習能力。本文選用dropout方法解決模型訓練過程中的過擬合現象,通過調整卷積神經網絡的自身結構,避免模型對訓練樣本部分局部特征過度依賴,達到防止過擬合的目的。

3 特征優選實驗與分析

為了優選出識別準確率最高的特征組合,并驗證改進3D CNN模型有效性,本文在KTH、Weizmann 和UCF101標準視頻庫上做多組識別測試實驗。3個標準視頻庫的具體屬性如表2所示。

傳統3D CNN的通道數據輸入分別為灰度圖、梯度特征圖、光流特征圖,為了驗證這樣的特征組合是否是最適合的,以及不同特征對模型識別準確度的貢獻大小,本文在3個標準視頻庫上做多組對比實驗,并選擇出該模型輸入的最優特征組合。

3.1 標準視頻庫實驗結果與分析

3.1.1 特征組合“灰度圖+光流圖+梯度圖”

當以傳統特征組合“灰度圖+光流圖+梯度圖”為輸入時,分別對3個標準數據庫進行實驗,得到相應的識別準確率,取KTH和Weizmann數據庫的平均識別率,識別準確率如表3所示。

以KTH和UCF101視頻庫為例,原特征輸入時識別準確率隨著epoch的變化趨勢如圖3所示,其中train-acc曲線為訓練識別準確率,test-acc曲線為測試識別準確率。

3.1.2 特征組合“二值圖+光流圖+梯度圖”

傳統3D CNN以灰度圖為通道輸入,對于樣本數量大、動作種類多,背景較復雜的UCF101數據庫來說,難以提取到較為精確的前景目標。因此本文選用Vibe算法提取到的運動前景二值圖作為卷積神經網絡的輸入數據,達到提高運動輪廓清晰度的目的。其中UCF101數據庫的部分動作及其ViBe算法得到的二值圖如圖4所示。

以二值圖代替灰度圖作為輸入數據,其他通道特征不變,分別對3個標準數據庫進行實驗,得到網絡模型識別準確率如表4所示。

通過與表3對比可發現,以二值圖代替灰度圖作為輸入,其他特征不變,對KTH數據庫和Weizmann 數據庫識別準確率的提升效果不大,只提高了0.3個百分點,但是對UCF101 數據庫的識別準確率有很明顯的改進,從83.1%提高到84.8%,提高了1.7個百分點??梢?,對于背景較復雜,動作較多變的數據庫樣本來說,用二值圖代替灰度圖可以更準確地捕捉運動目標和運動部位,更好地將運動前景輪廓與背景分離開來,提高了獲取運動目標的速度,降低識別誤差,而且還為3D CNN模型消除大量背景噪聲,大大降低了背景數據的處理量。

3.1.3 特征組合“二值圖+光流圖+輪廓特征/運動特征”

本文分別從輪廓特征和運動特征兩個方面選取特征進行組合,以“二值圖+光流圖”為基礎特征,分別與HOG特征圖、累積邊緣圖(AEI)、頻譜特征圖(DCT)及運動歷史圖(MHI)、幀差圖、三幀差分圖組成特征組合,并通過對比實驗找到最優特征組合。在KTH+Weizmann 數據庫上,特征組合的識別準確率分別如表5、表6所示。

將表5、表6與表3對比可知,用輪廓特征對整個網絡模型識別準確率的提高效果并不明顯,最好的HOG特征只提高了0.3個百分點。而運動特征明顯提高了識別準確率,效果最好的三幀差分圖提高了1.2個百分點,原因是包含三幀間的運動信息,能夠更好地體現不同類別動作的差異性,提高區分相似動作的識別準確率。最終,本文模型選用“二值圖+光流圖+三幀差分圖”為最優特征組合作為模型的輸入數據,以KTH和UCF101數據庫為例,本文模型識別準確率隨著epoch的變化趨勢如圖5所示。

通過對比圖5和圖3可知,使用最優特征組合后的網絡模型可以有效提高識別準確率,且對背景較復雜、動作種類較多視頻集的識別準確率有很明顯的提高。而且相較于傳統通道特征,以最優組合特征為輸入數據的模型分類準確率提高較快,即訓練和識別時具有更快的收斂速度,能在較短時間內達到預期的分類精度。以KTH數據庫為例,原特征數據完成30個epoch后,模型識別準確率才達到86.6%,最終識別率為90.1%;而最優特征組合在20個epoch后準確率就可達到89.7%,最終識別率為93.7%。

3.2 自建視頻庫實驗結果與分析

除了在標準視頻庫上進行實驗,本文還在自建視頻庫上做識別測試實驗,進一步驗證本文改進的3D CNN模型在人體動作姿態識別領域的實用性。本文的自建視頻庫共包含360個視頻,6類動作(walking、running、jumping、falling、hand waving、hand clapping),4個不同的場景(室內、室內放大、室外、室外放大),每類動作均由15個不同的人完成,視頻主要差異體現在動作變化、尺度變化和光照變化。且視頻無攝像機運動,背景較簡單,人體動作簡單類別少,類間差異較明顯。自建視頻庫部分動作示例如圖6所示。

當輸入特征組合分別為“灰度圖+光流圖+梯度圖”和“二值圖+光流圖+三幀差分圖”時,本文模型在自建視頻庫上的運動姿態識別準確率如表7所示。

由表7可知,本文改進的3D CNN在以兩個不同的特征組合為輸入時均可以達到較高的識別準確率,且以最優特征組合“二值圖+光流圖+三幀差分圖”為輸入特征比傳統特征組合“灰度圖+光流圖+梯度圖”達到更好的識別效果。由此可見,本文在標準數據庫上通過多次對比實驗選擇出的最優輸入特征組合在實際應用中也具有適用性。

為了驗證本文模型較其他深度學習算法的識別優勢,分別對比不同算法在KTH數據庫和UCF101數據庫上的識別準確率,如表8、表9所示。

4 結語

為了提取到更加豐富的動作特征,提高區分相似動作的能力,本文通過融合BN算法、dropout技術和空間金字塔池化技術,改進原有3D CNN模型進行人體動作識別,并優選特征組合作為模型輸入以提高識別準確率。該模型采用多次卷積加池化操作獲得更為細致的特征信息;通過BN算法、dropout技術和空間金字塔池化技術優化網絡結構,提高網絡收斂速度和算法適用性。本文對模型輸入特征進行優選,實驗結果表明特征組合“ViBe二值圖+光流圖+三幀差分圖”在KTH和UCF101標準視頻庫上取得較高識別準確率,分別為93.7%和90.2%。通過與其他算法對比可見,本文模型取得了較高識別準確率,尤其是針對背景較為復雜、動作種類多的數據集提高明顯,具有較好的實際應用價值。但是深度學習算法計算量大,實時性問題需要進一步考慮,如何通過優化網絡結構,提高運行速度是以后需要著重關注的方向。

參考文獻:

[1]? ? 陳利峰. 舞蹈視頻圖像中人體動作識別技術的研究[J]. 現代電子技術,2017,40(3):51-53,57.

[2]? ? ALKASASSBEH M. An empirical evaluation for the intrusion detection features based on machine learning and feature selection methods[J]. Journal of Theoretical and Applied Information Technology,2017,95(22):5962-5976.

[3]? ? SHEN D G,WU G R,SUK H I. Deep learning in medical image analysis[J]. Annual Review of Biomedical Engineering,2017,19:221-248.

[4]? ? 張慧,王坤峰,王飛躍. 深度學習在目標視覺檢測中的應用進展與展望[J]. 自動化學報,2017,43(8):1289-1305.

[5]? ? 王正來,黃敏,朱啟兵,等. 基于深度卷積神經網絡的運動目標光流檢測方法[J]. 光電工程,2018,45(8):180027.

[6]? ? 石祥濱,李菲,劉翠微. 基于多特征融合的動作識別方法[J]. 沈陽航空航天大學學報,2017,34(2):55-65.

[7]? ? GESSERT N,BERINGHOFF J,OTTE C,et al. Force estimation from OCT volumes using 3D CNNs[J]. International Journal of Computer Assisted Radiology and Surgery,2018,13(7):1073-1082.

[8]? ? JI S W,XU W,YANG M,et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.

[9]? ? ZOU L,ZHENG J N,MIAO C Y,et al. 3D CNN based automatic diagnosis of attention deficit hyperactivity disorder using functional and structural MRI[J]. IEEE Access,2017,5:23626-23636.

[10]? 朱堅民,謝平,黃春燕,等. 基于前饋神經網絡控制的球桿系統位置控制[J]. 控制工程,2017,24(6):1186-1193.

[11]? 夏佳志,張亞偉,張健,等. 一種基于子空間聚類的局部相關性可視分析方法[J]. 計算機輔助設計與圖形學學報,2016,28(11):1855-1862.

[12]? BLENDOWSKI M,HEINRICH M P. Combining MRF-based deformable registration and deep binary 3D-CNN descriptors for large lung motion estimation in COPD patients[J]. International Journal of Computer Assisted Radiology and Surgery,2019,14(1):43-52.

[13]? 劉嘉瑩,張孫杰. 融合視頻時空域運動信息的3D CNN人體行為識別[J]. 電子測量技術,2018,41(7):43-49.

[14]? CAMARENA-MARTINEZ D,VALTIERRA-RODRIGUEZ M,PEREZ-RAMIREZ C A,et al. Novel downsampling empirical mode decomposition approach for power quality analysis[J]. IEEE Transactions on Industrial Electronics,2016,63(4):2369-2378.

[15]? ZHAO J F,MAO X,ZHANG J. Learning deep facial expression features from image and optical flow sequences using 3D CNN[J]. The Visual Computer,2018,34(10):1461-1475.

猜你喜歡
卷積準確率神經網絡
基于人工智能LSTM循環神經網絡的學習成績預測
基于圖像處理與卷積神經網絡的零件識別
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
基于全卷積神經網絡的變壓器故障診斷
基于深度卷積網絡與空洞卷積融合的人群計數
基于自適應神經網絡的電網穩定性預測
三次樣條和二次刪除相輔助的WASD神經網絡與日本人口預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合