基于三維卷積與雙向LSTM的行為識別研究

2019-08-12 02:35王毅馬翠紅毛志強

現代電子技術 2019年14期

關鍵詞：計算機視覺

王毅馬翠紅毛志強

關鍵詞：行為識別; 三維卷積; 雙向LSTM; 雙中心loss; 聯合訓練; 計算機視覺

中圖分類號： TN915.07?34; TP391 ? ? ? ? ? ? ? ? 文獻標識碼： A ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2019）14?0078?05

Research on action recognition based on 3D convolution and bidirectional LSTM

WANG Yi， MA Cuihong， MAO Zhiqiang

（College of Electrical Engineering， North China University of Science and Technology， Tangshan 063210， China）

Abstract： Accurately identifying the content in video is the direction of future Internet application and development. The behavior recognition in video is the research focus in the field of computer vision. In order to make full use of the information in video and improve the accuracy of action recognition， an action recognition algorithm based on 3D convolution and bidirectional LSTM is proposed in this paper. Specifically speaking， a spatial attention module based on three?dimensional convolution is proposed， which can focus on the salient features of the spatial region. In order to better handle long?time video， a new time?based module based on bidirectional LSTM （long?and short?term memory network） is introduced， which aims to focus on key video instead of the key video frame of a given video， adopts double?center Loss （calculation loss function） to optimize network for joint training in two?stage strategies， and enables it to simultaneously explore spatial and temporal correlation. The results of the tests with the HMDB?51 and UCF?101 data sets prove that this method can accurately identify similar actions in video， the accuracy of action recognition is greatly improved， and the recognition effect is remarkable.

Keywords： behavior recognition; 3D convolution; bidirectional LSTM; double center loss; joint training; computer vision

0 ?引 ?言

對神經學和人類認知的研究表明，人類在觀察世界時，注意的并不是整個環境，而是注意環境的顯著部分和一系列的關鍵時間信息。這種機制促使本文設計一種適用于現實行為的識別模型。

現有的視頻人體行為識別方法有兩方面的不足。

1）多數基于空間注意的方法，受LSTM的輸入形狀限制，這些方法將相應的特征圖拉伸成連續的矢量序列，這顯然忽略了空間相鄰區域的關系。

2）多數基于時間注意的方法，更注意每個幀的重要性。忽略相鄰幀之間具有的相關性，使得時間注意模型為每個幀分配相似或相等的注意值。研究表明，8幀長的視頻剪輯足以讓人類識別正在發生的動作。為了克服這兩方面的不足，本文設計一個空間注意模型，可以結合相鄰空間相關的信息，同時設計一個時間注意模型，可以在視頻剪輯之間分配不同的注意值，沒有任何額外的時間正則化。

本文提出一種新的基于三維卷積與雙向LSTM的時空注意模型?？臻g域信息可以通過精心設計的3D卷積模塊以弱監督的方式獲得，其中本文沒有給出任何幀級語義標注而是給出視頻級動作標簽。通過雙向LSTM獲得重要的時間域信息，然后采用雙中心loss優化網絡對兩階段策略聯合訓練。在沒有任何額外的空間或時間正則化的情況下，模型完全可以實現端到端訓練。

1 ?空間注意模型

本文設計3D卷積網絡顯示出包含的語義信息和特征映射，所提出的空間注意模型僅包含3D卷積和逐元素操作，所以訓練此網絡是有效的。在弱監督的情況下，本文獲得視頻級別標簽?？臻g注意模型可以被視為3D殘差塊，該模型的主要優點是它由幾個分離的時空分支組成，因此對環境變化更具魯棒性。此外，該模型具有將輸入層連接到輸出層的標識分支，確保了學習的特征與原始輸入相當。

對于每個視頻序列V，本文首先將其拆分為8幀視頻剪輯，將其中間級別的特征圖表示為[V，X=X1，X2，…，Xt，Xi∈Rw×h×d，i=1，2，…，t。]其中[w]，[h]，[d]分別是特征映射的寬度、高度和通道號。本文使用ResNet3D[1]的架構，[w=h=28，][d=128]，所以[Xi∈R28×28×128]。時間范圍內的幀可能會有所不同，因此使用8幀短視頻剪輯探索空間信息。

本文提出的空間注意模塊如圖1所示。首先建立空間卷積（2D）分支以獲得空間注意力引導，考慮到短視頻片段中的時間相干性，本文還構建了額外的時間卷積（1D）分支。這兩個分支可以表示為：

[Si=Xi?Ws+BsTi=Xi?Wt+Bt] ? ? ? ? ? ? （1）

式中：[Ws∈R3×3×1]，[Wt∈R1×1×3]是3D卷積的參數;[Bs]和[Bt]是卷積偏差;[Si]和[Ti]是兩個分支對應的輸出。這兩個分支首先被整合為空間?時間單元，然后通過softmax激活進行處理，以獲得由其定義的空間注意門：

[Gi=δ（Si+Ti）] ? ? ? ? ? ? ? ? ? （2）

相應的門輸出重新激活：

[O′i=vGi⊙Xi] ? ? ? ? ? ? ?（3）

式中，⊙表示逐元素相乘。

此外，本文還應用了一個雙層全連接分支，表示為：

[Ai=δXi?W1+B1?W3+B3] ? ? ?（4）

式中：[Wj∈Rj×j×j和Bj（j=1，3）]是學習參數;[Ai]是加法輸出，最終的輸出為：

[Oi=vO′i⊙Ai] ? ? ? ? ? ? ?（5）

在實驗中，為了更好地保存前一層信息，輸出被重新表述為：

[Fi=Oi+Xi] ? ? ? ? ? ? ? ?（6）

這里受ResNet的啟發，最終將卷積核數設為512。經過平均池化后，空間注意網絡的最終輸出大小為[R1×1×512]。

2 ?時間注意模型

本文將視頻分成短視頻剪輯而不是視頻幀，并在剪輯級別分配比重。本文應用多層LSTM進行序列分類，即動作識別。所提出的時間注意模型與現有模型完全不同，因為本文的時間注意模型是在視頻剪輯級別操作，而其他模型是基于幀級別操作。

空間注意網絡輸出的大小為[R1×1×512]，這是時間注意模型的輸入，然后本文將空間注意特征向量重新表示為[Xi∈R512，i=1，2，…，t]。本文的目標是測試視頻序列中每個特征向量的比重。通常，由于空間注意力與空間相鄰區域相關，因此時間特征不僅與當前視頻剪輯相關，而且與鄰近的過去和未來視頻剪輯相關?；诖思僭O，本文使用雙向LSTM構建時間注意模型。雙向LSTM和基本LSTM之間的一個主要區別在于隱藏狀態，在雙向LSTM（見圖2）中，在每一個時間[t]有兩個隱藏狀態，稱為前向隱藏狀態[ht]和滯后的隱藏狀態[ht]。集成隱藏狀態為：

[ht=htoht] ? ? ? ? ? ? ? （7）

式中，“o”表示合并操作。然后獲得時間特征：

[βt=σwTht+b] ? ? ? ? ? （8）

通過softmax激活獲得歸一化，得：

[βt=δwTtβt] ? ? ? ? ? ? ?（9）

3 ?兩階段策略聯合訓練

本文采用雙中心loss（計算損失函數）優化網絡對兩階段策略聯合訓練。網絡反向傳播過程中是通過計算損失函數完成的，在大多數的模型中一般是利用softmax的損失函數，傳統的softmax?loss為：

[Lj=-i=1mlogeWTyixi+byij=1neWTjxi+bj] ? ? ? ? ?（10）

式中：[xi]表示第[i]個特征向量;[yi]表示類別標簽;[n]為類別數;[m]表示小批量大小;[W]表示權重;[b]為偏置項。

Wang等設計了中心softmax?loss函數用于人臉識別任務，將特征空間中的每一個類別都保持一個類中心C，如圖3a）所示[2]。具體而言，中心loss同時學習每個類別的深層特征的中心C，并懲罰深層特征與其相應的類別中心之間的距離，從而能夠減小類內距離并擴大類間距離。文中loss函數包含softmax?loss和中心loss兩部分，其中心softmax?loss的計算公式為：

[Lc=12i=1mxi-cyi22L=Lj+λLc] ? ? ? ? ? ? （11）

式中：[xi]表示第[i]樣本特征向量;[cyi]表示該樣本所屬類別的特征值中心;[Lc]表示中心loss計算公式;[Lj]為softmax函數的loss;[λ]為兩者所占比重。

本文在中心loss的基礎上設計了雙中心loss，見圖3b）。雙中心loss分別維護空間特征中心[CAS]和時間特征中心[CLT]，兩者按一定權重系數[WAS]和[WLT]融合形成質心[Ci]。本文采用線性加權方式確定權重系數[WAS]和[WLT]，使質心[Ci]在[CAS]和[CLT]的連線之間，從而能夠保證質心[Ci]同時離兩者之間距離最近。公式如下：

[L=Lj+WASLCAS+WLTLCLT] ? ? ? ? （12）

式中：[WAS]和[WLT]為雙中心loss的權值系數;[LCAS]表示ASM特征中心loss;[LCLT]表示LTM特征中心loss。

為了防止目標函數過擬合，可以在2C?softmax的loss中加入正則項。在網絡結構中，融合特征（Fusion Features）單元對整個行為識別過程具有巨大的影響，所以將加入融合特征單元權值的二范數作為正則項，公式如下：

[LF=12i=1mWFi22] ? ? ? ? ? ? ?（13）

式中：[m]為小批量的大小;[WFi]為第[i]個特征樣本的權值;[F]表示融合特征單元個數。那么式（12）可以改寫為：

[L=Lj+WASLCAS+WLTLCLT+αLF] ? ? ?（14）

式中，[α]為正則項系數。

4 ?實驗數據集

本節對所提出的算法測試了兩個標準動作識別的數據集：UCF?101和 HMDB?51，與最先進的其他算法相比，例如C3D和雙流網絡等[3]。

UCF?101是具有挑戰性的動作識別數據集，在視點、比例、背景、照明、相機運動和持續時間方面有很大變化。由13 320個視頻組成，分為101個類別。HMDB?51是更具挑戰性的動作識別數據集，有6 849個視頻，分為51個類。視頻是從電影和YouTube中提取，因此HMDB?51更具挑戰性。

5 ?實驗平臺搭建

對每個視頻，本文使用OpenCV[4]提取幀，而不更改其原始幀速率，將每個視頻分成8幀視頻剪輯并提取其空間信息?？臻g注意網絡基于ResNet3D，本文將卷積塊表示為Conv，將特征塊表示為Identity，然后ResNet3D的體系結構可以表示為Conv1（64）?Conv2a（64） ?Identity2b（64）?Conv3a（128）?Identity3b（128）?Conv4a（256）?Identity4b（256）?Conv5a（512）?Identity5b（512）?pool?fc（c），括號中的數字表示內核的數量。本文的空間注意網絡可以表示為Conv1（64） ?Conv2a（64）?Identity2b（64）?Conv3a（128）?SA（128）?Conv4a（256）?Identity4b（256）?Conv5a（512）?Identity5b（512）?pool ?reshape（512），其中SA表示空間注意塊。時間注意網絡由具有512個隱藏節點的單層雙向LSTM組成。

本實驗網絡是在深度學習框架caffe[5]平臺上構建的。對于空間注意網絡，采用具有學習率的隨機梯度下降法（SGD），[lr=0.001];對于時間注意網絡，使用具有學習率的均方根誤差法（RMSprop），[lr=0.001]?？臻g注意模型的最大迭代次數為30 000次，而時間注意模型在10次迭代后停止。

5.1 ?空間注意模型分析

本節分析所提出的空間注意模型的有效性。在UCF?101和HMDB?51數據集上對幾種先進的算法進行比較。結果如表1所示。第一組方法，例如 DynamicImage[6]，MotionImage和TemporalNet，運用2D卷積網絡，這些方法對于靜態圖像是可行的，但對圖像序列的損失太大。第二組方法，比較C3D，ResNet3D和本文的空間注意網絡，證明3D卷積網絡[7]對視頻數據的處理效果更優。

5.2 ?時間注意模型分析

本節分析時間注意模型的可行性。表2表明了有無時間關注注意的結果（wiTA和woTA）。通常，時間注意模型可以通過最大池化、平均池化或串聯來合并。本文列出了這三種策略中的最佳結果。

在三個數據集上進行測試，表明本文提出的時間注意模塊提高了測試精度，而且時間注意模型的全連接網絡（FC）優于復合網絡（MoE）和LSTM。

為了驗證本文算法提出的雙中心loss對網絡模型的作用，對比不同的loss設計方案對網絡的影響。實驗結果表明，單一地采用雙中心loss對行為識別影響效果不大，但加入融合單元的正則項后，識別的準確率得到明顯提高。不同loss方案對網絡的影響如表3所示。

5.3 ?與其他方法進行比較

本節驗證了所提出的基于三維卷積與雙向LSTM的網絡在幾個數據集上與其他方法相比的有效性。表4顯示了在HMDB?51和UCF?101數據集測試的結果。

對于HMDB?51和UCF?101數據集，雙流是最先進的方法。它利用幀級和光流級信息作為輸入，所以主要是多模態模型。另外，將長視頻幀壓縮為短視頻幀或單視頻幀表示的缺點是缺乏區分幀與序列的時間信息。盡管光流表示視頻序列，但它需要更高的預計算，將這些單幀與隨機選擇幀相結合也可以提高它們的性能。通過測試結果比較，本文提出的模型得出了最優的結果。

6 ?結 ?論

本文提出的基于三維卷積與雙向LSTM的識別模型，用于視頻中的人體行為識別。在該模型中，空間注意網絡利用視頻幀的顯著區域，并且時間注意網絡致力于探索多個視頻剪輯的比重分配?？臻g注意模型建立在三維卷積上，時間注意模型是基于雙向LSTM，然后采用雙中心loss優化網絡對兩個階段策略聯合訓練。結果表明，該網絡對于人類行為識別是有效且有前景的。在未來的工作中，將考慮用魯棒特征表示的稀疏張量和張量正則化方法。這些方法可以用于目標檢測、背景減除和動作識別。此外，由于視頻幀本身包含豐富的時間信息，未來的工作是用無人監督的方式實現更強大的視頻識別。

注：本文通訊作者為馬翠紅。

參考文獻

[1] JI S W， XU W， YANG M， et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221?231.

[2] WANG L， XIONG Y， WANG Z， et al. Towards good practices for very deep two?stream ConvNets [J]. Computer science， 2015（7）： 1?5.

[3] 秦陽，莫凌飛，郭文科，等.3D CNNs與LSTMs 在行為識別中的組合及其應用[J].測控技術，2017，36（2）：28?32.

QIN Yang， MO Lingfei， GUO Wenke， et al. Combination of 3D CNNs and LSTMs and its application in activity recognition [J]. Measurement and control technology， 2017， 36（2）： 28?32.

[4] 黎松，平西建，丁益洪.開放源代碼的計算機視覺類庫OpenCV的應用[J].計算機應用與軟件，2018，22（8）：134?136.

LI Song， PING Xijian， DING Yihong. Open source computer vision library OpenCV applications [J]. Computer applications and software， 2018， 22（8）： 134?136.

[5] TRAN D， BOURDEV L， FERGUS R， et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos： IEEE Computer Society Press， 2015： 4489?4497

[6] PENG X J， ZOU C Q， QIAO Y， et al. Action recognition with stacked fisher vectors [C]// Proceedings of the European Conference on Computer Vision. Heidelberg： Springer， 2014， 8693： 581?595.

[7] SUN L， JIA K， YEUNG D， et al. Human action recognition using factorized spatio?temporal convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos： IEEE Computer Society Press， 2015： 4597?4605

[8] Simonyan K， Zisserman A. Two?stream convolutional networksfor action recognition in videos [C]// Proceedings of the Advances in Neural Information Processing Systems. Cambridge： MIT Press， 2014： 568?576

[9] WANG P， CAO Y， SHEN C， et al. Temporal pyramid pooling based convolutional neural networks for action recognition [J]. IEEE transactions on multimedia， 2017， 27（12）： 2613?2622.

[10] WANG H， SCHMID C. Action recognition with improved trajectories [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos： IEEE Computer Society Press， 2013： 3551?3558.

[11] Idress H， Zamir A， Jiang Y G， et al. The THUMOS challenge on action recognition for videos "in the wild" [J]. Computer Vision and Image Understanding， 2017， 155： 1?23.

[12] Kuehne H， Jhuang H， Garrote E， et al. HMDB： a large video database for human motion recognition [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos： IEEE Computer Society Press， 2011： 2556?2563.