?

基于改進雙流時空網絡的人體行為識別

2021-03-25 12:23張紅穎
光學精密工程 2021年2期
關鍵詞:雙流信息流時空

張紅穎,安 征

(中國民航大學電子信息與自動化學院,天津300300)

1 引 言

人體行為識別作為視頻理解的關鍵部分,一直以來都是計算機視覺領域的研究熱點,在視頻監控、虛擬現實、智能人機界面和社交視頻推薦等領域有很高的應用價值[1-3],由于現實場景中存在著復雜背景、對象的外觀差異和不同類別行為的相似性等問題,使行為識別仍然是一個具有挑戰性的課題[4]。

視頻行為識別主要可以分為基于手工設計特征的方法[5]和基于深度學習的方法[6],而后者展現出了更好的性能,其中雙流卷積網絡[7-9]的方法能夠有效地在視頻中提取表觀信息和運動信息,在行為識別任務中取得了較好的識別效果,但是仍存在難以有效利用視頻中的時空信息的問題。為此,研究學者們提出了多種改進方法,在網絡輸入方面,Bilen等[10]在保留次序信息的條件下將視頻序列壓縮為動態圖,將其作為深度網絡的輸入,從而提取視頻中的時序信息,但是動態圖的生成帶來了復雜的計算過程;在網絡結構方面,Feichtenhofer等[11]等使用殘差網絡構建雙流網絡模型,并提出在兩個卷積流之間加入短連接,以增強雙流網絡間的信息交互;在網絡融合方面,文獻[12]在隱藏層中間對兩個網絡融合,使網絡學習時間域特征和空間域特征的像素間關系,并提出了多種融合方式。雖然以上三個方面的改進能夠使雙流網絡更好的利用視頻中的時空間信息,提高了行為識別準確率,但是仍存在著無法捕捉視頻序列中時序關系的問題。此外,基于三維卷積神經網絡的方法[13]在人體行為識別中也有不俗的表現,但參數和計算量會大大增加。因此,Lin等[14]提出了一種時間移位思想(Temporal Shift Module,TSM),使用二維卷積神經網絡提取視頻中的時序信息,但降低了網絡的空間特征學習能力。

綜合上述分析,本文提出了一種基于改進雙流時空網絡的人體行為識別算法。受時間移位思想的啟發,構建了一個包含時空表觀信息流和時空運動信息流的雙流網絡結構,提取包含時序關系信息的行為表觀特征和運動特征,從而提高對時序依賴較大行為識別的辨識能力。然而由于時間移位模塊的加入使網絡的空間特征學習能力下降,為解決此問題,將卷積注意力機制[15]加入到卷積神經網絡,通過在通道和空間上將學習到的注意力特征圖與網絡中生成的特征圖進行加權,加大對局部細節信息的關注,從而提高網絡的特征學習和表達能力,最后對兩個流的輸出類別得分進行加權平均融合,得到最終的識別結果。

2 本文算法

2.1 整體架構

本文提出的基于改進雙流時空網絡(Improved Two-stream Spatiotemporal Convolutional Neural Network,ITS-CNN)的人體行為識別算法的整體結構如圖1所示,分為視頻分段隨機采樣、改進雙流時空網絡和雙流融合三部分。首先對輸入視頻進行分段隨機采樣,然后將采樣得到的RGB視頻幀和一組光流圖像(x方向和y方向)送入改進雙流時空網絡,得到視頻在時空表觀信息 流(Spatiotemporal Apparent Information Flow,SAI-flow)和時空運動信息流(Spatiotemporal Motion Information Flow,SMI-flow)上的初始類別得分,最后采用加權平均的方式對初始類別得分進行融合,經過Softmax得到最終的識別結果。

2.2 視頻分段隨機采樣與網絡融合

現有雙流網絡的方法在短時行為的識別中取得了較好的效果,但是由于只能從單張RGB視頻幀(空間流)和堆疊光流圖像(時間流)中學習表觀特征和運動特征,因此在對時間跨度較長的行為識別過程中會丟失部分重要信息,導致學習到的特征不能準確的代表整個行為,從而對長時行為難以準確識別。為此采用視頻分段隨機采樣策略,實現對整段行為視頻的有效學習,同時稀疏采樣的方式減少了視頻中的冗余信息。具體地,將輸入視頻分成時間長度相等的K段{S1,S2,···,SK},然后對片段序列按如下方式進行建模:

其中:使用下標α和β區分時空表觀信息流和時空運動信息流。Ti表示從對應的視頻片段Si(i=1,2,···,K)中隨機采樣得到的片段序列,Tαi為視頻幀,Tβi為光流圖像;Pα和Pβ為計算Tαi和Tβi屬于每個類別得分的函數,Wα和Wβ為時空表觀信息流和時空運動信息流的網絡參數;g是一個融合函數,對所有Ti屬于同一類別的得分取平均值;Hα和Hβ分別為時空表觀信息流和時空運動信息流的類別得分;λ和μ為雙流融合比例系數;δ為Softmax函數,用于預測整段視頻屬于每個行為類別的概率,將概率最高的類別判斷為該視頻的所屬行為。

此外,K段(文中將K取為3)之間的網絡參數共享,結合標準交叉熵損失,最終的損失函數為:

其中:C為行為類 別個數,H=g(P(T1;W),P(T2;W),···,P(Tk;W)),yi為第i類行為的真實標簽,Hi為第i類行為的分類得分。文中改進雙流網絡的學習是一個非端到端的過程,即分別對兩個網絡進行訓練及測試,再對兩個網絡進行融合。

結合標準反向傳播算法,利用多個片段來聯合優化網絡參數W,在反向傳播過程中,網絡參數W相對于損失值L的梯度可以表示為:

2.3 改進雙流時空網絡

2.3.1 時間移位模塊

視頻流的飛速增長給視頻理解帶來了巨大挑戰,處理海量的視頻就要求以較低計算成本實現較高的精度。目前三維卷積在提取時空特征時具有良好的性能,但是由于計算密集,使得其部署成本昂貴。為此,Lin提出了一種具有高效率和高性能的時間移位模塊(Temporal Shift Module,TSM)[14],它能夠以二維卷積的復雜性實現類似于三維卷積的性能。

圖1 本文算法整體流程圖Fig.1 Overall structure of algorithm in this paper

時間移位模塊將卷積過程解耦為兩個步驟:分別為數據移動(shift)和乘累加(multiply-accurate)。其中卷積運算操作Y=Conv(W,X)可以表示為:Y=ω1Xi-1+ω2Xi+ω3Xi+1,卷積權重W=(ω1,ω2,ω3),輸入X是一個不定長度的一維向量。如圖2所示,在時間維度上對部分通道進行-1,0,+1的數據移動,使來自相鄰幀的信息在移動后與當前幀的信息混合,從而實現對視頻的時序建模,在形式上可以表示為X-1i=Xi-1,X0i=Xi,X+1i=Xi+1;再分別乘以權重(ω1,ω2,ω3),得到Y=ω1X-1+ω2X0+ω3X+1。第一步shift可以在沒有任何乘法的情況下進行,但是第二步乘累加的計算成本較高,為了不添加額外參數和計算成本,TSM將multiply-accurate合并到卷積神經網絡中,因此不會添加額外的計算量。

圖2 時間移位操作Fig.2 Temporal shift module operation

一個視頻模型中的特征映射可以表示為:A∈RN×C×T×H×W,其中N為批量大小,C為通道數,T是時間維度,H和W為空間分辨率。二維卷積在時間維度T上單獨工作,各通道的信息獨立存在,因此不具有時序建模能力。為此,本文引入TSM[14]模塊,通過沿著時間維度T向前和向后移動部分通道,使來自相鄰片段序列的圖像(在時空表觀信息流中為RGB視頻幀,在時空運動信息流中為光流圖像)的通道信息混合,實現對視頻時序關系的建模,從而提取包含時序信息的行為表觀特征和運動特征。

2.3.2 卷積注意力模塊

為了解決時間移位帶來的空間特征學習能力下降的問題,本文引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[15],通過在通道和空間維度應用通道注意力和空間注意力使網絡學習到視頻圖像中關鍵的局部細節信息,從而增強網絡的特征學習與表達能力。

CBAM的結構如圖3所示,給定一個中間特征映射F∈RC×H×W作為輸入,依次輸入一維通道注意力映射Mc∈RC×1×1和二維空間注意力映射Ms∈R1×H×W,總體注意力的計算過程可以概括為:

其中:?表示元素乘法,在乘法期間,注意力值相應地被廣播,通道注意值沿著空間維度廣播,空間注意值沿著通道維度廣播,F″是最終的精確輸出。

通道注意力模塊使用全局最大和平均池化,聚合特征映射的空間信息,以生成兩個不同的空間上下文描述然后使用由多層感知器(Multi-Layer Perceptron,MLP)組成的共享網絡對這兩個不同的空間上下文描述進行計算得到通道注意力特征映射Mc∈RC×1×1,具體計算過程如式(7)所示.

圖3 CBAM模塊Fig.3 Convolutional block attention module

其 中:σ表 示Sigmoid函 數,W0∈RC/r×C,W1∈RC/r×C,r為約簡比;MLP的權值W0和W1對于兩個輸入都是共享的,并且在W0后面接Re-LU激活函數。

空間注意力模塊將通道注意力模塊輸出的特征映射作為此模塊的輸入,在通道維度使用全局最大和平均池化,得到兩個不同的特征描述:然后通過級聯的方式將兩個特征描述符合并,并使用卷積操作生成空間注意力特征映射MS(F)∈R1×H×W,空間注意力的計算過程為:

其中:σ表示Sigmoid函數,f7×7表示卷積核大小為7×7的卷積運算。

2.3.3 網絡結構

時空表觀信息流和時空運動信息流的具體的網絡結構如圖4所示,兩個流均以ResNet50[16]為基礎網絡,采用殘差移位(residual shift)的方式將TSM添加到殘差塊(residual block)中,將CBAM在時空表觀信息流放置到殘差塊中,在時空運動信息流引入到最后一個卷積層后的位置,在實驗中發現這種效果最好。分析原因可能是殘差移位的方式能夠使網絡更好的捕捉時序信息,而且在一定程度上緩解了由于捕捉時序信息而帶來的空間特征學習能力退化的問題。由于時空表觀信息流輸入的RGB視頻幀包含復雜的場景信息,將CBAM加入到殘差塊中對特征校準能夠使網絡學習到更加精準的空間表觀特征。在時空運動信息流中,由于輸入的光流圖像中只包含人體運動信息,采用原有網絡便能完成特征提取,使用CBAM對高層次特征進行微調能夠使網絡獲取更精準的特征表達。

圖4 改進雙流時空網絡Fig.4 Improved two-stream convolution neural network

3 實驗與結果分析

3.1 行為識別數據集

在UCF101[17]和HMDB51[18]數據集上對所提出算法進行評估,并將實驗結果與當前主流的行為識別算法相比較以驗證有效性。UCF101中的數據主要是來自YouTube的現實視頻,包含相機運動、復雜場景、光照變化、遮擋、視頻畫質模糊等影響因素,包含101種行為類別,共有13 320段視頻組成,根據視頻中的行為類型可以劃分為5種:人與人交互、人與物品對象交互、身體運動、樂器演奏和體育運動項目。HMDB51主要由電影片段構成,共包含6 766段視頻,共51個行為類別,每類至少包含100段視頻,包含的類別有單人行為、面部表情和操縱對象行為、人與人交互的行為、人與物交互等。根據兩個數據集官方提供的方式劃分3組訓練集和測試集,將在3種劃分方式的測試集上得到的識別準確率取平均值作為本文算法的最終識別結果。

3.2 實驗設置

實驗在Ubuntu18.04系統下基于PyTorch 1.4.0+CUDA10.0+cudnn7.6.5實現,計算機配置為Intel Xeon(R)Sliver 4112 CPU 2.6 GHz,NVIDA GeForce 2080Ti顯卡。采用小批量隨機梯度下降法,動量為0.9。根據計算機的內存大小和GPU利用率,將批量大小設置為8。初始學習率為0.001,訓練25 epoch,每經過10個epoch衰減一次,衰減率為0.1。光流圖像采用OpenCV庫中的TVL1,結合denseflow工具庫和GPU計算得到。

由于實驗所用數據集容量較小,為避免在訓練過程中出現過擬合,網絡采用在ImageNet+Kinetics行為數據庫上訓練的權重初始化,利用角落裁剪和多尺度裁剪方法進行數據增廣,對隨機采樣得到的340×256的圖像進行裁剪。在角落裁剪中,對圖像從中心和4個對角裁剪為224×224大??;在多尺度裁剪中,從中心和4個對角上分別從{168,192,224,256}中隨機抽取兩個值作為圖像的寬度和高度進行裁剪,再將像素調整為224×224大小。此外凍結除第一層外其他卷積層的BN中的均值和方差參數。測試時對每個視頻段進行兩次采樣,每次采樣8組RGB幀或光流圖像,將采樣圖像縮放后裁剪左右邊角和中心,使用具有較短邊為256像素的全分辨率圖像進行測試評估。

3.3 TSM和CBAM的消融實驗

為了驗證時間移位模塊和卷積注意力模塊兩者在改進雙流時空網絡中的相對重要性,進行了如下消融實驗:

為了驗證時間移位模塊的有效性,對加入該模塊前后本文算法在UCF101(split1)和HMDB51(split1)數據集上的識別準確率進行比較,將分段數K設置為3,按照時間移位模塊的原始參數設置將移位比例倒數設置為8,實驗結果如表1所示。

由表1結果可知,加入TSM模塊后時空表觀信息流和時空運動信息流在UCF101上的識別準確率分別提高了4.0%和3.6%,在HMDB51上分別提高了7.7%和2.4%。

表1 加入TSM前后準確率對比Tab.1 Comparison of accuracy after adding TSM(%)

在實驗結果中發現有些行為的識別準確率出現了上升,而有些則出現了下降,為了便于分析,選取了準確率上升和下降幅度最大的5個行為,其類別名稱及準確率變化情況如表2所示。

表2 加入TSM后準確率變化前5的行為Tab.2 Top 5 actions that change accuracy after adding TSM (%)

分析出現上述現象的原因可能是時間移位模塊加入后,卷積神經網絡能夠提取到視頻中的時空信息,但是在捕獲時序信息的同時損失了一些空間特征學習能力,導致對空間場景信息依賴大的行為辨識效果下降,如在Baseball Pitch和Tennis Swing中,依靠場景中的棒球場和網球場就能夠得到較好的識別結果,而加入TSM后識別準確率出現了下降。但是Jump Rope,Jumping Jack,High Jump等對時序信息的依賴性較強,其準確率的提升證明了通過引入時間移位模塊來使卷積神經網絡提取行為視頻中的時空信息是可行的。

為了驗證CBAM的有效性,在相同實驗設置下與ResNet50和ResNet50+TSM進行了對比測試,實驗結果如表3所示,當采用方式(c)和 (a)連接時得到了最好的識別結果。

表3 不同主干網絡下的識別準確率Tab.3 Recognition accuracy under different networks (%)

表4 所示為加入卷積注意力模塊后準確率提升最大的十個行為及其提高量,由結果可知,對Baseball Pitch,Shaving Beard,Tennis Swing,Kick Ball和Ride Horse等行為的識別準確率都有了較大提升,在一定程度上解決了由于TSM的引入而帶來的空間特征學習能力下降的問題。同時對Laugh,Drink,Throw,Catch等面部和手部局部運動的行為以及Climb Stairs和Climb、Throw和Catch等相似行為的識別更加準確,證明本文提出的結合注意力機制的方法能夠增強網絡的特征學習和表達能力,使網絡學習到更加精細的行為特征,提高了對近似行為的識別能力。

表4 加入注意力模塊后準確率提升前10的行為Tab.4 Top 10 actions that increase accuracy after adding CBAM (%)

3.4 雙流網絡的融合

最后對時空表觀信息流和時空運動信息流的分類得分進行加權平均融合,通過實驗尋找最優的比例系數,由于在時空運動信息流上的準確率更高,因此嘗試給其更大的權重系數,由表5可知,當融合比例為1:1.8時準確率不再上升,此時得到了最高的平均準確率。

為了體現本文算法在識別準確率方面的優勢,選取UCF101和HMDB51數據集進行實驗,將本文算法與現有主流人體行為識別算法進行比較,各算法在上述兩個數據集上的識別準確率如表6所示。

由表6可知,本文算法的識別準確率較現有人體行為識別算法具有一定的優勢。分析原因在于文中提出的改進雙流時空網絡能夠有效利用視頻中的時序關系信息和空間信息,提高了對時序依賴較大行為的識別能力,以及增強了網絡學習空間局部細節特征的能力,對相似行為能夠更好地辨識,從而提升了識別準確率。

4 結 論

表6 不同算法的識別準確率對比Tab.6 Comparison accuracy of different algorithms(%)

本文提出了一種基于改進雙流時空網絡的人體行為識別算法,通過結合時間移位思想與注意力機制,構建了一個包含時空表觀信息流和時空運動的信息流的雙流網絡結構,實現了對視頻中時間特征和空間特征的有效提取,同時采用卷積注意力模塊在通道和空間上強調關鍵細節特征,增強了網絡的特征表達能力,從而提高了對時序關系依賴較大行為和相似行為的辨識能力,實驗結果證明:本文算法在人體行為識別數據集UCF101和HMDB51上的識別準確率分別為96.3%和77.7%,相比已有算法取得了更高的識別準確率。為進一步提升算法的識別性能,今后還可以從構建端到端的雙流網絡的角度進行改進。

猜你喜歡
雙流信息流時空
四川省成都市雙流區東升迎春小學
跨越時空的相遇
雙流板坯側面鼓肚與邊角掛鋼原因與對策
鏡中的時空穿梭
基于信息流的作戰體系網絡效能仿真與優化
雙流機場一次低能見度天氣過程分析
四川省成都雙流中學實驗學校
基于信息流的RBC系統外部通信網絡故障分析
玩一次時空大“穿越”
戰區聯合作戰指揮信息流評價模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合