?

基于深度視頻的人體行為特征表示與識別

2016-10-18 09:11孫艷豐胡永利
北京工業大學學報 2016年7期
關鍵詞:池化鄰域算子

孫艷豐,張 坤,胡永利

(北京工業大學城市交通學院多媒體與智能軟件技術北京市重點實驗室,北京 100124)

基于深度視頻的人體行為特征表示與識別

孫艷豐,張 坤,胡永利

(北京工業大學城市交通學院多媒體與智能軟件技術北京市重點實驗室,北京 100124)

深度視頻中的人體行為的識別研究主要集中在對深度視頻進行特征表示上,為了獲得具有判別性的特征表示,首先提出了深度視頻中一種基于表面法向信息的局部二值模式(local binary pattern,LBP)算子作為初級特征,然后基于稀疏表示模型訓練初級特征字典,獲取初級特征的稀疏表示,最后對用自適應的時空金字塔劃分的若干個子序列使用時空池化方法進行初級特征與稀疏系數的規格化,得到深度視頻的高級特征,最終的特征表示實現了深度視頻中的準確的人體行為識別.在公開的動作識別庫MSR Action3D和手勢識別庫MSR Gesture3D上的實驗證明了本文提出的特征表示的有效性和優越性.

深度視頻;行為識別;深度序列分割;局部二值模式算子;稀疏表示

人體行為識別在視頻監控、醫療健康看護[1]等領域已經具有廣泛應用.但目前人體行為識別的研究主要集中在傳統彩色圖像視頻上,由于彩色圖像視頻缺乏人體的三維空間信息,對行為特征的描述不夠全面,很難處理遮擋、光照及行為外觀變化的特征描述問題,因此其應用效果及范圍具有一定局限性[2-3].隨著圖像獲取技術的進步,深度圖像獲取越來越容易.深度圖像相比傳統的彩色圖像能提供更多的人體表觀和結構信息,對光照變化不敏感,因此在行為識別領域,引入深度信息,研究基于深度信息的人體特征表示與提取是人體行為識別的關鍵,已經引起人們的極大關注[4-6].

局部二值模式(local binary pattern,LBP)是一種計算簡單、非參數化的局部紋理模式描述算子,它在二維圖像特征表示與提取中獲得了成功.由于它對光照變化不敏感,因此,是一種有效的紋理描述算子[7-8].受LBP描述算子的啟發,為獲取深度圖中反映不同人體行為表面的曲面特征,進一步提高人體行為識別的魯棒性,本文通過對LBP模式的深入研究,根據深度圖中人體結構的相似性及關聯信息,定義了深度圖中法向信息的LBP描述算子,該算子在細節上保持了人體行為曲面的幾何特性,局部空間上提取了曲面的局部特征,并以此作為深度圖中人體行為局部特征表示.全局上,基于字典學習的編碼方法整合了細節信息,自適應時空金字塔和稀疏系數的池化處理保持住了人體曲面的局部空間結構關系,實現對三維人體行為的細節和整體特征描述.通過在公開使用的MSR Action3D和MSR Gesture3D人體行為數據庫上的實驗,證實了本文方法的可行性和優越性.

1 基于法線信息的LBP算子

在模式識別中,LBP算子最早應用于二維人臉圖像的識別,它在圖像一個區域窗口內,以窗口的中心像素為閾值,將相鄰若干個像素的灰度值與其進行比較,若鄰域像素值大于中心像素值,則該像素點的位置被標記為1,否則標記為0.這樣,一個區域窗口中便可產生一個二進制數(通常轉換為十進制數),即得到該窗口中心像素點的LBP值,這個值反映了該區域的局部紋理信息[7].

鑒于LBP算子在二維模式識別領域中的成功應用[9-10],本文將 LBP算子推廣到深度視頻序列中,提出了描述深度視頻中基于表面法向信息的LBP算子,這種LBP算子可以很好地描述曲面的曲率變化特性.

由于深度序列可以看作是一個三維到一維的函數z=f(x,y,t),這樣便得到了由一系列的點(x,y,z,t)組成滿足S(x,y,t,z)=f(x,y,t)-z=0的四維超平面.該超平面上點(x,y,z,t)的法線方向為

和傳統的梯度方向相比,法向量的方向與4D曲面的形狀相關,法向量的方向分布能夠比傳統的梯度方向提供更多的幾何信息,也可以更精確地表述四維超平面的幾何信息[5].考慮到法線代表四維空間中的方向,基于原來LBP算子的構造思路,根據深度圖中某一點法線與其八鄰域點法線間的角度關系定義該點的新的LBP算子為

式中:P表示當前點;N表示當前點的法線向量;Nn表示當前點八鄰域各位置的法線向量;Angle(N,Nn)表示2個法向量間的角度度量關系;λ為一設定的閾值,其約束二值函數B(x)的取值.

圖1是LBP算子編碼方式示意圖,左側為由深度序列使用法線表示的一個3×3×1的局部區域,計算區域中心點(N)的LBP算子時,將該點與其相鄰的8個點進行比較,鄰接點與該點法線夾角小于設定閾值則計鄰接點位置為1,否則計為0,然后將得到的8位二進制值按特定順序組合在一起得到該中心點的LBP算子.

但這種LBP算子存在一個不足:它只覆蓋了一個固定半徑范圍內的小區域,在這個區域內只能夠取到一個正方形鄰域點,這顯然不能滿足不同規格表面的需要.為了適應不同尺度的特征,對這種LBP算子進行了改進,用圓形鄰域代替了正方形鄰域,改進后的LBP算子允許在半徑為r的圓形鄰域內有任意多個像素點.從而得到了半徑為r的圓形區域內含有n個采樣點的LBP算子.圖2中(b)~(d)展示了有8個采樣點3種改進后鄰域半徑的LBP算子.

2 組合LBP算子

人體行為在視頻序列的前后幀之間具有關聯性,為此,本文將相鄰幀中某一點及其鄰近點的LBP特征進行組合,將原始深度序列中的每個像素使用他鄰域信息組合成的超像素表示,這樣可以全面描述相鄰點之間的關聯性和動態性,得到多維組合LBP特征來表示人體行為動態信息,提高行為特征的表示能力.

2.1立方體鄰域組合方式

考慮當前描述點所在幀及其相鄰幀,在該點周圍提取一個立方體,將立方體內的每一點的法向LBP算子組合成一個向量作為該點的組合LBP特征.如圖3所示,提取一個以點p為中心的3×3×3的立方體(左),將立方體內所有像素組合成一個向量(右),最終得到當前點p的組合LBP特征表示,該特征維度為27.

若原始深度序列的維度為W×H×T,那么通過這種組合方式,原深度序列可以表示為一個矩陣,該矩陣的維度是27×(W×H×T).

2.2空間金字塔組合方式

為了提高組合LBP算子的尺度不變性,另一種LBP算子的組合方式是采用空間金字塔的方式選取所需要的點,多維金字塔法組合方式可以捕獲中心點局部領域內的多層表觀信息,具有更好的魯棒性.如圖4所示,在點p所在的幀內,黑色點p作為空間金字塔的第1層,4個黃色的點為金字塔的第2層,9個紫色的點為第3層,這樣在1幀內便取了14個點.然后在該幀的前后幀按照同樣的方式取點,計算每一點的法向LBP特征,將這些LBP特征組合成一個向量,最終得到中心點p的LBP組合特征,該特征維度為42.

同樣的,若原始深度序列的維度為W×H×T,那么通過這種組合方式,原深度序列可以表示為一個矩陣,該矩陣的維度是42×(W×H×T).雖然特征維度有所提高,但這種組合方式能夠更好地表示中心點周圍的局部信息,所以這種空間復雜度的提升是值得的.

3 組合LBP算子的稀疏表示

根據上述方法,對深度序列每幀的所有像素點都提取到一個LBP特征,進而也提取了組合LBP特征,可是得到的數據依然是一個序列,只不過這里已經將原始測量空間中的測量特征轉換為二值特征.但是,這個二值特征與空間位置、時間位置是緊密相關的,如果直接用這個二值特征進行判別分析的話,會因為位置沒有對齊產生很大的誤差[11].為此,本文首先使用基于字典的方法來解決這個問題,即通過訓練樣本學習一組字典,然后通過這個字典對所有樣本進行規格化表示來消除這種誤差.

給定一個由C個類別的組合LBP特征表示的訓練矩陣X=(X1,X2,…,XC),特征矩陣Xi=(x1i,x2i,…,xnii)表示屬于第i類的ni個深度序列的組合LBP特征(x1i,x2i,…,xnii)連結在一起表示.通過下面優化模型可以求得訓練樣本的字典和稀疏表示系數:

式中:‖Xi-DAi‖22為重構誤差項;‖Ai‖1為稀疏約束項;D∈R RM×K(M=27或M=42)為稀疏字典;K為字典的第二維度即字典D的視覺詞的總數;D的每一列稱為視覺詞;矩陣Ai為原始特征Xi相對于字典D的稀疏表示;λ是稀疏正則項.

給定一個深度視頻序列,通過上述模型學習得到稀疏表示系數,以此稀疏表示系數作為組合特征的新的特征表示.這個系數相對于原來的底層特征,具有更好的判別性,但它是一個矩陣而不是向量,另外由于不同序列采集的幀數不同,導致這個矩陣的維度不統一,無法直接拿來進行分類度量,為此需要首先對行為視頻序列進行分割,保證分割后的深度序列具有相同數目的子序列.然后融合每個子序列的特征表示作為該視頻序列的描述符,這樣將各時段的局部特征信息融合起來表示原始深度序列,既考慮到了整個深度視頻序列所代表的動作信息,又著重表示了整個序列中與行為最相關的局部信息.

4 行為序列的分割與對齊

4.1視頻幀的分割

針對深度數據,在空間維度提取出人體區域后將這個區域劃分為4×3的網格(見圖5)而不是直接將原有序列的整幀進行分割,使用該區域的數據信息進行識別不僅能夠降低所需處理的數據量,更重要的是可以盡可能地濾除背景的影響,捕捉到人體軀干的運動情況,使得到的描述符魯棒性更強.

進行視頻幀分割時,為了保持相鄰的法向量之間的相關性,使它們對噪聲更具有魯棒性,本文利用時空金字塔模型,從局部時間維度聚集法向量.時間金字塔[4]的經典構建方法是對整個序列在時間維度進行均勻分割,然而,不同人在執行同一動作時可能有不同的速度,而且執行的次數也不盡相同,所以這種均勻的分割處理不能夠很好地應對這種變化.考慮到深度數據的特點,使用了一種新的時間分割方法.給定一個深度序列,首先將第i幀投影到3個正交的平面(正面、側面和頂面)得到3幅投影后的圖像那么這幀的能量為

式中:ξ為設定的閾值;sum(·)用于計算二值圖中非零的個數.

不同于均勻劃分時間完成視頻分割,本文使用均勻劃分累積運動能量所對應的時刻來進行視頻分割.如圖6所示,先對能量進行均勻劃分后得到5個時刻t0、t1、t2、t3、t4,利用這幾個時刻構造一個3層的時間金字塔:t0-t4時間段內所有的幀作為第1層;將t0-t4分為2個子序列t0-t2、t2-t4,作為金字塔的第2層;再對t0-t2、t2-t4進一步劃分得到4個子序列t0-t1、t1-t2、t2-t3、t3-t4,作為金字塔的第3層.構建的時間金字塔見圖7.在時空維度,原深度序列被劃分為4×3×7個子序列.

4.2池化處理

對于每個子序列,通過前面字典學習得到了字典及其稀疏表示系數,使用了池化(pooling)技術對稀疏系數進行處理得到每個子序列的描述符.原始的池化技術主要有2種,平均值池化就是對池化數據取平均值,最大值池化就是求池化數據的最大值.根據稀疏系數的特點,本文使用一種全新的池化方法,即空間平均池化與時間最大池化.另外,并不是直接對稀疏系數進行池化,而是通過池化組合LBP特征和字典的每個視覺詞的加權差異來表示原有數據.

給定一個維度為W×H×T的深度序列,它的組合LBP特征為x=(x1,x2,…,xP)∈R RM×P(P=W× H×T),關于字典D的稀疏表示系數為α=(α1,的第k個元素記為αki.x中在該序列第t幀的子集計為Nt.對字典的每個視覺詞,首先應用空間平均池化計算組合LBP特征與視覺詞之間的差異

式中:uk(t)∈R RM,表示第t幀內第k個視覺詞的池化差異向量;|Nt|表示集合Nt中元素個數;αki為組合LBP特征xi對應字典D的稀疏系數αi的第k個元素.然后,使用時間最大池化得到差異向量uk∈ RRM,uk的第m個元素umk(t)的計算方法為

時間最大池化后得到的特征向量uk在保留序列重要的類別信息的同時又去除了大量冗余的信息.最后,將所有視覺詞的差異向量連結起來得到該子序列的M×K維的描述符,得到子序列的規格化的表示

最終的將4.1節中的84個子序列的描述符串聯在一起作為原始深度序列的最終的描述符,將這個描述符輸入到文獻[12]中相同的線性SVM分類器進行分類識別.

5 實驗結果與分析

為了驗證本文定義的行為特征的表示能力和識別效果,在2個公開的人體行為數據庫上進行了實驗.所有實驗代碼使用Matlab語言編寫,實驗的軟件環境為Windows 7 64位,Matlab 2014;硬件環境為Intel(R)Xeon(R)CPU E5-2687W×2,128 GB.

5.1基于MSR Action3D數據庫的人體行為識別

MSR Action3D數據庫[3]是使用微軟Kinect深度傳感器采集的公共數據庫,該數據庫由10個表演者完成20種動作的深度序列構成,每個表演者的每個動作采集2~3次.20種動作分別為:高揮臂(high arm wave)、低揮臂(horizontal arm wave)、敲打(hammer)、手抓 (handcatch)、沖拳 (forward punch)、高拋(high throw)、畫叉(draw×)、畫勾(draw tick)、畫圓(draw circle)、拍手(hand clap)、雙手揮(two hand wave)、側拳(side boxing)、彎腰(bend)、向前踢(forward kick)、向側方踢(side kick)、慢跑(jogging)、網球揮拍(tennis swing)、網球發球(tennis serve)、高爾夫揮桿(golf swing)、拾起并拋出(pick up and throw).雖然這個數據庫的背景經過處理,但是由于20種動作中許多動作非常相似,對這個數據集進行識別仍然具有很大的挑戰性.為了便于性能比較,遵循文獻[4,5,12]中的實驗設置:在10個表演者中,選擇第1、3、5、7、9個的數據作為訓練集,第2、4、6、8、10個的數據作為測試集.

首先通過實驗考察LBP算子的鄰域半徑對識別性能的影響,這次實驗使用了2.2中的空間金字塔LBP算子的組合方式,實驗結果見表1.

表1 在MSR Action3D數據庫上,不同LBP算子鄰域的識別結果Table 1 Results of LBP operator with different radius on MSR Action3D dataset

可以發現,當LBP算子鄰域半徑r=2時得到了識別率為94.91%的最好識別結果,這個結果比原始的r=1時的結果提升了1%,這表示改進后LBP對識別起了積極的作用.選取r=2在該數據庫上進行下面的實驗.

其次,考察深度序列中LBP算子的2種組合方式對識別性能的影響,實驗結果見表2,表中“不組合”表示使用中心的LBP算子作為LBP特征進行后續編碼工作,這種特征中心點使用一維數字表示,沒有考慮到深度序列的時序性,也幾乎沒有考慮中心點鄰域信息,所以識別結果不理想;使用組合的LBP算子方式后,彌補了這種缺憾,實驗結果明顯改善.

本文提出的方法與一些現有算法的實驗結果比較見表3.實驗中,LBP鄰域半徑設置為2,采用空間金字塔的LBP算子組合方式.本文選擇了近幾年比較杰出的識別方法作為比較對象,實驗中都使用

同樣的實驗裝置,這些比較方法中,文獻[4,13-16]是基于骨架點的方法,這些方法對Kinect提取到的骨架點的精確程度很高,但存在遮擋或數據丟失時會嚴重降低實驗結果;文獻[14]使用算法選取k個最相關的骨架點,這樣可以避免一些不精確的骨架點對識別的影響,取得了同類方法中最好的識別結果;文獻[17-18]使用不同方式提取深度序列中的關鍵點,利用這些關鍵點提取特征,其識別結果對關鍵點依賴性較高;文獻[19]中的方法是將一個深度序列相鄰幀的差異累計起來形成一幅深度運動累積(DMM)圖像,之后在這個DMM圖像上提取梯度方向直方圖(HOG)特征進行特征表示;文獻[5,12]都是基于法線的方法,文獻[5]中將法線投影到預先選定的120個方向,沒能對法線進行進一步表示,文獻[12]直接對法線信息進行編碼,沒能充分利用一個鄰域內的法線共同表示所蘊含的信息.從表3可以發現,本文提出的方法獲得了最高的94.91%的識別結果,實驗結果進一步證明了本文提出的行為特征表示彌補了其他方法的不足,具有較強的區分性、魯棒性和穩定性.

表2 在MSR Action3D數據庫上,不同LBP算子組合方式的識別結果Table 2 Results of LBP operator with different combinations on MSR Action3D dataset

表3 在MSR Action3D數據庫上,現有方法與本文方法的識別率比較Table 3 Comparison of the proposed method with others on MSR Action3D dataset

實驗的混淆矩陣如圖8所示,混淆矩陣縱坐標表示動作類別,橫坐標表示實驗識別的動作類別.由混淆矩陣可以觀察到:因為“手抓”和“高拋”動作十分相似,所以33%的“手抓”被識別成了“高拋”;同樣因為“沖拳”“畫叉”與“敲打”動作相似度很高,所以27%的“沖拳”、21%的“畫叉”被識別成“敲打”.

5.2基于MSR Gesture3D數據庫的人體行為識別

MSR Gesture3D是一個通過深度相機獲取深度序列的手勢數據庫,也是一種十分流行的人體手勢測試評價數據庫.該數據庫包含了12個由美國標準手語(American sign language,ASL)定義的動態手勢,它們是:z、j、哪里(where)、商店(store)、豬(pig)、過去(past)、饑餓(hungry)、綠色(green)、完成(finish)、藍色(blue)、浴室(bathroom)、牛奶(milk).每個手勢由10個人執行2或3次.這個數據庫比MSR Action3D數據庫存在更多的自遮擋問題,這個數據庫具有很強的挑戰性.

本文采用了文獻[5,12]中的實驗設置:Leaveone-subject-out交叉驗證方法,進行了10次實驗. 第1次實驗使用第1個表演者的所有數據作為測試集,其余表演者的數據作為訓練集,第2次實驗使用第2個表演者的所有數據作為測試集,其余表演者的數據作為訓練集,以此類推,最終取這10次實驗結果的平均值作為最后的識別率.因為手勢中沒有骨架點信息,所以基于骨架點的方法無法在這個數據庫上進行實驗.本文的實驗結果與其他方法的比較見表4,文獻[6]方法優化了原來文獻[19]中DMM圖像,對原DMM圖進行了邊緣增強的處理并加入了動態的時間金字塔方法.

表4 在MSR Gesture3D數據庫上,現有方法與本文方法的識別率比較Table 4 Comparison of the proposed method with others on MSR Gesture3D dataset

從表4可以看出,本文方法取得了95.36%的識別率.混淆矩陣如圖9所示,從這個矩陣可以發現,本文方法在絕大多動態手勢上都有優異的效果,相比文獻[12,17],同樣是基于法線的方法,由于LBP編碼方式在保留整體信息的同時更加強調圖像中手的邊緣信息,因此,本文結果優于這2種方法.由于該數據庫為手勢數據庫,在采集手勢的過程中存在雙手互相遮擋以及手指間遮擋的現象,本文方法首先提取表面法線弱化了遮擋帶來的深度值的變化,然后按金字塔方式提取的組合LBP特征擴大了原始LBP特征的表示范圍,最后通過稀疏表示與池化方法全局上對深度視頻進行編碼.這些手段克服了數據庫自遮擋問題,本文方法在該數據庫每個手勢上均取得了較高的識別結果,并得到了最高的平均識別率.

6 結論

1)針對深度視頻序列,提出了一種基于法向信息的LBP算子,提取深度視頻序列中人體行為的初級特征,并組合LBP算子以更好表示具有動態時序特性的人體行為.

2)提出了基于時空金字塔的深度序列分割方法,該方法將視頻序列劃分成若干子序列.對每個子序列,基于稀疏表示模型提取其組合LBP特征的表示系數,對每個子序列池化組合LBP特征相對字典每個視覺詞的加權系數差異,作為行為時序特征的描述符.

3)在公開的動作識別庫MSR Action3D和手勢識別庫MSR Gesture3D上的實驗證明了本文特征描述的有效性和優越性.

[1]李瑞峰,王亮亮,王珂.人體動作行為識別研究綜述[J].模式識別與人工智能,2014(1):35-48. LI R F,WANG L L,WANG K.A survey of human body action recognition[J].Pattern Recognition and Artificial Intelligence,2014(1):35-48.(in Chinese)

[2]WANG J,LIU Z C,CHOROWSKI J,et al.Robust 3d action recognition with random occupancy patterns[C]∥European Conference on Computer Vision(ECCV). Florence:Springer,2012:872-885.

[3]LI W Q,ZHANG Z Y,LIU Z C.Action recognition based on a bag of 3d points[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshop(CVPRW).San Francisco:IEEE,2010:9-14.

[4]WANG J,LIU Z C,WU Y,et al.Mining actionlet ensemble for action recognition with depth cameras[C]∥IEEEConferenceonComputerVisionandPattern Recognition(CVPR).Providence:IEEE,2012:1290-1297.

[5]OREIFEJ O LIU Z C.HON4D:Histogram of oriented 4d normals for activity recognition from depth sequences [C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland:IEEE,2013:716-723.

[6]ZHANG C Y,TIAN Y L.Edge enhanced depth motion map for dynamic hand gesture recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshop(CVPRW).Portland:IEEE,2013:500-505.

[7]TIMO O,MATTI P,TOPI M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[8]劉麗,匡綱要.圖像紋理特征提取方法綜述[J].中國圖象圖形學報,2009(4):622-635. LIU L,KUANG G Y.Overview of image textural feature extraction methods[J]∥Journal of Image and Graphics,2009(4):622-635.(in Chinese)

[9]WANG X Y,HAN T X,YAN S C.An HOG-LBP human detector with partial occlusion handling[C]∥IEEE International Conference on Computer Vision(ICCV). Kyoto:IEEE,2009:32-39.

[10]唐恒亮.基于三維特征的人臉識別算法研究[D].北京:北京工業大學,2011. TANG H L.Face recognition based on 3D features[D]. Beijing:Beijing University of Technology.2011.(in Chinese)

[11]LUO J,WANG W,QI H.Group sparsity and geometry constrained dictionary learning for action recognition from depth maps[C]∥IEEE International Conference on Computer Vision(ICCV).Sydney:IEEE,2013:1809-1816.

[12]YANG X D,TIAN Y L.Super normal vector for activity recognitionusingdepthsequences[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus:IEEE,2014:804-811.

[13]XIA L,CHEN C C,AGGARWAL J K.View invariant human action recognition using histograms of 3d joints [C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshop(CVPRW).Providence:IEEE,2012:20-27.

[14]WANG C,WANG Y,YUILLE A.An approach to pose based action recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Portland:IEEE,2013:915-922.

[15]VIEIRA A W,NASCIMENTO E R,OLIVEIRA G L,et al.STOP:space-time occupancy patterns for 3D action recognition from depth map sequences[C]∥17th Iberoamerican Congress on Pattern Recognition.Buenos Aires:Springer,2012:252-259.

[16]YANG X,TIAN Y.Eigenjoints based action recognition usingnaivebayesnearestneighbor[C]∥ IEEE Conference on Computer Vision and Pattern Recognition Workshop(CVPRW).Providence:IEEE,2012:14-19.

[17]XIA L,AGGARWAL J.Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland:IEEE,2013: 2834-2841.

[18]RAHMAIN H,MAHMOOD A,DU Q H,et al.HOPC: histogram of oriented principal components of 3D point clouds for action recognition[C]∥European Conference on Computer Vision(ECCV).Zurich:Springer,2014: 742-757.

[19]YANG X,ZHANG C,TIAN Y L.Recognizing actions using depth motion maps-based histograms of oriented gradients[C]∥ ACMInternationalConferenceon Multimedia.Nara:ACM,2012:1057-1060.

[20]KURAKIN A,ZHANG Z,LIU Z.A real-time system for dynamic hand gesture recognition with a depth sensor [C]∥EuropeanSignalProcessingConference (EUSIPCO).Bucharest:IEEE,2012:1975-1979.

(責任編輯 呂小紅)

Action Feature Representation and Recognition Based on Depth Video

SUN Yanfeng,ZHANG Kun,HU Yongli
(Beijing Key Laboratory of Multimedia and Intelligent Software Technology,College of Metropolitan Transportation,Beijing University of Technology,Beijing 100124,China)

Researches of human behavior recognition in depth video focused on depth video's action feature representation was conducted to obtain a discriminative feature representation.Firstly a LBP operator based on the surface normal in depth video as a lower feature was proposed.Then the features were used to train a dictionary to get sparse representation.Lastly the original depth video was divided into some sub depth video by an adaptive spatio-temporal pyramid and a pooling method was adopted to normalize the lower features and the sparse coefficient to get a higher representation.The high representation realizes an accurate recognition of human behavior.The experiments on the action recognition dataset MSR Action3D and gesture recognition dataset MSR Gesture3D prove the author's improved encoding algorithm's feasibility and superiority.

depth video;action recognition;depth sequences segmentation;LBP(local binary pattern)operator;sparse representation

U 461;TP 308

A

0254-0037(2016)07-1001-08

10.11936/bjutxb2016010029

2016-01-13

國家自然科學基金資助項目(61370119)

孫艷豐(1964—),女,教授,博士生導師,主要從事多功能感知、模式識別方面的研究,E-mail:yfsun@bjut.edu.cn

猜你喜歡
池化鄰域算子
基于高斯函數的池化算法
基于混合變鄰域的自動化滴灌輪灌分組算法
卷積神經網絡中的自適應加權池化
有界線性算子及其函數的(R)性質
含例鄰域邏輯的薩奎斯特對應理論
融合t-分布隨機鄰域嵌入與自動譜聚類的腦功能精細分區方法
Domestication or Foreignization:A Cultural Choice
基于卷積神經網絡和池化算法的表情識別研究
用于手寫漢字識別的文本分割方法
QK空間上的疊加算子
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合