?

基于雙隱變量空間局部粒子搜索的人體運動形態估計

2014-06-02 04:23李萬益孫季豐王玉龍
電子與信息學報 2014年12期
關鍵詞:高維輪廓粒子

李萬益 孫季豐 王玉龍

?

基于雙隱變量空間局部粒子搜索的人體運動形態估計

李萬益*孫季豐 王玉龍

(華南理工大學電子與信息學院 廣州 510641)

該文提出一種雙隱變量空間局部粒子搜索(DLVSLPS)算法,可以從多視角圖像序列的輪廓特征較準確地估計出3維人體運動形態序列。該算法用高斯過程動態模型(GPDM)降維建立雙隱變量空間和低維隱變量數據到高維數據的映射關系后,然后對雙隱變量空間使用近鄰權重先驗條件搜索(NWPCS),實現局部低維粒子搜索來生成較優高維數據,從而估計相應幀的3維人體運動形態,解決傳統粒子濾波算法直接在高維數據空間采樣較難獲取有效正確數據進行估計的問題。經仿真實驗驗證,所提出的算法比傳統粒子濾波算法在實現多視角非連續幀估計,克服輪廓圖像數據歧義,減小估計誤差有明顯優勢。

人體運動形態估計;雙隱變量空間;局部粒子搜索;多視角圖像序列;3維人體運動形態序列

1 引言

本文針對以上問題,提出一種可靠穩定的雙隱變量空間局部粒子搜索算法(Dual Latent Variable Spaces Local Particle Search, DLVSLPS),對于估計周期性勻速含空間位置信息3維人體運動形態很有效。該算法采用高斯過程動態模型(Gaussian Process Dynamical Models, GPDM)[9,10]分別對少量兩套(帶空間位置信息和不帶空間位置信息)已知的3維人體運動形數據進行降維,獲取低維隱變量數據,建立低維隱變量數據到高維人體運動形態數據函數映射關系后,再用近鄰權重先驗條件搜索(Neighbor Weight Prior Condition Search, NWPCS)來實現。GPDM降維算法與其他降維算法[11]相比,其具有低維到高維可逆性,并且從低維隱變量數據還原的高維數據與原高維數據差別較小,它由高斯過程隱變量模型(Gaussian Process Latent Variable Models, GPLVM)[12,13]演變而來。這兩個隱變量空間中的低維隱變量數據對于搜索過程中具有很好的先驗信息,本文提出算法就可以較好利用該信息,結合相關約束模型,對兩個空間低維粒子進行局部搜索,生成較有效正確的高維數據進行估計。本文提出的算法與傳統幾種粒子濾波算法(APF, PSO-PF, PF)相比,可以估計非連續幀所對應的3維人體運動形態,有效克服輪廓圖像數據歧義,且減小估計誤差。最后,通過仿真實驗驗證該算法比傳統幾種粒子濾波算法更有效。文中稱描述3維人體運動形態的數據為高維數據,其降維后在隱變量空間中所獲取的低維隱變量數據稱為低維數據(低維粒子),隱變量空間也稱為低維空間。

2 高斯過程動態模型(GPDM)降維

本文需要估計的3維人體運動形態用如圖1(a)所示的人體運動立體模型表示,里面由圓臺體與骨架組成,該模型可以較近似地描述真實人體運動形態,肢體大小,并且該模型是由高維數據轉換而來。在對多視角的2維人體運動圖像處理前,可以將已知少量立體模型的高維數據組成一個稀疏的數據樣本1,這組樣本序列是大致覆蓋有一個周期空間位置信息的,如圖1(b)所示。然后,本文同樣可以采集一個走路運動周期少量無空間位置信息稀疏的數據樣本2,如圖1(c)所示。兩組高維數據用GPDM降維后就建立了低維空間且獲取了如圖1(d)與圖1(e)所示的相應兩組低維數據,及其函數映射關系。GPDM相關概率關系為

3 雙隱變量空間局部粒子搜索

3.1相關數學模型建立

根據文獻[5]的研究以及Humaneva-I數據庫中的采集數據特點,每一幀的人體運動形態圖像由3個不同視角彩色鏡頭拍攝,如圖2第1行的3幅圖所示。那么本文通過圖像分割算法[14,15]對該幀的3個視角圖像進行處理得到相應視角的輪廓圖像,如圖2第2行的3幅圖所示,本文還需要對生成的人體運動立體模型做該3個視角的2維圖像投影,如圖2第3行的3幅圖所示。根據式(4),本文有以下函數及概率關系:

(6)

圖2 圖像數據

3.2 低維局部粒子的NWPCS及運動形態估計

通常,經過首個低維空間的搜索后,還原得到高維數據的空間位置信息會有偏差,那么這時需要對還原高維數據的空間位置信息(共6維)進行搜索,一般是高維數據的前2維數據偏差較大,搜索前2維即可。搜索方法也使用上述方法進行搜索,找出權重大的空間位置信息進行保留即可,之后再進行第2個低維空間的搜索。對第2個低維空間搜索時,為了克服輪廓圖像數據歧義,本文建立以下運動形態約束模型,尋找與首個低維空間搜索后得出的高維數據相對接近的高維數據的相應低維粒子:

本文在圖3中簡單描述了NWPCS原理,低維空間局部粒子搜索與傳統粒子濾波算法的采樣復制有所不同。在概率權重函數局部含有較小多峰時,按約束條件尋找前3個權重較大的相鄰粒子,對低維空間從全局到局部逐步定位,可以較快找到與各視角輪廓圖像數據特征最近似(最優)且單峰的相應局部,在該局部中再通過搜索向量進行空間搜索,獲得新的粒子,然后在所獲粒子中再找出權重較大的前3個粒子(含上次搜索權重最大的粒子),重復上述的方法,搜索范圍會逐步縮小到權重大的粒子生成空間。相比之下,傳統的粒子濾波算法是多次復制權重大的粒子再來采樣,且每次采樣范圍是很有限的,先驗信息較不理想時,較小概率權重值歸一化后很有可能出現權重比較大的粒子,會重復復制了實際概率相對最大值都比較小的粒子進行下一輪粒子的權重計算,就較難得到實際概率大且和輪廓圖像特征匹配的粒子,相當于陷入局部最優的概率值。由于低維空間含有很多高維數據全局先驗信息,所以在低維空間進行全局到局部定位再局部搜索生成的粒子會比傳統粒子濾波算法要有效得多,從而所提算法具有較好的性能。

圖3 NWPCS搜索原理示意圖(設分別為第1次,第2次搜索到的粒子,N為數據樣本1或2的個數,NP為搜索粒子個數)

3.3雙隱變量空間局部粒子搜索(DLVSLPS)算法建立

本文采用雙隱變量空間搜索,可以較準確地估計人體運動立體模型所在的空間位置信息和動作姿態信息。由第3.2節的結論,本文給出算法如下。

具體搜索步驟如表1所示。

4 仿真實驗

本文用DLVSLPS算法在估計非連續幀,克服輪廓圖像數據歧義以及估計人體運動形態的誤差3個方面和其他粒子濾波算法進行比較,其中所用視角為3個視角,測試數據選用HumanEva-I數據。

4.1 估計非連續幀

本文選用任意間隔20幀的兩幀圖像進行測試,從任意1幀開始估計其后的第20幀,且用4種不同的算法比較,其后的第20幀估計效果如圖4(a)~圖4(d)所示。圖4中可以看出所提出的DLVSLPS算法可以很好地估計出非連續幀的人體運動立體模型及其空間位置,并且其各肢體和該非連續幀各視角的2維圖像也很匹配,然而APF, PSO-PF和PF算法估計出非連續幀的人體運動立體模型及其空間位置均有誤,其各肢體與相應各視角2維圖像明顯不匹配。

表1 搜索步驟

圖4 各算法在3個視角下估計非連續幀的人體運動立體模型及其2維圖像顯示

4.2克服輪廓圖像數據歧義估計

一組有限視角如圖2第2行的3幅圖這樣的2維輪廓圖像數據是帶有數據歧義的,也就是說一組輪廓數據無法判別人體運動立體模型肢體的具體情況。例如,一組有限視角輪廓圖像數據無法判別人體運動形態的腳到底是左腳在前還是右腳在前的類似情況。DLVSLPS算法利用低維空間的先驗信息,加上運動形態約束,可克服輪廓圖像數據歧義估計,給出更接近真實數據的人體運動立體模型。如圖5(a)~圖5(e)所示,DLVSLPS算法估計效果和真實數據較接近,而APF, PF算法估計左腳(白色)及右腳(灰色)的位置相反了,手有和2維圖像不匹配的現象,并且與真實數據相差很大。PSO-PF算法更無法克服輪廓圖像數據歧義,估計的效果和真實數據差別更大,得出人體運動立體模型完全不成人形。因此,說明DLVSLPS算法估計過程中可以克服輪廓數據歧義進行估計。

4.3估計誤差

本文采用文獻[16]的計算誤差方法,計算鑲嵌在圓臺里的骨架各關節點的平均誤差作為每一幀的誤差,然后采用APF, PSO-PF, PF 3種粒子濾波算法與所提算法DLVSLPS比較。由于APF, PSO-PF, PF算法估計非連續幀不是很好,故采用50幀連續圖像,比較估計誤差。本文采用HumanEva-I里空間位置信息變化較大的人體走路和跑步形態的數據進行測試比較,其中走路1~3與跑步1~3兩類運動形態數據段都是空間位置信息不同的數據,如圖6所示,各子圖中可以分別看出所提算法DLVSLPS估計連續幀的平均誤差,標準差,走路1~3和跑步1~3每幀的誤差及最大誤差(圖6(b)~圖6(g)的算法圖例標識所示),都比APF, PSO-PF, PF算法總體明顯要小,所以DLVSLPS算法比以上3種算法有很大優勢。

圖5 各算法在3個視角下克服輪廓數據歧義估計人體運動立體模型的2維圖像顯示

圖6 估計誤差比較

5 結束語

從以上實驗結果可知,所提DLVSLPS算法可以從多視角圖像序列中的人體運動形態輪廓特征估計出相應的3維人體運動形態,并且可以較好地估計出其所含的相應空間位置信息。和其他傳統粒子濾波算法APF, PF, PSO-PF相比,DLVSLPS算法還有非連續幀估計,克服輪廓圖像數據歧義及減小估計誤差的優勢。另外,對多視角的圖像序列進行圖像分割提取輪廓圖像時,如果輪廓圖像提取的質量較差,會直接對實驗結果產生較大影響。本文的研究還局限于人體運動形態及空間位置變化較規則,且有標記人體運動立體模型的估計,將來本文的研究還會拓展到人體運動空間位置變化不規則,無標記且多角色交互復雜的人體運動立體模型估計[17]。如何在低維空間中進行最優搜索,與高維數據相互建立函數關系,仍是研究重點。

[1] Yao A, Gall J, Gool L V,. Learning probabilistic non-linear latent variable models for tracking complex activities[C]. Proceedings of Neural Information Processing Systems, Vancouver, Canada, 2011: 1-8.

[2] Luo Wei-lan, Yamasaki T, and Aizawa K. Cooperative estimation of human motion and surfaces using multiview videos[J]., 2013, 117(11): 1560-1574.

[3] Gall J, Rosenhahn B, Brox T,. Optimization and filtering for human motion capture[J]., 2010, 87(1/2): 75-92.

[4] Bernard J, Wilhelm N, Krüger B,. Motionexplorer: exploratory search in human motion capture data based on hierarchical aggregation[J]., 2013, 19(12): 2257-2266.

[5] Sigal L, Balan A O, and Black M J. Humaneva: synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion[J]., 2010, 87(1/2): 4-27.

[6] Deutscher J and Reid I. Articulated body motion capture by stochastic search[J]., 2005, 61(2): 185-205.

[7] 朱志宇. 粒子濾波算法及其應用[M]. 北京: 科學出版社, 2010: 78-83.

Zhu Zhi-yu. Particle Filter Algorithm and Its Application[M]. Beijing: Science Press, 2010: 78-83.

[8] 李毅, 孫正興, 陳松樂, 等. 基于退火粒子群優化的單目視頻人體姿態分析方法[J]. 自動化學報, 2012, 38(5): 732-741.

Li Yi, Sun Zheng-xing, Chen Song-le,. 3D human pose analysis from monocular video by simulated annealed particle swarm optimization[J]., 2012, 38(5): 732-741.

[9] Wang J M and Fleet D J. Gaussian process dynamical models for human motion[J]., 2008, 30(3): 283-298.

[10] Urtasun R, Fleet D J, and Fua P. 3D people tracking with gaussian process dynamical models[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, USA, 2006: 238-245.

[11] Rosman G, Bronstein M M, Bronstein A M,. Nonlinear dimensionality reduction by topologically constrained isometric embedding[J]., 2010, 89(1): 56-68.

[12] Lawrence N D. Probabilistic non-linear principal component analysis with Gaussian process latent variable models[J]., 2005, 6(11): 1783-1816.

[13] Ek C H, Torr P H S, and Lawrence N D. Gaussian process latent variable models for human pose estimation[C]. Proceedings of 4th Workshop on Machine Learning for Multimodal Interaction, Brno, Czech Republic, 2007: 132-143.

[14] Dong Fang-fang, Chen Zeng-si, and Wang Jin-wei. A new level set method for inhomogeneous image segmentation[J]., 2013, 31(10): 809-822.

[15] Kasaiezadeh A and Khajepour A. Multi-agent stochastic level set method in image segmentation[J]., 2013, 117(9): 1147-1162.

[16] Sigal L and Black M J. Humaneva: synchronized video and motion capture dataset for evaluation of articulated human motion[R]. Report of Brown University, Providence: USA, 2006.

[17] Liu Ye-bin, Gall J, Stoll C,. Markerless motion capture of multiple characters using multiview image segmentation[J]., 2013, 35(11): 2720-2735.

李萬益: 男,1985年生,博士生,研究方向為機器學習、智能計算方法、通信系統優化.

孫季豐: 男,1962年生,教授,博士生導師,研究方向為圖像理解、計算機視覺.

王玉龍: 男,1989年生,碩士生,研究方向為圖像與視頻處理.

Human Motion Estimation Based on Dual LatentVariable Spaces Local Particle Search

Li Wan-yi Sun Ji-feng Wang Yu-long

(,,510641,)

A novel algorithm called Dual Latent Variable Spaces Local Particle Search (DLVSLPS) is proposed. It can estimate the 3D human motion sequence from silhouettes of multi-view image sequence more accurately. Gaussian Process Dynamical Models (GPDM) is used to reduce the dimension to build the dual latent variable spaces and the mapping from low dimensional latent variable data to high dimensional data. Then, the low dimensional particles are searched in these spaces by the method called Neighbor Weight Prior Condition Search (NWPCS). The better high dimensional data are generated from the mapping to estimate the 3D human motion of the corresponding frame. The proposed algorithm aims to solve the problem of traditional particle filters. The problem is that sampling in high dimensional data space can not get the valid and correct data to estimate the 3D human motion. The simulating experiments show the proposed algorithm has better performance than the traditional particle filters. The better performance includes the multi-view and discontinuous frame estimation, overcoming the silhouette ambiguity and reducing the estimation error.

Human motion estimation; Dual latent variable spaces; Local particle search; Multi-view image sequence; 3D human motion sequence

TP391.4

A

1009-5896(2014)12-2915-08

10.3724/SP.J.1146.2013.01915

李萬益 luther1212@163.com

2013-12-09收到,2014-06-30改回

國家自然科學基金青年基金(61202292)和廣東省自然科學基金(9151064101000037)資助課題

猜你喜歡
高維輪廓粒子
有向圖上高維時間序列模型及其在交通網絡中的應用
OPENCV輪廓識別研究與實踐
基于實時輪廓誤差估算的數控系統輪廓控制
Conduit necrosis following esophagectomy:An up-to-date literature review
一種改進的GP-CLIQUE自適應高維子空間聚類算法
基于粒子群優化的橋式起重機模糊PID控制
基于粒子群優化極點配置的空燃比輸出反饋控制
高速公路主動發光輪廓標應用方案設計探討
高維Kramers系統離出點的分布問題
基于隨機森林算法的高維模糊分類研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合