?

結合特征點匹配及深度網絡檢測的運動跟蹤

2016-10-14 02:01梁文章
電子科技大學學報 2016年2期
關鍵詞:先驗編碼器粒子

陳 姝,梁文章

?

結合特征點匹配及深度網絡檢測的運動跟蹤

陳 姝1,梁文章2

(1. 湘潭大學信息工程學院 湖南 湘潭 411105;2. 廣西卡斯特動漫有限公司 南寧 530003)

通過樣本學習得到的目標先驗視覺信息可以對目標進行高效表示,在目標跟蹤中通過充分利用這些先驗知識提高跟蹤精度?;诖?,提出一種利用離線訓練結果進行在線跟蹤的算法,首先利用深度神經網絡通過樣本學習目標的視覺先驗,然后跟蹤在貝葉斯推理框架下進行,在跟蹤過程中將目標視覺先驗用作目標的外觀表示,跟蹤結果由粒子濾波順序得到。為了防止跟蹤漂移,通過特征點匹配建立系統的狀態模型,并且將目標分解成子目標進行相似度量,提高算法抗局部遮擋能力。在多個公開測試集上實驗表明,該算法可以提高目標跟蹤精度,防止跟蹤漂移,實現長序列可靠跟蹤。

深度學習; 特征匹配; 目標跟蹤; 粒子濾波; 稀疏編碼

基于視頻的目標跟蹤用來估計視頻中運動目標的位置,被廣泛應用于視頻監控、人機交互及視頻分析等領域。盡管目前目標跟蹤的精度得到了很大的提高,但是由于光照變化、部分遮擋、背景成簇及視點變化等因素使得可靠地跟蹤運動目標仍然面臨很多困難。

目標跟蹤算法大致分為生成式跟蹤算法及判別式跟蹤算法兩類。生成式跟蹤算法假定被跟蹤的目標可以由一定的生成模型來描述,因而跟蹤相當于在所有的候選目標中找到最可能的跟蹤目標[1]。生成式跟蹤算法的關鍵在于目標的外觀表示。為了簡潔地表示運動目標,稀疏表示被應用于目標跟蹤,這些方法將目標表示為模板空間中模板稀疏線性組合[2-5]。為了提高目標跟蹤的魯棒性,跟蹤一般在貝葉斯推理框架下執行(如粒子濾波)。判別式跟蹤算法將目標看作二值分類問題,其基本思想是在視頻序列的每一幀中應用分類器對目標進行分類,并將每幀分類結果組合成一個運動軌跡作為最終的跟蹤結果。代表算法包括:online AdaBoost[6]、multiple instance learning[7]。判別式跟蹤算法由于采用了有效的目標視覺表示,在簡單的跟蹤環境下能夠取得較好的跟蹤效果。而生成式跟蹤算法在遮擋等復雜環境能夠魯棒地跟蹤目標,因為其考慮了背景信息。

最近深度學習在特征提取領域取得了較好的效果,通過在大規模訓練數據庫學習可以得到目標的高效表示[8-10]。本文提出一種結合特征點匹配及深度神經網絡檢測的目標運動跟蹤算法,其目的是為了利用目標檢測(基于目標視覺先驗知識)及目標跟蹤(基于目標的在線信息)的優點,對目標進行高精度魯棒性跟蹤。本文的創新點在于:1) 利用特征點匹配及深度神經網絡檢測可以防止跟蹤漂移及跟蹤丟失;2) 利用深度神經網絡對目標特征表示的高效性,提高目標跟蹤的精度。

1 算法概述

本文提出的目標運動跟蹤算法如圖1所示,包括兩大部分:1) 目標的先驗視覺模型離線訓練,訓練稀疏自編碼深度神經網絡在圖像集上得到通用的目標視覺先驗。2) 目標在線跟蹤,首幀時根據標識的跟蹤目標位置提取正負樣本,在目標的先驗視覺模型基礎上訓練深度神經網絡得到目標的專用視覺特征表示模型;其他幀中采用粒子濾波對目標進行跟蹤,為了防止跟蹤漂移,運動模型由上下兩幀間匹配的SIFT特征計算得到。

2 目標視覺先驗表示

由于深度學習結構具有強大的函數表達能力,能有效地從少數樣本中學習多變函數的本質。故本文采用稀疏自編碼深度神經網絡在通用訓練樣本的基礎上學習得到目標的先驗視覺表示。

2.1 訓練數據集

采用VOC2010及Caltech101數據集作為離線訓練的樣本集。為了與其他算法比較,將所有訓練圖像都預先轉換成灰度圖像。另外,由于神經網絡輸入層的數據維數固定,需要根據輸入層數據的大小對訓練數據進行尺寸變換(采用下采樣或插值)。

2.2 棧式稀疏自編碼神經網絡

棧式自編碼神經網絡是一個由多層稀疏自編碼器組成的神經網絡,其前一層自編碼器的輸出作為其后一層自編碼器的輸入[11]。本文采用的棧式自編碼神經網絡結構如圖2所示,共分5層,第1層為輸入層,最后一層為softmax分類器,中間3層為稀疏自編碼器。訓練采用逐層貪婪訓練法分兩步進行,第一步依次訓練網絡的每一層,第二步在第一步計算的每層初始權值的基礎上對整個網絡進行微調。

第一步訓練:稀疏自編碼器嘗試逼近一個恒等函數,從而使得輸出接近于輸入。以特征層1為例說明稀疏自編碼器的結構(見圖3)及訓練過程。

圖2 棧式稀疏自編碼神經網絡結構

建立稀疏自編碼器的目標函數為:

稀疏自編碼器為求解使式(2)最小化的參數,即:

上式采用神經網絡的反向傳播算法可以求得。如果已求得特征層1的稀疏自編碼器,計算在樣本下其隱含層的輸出作為計算特征層2的稀疏自編碼器時的輸入,這樣依次訓練可以求得所有稀疏自編碼器的權值。

第二步微調:在第一步訓練過程中,由于訓練每一層參數時,會固定其他各層參數保持不變,為得到更好的結果,上述預訓練過程完成之后,可以通過反向傳播算法同時調整所有層的參數以改善結果。

為了提高算法抵抗局部遮擋的能力,除了訓練一個整體目標自編碼深度神經網絡,同時將目標分成4個不重疊的子目標(上半部分,下半部分,左半部分及右半部分)分別訓練一個自編碼深度神經網絡,由于尺寸減少一半,因而這4個子目標對應的自編碼深度神經網絡的輸入層的大小都為512。在局部遮擋下目標部分區域可見,利用部分可見區域進行目標相似性度量可以提高算法的可靠性。

3 基于粒子濾波的目標跟蹤

粒子濾波作為目標跟蹤中的一種常用方法,具有非線性非高斯系統建模功能。由于粒子濾波能夠處理多模式問題,因而它相對其他單模式跟蹤算法魯棒性更好,具體算法請參考文獻[12]。粒子濾波跟蹤的精度依賴于狀態模型及觀測模型的可靠性,下面說明這兩個模型在本文算法中的構建。

3.1 狀態模型

由上式定義誤差函數為:

3.2 觀測模型

以深度神經網絡的輸出作為粒子的相似度,由于共有5個深度神經網絡,故粒子的相似度結合目標及子目標的深度神經網絡輸出定義如下:

3.3 目標跟蹤

待跟蹤的目標由用戶在首幀中標注得到,并且提取待跟蹤目標圖像區域中的SIFT特征。在首幀中提取目標的正負樣本對離線訓練得到的棧式稀疏自編碼深度神經網絡進行再訓練,得到目標的視覺專用表示模型。正樣本集由選定目標區域根據以下變換方程得到:

4 實驗

本文在公開測試數據集上進行實驗驗證算法的有效性,實驗所用計算機CPU為酷睿i3(2.1 GHz)處理器,內存為4 GB。參數設置為:。實驗中粒子數為300,跟蹤目標由首幀手工標注得到。

4.1 定量比較

采用7種具有一定挑戰的視頻進行跟蹤比較實驗,這些視頻都存在不同的跟蹤困難因素:遮擋、不規則運動、姿態變化、光照變化、背景成簇等。用作比較的最新跟蹤算法包括:VTD[13]、MIL[14]、IVT[1],為了比較公平,使用作者提供的代碼在相同的目標初始值下進行實驗。

采用兩種評價標準來比較跟蹤結果。第一種為跟蹤正確幀率,正確跟蹤的標準采用PASCAL VOC競賽中目標跟蹤的評價準則[15]。某幀當其跟蹤結果

表1 正確跟蹤幀率及中心點誤差

4.2 定性比較

圖4為各跟蹤算法在7個視頻上的部分幀跟蹤比較結果。不同跟蹤困難因素下本文算法的跟蹤結果分析如下。

遮擋:圖4a及圖4b為嚴重遮擋及部分遮擋下的視頻跟蹤結果。本文算法可以較精確地跟蹤目標,在遮擋后沒有出現跟蹤漂移及跟蹤丟失現象,主要得益于特征點匹配及子目標相似度量。其他跟蹤算法在遮擋后都出現不同的跟蹤漂移現象。

不規則運動:圖4c及圖4d為跟蹤目標在快速無規則運動下的跟蹤結果。在這兩個視頻中跟蹤目標都進行了劇烈無規則的運動,劇烈運動造成的運動模糊使得精確跟蹤目標比較困難。由跟蹤結果可知本文算法跟蹤效果較好,其原因在于深度學習得到的目標視覺先驗以及在線跟蹤策略,使得跟蹤算法能夠最大限度地捕捉目標的外觀變化。

姿態變化:圖4e為電路板旋轉的視頻跟蹤結果。由于本文采用了六參數的仿射模型,因此在粒子濾波中可以產生更多具有旋轉變化的粒子,這些粒子能夠更好地表示目標的運動狀態。由跟蹤結果觀察可知,IVT不能正確跟蹤目標的尺度變化及旋轉變化。

光照變化:圖4f為具有強烈光照變化的視頻跟蹤結果。由于深度神經網絡在線訓練,使得分類器能夠考慮視頻過程中的光照變化,取得了較好的跟蹤效果。所有算法基本上都能跟蹤到運動目標,但是由于MIL不支持尺度變化,因此,跟蹤效果不理想。

背景成簇:圖4g為復雜背景下的視頻跟蹤結果。由于本文建立的目標視覺先驗是在大規?,F實圖像庫下的訓練結果,目標視覺先驗不僅考慮了目標信息,同時也綜合了不同背景下的信息,因此該目標視覺先驗具有較強的鑒別性。另外,SIFT特征的高效鑒別性也增強了本文算法在復雜背景下的目標跟蹤能力。

5 結 論

深度學習得到的目標視覺先驗可以精簡地表示目標的外觀變化,利用該優點,本文提出了一種結合特征點匹配及深度神經網絡檢測的目標運動跟蹤算法。利用粒子濾波進行目標跟蹤,跟蹤過程中觀測模型以訓練后的深度神經網絡輸出作為相似度量,以匹配SIFT特征點對計算得到的運動模型建立狀態模型。在7種測試視頻上與其他3種跟蹤算法的比較實驗結果表明,本文算法的跟蹤精度更高,具有抗漂移、抗遮擋能力。本文所采用的深度神經網絡最后一層為softmax分類器,該分類器為線性分類器,在樣本狀態空間為非線性分布情況下識別精度會降低。在以后的研究中,將嘗試在網絡最后一層使用非線性分類器來進一步提高算法的魯棒性。

[1] ROSS D, LIM J, LIN R, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1): 125-141.

[2] ZHANG T, GHANEM B, LIU S, et al. Low-rank sparse learning for robust visual tracking[C]//European Conference on Computer Vision. Firenze, Italy: Springer-Verlag, 2012.

[3] BAO C, WU Y, LING H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012.

[4] MEI X, LING H. Robust visual tracking using l1 minimization[C]//IEEE International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009.

[5] WANG Q, CHEN F, YANG J, et al. Transferring visual prior for online object tracking[J]. IEEE Transactions on Image Processing, 2012, 21(7): 3296-3305.

[6] GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting[C]//British Machine Vision Conference. Edinburgh, UK: Springer-Verlag, 2006.

[7] BABENKO B, YANG M, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.

[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]// Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: MIT, 2012.

[9] 鄭胤, 陳權崎, 章毓晉. 深度學習及其在目標和行為識別中的新進展[J]. 中國圖象圖形學報, 2014, 19(2): 175-184.

ZHENG Yin, CHEN Quan-qi, ZHANG Yu-jin. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphics, 2014, 19(2): 175-184.

[10] 李帥, 許悅雷, 馬時平, 等. 一種深度神經網絡SAR遮擋目標識別方法[J]. 西安電子科技大學學報(自然科學版), 2015, 42(3): 170-177.

LI Shuai, XU Yue-lei, MA Shi-ping, et al. New method for SAR occluded targets recognition using DNN[J]. Journal of Xidian University, 2015, 42(3): 170-177.

[11] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11: 3371-3408.

[12] ARULAMPALAM M S, MASKELL S, GORDON N. A tutorial on particle filters for online non-linear/non- Gaussian Bayesian tracking[J]. IEEE Transaction on Signal Processing, 2002, 50(1): 174-188.

[13] KWON J, LEE K. Visual tracking decomposition[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010.

[14] BABENKO B, YANG M, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.

[15] EVERINGHAM M, VAN GOOL L, WILLIAMS C, et al. The Pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

Object Tracking by Combining Feature Correspondences Matching with Deep Neural Network Detection

CHEN Shu1and LIANG Wen-zhang2

(1. College of Information Engineering, Xiangtan University Xiangtan Hunan 411105; 2. Guangxi Cast Animation Limited Company Nanning 530003)

Visual prior which learns from generic real-world images can precisely represent objects, and the tracking results can be improved by exploiting the learned visual prior. Motivated by this, we propose an algorithm that transfers visual prior offline for online object tracking. First, we train a deep neural network to learn generic image features. Then, tracking is carried out within a Bayesian inference framework, in which the learned classifier is used to construct the observation model and a particle filter is used to estimate the tracking result sequentially. To avoid tracking drift, the state model is estimated by matched scale-invariant feature transform (SIFT) feature correspondences, and the object is divided into some sub-objects for tracking to enhance the robust while partial occlusions occur. The experiment results on some benchmark video sequences show that the proposed algorithm can improve the tracking precision, and prevent track failure to achieve robust long sequences tracking.

deep learning; feature matching; object tracking; particle filter; sparse coding

TP391

A

10.3969/j.issn.1001-0548.2016.03.015

2014 - 12 - 04;

2015 - 09 - 15

國家自然科學基金(61100139, 61040009)

陳姝(1976 - ),男,博士,副教授,主要從事計算機視覺方面的研究.

猜你喜歡
先驗編碼器粒子
融合CNN和Transformer編碼器的變聲語音鑒別與還原
碘-125粒子調控微小RNA-193b-5p抑制胃癌的增殖和侵襲
基于膜計算粒子群優化的FastSLAM算法改進
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
Conduit necrosis following esophagectomy:An up-to-date literature review
基于粒子群優化極點配置的空燃比輸出反饋控制
基于雙增量碼道的絕對式編碼器設計
基于自適應塊組割先驗的噪聲圖像超分辨率重建
應用旋轉磁場編碼器實現角度測量
康德審美判斷的先驗演繹與跨文化交流
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合