王國剛,楊雨前,李澤欣
(山西大學 物理電子工程學院,山西 太原 030006)
在給定跟蹤目標初始信息的前提下,目標跟蹤的任務是持續估計后續幀目標的位置、尺度等狀態信息。作為計算機視覺領域的研究熱點之一,目標跟蹤在軍事偵察、智能機器人、手勢識別等諸多領域具有重要的研究價值[1-2]。
基于回歸判別式模型,傳統相關濾波算法結合循環矩陣和快速傅里葉變換,實現了對目標的跟蹤[3-4],該類算法主要包括搜索區域、特征提取、目標定位和模型更新4 個步驟。由于采用了數據量較小的手工特征,傳統相關濾波算法具有較快的跟蹤速度。但是,手工特征對旋轉、形變等外觀變化的魯棒性較差,因此該類算法在跟蹤中難以取得較為魯棒的跟蹤效果。
得益于深度特征良好的表征能力和抗干擾能力,結合深度學習的相關濾波算法[5-7]相較于傳統相關濾波算法具有較好的跟蹤準確性和魯棒性。該類算法主要分為兩類:一類是將預訓練深度特征融入相關濾波器的HCF[8],HDT[9]等算法;另一類是將相關濾波器集成到深度網絡中的CFNet[10],DCFNet[11]和UDT[12]等算法。這些結合深度學習的相關濾波算法雖然實現了精確和魯棒的跟蹤,但是仍未解決因循環移位帶來的邊界效應,導致跟蹤算法的性能提升受到限制。
空間正則化相關濾波算法(Spatially Regularized Discriminative CF,SRDCF)[13]按照濾波器系數的空間位置引入正則化項,有效解決了邊界效應。但是,該算法跟蹤中僅采用手工特征表征目標,Gauss-Seidel方法訓練相關濾波器的時間復雜度高,跟蹤結果不可靠時仍逐幀更新模型。
針對SRDCF算法存在的問題,提出深度特征目標感知ADMM優化多指標更新相關濾波跟蹤算法(Target-Aware Deep Tracking by ADMM Optimization and Multi-Index Update,TACF)。該算法融入預訓練的深度特征,并依回歸損失的梯度信息進行通道選擇,提高對目標的表征能力;采用交替方向乘子法(ADMM)[14]訓練相關濾波器,降低算法復雜度,加快跟蹤速度;根據多指標更新方法判斷是否進行模型更新,不但提升了算法運行效率,還避免了因學習到大量干擾信息而導致的模型損壞。實驗結果表明,TACF算法相較于其它8種現有算法實現了更精確、更魯棒的跟蹤。
針對SRDCF算法存在的缺陷,提出TACF跟蹤算法。該算法框圖主要包含深度特征目標感知、TACF模型優化和多指標更新三部分,如圖1 所示。
圖1 TACF算法整體框架圖Fig.1 The overall framework diagram of TACF algorithm
相關濾波算法利用循環矩陣進行訓練和檢測,盡管提高了計算效率,但也帶來了邊界效應。為抑制邊界效應,引入空間正則化項,構造如下目標函數,訓練TACF跟蹤模型的位置濾波器。
式中:大小為M×N的xl和f l分別為第l通道的目標特征和位置濾波器;L為總通道數;?和 ·分別為循環卷積操作和哈達瑪積;y為預定義的標簽;空間正則化項抑制背景干擾,凸顯感興趣的目標區域。
位置檢測時,從當前幀提取特征圖zl,與前一幀訓練的位置濾波器f l在頻域的各通道上進行哈達瑪求積運算,再把各通道的哈達瑪積的和經傅里葉逆變換得到跟蹤響應圖S
式中:F-1表示傅里葉逆變換;表示傅里葉變換。跟蹤響應圖S中最大響應值點即為預測的當前幀目標的位置。
為適應跟蹤目標外觀的不斷變化,需要對跟蹤模型進行如下更新
式中:η為更新時的學習率。
現有深度跟蹤器用預訓練的卷積神經網絡(Convolutional Neural Networks,CNN)特征表征跟蹤目標,而預訓練的CNN 特征先前一般是在目標識別任務中用來描述目標外觀特性的。與目標識別任務中的目標不同,跟蹤目標可以是任意形式的任意對象類,所以,將深度特征直接用于跟蹤不僅會帶來大量的干擾信息,而且難以區分目標與背景,致使跟蹤效果不佳。
為解決此問題,更好地提升對目標的表征能力,提出深度特征目標感知方法,對預訓練的CNN特征圖進行通道選擇,具體流程如圖2 所示。
圖2 深度特征目標感知Fig.2 Target-aware of deep features
構建如下回歸損失函數,得到適用于跟蹤任務的目標感知特征。
式中:h,xdp分別為回歸權重矩陣和預訓練的深度特征圖;標簽為相對跟蹤目標的偏移量;σ為高斯內核的寬度。
使用式(5)計算回歸損失梯度,以衡量各特征通道的重要性。
式中:xo(u,v)為回歸損失收斂后的權重矩陣h與預訓練的深度特征圖xdp的卷積。
對回歸損失梯度作全局平均池化(GAP)處理,可得特征通道重要性權重Δ,如式(6)所示。
重要性權值越大,特征通道對目標的表征能力越強[15]。因此,深度特征目標感知策略保留權值為正的特征通道,剔除權值為負的特征通道,得到如式(7)所示的適用于跟蹤任務的目標感知特征xta。
式中:Q(·)為根據權重Δ選擇目標感知特征的函數。
繪制特征熱力圖,比較原始深度特征和目標感知特征的不同,以驗證深度特征目標感知策略的有效性。圖3 為繪制的熱力圖,從左到右分別為視頻幀、原始深度特征和目標感知特征。
圖3 原始深度特征和目標感知特征熱力圖Fig.3 Thermal maps of original deep features and target-aware features
如圖3(a)所示,原始深度特征熱力圖焦點沒有聚集在目標區域,未能有效區分目標與背景;而目標感知特征熱力圖焦點全部聚集在目標區域,剔除了右下角的干擾信息,能將目標與背景區分開來。圖3(b)中,與跟蹤目標相似的干擾物較多,原始深度特征熱力圖在干擾物上有大量焦點聚集,包含較多干擾信息;而在目標感知特征熱力圖中,大量干擾信息被剔除,焦點主要聚集在目標區域,凸顯了跟蹤目標的外觀特征。
式(1)為TACF 跟蹤模型的目標函數,為優化模型,引入約束條件f=g,式(1)的增廣拉格朗日方程可以表示為
式中:s為拉格朗日乘子;ρ為步長參數。
將TACF模型優化問題拆分為如式(10)所示的3個局部子問題,采用ADMM算法交替求解。
1)求解子問題f
依帕塞瓦爾定理,式(11)在頻域中可化為
令式(13)的導數為0,可得
由式(14)和Sherman-Morrison 公式,可得子問題f在頻域中的封閉解
子問題f的時域解可由頻域解的傅里葉逆變換得到。
2)求解子問題g
令式(16)的導數為0,可得子問題g的封閉解
式中:W為1個LMN×LMN的對角矩陣。
3)更新步長參數
式中:ρmax為ρ的最大值;γ為尺度參數。
因為深度特征包含豐富的語義信息,所以,基于目標感知特征的跟蹤模型對目標的外觀變化具有較強的魯棒性,但目標感知特征的空間分辨率較低,目標定位準確性較差。另一方面,手工特征空間分辨率較高,有利于目標的精確定位,但包含顏色、紋理等信息的跟蹤器魯棒性較差。因此,TACF 采用目標感知特征和手工特征訓練相應的跟蹤模型,分別利用式(2)得到響應圖Sta和Shc,再依式(19)獲得融合后的響應圖Sfu。
式中:Sta,Shc分別為目標感知特征響應圖和手工特征響應圖;θ1和θ2為融合系數。
得到響應圖Sfu后,可根據最大響應分數判斷當前幀跟蹤結果的好壞。如圖4 所示,第2 幀的跟蹤目標沒有受到干擾,最大響應分數較大,跟蹤結果良好;第73幀,跟蹤目標被相似物干擾,最大響應分數減小,跟蹤結果開始出現偏差;第110 幀,跟蹤目標被嚴重遮擋,最大響應分數很小,跟蹤結果越來越差。如果把響應分數最大值點預測為目標位置,那么在第110 幀,由于遮擋和相似物干擾,導致目標位置出現錯判。因此,僅采用最大響應分數作為模型更新的判據會因判斷不準確使跟蹤發生偏移。
圖4 不同跟蹤場景下的最大響應分數Fig.4 Maximum response score under different tracing scenarios
跟蹤結果置信度包含最大響應分數和平均峰值相關能量(Average Peak Correlation Energy,APCE)[16]兩個指標。APCE 描述響應圖波動程度,定義為
圖5 不同跟蹤場景下的跟蹤置信度Fig.5 Tracking confidence under different tracing scenarios
深度特征的引入使模型參數量急劇增加。由于跟蹤過程中訓練數據的稀缺性,訓練數據量小于模型參數量,可能會導致模型過擬合。而且,逐幀更新的傳統策略雖然能使模型較好地適應不斷變化的目標外觀,但過度更新也會使模型對最新幾幀樣本過擬合。此外,相鄰兩幀的目標通常不會有較大變化,采用前一幀的模型仍可精確定位當前幀目標。因此,TACF 采用隔幀更新方法以提高算法的運行速度,防止模型過擬合。
綜合最大相應分數、APCE和隔幀更新策略,提出了多指標更新方法,如式(21)所示。
TACF算法流程如圖6 所示。
圖6 TACF算法流程圖Fig.6 The flow chart of the TACF algorithm
跟蹤階段,TACF 算法對預訓練網絡提取的深度特征進行通道選擇,得到適合跟蹤任務的目標感知特征,以提升對目標的表征能力;同時,采用ADMM 算法優化跟蹤模型,加快相關濾波器的訓練速度;最后,根據最大響應分數、APCE 和隔幀更新策略判斷是否更新模型,避免模型損壞。
實驗采用Windows10 操作系統下的Matlab2019a 對TACF 算法進行實現,并通過Mat-ConvNet 工具包實現預訓練網絡VGG-16[17]的前向傳播。硬件平臺配置為:16 GB 內存,AMD R5 4600H 6核3.00 GHz CPU,GTX1650 GPU。
ADMM參數設置為:初始步長ρ=1,最大步長ρmax=10 000,尺度γ=10。多指標更新參數設置為:β1=0.6,β2=0.5,學習率η=0.018 5。響應圖融合系數設置為:θ1=1,θ2=1。深度特征目標感知參數設置為:回歸損失收斂閾值=0.02,最大迭代次數=200,原始深度特征為VGG-16中Conv4_3層的輸出。
實驗數據集為OTB2015[18](object tracking benchmark),該數據集含目標部分離開視野、遮擋、平面內旋轉、背景雜亂等11種場景屬性。
實驗采用一次通過評估(One Pass Evaluation,OPE)、空間魯棒性評估(Spatial Robustness Evaluation,SRE)、時間魯棒性評估(Temporal Robustness Evaluation,TRE)、11 種復雜場景下的精確度和成功率作為評價指標。OPE,SRE,TRE、精確度和成功率的定義如下:
1)OPE:在目標初始信息為理想的情況下,算法維持其跟蹤性能的特性。
2)SRE:在首幀的真實跟蹤框出現位置平移或尺度縮放的情況下,算法維持其跟蹤性能的特性[21]。
3)TRE:在起始幀發生改變(不為第1 幀)的情況下,算法維持其跟蹤性能的特性[18]。
4)精確度:預測中心位置與真實中心位置的歐氏距離小于20 pixel的幀數占總幀數的比值。
5)成功率:預測框與真實框的交并比大于0.5的幀數占總幀數的比值。
OPE 模式下的精確度和成功率主要反映跟蹤算法在理想情況下的跟蹤性能,是目標跟蹤領域常用的評價指標。而SRE 和TRE 模式下的精確度和成功率能在一定程度上評價算法在真實情況下的跟蹤性能,是更加重要的評價指標。
為評估所提算法性能,將TACF 算法與SRDCF,AutoTrack[19],TADT[20],CFNet,DCFNet,UDT,STRCF[21],LADCF[22]8種主流算法進行比較,實驗結果如表1 所示,OPE精確度、成功率如圖7 所示。
表1 OTB2015數據集上的實驗結果Tab.1 The experimental results on OTB2015 dataset
圖7 OPE精確度和成功率Fig.7 Precision and success rate of OPE
由表1 和圖7 可知,TACF 算法的OPE 精確度、成功率分別為0.902 和0.691,相較于Auto-Track,STRCF,TADT,LADCF,DCFNet,UDT,SRDCF和CFNet,精確度分別提高11.5%,4.7%,3.8%,6.5%,8.4%,13.2%,13.9%和15.3%,成功率分別提高10.4%,4.0%,3.3%,4.5%,6.5%,9.6%,10.8%和12.1%。
在初始幀數改變、第一幀真實框平移或尺度變化的情況下,跟蹤算法性能可能有較大變化。因此,采用TRE、SRE對TACF和其它8種對比算法作進一步分析,實驗結果如表2、表3 所示。
表2 9種算法的時間魯棒性評估Tab.2 TRE for the nine algorithms
表3 9種算法的空間魯棒性評估Tab.3 SRE for the nine algorithms
由表2 和表3 可知,TACF算法的TRE精確度、成功率分別為0.898 和0.695,相較于SRDCF 算法分別提高11.2%和8.0%;SRE 精確度、成功率分別為0.873 和0.646,相較于SRDCF算法分別提高11.2%和8.4%。由表2 和表3 還可知,TACF 算法的TRE 和SRE 均好于其它8種算法。
為分析跟蹤算法在復雜場景下的性能,實驗對9種算法在11種場景下的OPE精確度和成功率進行比較,結果如表4、表5 所示。
表4 9種算法在不同場景下的成功率Tab.4 The success rate of the 9 methods under various scenarios
表5 9種算法在不同場景下的精確度Tab.5 The precision of the 9 methods under various scenarios
由表4、表5 可知,TACF 算法的成功率和精確度在低分辨率(Low Resolution,LR)場景下僅比TADT 算法略低,在其它10 種場景下均為最優。與SRDCF 算法相比,TACF 算法的跟蹤性能在所有場景下均有較大提升,尤其在超出視野(Out-of-View,OV)、運動模糊(Motion Blur,MB)和遮擋場景(Occlusion,OCC)下,成功率分別提升20.7%、13.4%和12.5%,精確度分別提升32.4%,16.1%和17.3%。
實驗挑選OTB2015 的5 個典型視頻序列以定性分析TACF 和8 種主流對比算法。所選視頻序列含背景雜亂、遮擋、快速運動和尺度變化等多種場景屬性。實驗結果如圖8 所示。
圖8 不同算法的跟蹤結果Fig.8 Tracking results of the different methods
視頻序列bolt2跟蹤過程中,主要存在的挑戰因素是背景雜亂。從第10 幀到第292 幀,跟蹤目標被視頻背景中的相似物干擾,SRDCF,DCFNet,UDT 和AutoTrack 相繼出現嚴重的跟蹤漂移,TADT 和LADCF 跟蹤到相似物上,僅TACF、STRCF 和CFNet 能準確定位目標,如圖8(a)所示。目標被相似物干擾時,TACF的跟蹤效果優于SRDCF,是因為TACF 采用的深度特征目標感知策略有效區分了目標與背景。
視頻序列girl2跟蹤過程中,主要存在的挑戰因素是遮擋。如圖8(b)所示,從第109幀到第120幀,目標被干擾物嚴重遮擋,僅TACF算法能對目標實現精確和魯棒的跟蹤,而其它對比算法均出現不同程度的跟蹤漂移;到第170幀,TACF仍可精確定位目標,而其它對比算法均完全丟失了跟蹤目標。遮擋場景下,TACF的跟蹤效果優于SRDCF,是因為TACF采用的多指標更新方法避免了由于學習到過多干擾信息而造成的模型腐敗。
視頻序列biker 跟蹤過程中,存在運動模糊、平面外旋轉和尺度變化等多種挑戰因素。從第65 幀到第75 幀,目標跳躍、旋轉,出現運動模糊,SRDCF 完全丟失目標,TADT,STRCF,CFNet 和UDT 均發生一定程度的跟蹤漂移;從第105 幀到第130 幀,AutoTrack、LADCF 和DCFNet 也完全丟失了目標,而TACF 一直可實現較為精確和魯棒的跟蹤,如圖8(c)所示。
視頻序列matrix跟蹤過程中,存在光照變化、快速運動以及背景雜亂等多種挑戰因素。第13幀,目標被相似物干擾,CFNet、LADCF和AutoTrack出現跟蹤漂移;從第46幀到第100幀,目標快速運動,出現光照變化,TADT,STRCF,DCFNet、UDT 和SRDCF 均發生不同程度的跟蹤漂移,僅TACF能一直精確定位目標,如圖8(d)所示。
視頻序列DragonBaby跟蹤過程中,存在超出視野、快速運動和平面內旋轉等多種挑戰因素。從第24 幀到第113 幀,目標劇烈運動,Auto-Track,TADT,DCFNet,UDT,SRDCF 和CFNet 均出現不同程度的跟蹤漂移,而TACF 自始至終能準確跟蹤目標,如圖8(e)所示。
針對所提深度特征目標感知(Target-Aware,TA)、交替方向乘子法(ADMM)和多指標更新(Multi-Index Update,MIU)方法,實驗在OTB2015 上對TACF 算法作消融分析,結果如表6 所示。
表6 消融實驗Tab.6 Ablation experiment
由表6 第1~2行可知,SRDCF-ADMM算法的精確度、成功率雖比SRDCF 算法分別下降0.6%和7.3%,但是跟蹤速度提升了375%。這說明采用ADMM 方法求解相關濾波器,降低了算法時間復雜度,加快了跟蹤速度。由表6第2~3 行可看出,在SRDCF-ADMM 基礎上,融入深度特征目標感知方法,精確度、成功率分別提升15.5%和23.3%,這說明深度特征目標感知方法有效提升了算法對目標的表征能力,提高了跟蹤準確性。由表6 第3~4 行還可看出,在采用了深度特征目標感知方法SRDCF-ADMM基礎上,融入多指標更新方法,精確度、成功率、跟蹤速度分別提升2.9%,3.7%和24.5%,這說明多指標更新方法不僅提升了算法運算效率,還避免了因學習到錯誤信息而導致的模型損壞。
本文提出了深度特征目標感知ADMM 優化多指標更新相關濾波跟蹤算法。該算法融入預訓練網絡提取的深度特征,并根據回歸損失的梯度信息進行通道選擇,提高了對目標的表征能力;采用ADMM 方法訓練相關濾波器,降低計算復雜度,加快跟蹤速度;根據多指標更新方法控制模型更新,不僅提升了算法運行效率,而且避免了由于學習到大量干擾信息而導致的模型損壞。實驗結果表明,TACF 算法的成功率、精確度在數據集OTB2015 上均優于其它8 種對比算法,且在復雜場景下實現了更魯棒的跟蹤。