應用LTRNet卷積特征的ECO目標跟蹤算法改進

2021-01-08 06:19陳志旺娟姚權允彭

控制理論與應用 2020年12期

陳志旺王瑩宋娟姚權允彭勇

(1.燕山大學智能控制系統與智能裝備教育部工程研究中心，河北秦皇島 066004;2.燕山大學工業計算機控制工程河北省重點實驗室，河北秦皇島 066004;3.國網黑龍江省電力有限公司佳木斯供電公司，黑龍江佳木斯 154002;4.燕山大學電氣工程學院，河北秦皇島 066004)

1 引言

目標跟蹤是機器視覺當前研究的熱點方向，也是一項非常具有挑戰性的工作.目前，目標跟蹤技術在高級人機交互、安全監控和行為分析等方面具有潛在的經濟價值和廣泛的應用前景[1].因此，需深入研究、設計高性能的目標跟蹤算法.

近年來隨著深度學習的不斷發展，卷積神經網絡強大的特征學習能力引起了國內外專家學者的廣泛關注[2].基于深度學習的跟蹤方法因精度高、性能穩定逐步成為了目標跟蹤發展的主流方向.2015年，VGGNet[3]網絡模型的出現將跟蹤算法的精度提升到了一個新高度.Danelljan等提出的連續卷積跟蹤算法(learning continuous convolution operators for visual tracking，C-COT)[4]，采用多層VGGNet卷積特征，通過連續空間域插值轉換操作，可以將不同分辨率的特征輸入濾波器.2017年，Danelljan等以C-COT為基礎，提出了一種具有高效卷積特性的跟蹤算法(efficient convolution operators for tracking，ECO)[5]，該算法從模型大小、訓練集大小以及更新策略3個方面進行改進.在OTB2015[6]上的測試結果很長一段時間排名第一.隨后，He 等基于ECO 提出了具有加權卷積響應的(correlation filters with weighted convolution responses，CFWCR)[7]改進算法，此算法使用VGGNet卷積特征的多尺度相關濾波跟蹤方案，通過加權處理深、淺卷積特征的卷積響應結果提升了跟蹤精度.2018年，Goutam等將ECO中的VGG16[3]換成了ResNet50[8]，并加入數據增強處理提取目標特征，提出了可以有效利用深度卷積網絡進行跟蹤的(unveiling the power of deep tracking，UPDT)[9]跟蹤算法，先對不同層次特征進行分治，然后，自適應計算兩種特征的響應加權系數并加權融合，有效提高了深度特征下的跟蹤算法性能.此外，在VOT2018[10]短時跟蹤公開測試集挑戰中，具有多分辨率融合特性的(multi-solution fusion for visual tracking，MFT)算法，通過針對不同分辨率特征獨立求解，并根據跟蹤視頻的難易程度自適應優化融合多個解來預測目標位置，使算法魯棒性排名第一.

以上算法除C-COT是ECO算法的基礎外，其他都可看作是ECO算法的改進.這些算法主要利用深度卷積網絡提取強表征能力的目標特征提高跟蹤精度，且網絡越深，精度越高.但隨著卷積網絡層數的增加，訓練網絡愈加復雜，目標特征提取效率逐漸降低，加上要對高維數據進行計算，開銷較大，最終導致跟蹤實時性差.

因此，本文在文獻[5]的基礎上，從深度卷積網絡結構出發，提出了改進的ECO 算法LRECT(LTRNet for efficient convolution tracker).首先，引入了Dong等人[11]因受常微分方程(ordinary differential equation，ODE)[12]線性多步數值方法啟發提出的LT殘差結構，堆疊LT形成了利于目標跟蹤的LTRNet(LT-ResNet)深度卷積網絡;其次，利用該網絡提取目標特征，并通過投影矩陣壓縮特征，插值處理提高特征的亞像素精度.之后，在傅里葉域將處理后的特征與當前濾波器進行卷積定位計算.最后，利用高斯牛頓算法[13]和共軛梯度算法[13]聯合求解優化目標更新濾波器和投影矩陣.

2 基礎理論

2.1 ECO跟蹤算法

ECO[5]是一種具有高效卷積特性的跟蹤算法，其提取目標的VGGNet[3]，HOG(histogram of oriented gridients)，CN(color-names)特征用于相關濾波框架實現目標定位和濾波器更新.

首先，沿用C-COT[4]的插值方法對檢測樣本的目標搜索區域特征x進行如下式所示的插值運算:

式中:xd表示x的d通道特征(d ∈[1，D]);Jd{xd}(t)是一個關于t ∈[0，T)的函數，表示xd的插值運算結果;是關于n ∈{0，···，Nd-1}的函數;Nd是其分辨率;是d通道的插值函數.用J{x}(t)∈RD表示的1至D通道的插值結果，簡記為J{x}.其次，使用主成分分析法[14](principal component analysis，PCA)簡化濾波器，然后與J{x}進行卷積計算求響應得分SPf{x}:

式中:f是通道數為D的濾波器，“*”是卷積運算符，P是D行C列的投影矩陣，PT是其轉置矩陣.對SPf{x}使用高斯牛頓算法[13]進行優化，可找到最大得分值的位置(目標的新位置).最后，先使用高斯混合模型(Gaussian mixture model，GMM)[15]方法壓縮訓練集.之后，對訓練樣本和當前濾波器f的卷積響應得分SPf{μm}與訓練樣本高斯標簽y0的誤差取L2范數，并添加懲罰項構造如下所示的損失函數:

式中:μm和πm分別是訓練樣本的均值和權重;M是訓練樣本總個數;ω是f的懲罰項，此處使用的P僅在第1幀中計算確定，以后使用共軛梯度算法[13]每隔6幀求解一次式(3)更新f時，P保持不變.

綜上，ECO通過減小濾波器、訓練集以及濾波器更新頻率降低了算法復雜度，提升了跟蹤速度.但其忽略了深度VGGNet提取高維目標特征所消耗的時間.對此，本文從卷積網絡結構出發，進一步研究提升ECO跟蹤性能的方法.

2.2 LT殘差結構

針對深度卷積網絡的可解釋性問題，Dong Bin等人[11]從數學的角度將ResNet[8]等深度卷積網絡理解為常微分方程ODE[12]顯式歐拉的數值離散近似.結合圖1(a)可形象化地將ResNet殘差結構Basic block寫為

式中:un和un+1分別表示第n+1個Basic block殘差結構的輸入和輸出，f(tn，un)表示由tn和un參數化了的兩個卷積層(Conv). u′(t)=f(t，u(t))的顯式歐拉離散如下:

式中:un和un+1表示ODE在tn和tn+1處的數值解，Δt表示步長，f(tn，un)≈u′(tn)，u′(tn)是函數u(t)在tn處的導數.對比式(4)-(5)可知，式(4)是式(5)步長Δt=1時的一個特例.

然后，為利用ODE的線性多步數值方法(式(6))可以提高當前數值解un+1對精確解u(tn+1)的近似精度的特性，提出了LT殘差結構(式(7)):

式(6)中:k表示步數，αi和βi為標量參數，un+k表示第k步的預測數值解，f(tn+i，un+i)表示u(t)在tn+i處的導數近似，且tn+i=tn+iΔt.取式(6)中的參數

可得到式(7).式(7)中Kn∈R表示第n個LT殘差結構的可訓練參數，un-1表示第n個Basic block殘差結構的輸入，其他變量含義同式(4).由un-1的含義解釋可知，LT殘差結構可用于任何類似于ResNet的深度卷積網絡，本文稱這一新網絡為LTRNet.

圖1(a)-1(b)分別是Basic block和LT殘差結構原理圖，對比可知，1個LT包含2個Basic block和1個訓練參數Kn.在求解un+1時，圖1(b)較圖1(a)多引入一歷史信息項un-1，且un-1和un分別配有Kn和1-Kn這樣相互制約的訓練權重，使LT能夠選擇保留un-1和un的有效特征信息融入到un+1.對比僅保留un這一歷史信息項的Basic block，LT使歷史信息遺忘較慢，更能得到充分利用.

此外，由原理圖還可知，使用Basic block或LT堆疊而成的深度卷積網絡訓練的實質是進行殘差學習.分別將式(4)和式(7)在保留Δt的情況下寫成殘差形式

對上兩殘差等式的左側部分在tn處做泰勒展開，分別得到式(4)和式(7)忽略高階項的殘差式(8)-(9):

對比以上兩式可知，式(9)對殘差f(tn，un)的逼近程度較式(8)提高了一個級別的精度.綜上可得:相比于Basic block，使用LT可以得到更高的深度卷積網絡分類精度.

圖1 殘差結構原理圖Fig.1 Schematics of residual structures

3 LRECT跟蹤算法

本文提出的是一種應用LTRNet卷積特征對ECO[5]進行改進的目標跟蹤算法，主要由特征提取模塊、目標定位模塊和濾波器更新模塊3部分構成，跟蹤過程如圖2所示(圖中?表示卷積操作).

3.1 特征提取模塊

3.1.1 LTRNet32網絡

根據第2.2節中的理論分析和第5.3節的實驗結果，設計如圖3所示的LTRNet32作為本文跟蹤算法的特征提取模塊.由圖可知該網絡由1個卷積層(Conv)，4個卷積塊(Layer 1，Layer 2，Layer 3，Layer 4)，3個最大池化層(Pool 1，Pool 2，Pool 3)，1個全局平均池化層(Gavp)，1個全連接層(Fc)和1個Softmax函數層組成.若將含有2個卷積層的結構視為1個Block，Layer 1，Layer 2，Layer 3 和Layer 4分別包含Block 個數為1，2，8，4.考慮到新搭建的網絡在使用前需要先進行訓練，對于Conv，首先對輸入依次進行BN歸一化處理、ReLU激活和2D卷積操作的模式來解決網絡訓練初期誤差下降緩慢的問題.其次，采用3×3的小卷積核，這樣所需訓練參數少，進行堆疊操作還能增加特征的多樣性.此外，為了進一步減少網絡訓練參數，在Layer之間使用1個3×3的最大池化層，保留顯著特征信息，降低特征圖維度;對Layer 4的輸出先進行全局平均池化，再執行全連接操作.最后加上Softmax函數形成了一個完整的LTRNet32圖像分類網絡.

圖2 LRECT跟蹤算法框架圖Fig.2 The framework of LRECT tracking algorithm

圖3 LTRNet32網絡結構Fig.3 Network structure of LTRNet32

3.1.2 卷積特征的選取

深度卷積網絡不同層所提取的卷積特征側重點不同，淺層卷積特征保留了更多細粒度的紋理信息以及空間信息;深層卷積特征含有豐富的語義信息.為了分析、選取有效的目標特征，對LTRNet32的不同Layer層進行如圖4所示的可視化輸出，圖4(a)是檢測圖像中的目標搜索區域，圖4(b)-4(e)分別是Layer 1，Layer 2，Layer 3，Layer 4對圖4(a)卷積輸出的特征可視化圖.觀察圖像可知，圖4(b)中包含較多原始圖像的輪廓和位置信息，目標的有效特征信息占比少;圖4(c)包含較為細致的輪廓信息;圖4(d)包含高細粒度的紋理信息和部分語義信息;圖4(e)包含豐富的高級語義信息，可以明顯區分目標(人)和背景.考慮到視頻跟蹤任務需要利用目標的空間信息進行定位，高級語義信息應對目標表觀變化，本文舍棄Layer 1，選取Layer 2，Layer 3，Layer 4 分別提取32，64，128維的卷積特征，用于后續目標定位和濾波器更新.

圖4 LTRNet32網絡Layers卷積輸出可視化圖Fig.4 Convolution output visualizations of Layers in LTRNet32

3.2 目標定位模塊

目標定位是實現目標跟蹤的表現形式.圖2中的定位模塊缺乏實現細節.對此，本節將從特征壓縮、特征處理和卷積定位這3個方面對該模塊進行詳細論述，其實現框架如圖5所示.

1) 特征壓縮.

由于不同卷積核對圖像的敏感方向不同，所以不是每個通道提取的特征都是有用的.圖6是Layer 4輸出特征的128個通道的可視化圖，觀察可知，1通道和127通道提取了較多的背景信息;65通道對圖像不敏感，幾乎沒有提取到有效信息;128通道較2通道可以提取更為詳細的目標信息.所以，可將一些類似于1通道和65通道等對目標定位貢獻不大的卷積通道舍去，之后再用于目標定位，這樣可以減少算法計算量，也不會影響所提取特征的表征能力.假設x是LTRNet32針對某幀檢測圖像的目標搜索區域提取的D維卷積特征，受式(2)啟發，使用投影矩陣P對其進行壓縮:

式中:x*表示壓縮后的C維特征，即x*有C個特征通道. P是一個C行D列矩陣(C ≤D)，隨濾波器一起更新計算，其具體求解見第3.3節內容，計算見式(17).

圖4 128個通道的特征可視化圖Fig.6 Feature visualizations of 128 channels

圖5 目標定位框架圖Fig.5 Framework of object localization

2) 特征處理.

首先，對特征壓縮所得的x*添加余弦窗Wcos解決邊界效應問題:

式中X=(X1，···，XC).取X通項Xc(c ∈[1，C])，參考式(1)，對其進行如下式所示的可提高亞像素精度的逐通道插值運算:

式中:J{X}(t)∈RC表示X的C個通道插值結果的疊加;隨離散變量n ∈{0，···，Nc-1}變化而變化，Nc表示Xc的分辨率表示c通道的插值核函數.

3) 卷積定位.

目標定位主要是將處理后的低維壓縮特征J{X}同當前濾波器f=(f1，···，fC)進行卷積計算.為了便于計算，先利用傅里葉變換將J{X}和f轉化到頻域，記為，然后通過下式得到頻域的響應得分

式中:“∧”表示頻域，時域中的卷積計算可參考式(2).取得分響應圖中最大得分值的位置作為預測的目標位置，定位結果如圖5中預測位置所示.

3.3 濾波器更新模塊

濾波器更新模塊包含生成訓練集和優化損失函數兩部分，其完整實現過程見圖2下半部分.訓練集的生成策略:將處理后的目標特征通過高斯混合模型(Gaussian mixture model，GMM)[15]聚類的方法合并入訓練集進行訓練樣本在線更新(圖2中GMM表示訓練集，Components表示訓練樣本).該方法區別于“單純添加新訓練樣本，盲目丟棄舊訓練樣本”的傳統訓練集更新策略，將空間內相距較近，且符合高斯分布的一組卷積特征視為一個訓練樣本，通過在線更新這些卷積特征組實現訓練集的更新.

優化損失函數就是更新濾波器f和投影矩陣P.為了降低因目標被遮擋濾波器發生漂移的概率，本文沿用文獻[5]的稀疏更新策略:在使用第1幀檢測圖像給出的目標初始信息計算f和P之后，每隔Ns幀檢測圖像，使用當前的Components訓練樣本進行一次f和P更新.參考式(3)構建如下所示的損失函數:

式中:M，y0，C，ω含義同式(3)，分別表示訓練樣本的總個數、高斯標簽、濾波器通道數和f的懲罰項;μm，πm，S{μm}分別表示第m個訓練樣本Component的均值和權重，以及其與f 的卷積響應得分;表示P的F范數，是P的懲罰項;λ為其權重系數.

優化求解式(14)完成f和P更新，常用的主流方法有標準梯度下降法[13]或隨機梯度下降法[13]等，但這些算法收斂速度慢，針對這一問題，本文采用高斯牛頓算法[13]與共軛梯度算法[13]聯合優化式(14).

首先，定義對應f=(f1，···，fC)和P的殘差:

其次，引入高斯牛頓算法，對r(f，P)進行一階泰勒展開:

式中:

是r在當前(f，P)下的雅可比式，Δ(f，P)是關于濾波器增量Δf和投影矩陣增量ΔP的表達式.將式(15)代入式(14)得E(f，P)二階高斯牛頓近似表達式:

最后，使用共軛梯度算法迭代優化式(16)，先得到Δf和ΔP，再通過下式更新f和P.

為了直觀理解上述f和P的更新過程，給出如下聯合優化的偽代碼，其中NGN代表高斯牛頓算法的迭代次數，u代表和r大小相同的向量，NCG代表共軛梯度算法的迭代次數，p和α分別代表每步優化的方向和步長，β代表更新動量.

綜合以上內容，本文算法LRECT舍棄了ECO中的傳統手工特征HOG和CN，僅依靠深度卷積網絡LTRNet32提取目標特征.為了使這一特征得以充分利用，本文算法選擇采用投影矩陣隨濾波器一起進行稀疏更新的策略.這是基于當前幀目標特征與臨近幀中的目標特征相似性大這一基礎理論，稀疏更新投影矩陣能夠使其適應視頻序列不同幀中目標的不同狀態，保持較高效、準確的壓縮特性.使用這樣壓縮后的目標特征作為訓練樣本，有利于學習得到更加穩定的濾波器.

4 算法步驟

LRECT跟蹤算法具體過程如下:

步驟1初始化算法參數:初始化投影矩陣P，濾波器f，訓練樣本權重πm等;創建余弦窗口Wcos;構建高斯標簽函數y0;設置特征壓縮后維數C以及高斯牛頓和共軛梯度算法的迭代次數NGN和NCG等參數.

步驟2讀取視頻序列的第一幀檢測圖像，使用其提供的目標初始信息裁剪出子訓練樣本.

步驟3將子訓練樣本輸入LTRNet32網絡提取卷積特征x.先后利用式(10)-(12)對x進行壓縮、加窗、插值處理得J{X}.

步驟4使用J{X}初始化訓練集GMM中的第1個Component.

步驟5采用高斯牛頓算法和共軛梯度算法聯合優化式(14)得增量Δf和ΔP，利用式(17)處理兩增量得到新濾波器f和投影矩陣P.記錄保存當前目標信息.

步驟6讀取下一幀檢測圖像，使用LTRNet 32提取其搜索區域的卷積特征x，之后對x做同步驟3一樣的壓縮、加窗、插值處理得到J{X}.

步驟7使用傅里葉變換將J{X}和當前濾波器f轉化到頻域.之后利用式(13)完成頻域中的卷積計算，得到卷積響應得分，找到圖中最高響應得分值的位置，將其作為當前幀中目標位置進行保存.

步驟8根據上步得到的目標信息在當前幀中裁出子訓練樣本，并對其執行同步驟3的操作.

步驟9對J{X}使用GMM方法更新訓練集.

步驟10判斷是否需要更新f和P.如果需要，執行同步驟5的操作.

步驟11判斷是否跟蹤完視頻序列，如果沒有，跳轉至步驟6;若跟蹤完畢，輸出視頻所有幀的目標信息，保存結果.

5 實驗結果與分析

5.1 實驗平臺

本文所做實驗均在一臺裝有1 張Nvidia GTX 1080ti GPU 的計算機上進行，處理器為Intel core(TM)i7-8700K，主頻為3.70 GHz，內存為32 GB，操作系統為64位Ubuntu16.04，編程環境為python3.6，深度學習框架為PyTorch.

5.2 實驗參數設置

1) 網絡訓練參數設置:超參數設置如表1所示.

表1 超參數值Table 1 Values of hyper-parameters

2) LRECT跟蹤算法參數設置:使用訓練好的LTRNet32作為特征提取模塊，設置其輸入圖像大小為224×224，選擇Layer 2，Layer 3，Layer 4作為特征提取層，設置特征壓縮后維數為8，116，32;使用零初始化濾波器f，隨機方式初始化投影矩陣P;對于第1幀檢測圖像，設置高斯牛頓算法和共軛梯度算法的優化迭代次數:NGN=6，NCG=15.以后每隔Ns=6 幀檢測圖像，取NGN=1，NCG=10.此處未提及的需要初始化的參數均沿用文獻[5]中的設置.

5.3 網絡性能對比分析

為驗證第2.2節中引入的LT殘差結構和第3.1.1節中提取模塊網絡層數設計的有效性，本節將通過堆疊LT殘差結構形成的LTRNet與通過堆疊Basic block殘差結構形成的ResNet[8]，先后在數據集CIFAR10[16]的訓練集和驗證集上進行訓練與評估，訓練超參數除訓練數據集迭代次數為200外，其他設置同表1.實驗細節:首先，采用Lee等人[17]的方法對CIFAR10的訓練集圖像做預處理，然后隨機剪裁出32×32大小的圖像塊用于網絡訓練.當網絡遍歷學習一次訓練集圖像后，以驗證集圖像的初始目標中心為中心裁剪出32×32大小的圖像塊用于網絡驗證.此外，LTRNet中的參數kn在集合[-0.1，0.0]中隨機取值進行初始化，其他參數和ResNet網絡參數同文獻[11]，使用PyTorch框架下的隨機方式進行初始化.最終測試評估結果見表2.

表2 卷積網絡在CIFAR10驗證集上的錯誤率Table 2 Error rates of convolution networks on CIFAR10 validation set

由表2數據可知，LTRNet和ResNet隨著網絡層數的加深，訓練參數量逐漸增加，分類錯誤率逐漸降低;在兩者同層情況下，參數量相同，但LTRNet的錯誤率比ResNet平均要低0.7%左右;LTRNet56幾乎可以達到ResNet110的分類效果.以上實驗結果說明，LTRNet是一種較ResNet擁有更高精度、更高效率的卷積網絡模型.此外，對比LTRNet不同卷積層數的訓練參數量和錯誤率，發現當卷積層數從20到32時，錯誤率下降了1.15%，之后隨著網絡層數的加深，錯誤率下降并不顯著.結合這些數據并考慮跟蹤的時效性，本文算法選擇LTRNet32作為特征提取模塊.

5.4 LTRNet32網絡訓練與特征選取結果分析

為了利用LTRNet32卷積網絡提取強表征能力的目標特征，先利用ImageNet[18]數據集對其進行訓練與驗證評估，其訓練超參數設置見表1，但學習率為0.01是初始值，當訓練數據集迭代次數為30和60時，會相繼縮減為0.001和0.0001.實驗細節:首先，隨機剪裁訓練集圖像為224×224大小的圖像塊.然后，采用同文獻[18]的預處理方式處理圖像塊.當網絡遍歷一次訓練集圖像后，以驗證集圖像初始目標中心為中心裁出一個224×224大小的圖像塊用于網絡評估，評估結果見表3.LTRNet32網絡的參數初始化同第5.3節實驗設置.之后，將訓練好的LTRNet32的不同Layer的卷積輸出進行組合用于本文算法LRECT，在OTB2015[6]數據集上進行分組測試，得到如表3所示的測試結果(LRECT的參數設置見第5.2節).

由表4數據可知，使用LTRNet32對一張圖像進行分類時，由Softmax函數統計出1000個概率，其中，最大概率為正確識別答案的概率(Top--1)為82.0%，比VGG16[3]和ResNet50[8]分類網絡的Top--1值分別高出6.7%和2.7%;排名前5的概率中包含正確識別答案的概率(Top--5)為94.5%，與ResNet50的Top--5僅差0.3%.綜上可知，LTRNet32的綜合性能優于VGG16和ResNet50.

表3中Layer 2，Layer 3，Layer 4表示其卷積輸出的特征圖，跟蹤精度[6]指算法估計的目標中心點與人工標注的目標中心點兩者的距離小于給定閾值的視頻幀的百分比;跟蹤成功率[6]指算法估計的目標邊界框與人工標注的目標邊界框的交并比大于給定閾值的視頻幀的百分比.因Layer 1相對于目標包含較多背景信息，對表征目標和實現精確定位干擾性強，所以，此處未考慮Layer1層的卷積輸出.另外，Layer 4作為LTRNet32的最后一個卷積塊的輸出，包含最為豐富的目標高級語義信息，在第3.1.2節的可視化圖顯示能夠明顯區分目標和背景，所以，將其列為特征組合中的一員，但不參與以下具體的數據對比分析.

對比Layer 3+Layer 4，Layer 2+Layer 3+Layer 4兩組數據可知，后者較前者在跟蹤精度和成功率方面，分別提升了2.3%和0.7%，這是因為Layer 2卷積特征包含了較Layer 3和Layer 4更為全面的目標邊緣和位置信息，對目標定位貢獻較大，所以提升跟蹤精度比較明顯.

對比Layer 2+Layer 4，Layer 2+Layer 3+Layer 4可知，后者較前者精度和成功率分別提高了3.5%和2.6%，這是因為Layer 3屬于LTRNet32的中間層，含有非常細致的目標輪廓信息，和比較豐富的目標語義信息，使其具有了利于目標定位和表征目標的雙重優勢.

5.5 跟蹤算法性能對比分析

為了驗證本文提出的LRECT跟蹤算法的有效性，引入近幾年一些主流跟蹤算法，同本文算法一起在OTB2015[6]數據集上進行對比測試，并采用一次跟蹤評估(one-pass evaluation，OPE)[6]中的跟蹤精度和跟蹤成功率作為算法測試的評價指標.測試結果見圖7.

圖7 算法在OTB2015上的對比測試結果Fig.7 Comparative test results of the algorithms on OTB2015

由圖7可知，本文算法LRECT獲得了0.921的跟蹤精度和0.698的成功率，在10種算法中跟蹤效果最好.將其他算法按照目標使用特征類型進行分類，與本文算法在精度方面相比較，得到如表5所示的LRECT 百分點提升結果，由表中數據可知，一般情況下卷積特征的表征能力優于傳統手工特征，越深的卷積網絡提取的卷積特征表征能力越強;本文算法使用LTRNet32提取的目標特征比使用ResNet50[8]的UPDT算法跟蹤精度高了0.8%，這有效證明了LTRNet32網絡的有效性.在成功率方面，本文算法較其他算法平均高出了7.1%，這可能得益于稀疏更新投影矩陣的策略，保留了適應目標狀態的有效特征信息，提高了跟蹤成功率.

圖8是ECO[5]，CFWCR[7]，UPDT[9]算法與本文算法在OTB2015[6]數據集的11種屬性上進行測試得到的精確度得分.橫軸的11種屬性的相關縮寫英文含義見文獻[6].由圖8 可知，本文算法LRECT在SV，LR，BC，DEF，OPR這5個屬性上均優于其他算法，尤其在LR，BC這兩種屬性上相比基礎算法ECO分別提升了10%和13%左右，在DEF屬性上比UPDT提升了3%左右.這有效證明了LTRNet32網絡的強泛化能力，以及其提取卷積特征的強表征能力.同時，易知在OV 這一屬性上本文算法較ECO 降低了7%左右，這是因為屬于OV 屬性的圖像無法為LTRNet32 提供有效的目標信息，在跟蹤過程中，投影矩陣的更新會對后續幀的表征能力造成一定程度的負面影響，嚴重時(當小目標超出視野時)可能導致跟蹤失敗.

表5 LRECT較其他算法提升的精度百分點Table 5 The improved accuracy percentages of LRECT compared with other algorithms

圖8 算法在OTB2015數據集的11種屬性上的精確度得分Fig.8 Accuracy scores of algorithms on 11 attributes of the OTB2015

為了保證實驗結果的客觀性，測試對比本文算法與ECO[5]算法在OTB2015[6]數據集中的100個視頻序列上的表現.跟蹤精度測試結果:本文算法跟蹤Basketball，Jump，Skiing，Trans 視頻序列的精度結果較基礎算法ECO提升了10%左右，在跟蹤Soccer，Tiger 1，Tiger 2時，卻減少了20%左右，表明本文跟蹤算法所提取的目標特征并不有利于所有的視頻序列，當遇到像Tiger 1這樣涉及快速移動和遮擋等跟蹤難點的序列時，算法所提取的特征缺乏高級語義信息，繼續進行壓縮操作導致其表征能力大大減弱，最終造成不同程度的精度損失.跟蹤成功率測試結果:本文算法跟蹤David時，由于高強度、高頻率的光照變化，使其成功率較ECO低了25%左右，但成功率值還在60%以上.并且在100個視頻序列中有84個的跟蹤成功率在60%以上，整體比ECO提高了7%.以上結果表明，本文算法不能有效應對一個視頻序列中所包含的所有跟蹤難點，但與基礎算法ECO相比，訓練的濾波器跟蹤性能更加穩定，驗證了更新投影矩陣的有效性.此外，測得平均幀率如表6所示.

表6 100個視頻序列的平均幀率Table 6 Average frame rate of 100 video sequences

由表6可知，本文算法平均每秒跟蹤幀數比ECO多4幀，驗證了使用特征壓縮和高斯牛頓算法、共軛梯度算法聯合求解損失函數策略的有效性.

6 結論

本文提出的LRECT跟蹤算法利用LTRNet深度卷積網絡提升了算法跟蹤性能.首先，利用LT殘差結構設計高效率、高精度的LTRNet32作為特征提取模塊，通過觀察、分析實驗結果選取LTRNet32的Layer 2，Layer 3，Layer 4卷積塊的輸出表征目標.其次，通過分析卷積特征特點，使用投影矩陣壓縮目標高維特征，在不影響特征表征能力的同時，降低了計算量.最后，先使用高斯牛頓算法構造損失函數的二階高斯牛頓近似表達式，再使用共軛梯度算法對該表達式迭代優化，同時實現了濾波器和投影矩陣的更新，改善了在線學習濾波器收斂速度慢的問題，使投影矩陣保持了較高效、準確的壓縮特性.最后，實驗結果表明本文跟蹤算法具有較好的抗非剛性形變、低分辨率、背景混亂等能力，以及擁有較高的精度和抗干擾能力.此外，幀率雖有所提升，但仍未達到實時性要求.對此，會考慮采用具有高效特性的端到端網絡實現目標邊界框的回歸等策略實現算法加速.