?

基于深度神經網絡的目標跟蹤算法綜述

2024-04-18 22:15郭凡盧鉉宇李嘉怡王紅梅
航空兵器 2024年1期
關鍵詞:目標跟蹤卷積神經網絡深度學習

郭凡 盧鉉宇 李嘉怡 王紅梅

摘 要:????? 目標跟蹤是根據視頻序列中目標的前續信息, 對目標的當前狀態進行預測。 深度學習在目標跟蹤領域逐漸廣泛應用, 本文闡述了目標跟蹤算法和深度學習的發展背景, 對傳統目標跟蹤進行了回顧, 根據不同的網絡任務功能, 將基于深度學習的目標跟蹤算法分為: 基于分類的深度學習目標跟蹤算法、 基于回歸的深度學習目標跟蹤算法、 基于回歸與分類結合的目標跟蹤算法, 并選取了具有代表性的目標跟蹤算法進行實驗, 對比不同算法之間的特點; 最后對目前基于深度學習的目標跟蹤方法存在的問題進行分析, 對未來發展方向進行展望。 實驗結果證明, 深度孿生跟蹤網絡在精度與速度上均占優, 成為當前主流的跟蹤算法框架。

關鍵詞:???? 目標跟蹤; 深度學習; 神經網絡; 卷積神經網絡; 孿生神經網絡; 生成對抗網絡

中圖分類號:??? ??TJ760; TP273

文獻標識碼:??? A

文章編號:??? ?1673-5048(2024)01-0001-12

DOI: 10.12132/ISSN.1673-5048.2022.0226

0 引? 言

目標跟蹤作為計算機視覺領域十分重要的分支, 其技術被廣泛應用于軍事制導、 自動駕駛、 社會安防等各個領域。 在實際應用中存在諸多挑戰, 如: 相似目標干擾、 目標形變較大、 目標快速移動等, 因此在面對實際干擾因素時, 提高目標跟蹤的精度與實時性是使其更加廣泛應用于各領域的關鍵所在。

目標跟蹤的一般執行步驟可描述為: 首先對當前目標的候選樣本進行特征提取, 并基于目標的特征信息與候選樣本的特征信息進行對比與匹配, 由觀測模型選定最終跟蹤結果[1]。

傳統目標跟蹤方法主要使用手工特征, 由觀測模型的不同劃分為兩類: 生成式模型方法、 判別式模型方法。

生成式模型方法通過搜索當前圖像中與目標最相似的區域作為跟蹤結果實現目標跟蹤。 Comaniciu等人[2]提出用一個各向同性的核在空域處理目標, 這樣就可以定義出一個在空域上平滑的相似函數, 目標定位問題就簡化為尋找該相似函數的低谷。 Kwon等人[3]提出一種基于視覺跟蹤分解和采樣的跟蹤框架, 該框架從跟蹤器中選擇最優混合模型, 從多角度特征對目標進行魯棒跟蹤; 在跟蹤過程中采用更優的跟蹤器代替當前跟蹤器, 并且通過增加更優跟蹤器或舍棄次優跟蹤器來改變跟蹤器的總數量。 Wang等人[4]提出基于稀疏原型的在線目標跟蹤算法, 將傳統的PCA和稀疏表示結合。 生成式模型方法主要尋找目標的最相似區域, 但容易忽略背景信息。

判別式模型方法通過判別函數搜索決策邊界, 將目標歸為前景, 并與其他作為背景的非目標區域區分開, 以達到跟蹤的目的。 此類方法大量使用了機器學習方法。 文獻[5]將基于光流法的跟蹤和SVM結合實現長時跟蹤; 基于特征選擇框架的在線boosting[6]及其與半監督學習結合可以解決更多樣的實時跟蹤問題; Saffari等人[7]結合在線bagging和隨機森林算法, 提出在線決策樹生長的方法, 實現更加穩定的跟蹤效果; 文獻[8]使用線性核函數結合混合特征通道實現了復雜情況下的線性相關濾波跟蹤。

綜上所述, 目前傳統的目標跟蹤算法已取得較大發展, 但由于手工特征無法全面描述語義信息, 因此在目標產生較為顯著的外觀變化時, 傳統目標跟蹤算法的精度無法滿足實際需求。

由于深度神經網絡具有強大的語義信息提取能力及泛化能力, 深度學習方法逐漸在跟蹤領域被廣泛使用并取得了諸多顯著成績。?? 因此, 本文根據網絡對目標跟蹤任務的理解與求解方式, ?將基于深度學習的目標跟蹤方法分為: 基于分類的深度學習目標跟蹤、 基于回歸的深度學習目標跟蹤、 基于分類和回歸結合的目標跟蹤。

目前已存在一些基于深度學習的目標跟蹤算法綜述, 例如Marvasti-Zadeh等人[9]從網絡結構、 網絡訓練方式、 網絡功能、 網絡輸出等多個不同的角度對當前的深度學習目標跟蹤算法進行介紹; Fiaz等人[10]將當前的目標跟蹤算法分為基于相關濾波與非相關濾波兩類進行介紹, 并將以上兩類按照不同的網絡框架結構分別對不同的目標跟蹤算法進行進一步的分類介紹, 此外提出新的目標跟蹤數據集OTTC, 并在該數據集上進行不同算法之間的對比實驗; Javed等人[11]主要進行了對基于判別式相關濾波與基于深度孿生網絡的目標跟蹤算法的對比研究, 并在多個數據集上分析了判別式相關濾波與深度孿生跟蹤網絡的性能評估; Soleimanitaleb等人[12]將當前目標跟蹤算法分為基于特征、 分割、 估計、 學習的四種類別, 其中著重介紹基于學習的跟蹤算法; Han等人[13]對目標跟蹤中面臨的挑戰進行了分析, 著重對基于相關濾波與基于孿生網絡的深度目標跟蹤算法進行介紹; 同時, 也有一些對多目標跟蹤問題進行總結的綜述文章[14-15]。 本文從網絡功能方面更全面地對算法進行詳盡分類, 并對常用數據集及性能指標進行介紹, 此外對部分代表性算法進行實驗對比, 針對性地對當前現存的基于深度學習的單目標跟蹤算法進行更加全面詳盡的闡述。

1 深度神經網絡

近年來, 深度學習已經在計算機視覺領域獲得了顯著成績。 2006年, Hinton等人[16]首次提出深度學習的概念, 隨即應用于圖像處理領域, 并取得優異效果。 AlexNet[17]包含5個卷積層和3個全連接層, 使用激活函數ReLu以及dropout策略, 在ILSVRC中AlexNet以絕對優勢勝出, 自此深度學習開始在圖像領域被廣泛使用。 2014年Simonyan等提出VGG[18], 它是由卷積層和池化層反復疊加構成的CNN。 Szegedy等人[19]提出了GoogleNet結構, 其特點是既有縱向的網絡深度, 也有橫向的寬度, 即Inception結構, 使用了多個大小不同的濾波器, 再合并這些結果, 其結構如圖1所示。 He等人[20]提出了由跨層結構組成的ResNet。 該結構跳過兩個卷積層, 將輸入直接并入輸出, 從而解決了由網絡加深引起的梯度消失問題。

2 基于深度學習的目標跟蹤算法

2.1 基于分類的深度學習目標跟蹤

基于分類的深度學習目標跟蹤方法可分多個步驟進行, 首先, 在目標可能出現的位置生成若干候選框, 再由分類網絡計算候選框為目標的分支, 最后, 認定跟蹤結果為網絡評分最高的候選框。 由于分類任務并非是直接面向跟蹤框的位置, 而是通過分類間接尋找跟蹤框的位置, 因此本文基于該問題導向出發, 對基于分類的深度學習目標跟蹤算法進行梳理。 其主要脈絡如圖2所示。

最初使用深度神經網絡進行目標跟蹤任務的Wang等人[21]提出一種利用多層自編碼網絡進行特征生成的深度學習跟蹤方法(DLT), 但基于全連接的網絡對特征的表征能力較弱。 為了加強特征的表征能力, Wang等人[22]提出一種學習分層特征的跟蹤方法, 對于給定的跟蹤序列, 通過其提出的調整模塊對預學習到的特征進行在線調整; Wang等人[23]提出一種基于全卷積神經網絡的跟蹤方法; 文獻[24]提出用深度特征SRDCF[25]中的HOG特征, 從而保留SRDCF中的空域正則化, 使邊界區域的濾波系數受到一定懲罰, 背景處的響應得到明顯抑制。 相關濾波模型一般通過使用滑動窗口來確定候選區域, 在整個訓練過程中, 整個候選區域都無差別看待, 因此會導致跟蹤器的漂移, 尤其在候選區域包含復雜背景時更加嚴重。 為了解決上述問題, Cui等人[26]提出基于循環神經網絡的目標周期性參與的跟蹤方法, 在跟蹤過程中得到效果較好的響應圖用于相關濾波的正則化, RTT中的RNN模型從訓練中得到, 因此在面對局部遮擋時更具魯棒性。

最初將深度神經網絡應用于目標跟蹤的方法, 隨著網絡加深, 跟蹤精度也越好, 但加深到一定程度后, 網絡的加深則會帶來跟蹤框的漂移。 Danelljan等人提出的C-COT[27]結合淺層表觀信息和深層語義信息, 在頻域空間進行插值得到連續分辨率響應圖, 最終通過迭代得到最佳目標尺度和目標位置。 在迭代過程中, 最終的置信函數是通過所有特征通道中的全部濾波器的卷積響應加起來得到的, 計算量較大, 速度較慢, 因此Danelljan等人在C-COT基礎上提出ECO[28], 通過卷積因式分解減小模型維數大小、 合并簡化訓練集、 使用模型更新策略來提高跟蹤速度。 C-COT[27]和ECO[28]通過提取多分辨率深度特征圖進行插值得到空間連續分辨率特征響應圖, 因此可以實現對子像素的定位, 這對于特征點的跟蹤任務至關重要。 Bertinetto等人提出孿生網絡跟蹤方法SiamFC[29], 該網絡由兩個完全一樣且權值共享的分支構成, 兩分支的輸入分別為目標模板圖像和搜索圖像, 在搜索圖像中產生候選框, 如果目標模板圖像和搜索圖像的候選框一致, 則返回匹配分值高, YCNN[30]方法與之類似。 SiamFC作為早期孿生網絡的跟蹤方法, 可以滿足實時跟蹤的要求, 但精度較差且無法適應目標的尺度變化。 針對SiamFC在面對目標形變、 遮擋時跟蹤失敗的問題, 馮琪堯[31]等人提出使用通道注意力和空間注意力的混合注意力模塊提高網絡的識別能力。

將跟蹤問題視為分類任務時, 在跟蹤相似物體時很容易受到干擾。 SANet[32]使用RNN建立結構感知網絡提取目標的自身結構信息, 從而不僅提高了從背景中區分目標的能力, 也提高了對相似物體的判別能力。 由于跟蹤失敗的情況可以通過學習歷史視覺語義和歷史跟蹤結果得到解決, Ning等人[33]提出一種基于RNN、 在空間域和時間域都進行網絡學習分析的跟蹤方法。

針對正負樣本的失衡, 以及由于正樣本在空間上高度重合而無法獲得豐富的表觀特征的問題, Song等人[34]提出VITAL方法, 使用生成對抗網絡GAN, 在增強正樣本特征的同時獲得豐富的表觀變化, 還使用一個高階代價敏感損失函數來尋找難以區分的負樣本, 以此解決正負樣本不平衡的問題。 VITAL對特征圖隨機生成權重掩膜, 和原始的特征圖進行dropout, 進入分類全連接層, 并且把隨機生成權重掩膜和dropout操作視為對抗特征生成器, 分類全連接層視為生成器進行對抗訓練。 文獻[35]為了提高視覺跟蹤的魯棒性, 通過正樣本生成網絡, 得到與訓練樣本相似的目標甚至是像訓練序列幀之間這樣沒有出現在訓練數據集中的樣本, 對正樣本生成網絡的輸出添加遮擋, 使其成為難區分的正樣本。 GradNet[36]以SiamFC為基礎, 利用梯度的判別信息, 通過前饋和反饋更新孿生網絡中的匹配模板。 Quadruplet Network[37]以SiamFC為基礎, 在訓練前進行預訓練, 從范例和實例中通過強化分數懲罰, 將正樣本和負樣本在評分上區分開, 而后利用Triplet[38]思想搭建了由范例、 實例、 正樣本和負樣本輸入生成的樣本三元損失和樣本對損失共同構成總損失函數, 很好地挖掘了實例間的潛在關系, 提升了網絡的訓練效果。 對SiamFC在目標形變、 遮擋和快速運動等復雜場景中易導致跟蹤失敗的問題, 提出一種利用混合注意力機制增強網絡識別能力的算法。

不同于檢測、 分類等任務擁有數量龐大的訓練數據集, 對于跟蹤任務而言, 僅僅只有序列第一幀的邊界框有精確位置, 因此從零開始訓練得到跟蹤網絡難度很大, 針對這一問題, 鑒于深度特征具有較強的通用性, 直接采用在大量圖像數據集上預訓練的網絡來進行特征提取, 尤其是VGGNet和AlexNet這樣普遍性更強的網絡。 FCNT[23]使用VGG網絡的conv4-3和conv5-3提取到的特征圖分別作為其設計的分類網絡和通用網絡的輸入, 分類網絡和通用網絡進行在線更新, 最終的目標位置是通過融合這兩個網絡的輸出得到的。 TCNN[39]的網絡結構由三個卷積層和三個全連接層構成, 卷積層使用VGG-M, 全連接層隨機初始化后進行在線更新。 CREST[40]使用VGG-16進行特征提取, 再用DCF來判別目標。 類似的預訓練網絡和在線微調結合的算法參見文獻[41-43]等。

以上預訓練跟蹤網絡節省了大量的訓練時間, 但實際的跟蹤任務是針對于不同任務的, 在對特定目標進行跟蹤時, 網絡缺乏針對性, 因此便產生了針對于不同跟蹤任務的離線訓練方法。 SINT[44]使用兩個在ImageNet上預訓練好的分支來構成孿生網絡, 再離線使用視頻序列對孿生網絡進行訓練調整。 SiamFC[29]的網絡結構與AlexNet[17]類似, 利用孿生網絡使用ILSVRC2015[45]對網絡進行離線訓練, 完成相似函數的學習。

對基于分類的深度學習目標跟蹤方法而言, 生成候選框的數量是影響跟蹤效果的主要因素。 隨著候選框數量的增多, 計算量增大, 雖然跟蹤精度有所提高, 但實時性會受到較大影響。

2.2 基于回歸的深度學習目標跟蹤

基于回歸的深度學習目標跟蹤方法是通過前向網絡根據前一幀的目標位置利用回歸方法計算出當前幀的預測框來實現目標跟蹤, 算法框架如圖3所示。

Ma等人[46]提出的HCF整體以KCF[8]為框架, 將KCF中的HOG特征換為深度特征, 并發現淺層特征保留了較好的空間信息, 可以精確定位目標; 深層特征具有很強的語義信息, 可以更好地應對形變, 即由語義信息找到目標的大概位置, 再用低層次的特征信息進行精確定位。 所以HCF不使用全連接層的輸出, 而是將conv3, conv4, conv5的輸出進行加權得到最大響應位置。 他們還提出一種將相關濾波和CNN結合的跟蹤方法[41], 由于相關濾波器的定位精度更好, 因此將相關濾波器嵌入CNN中。 與KCF不同的是, HCF在conv4-4和conv5-4中, 用一個相關濾波器來計算得到響應圖, 再將三個響應圖進行加權, 得到最終的最大響應位置。

GOTURN[47]使用孿生網絡框架, 一個分支的輸入是之前幀中的目標區域, 另一分支的輸入是當前幀中在上一幀附近一定范圍內的區域, 兩分支分別經過特征提取后進行特征融合, 回歸出當前幀中的目標位置。 兩分支均為五層卷積層, 兩個卷積分支的輸出進入三層的全連接層, 該模型中的卷積層參數是通過在ImageNet上訓練的CaffeNet的前五層, 再使用視頻序列對模型中的其他部分進行離線訓練得到的。 CFNet[48]是在SiamFC的模板分支上加入相關濾波器, 以此取得保證精度的同時減少網絡層的效果, 區別在于搜索分支是以上一幀目標為中心的一定范圍區域進行互響應操作, 回歸出最大響應位置。 邵江南等人[49]在SiamFC基礎上加入殘差結構, 融合淺層結構信息和深層語義信息, 并融合通道注意力, 有效提高模型的表征能力與泛化能力。

TRACA[50]使用上下文感知網絡選出最適合當前目標的編碼器, 作用于VGG網絡提取出的特征, 得到壓縮特征圖, 對于每一個目標類別都分別訓練一個與其對應的專家自編碼器, 但僅使用最佳專家自編碼器用來跟蹤當前目標。 同時, 引入額外的去噪過程和正交損失項對專家自編碼器進行預訓練和微調, 壓縮特征圖以取得更佳的跟蹤效果。 還存在與此類似的跟蹤算法, 使用自編碼器盡可能地保留主要特征, 有效減少計算量[51-53]。

由于回歸網絡是在前一幀的基礎上直接回歸出當前目標位置, 因此目標存在較大形變、 快速移動等問題時容易出現跟蹤漂移。

2.3 基于分類和回歸結合的深度學習目標跟蹤

前述基于深度神經網絡的跟蹤方法, 基本都是將其視為分類任務, 或視為回歸任務。 在進行分類時普遍需要大量的候選區域來實現高精度跟蹤, 通常算法的計算量較大, 實時性較差; 在進行回歸時更容易產生跟蹤目標的漂移; 又由于目標區域的橫縱比是固定比例, 在跟蹤過程中, 一旦目標橫縱比產生較大的改變, 則會導致跟蹤失敗。 基于分類和回歸結合的深度學習目標跟蹤算法如圖4所示。

MDNet[54]使用回歸方法得到最佳候選框集, 基于遷移學習的思想, 建立針對于不同視頻序列的二分類全連接層作為其對應的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結果; MDNet在離線訓練時, 針對每個視頻序列新建其對應域的分類分支, 所有分類分支共享提取特征的卷積層, 在跟蹤的同時進行在線微調。 在線微調分為長周期和短周期, 長周期是固定每隔幾幀進行一次在線更新, 短周期是每當目標得分低于0.5時進行一次在線網絡更新。 文獻[55-57]與之類似。 ADT[58]使用對抗學習方法將分類任務和回歸任務結合, 其中, 回歸網絡是由全卷積孿生神經網絡構成, 用來生成擁有目標位置和大小信息的響應圖供分類網絡進行最優選擇。 回歸網絡和分類網絡使用大量的視頻訓練數據進行端到端的對抗訓練。 在跟蹤環節, 回歸網絡生成能夠反映目標在每個候選搜索區域中的位置和大小的響應圖, 分類網絡選擇出最佳的響應圖。 同時, 通過使用注意力機制, ADT能夠注意到在跟蹤過程中目標出現的位置區域。

SiamRPN[59]使用孿生網絡同時進行分類和回歸, 兩分支結果進一步進行精確定位, SiamRPN的特征提取網絡由AlexNet去掉conv2和conv4構成, 當特征提取網絡在ImageNet上訓練結束后, 再使用從ILSVRC中隨機間隔選取和連續的Youtube-BB[60]數據集對區域建議網絡進行訓練。 張宏偉等人[61]在此基礎上提出一種兩階段的跟蹤方法加強網絡的判別能力。 由于大多數深度跟蹤算法使用AlexNet或VGG作為特征提取網絡, 在學習過程中會產生位置偏見, 過分關注圖片中心而忽略了邊緣, SiamRPN++[62]在訓練過程中使用隨機平移的采樣策略, 以此消除位置偏見。 陳志旺等人[63]在SiamRPN++基礎上加入目標的在線分類和自適應模板更新, 有效解決特征缺少上下文信息的問題。 SiamMask[64]使用不進行在線更新的孿生網絡, 通過對搜索圖像和模板圖像的互相關操作, 得到具有最大響應值的候選框, 再由卷積分割網絡生成二值掩膜, 由該二值掩膜信息得到最終的邊界框信息。 基于Mask R-CNN, Track R-CNN[65]使用三維卷積來綜合上下文信息, 進而完成目標跟蹤。 在跟蹤過程中, 三維卷積得到的特征圖經過區域建議網絡, 由分類得分、 生成掩膜信息和關聯向量, 利用歷史幀的跟蹤結果進行在線關聯跟蹤。 DS[66]通過區域建議網絡, 使用空間和語義卷積特征對目標進行定位, 同時使用2DPCA在保留最多有效信息的前提下減少空域特征維數, 進而通過尺度相關濾波估計目標尺寸。 SPM-Tracker[67]使用粗糙匹配階段(CM)提高跟蹤器的魯棒性, 精調匹配階段(FM)提高了跟蹤器的判別能力, 其中CM使用SiamRPN的網絡結構, 初步得到目標的候選框, 將CM的輸出作為FM的輸入, 進一步提高對于相似物體的抗干擾能力。

目前流行的孿生網絡大多基于錨框進行跟蹤, 但當預測值開始出現偏差時會迅速累積誤差, 使跟蹤出現嚴重漂移, 這是因為基于錨框的跟蹤器只保留IoU大于設定閾值的錨框, 其余錨框全部舍棄。 因此, Zhang等人提出無錨框的跟蹤網絡Ocean[68], 網絡架構與孿生網絡一致, 依然分為回歸分支與分類分支; 回歸分支用來估計邊界框內每一個像素點到邊界框四個邊的距離, 由于單獨考慮了邊界框內的所有像素點, 因此在IoU非常小的情況下, 這些被視為目標區域的像素點也可以用來預測目標的位置尺度信息; 分類分支則對采樣點增加偏移向量, 使其可以根據目標的尺度變化進行采樣點分類置信度計算。 孿生網絡這種基于全局匹配的跟蹤方法很大程度上保留了背景信息, 并且忽略了搜索圖像與模板圖像之間的局部對應關系。 基于此, Guo等人提出基于圖感知網絡的跟蹤方法SiamGAT[69], 建立圖感知模塊, 將模板特征信息傳遞至搜索特征, 以此在目標外觀嚴重變化時保留目標信息, 忽略背景信息; 使用目標感知模板區域選擇模塊, 實現只有模板邊界框中的特征作為模板特征, 進一步在目標橫縱比較為極端時抑制背景信息。

此外, 孿生網絡本質就是在搜索圖像中尋找與模板信息匹配度最高的區域, 這種線性的匹配方法極易丟失語義信息且陷入局部最優。 Chen等人提出基于Transformer特征融合的跟蹤方法TransT[70], 使用基于Transformer架構的特征融合模塊實現語義增強和孿生分支的特征交互融合。 由于Transformer強大的特征表征能力, Lin等人提出完全基于注意力的Transformer跟蹤方法SwinTrack[71]。

大多數跟蹤方法都是在視頻序列的第一幀標定邊界框位置, 隨后繼續尋找后續幀中的邊界框位置。 這種調整邊界框位置的方法會出現第一幀的邊界框中可能同時有兩個目標, 則會產生歧義。 因此Wang等人[72]提出使用自然語言進行跟蹤任務的AdaSwitcher以及一個自然語言跟蹤數據集TNL2K。

基于回歸和分類的跟蹤方法結合了速度和精度的優點, 成為近年來目標跟蹤的主流方法[73-83]。

2.4 其他深度學習目標跟蹤算法

(1) 基于強化學習的深度學習目標跟蹤算法

強化學習用于解決如何通過學習策略使智能體與環境交互時獲得最大回報。 當智能體做出某種決策使環境給智能體正反饋獎勵時, 則智能體加強這一決策趨勢, 其基礎是馬爾可夫決策理論。

Yun等人提出ADNet[84]利用強化學習理論得到目標框的運動情況, 由策略函數得到跟蹤器的執行動作, 以此定義下一幀目標的運動情況, 通過迭代得到最佳候選框。 ACT[85]使用Actor-Critic框架, 通過強化學習方法得到計算目標移動的Actor網絡, Critic網絡由MDNet構成, 由Critic的分類結果來監督Actor的位移輸出。 Wang等人[86]引入基于多智能體強化學習的束搜索策略, 使用束搜索算法生成不同的圖像描述, 將目標特征與貪心搜索的結果送入第一個智能體中進行決策, 其輸出與目標特征送入后續智能體中進行不同的預測, 所有幀處理結束后, 選擇累積得分最高的軌跡作為跟蹤結果。

(2) 基于集成學習的深度學習目標跟蹤算法

當面向不同對象不同任務時, 同一個網絡模型無法對所有對象都表現優越, 即缺乏一定的針對性, 因此集成學習將多個弱監督模型組合, 構成一個能夠應對多種問題的強監督模型。

MDNet[54]建立針對不同視頻序列的分類全連接層作為其對應的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結果。 GLELT[87]針對長時跟蹤中難以解決的目標移出視野和目標遮擋問題, 提出使用集成多個局部跟蹤器對全局進行跟蹤, 解決單一局部跟蹤器的信息丟失問題。

(3) 基于元學習的深度學習目標跟蹤

元學習認為特定任務的訓練集服從于特定的任務分布, 通過讓模型學習任務分布, 可以讓模型具有解決該類任務的能力。 元學習利用找到的最優超參數, 使各任務在超參數的基礎上訓練出最優參數后測試得到的損失值的和最小。

Meta-tracker[88]使用元學習方法, 意圖在于學到網絡的初始模型, 并且在訓練過程中利用后續幀的信息, 使模型更加魯棒。 Wang等人[89]提出使用MAML利用初始幀構建一個檢測器, 并在后續幀中利用該檢測器進行檢測, 以此實現跟蹤的目的。 基于元學習的深度學習目標跟蹤能夠實現對小樣本訓練集的較快收斂。

綜上所述, 表1對個別代表性目標跟蹤算法進行總結對比。

3 數據集和評價準則

隨著目標跟蹤算法的發展完善, 可以更好地對復雜問題下的目標進行跟蹤, 因此需要對跟蹤算法從不同角度進行全面的性能評估, 隨之需要更全面、 更大規模的視頻跟蹤數據集。 為了適應目標跟蹤算法的發展, 逐漸發展出很多完善的大型公開數據集及評價指標。

3.1 數 據 集

3.1.1 OTB數據集

Wu等人[90]在2013年建立了較為全面的OTB2013(Online Object Tracking Benchmark)。 該數據集包含50個全標注的視頻序列, 由于跟蹤效果會受多因素的影響, 為了更加全面地評估算法性能, 該數據集引入11種挑戰因素的標注, 包括光照變化(IV)、 尺度變化(SV)、 遮擋(OCC)、 形變(DEF)、 運動模糊(MB)、 快速移動(FM)、 平面內旋轉(IPR)、 平面外旋轉(OPR)、 移出視野(OV)、 背景雜亂(BC)、 低分辨率(LR)。 2015年, OTB被進一步擴展為OTB-100, 由100個全標注的目標序列構成(由于一些序列包含了多個目標, 視頻序列小于100), 同時由于部分目標相似或者較為容易跟蹤, 因此選出了50個更困難且具有代表性的目標構成OTB-50。 該數據集更側重于人類數據, 其中36個為人體序列, 26個為人臉序列。 OTB-100和OTB-50關于上述11類影響因素的分布情況如圖5所示。

3.1.2 VOT挑戰數據集

自2013年以來, VOT(Visual Object Tracking)競賽[91-96]每年都會舉辦一次, 隨著不足的發現改進, 每年的VOT數據集都在逐漸變化完善。

當前視覺跟蹤算法中被廣泛使用的VOT2018[93]分為短程跟蹤任務和長程跟蹤任務。 短程跟蹤任務挑戰和VOT2017[96]相比沒有變化, 包括60個公開序列和60個未公開序列, VOT數據集中的目標由旋轉邊界框標注, 并且序列中的每一幀標注以下挑戰因素: 遮擋、 光照變化、 運動變化、 尺度變化和攝像機運動, 沒有被上述五種標注的幀則標注為未賦值。 長程跟蹤任務使用LTB35[97]數據集, 目標由平齊的邊界框標注, 并對序列標注以下挑戰因素: 完全遮擋、 移出視野、 局部遮擋、 攝像機移動、 快速移動、 尺度變化、 橫縱比變化、 視角變化、 相似目標。

3.1.3 TempleColor128數據集

TempleColor128[98]是由Liang等人提出專注于彩色序列的數據集, 包含128個全標注的彩色序列。 該數據集標注的挑戰因素屬性與OTB-100相同, 其分布如圖6所示。 TempleColor數據集由兩部分構成, 第一部分是在以往學習中常用的50個彩色序列, 第二部分包含78個從網絡選取的彩色序列, 涉及到高速公路、 機場、 火車站等情景, 并且它們都不是為了評價跟蹤算法而錄制的, 包含了諸多挑戰因素, 例如目標的完全遮擋、 光照的大幅變化、 大幅目標形變和低分辨率。

3.1.4 ALOV++數據集

ALOV++[99]的目的是盡可能多地覆蓋不同的挑戰因素。 該數據集一共包含315個視頻序列, 其中65個視頻序列已經在PETS數據集中出現過, 250個為新的視頻序列, 數據是從YouTube搜索到的64個現實生活中的目標, 包括人臉、 球體、 章魚、 手機、 塑料袋、 汽車等。

3.1.5 UAV數據集

UAV123[100]數據集由123段用無人機拍攝的高分辨率視頻序列構成, 總共超過110K幀。 UAV123包含三部分, 第一部分包含103個用專業無人機在5~25 m高度跟隨不同的目標拍攝的視頻序列; 第二部分包含12個由安裝在低成本無人機上的普通攝像機拍攝的視頻序列, 這部分視頻序列質量較差, 噪聲較大; 第三部分包含由UAV模擬器得到的8個生成序列。 UAV123包含的挑戰因素有橫縱比變化(ARC)、 背景雜亂(BC)、 攝像機運動(CM)、 快速移動(FM)、 完全遮擋(FOC)、 光照變化(IV)、 低分辨率(LR)、 移出視場(OV)、 部分遮擋(POC)、 相似目標(SOB)、 尺度變化(SV)和視角變化(VC)。 其中一些長序列被分割為多個子序列, 從而保證數據集的復雜度合理。 為了長時跟蹤算法, 合并這些子序列, 然后挑選最長的20個序列, 構成平均每個序列達2 934幀的UAV20L。

3.1.6 TrackingNet數據集

TrackingNet[101]數據集包括30 643個平均時長為16.6 s的視頻序列, 共達14 431 266幀。 從YouTube- Bounding Boxes[60]中選取30 132個訓練集序列和511個測試集序列。 TrackingNet包含15個挑戰因素, 其中, 尺度變化、 橫縱比變化、 快速移動、 低分辨率、 移出視野這5個因素是由分析邊界框來自動標注的, 光照變化、 攝像機移動、 運動模糊、 背景雜亂、 相似目標、 形變、 平面內旋轉、 平面外旋轉、 部分遮擋、 完全遮擋這10個因素則是由人工標注。

3.2 評價指標

為了評估不同算法的跟蹤性能, 提出了多種評價指標, 分為三類: 基于一次性通過評估(OPE)的評價指標、 基于在線監督的評價指標和基于長時目標跟蹤的評價指標。

3.2.1 基于一次性通過評估(OPE)的評價指標

一次性通過指用已知第一幀真值位置初始化的序列運行算法來獲得平均精度或成功率[84]。

(1) 中心位置誤差(CLE)

CLE指目標的估計位置中心和實際位置中心的平均歐幾里得距離。 CLE是最早的評價指標, 對于數據集的標注敏感并且沒有考慮跟蹤失敗的情況。

式中: Ns為序列幀數; pt為目標實際位置中心; p^t為目標估計位置中心。

(2) 目標區域交并比(IoU)

IoU是指目標的估計邊界框區域和實際邊界框區域之間交集和并集的比值, 計算公式如下:

(3) 重疊率精度(OP)

OP是指IoU大于或等于某一預定閾值的幀數在所有幀數中的百分比, 計算公式如下:

式中: υ為設定閾值。

(4) 精度曲線(Precision Plot)

給定不同閾值, 精度曲線繪制CLE小于等于某一閾值幀數在所有幀數中的百分比。

(5) 成功率曲線(Success Plot)

成功率曲線繪制IoU大于等于某一閾值幀數在所有幀數中的百分比。

(6) 曲線下面積(AUC)

成功率曲線和坐標軸所圍成的面積。

3.2.2 基于在線監督的評價指標

基于在線監督的過程是在初始化跟蹤算法后, 對跟蹤結果進行在線監督, 如果出現跟蹤失敗的情況, 則在5幀后再次初始化跟蹤算法。

(1)準確性(Accuracy)

準確性為所有有效幀的平均IoU, 綜合考慮了位置和區域, 以測量估計目標的漂移率直到其失敗。

式中: N為有效幀的幀數。

(2)魯棒性(Robustness)

魯棒性是指跟蹤過程中跟蹤失敗的次數, 當目標區域交并比為0時視為跟蹤失敗。

(3)期望平均重疊率(EAO)

EAO綜合考慮了準確性和魯棒性, 對于一個Ns幀長的序列, 計算公式如下:

式中: Φi為全部序列中每一幀的平均交并比。

3.2.3 基于長時目標跟蹤的評價指標

對于長時目標跟蹤, 可能會出現目標移出視場或長時間被遮擋。

(1)精度(Pr)

精度由真實位置和預測目標位置的交并比計算, 由存在預測值的幀數進行歸一化, 在所有精度閾值上的精度綜合表征總體的跟蹤精度。

式中: Gt為t時刻的目標真實位置; At(θt)為目標的估計位置; θt為預測置信度, Ω(At(θt),Gt)為交并比; Np為估計值存在的幀數。

(2)跟蹤召回率(Re)

與精度類似, 跟蹤召回率由存在真實目標的幀數進行歸一化, 計算公式如下:

式中: Ng為真實目標存在的幀數。

(3) F-Score

F-Score綜合考慮了精度和召回率, 計算公式如下:

(4) 最大幾何平均數(MaxGM)

MaxGM綜合了TPR(True Positive Rate)和TNR(True Negative Rate), TPR表征了正確定位目標的情況, TNR表征正確識別缺失目標的情況。

4 實驗對比

本文選取了9種具有代表性的基于深度學習的目標跟蹤算法在OTB-100中選取16個序列進行實驗, 對比跟蹤性能, 這些算法分別為: HCF, ECO, MDNet, VITAL, SiamFC, CFNet, SiamnRPN, SiamRPN++, SiamMask。

圖7為HCF, ECO, VITAL, MDNet, SiamFC, CFNet, SiamRPN, SiamRPN++, SiamMask在OTB-100上綜合所有挑戰因素下的精度曲線和成功率曲線, 以及分別在背景雜亂、 運動模糊、 目標變形、 光照變化、 平面內旋轉、 平面外旋轉和尺度變化挑戰因素單獨影響下的精度曲線和成功率曲線。

表2給出了不同網絡的跟蹤速度。

綜合圖7和表2可以看出:

(1)? 基于分類方法的跟蹤器ECO和VITAL為了取得良好的跟蹤效果, 需要加入數量較多的候選框, 因此實時性受到較大影響, 而使用孿生網絡的SiamFC分類跟蹤方法顯然在速度上取得巨大突破。

(2) HCF作為早期具有代表性的使用深度神經網絡的回歸跟蹤算法, 速度相較于同期的分類方法具有一定優勢, 但在面對背景影響以及目標出現較大形變、 遮擋等問題時, 容易出現邊界框的漂移; 同時CFNet因加入相關濾波器, 在保證實時性的前提下, 相對于SiamFC精度得到顯著改善。

(3) MDNet結合分類任務與回歸任務, 面對所有挑戰因素均表現良好, 但由于采用在線更新策略, 實時性受到嚴重影響。 SiamRPN, SiamRPN++, SiamMask等算法的魯棒性較強, 挑戰因素的出現均未造成明顯影響, 且相比于網絡在速度上有明顯優勢, 即在保證精度的前提下, 顯著提高跟蹤速度, 體現出孿生網絡的優越性能。

5 發展展望

由實驗結果可以看出, 基于孿生網絡的跟蹤方法可以實現在保證精度的前提下, 顯著提高跟蹤速度, 因此孿生網絡逐漸成為當前目標跟蹤領域的主流算法。

基于深度學習的目標跟蹤方法在各數據集上都取得了優異的成績, 但現實中的目標跟蹤依然面臨很多問題, 具體如下:

(1) 長程跟蹤問題。 當前基于深度學習的目標跟蹤算法對短程跟蹤已經有了很好的結果, 但在實際跟蹤中往往都是長程跟蹤問題, 如軍事制導、 無人駕駛等。 在長程跟蹤中不僅會面臨短程跟蹤的問題, 還會面臨更大挑戰, 如目標頻繁移出又返回視場、 頻繁遮擋、 目標形變極大以及環境變化極端等問題。

當跟蹤失敗時, 進行目標重檢測是一種較為有效的方法, 然而跟蹤再檢測也就意味著計算量大, 會對跟蹤的實時性產生較大影響, 因此可以考慮簡化檢測模型, 對重檢測模型進行可靠的輕量化, 以滿足目標重檢測時的實時性問題, 或者提出其他行之有效的應對由于遮擋、 移出視野等原因導致的跟蹤失敗問題的方法。

(2) 數據集難以獲得。 不同于檢測、 分類任務的數據集, 一個跟蹤序列已經包含數幀圖像, 對于跟蹤任務的訓練, 需要對其進行逐幀標注, 因此工作量巨大。

當前對于這一問題, 大多采用在大量分類檢測數據集上訓練得到特征提取網絡, 再使用數量較為有限的跟蹤數據集對跟蹤網絡進行訓練, 以此緩解跟蹤數據集缺少的問題, 但這也只是權宜之計, 在面臨不同類型的目標時, 網絡缺乏針對性。 考慮到當前主流的孿生算法本質都是在搜索圖像中尋找與模板圖像最相似的部分作為跟蹤結果, 因此可以考慮小樣本的學習方法, 僅以視頻序列的第一幀作為正樣本對網絡進行訓練。

(3) 實時跟蹤問題。 深度網絡參數較多, 若只對其進行離線訓練, 可以提高跟蹤速度, 但只有首幀的目標位置是準確的。 隨著目標自身變化以及環境變化, 網絡對目標的跟蹤能力也會減弱, 無法正確跟蹤目標。 如果對網絡模型進行在線訓練更新, 大量的模型參數調整會嚴重影響跟蹤的實時性, 因此如何從深度網絡參數學習的角度提高目標跟蹤速度, 仍然是一個需要解決的問題。

參考文獻:

[1] 李璽, 查宇飛, 張天柱, 等. 深度學習的目標跟蹤算法綜述[J]. 中國圖象圖形學報, 2019, 24(12): 2057-2080.

Li Xi, Zha Yufei, Zhang Tianzhu, et al. Survey of Visual Object Tracking Algorithms Based on Deep Learning[J]. Journal of Image and Graphics, 2019, 24(12): 2057-2080.(in Chinese)

[2] Comaniciu D, Ramesh V, Meer P. KernelBased Object Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.

[3] Kwon J, Lee K M. Tracking by Sampling and Integrating Multiple Trackers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1428-1441.

[4] Wang D, Lu H C, Yang M H. Online Object Tracking with Sparse Prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1): 314-325.

[5] Avidan S. Support Vector Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(8): 1064-1072.

[6] Grabner H, Bischof H. OnLine Boosting and Vision[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006: 260-267.

[7] Saffari A, Leistner C, Santner J, et al. OnLine Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2010: 1393-1400.

[8] Henriques J F, Caseiro R, Martins P, et al. HighSpeed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[9] MarvastiZadeh S M, Cheng L, GhaneiYakhdan H, et al. Deep Learning for Visual Tracking: A Comprehensive Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(5): 3943-3968.

[10] Fiaz M, Mahmood A, Javed S, et al. Handcrafted and Deep Trackers[J]. ACM Computing Surveys, 2020, 52(2): 1-44.

[11] Javed S, Danelljan M, Khan F S, et al. Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5): 6552-6574.

[12] Soleimanitaleb Z, Ali Keyvanrad M. Single Object Tracking: A Survey of Methods, Datasets, and Evaluation Metrics[EB/OL]. (2022-01-31)[2022-10-28]. https:∥arxiv. org/ abs/2201.13066.pdf.

[13] Han R Z, Feng W, Guo Q, et al. Single Object Tracking Research: A Survey[EB/OL]. (2022-04-25)[2022-10-28]. https:∥arxiv.org/abs/2204.11410.pdf.

[14] Ciaparrone G, Luque Sánchez F, Tabik S, et al. Deep Learning in Video MultiObject Tracking: A Survey[J]. Neurocomputing, 2020, 381: 61-88.

[15] Bashar M, Islam S, Hussain K K, et al. Multiple Object Tracking in Recent Times: A Literature Review[EB/OL]. (2022-09-11)[2022-10-28]. https:∥arxiv.org/abs/2209. 04796. pdf.

[16] Hinton G E, Osindero S, Teh Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[18] Simonyan K, Zisserman A. Very Deep Convolutional Networks for LargeScale Image Recognition[EB/OL]. (2014-09-04)[2022-10-28]. https:∥arxiv.org/abs/1409. 1556.pdf.

[19] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.

[20] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[21] Wang N Y, Yeung D Y. Learning a Deep Compact Image Representation for Visual Tracking[J]. Advances in Neural Information Processing Systems, 2013: 809-817.

[22] Wang L, Liu T, Wang G, et al. Video Tracking Using Learned Hierarchical Features[J]. IEEE Transactions on Image Processing, 2015, 24(4): 1424-1435.

[23] Wang L J, Ouyang W L, Wang X G, et al. Visual Tracking with Fully Convolutional Networks[C]∥ IEEE International Conference on Computer Vision, 2016: 3119-3127.

[24] Danelljan M, Hger G, Khan F S, et al. Convolutional Features for Correlation Filter Based Visual Tracking[C]∥ IEEE International Conference on Computer Vision Workshop, 2016: 621-629.

[25] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥ IEEE International Conference on Computer Vision, 2016: 4310-4318.

[26] Cui Z, Xiao S T, Feng J S, et al. Recurrently TargetAttending Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1449-1458.

[27] Danelljan M, Robinson A, Shahbaz Khan F, et al. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking[C]∥Computer VisionECCV, 2016: 472-488.

[28] Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6931-6939.

[29] Bertinetto L, Valmadre J, Henriques J F, et al. FullyConvolutional Siamese Networks for Object Tracking[M]. Cham: Springer International Publishing, 2016: 850-865.

[30] Chen K, Tao W B. Once for All: A TwoFlow Convolutional Neural Network for Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(12): 3377-3386.

[31] 馮琪堯, 張驚雷. 基于混合注意力機制的目標跟蹤算法[J]. 計算機工程與科學, 2022, 44(2): 276-282.

Feng Qiyao, Zhang Jinglei. An Object Tracking Algorithm Based on Mixed Attention Mechanism[J]. Computer Engineering & Science, 2022, 44(2): 276-282.(in Chinese)

[32] Fan H, Ling H B. SANet: StructureAware Network for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017: 2217-2224.

[33] Ning G H, Zhang Z, Huang C, et al. Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking[C]∥ IEEE International Symposium on Circuits and Systems, 2017: 1-4.

[34] Song Y B, Ma C, Wu X H, et al. VITAL: Visual Tracking via Adversarial Learning[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8990-8999.

[35] Wang X, Li C L, Luo B, et al. SINT: Robust Visual Tracking via Adversarial Positive Instance Generation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4864-4873.

[36] Li P X, Chen B Y, Ouyang W L, et al. GradNet: GradientGuided Network for Visual Object Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2020: 6161-6170.

[37] Dong X P, Shen J B, Wu D M, et al. Quadruplet Network with OneShot Learning for Fast Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(7): 3516-3527.

[38] Hoffer E, Ailon N. Deep Metric Learning Using Triplet Network[M]. Cham: Springer International Publishing, 2015: 84-92.

[39] Nam H, Baek M, Han B. Modeling and Propagating CNNS in a Tree Structure for Visual Tracking[EB/OL]. (2016-08-25)[2022-10-28]. https:∥arxiv.org/abs/1608. 07242.pdf.

[40] Song Y B, Ma C, Gong L J, et al. CREST: Convolutional Residual Learning for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2017: 2574-2583.

[41] Ma C, Xu Y, Ni B B, et al. When Correlation Filters Meet Convolutional Neural Networks for Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(10): 1454-1458.

[42] Chi Z Z, Li H Y, Lu H C, et al. Dual Deep Network for Visual Tracking[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2005-2015.

[43] Wang N Y, Li S Y, Gupta A, et al. Transferring Rich Feature Hierarchies for Robust Visual Tracking[EB/OL]. (2015-01-19)[2022-10-28].https:∥arxiv.org/abs/1501.04587.pdf.

[44] Tao R, Gavves E, Smeulders A W M. Siamese Instance Search for Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.

[45] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[46] Ma C, Huang J B, Yang X K, et al. Hierarchical Convolutional Features for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2016: 3074-3082.

[47] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks[C]∥European Conference on Computer Vision, 2016: 749-765.

[48] Valmadre J, Bertinetto L, Henriques J, et al. EndtoEnd Representation Learning for Correlation Filter Based Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5000-5008.

[49] 邵江南, 葛洪偉. 融合殘差連接與通道注意力機制的Siamese目標跟蹤算法[J]. 計算機輔助設計與圖形學學報, 2021, 33(2): 260-269.

Shao Jiangnan, Ge Hongwei. Siamese Object Tracking Algorithm Combining Residual Connection and Channel Attention Mechanism[J]. Journal of ComputerAided Design & Computer Graphics, 2021, 33(2): 260-269.(in Chinese)

[50] Choi J, Chang H J, Fischer T, et al. ContextAware Deep Feature Compression for HighSpeed Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 479-488.

[51] Zhang J, Shan S G, Kan M N, et al. CoarsetoFine AutoEncoder Networks (CFAN) for RealTime Face Alignment[C]∥European Conference on Computer Vision, 2014: 1-16.

[52] Ni Z L, Bian G B, Xie X L, et al. RASNet: Segmentation for Tracking Surgical Instruments in Surgical Videos Using Refined Attention Segmentation Network[C]∥ 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2019: 5735-5738.

[53] Yan B, Peng H W, Fu J L, et al. Learning SpatioTemporal Transformer for Visual Tracking[EB/OL]. (2021-03-31)[2022-10-28]. https:∥arxiv.org/abs/2103. 17154.pdf.

[54] Nam H, Han B. Learning MultiDomain Convolutional Neural Networks for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4293-4302.

[55] Zhuang B H, Wang L J, Lu H C. Visual Tracking via Shallow and Deep Collaborative Model[J]. Neurocomputing, 2016, 218: 61-71.

[56] Chen K X, Zhou X, Xiang W, et al. Data Augmentation Using GAN for MultiDomain NetworkBased Human Tracking[C]∥IEEE Visual Communications and Image Processing, 2019: 1-4.

[57] Yang Y J, Gu X D. Learning Edges and Adaptive Surroundings for Discriminant Segmentation Tracking[J]. Digital Signal Processing, 2022, 121: 103309.

[58] Zhao F, Wang J Q, Wu Y, et al. Adversarial Deep Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(7): 1998-2011.

[59] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.

[60] Real E, Shlens J, Mazzocchi S, et al. YouTubeBoundingBoxes: A Large HighPrecision HumanAnnotated Data Set for Object Detection in Video[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7464-7473.

[61] 張宏偉, 李曉霞, 朱斌, 等. 基于孿生神經網絡的兩階段目標跟蹤方法[J]. 紅外與激光工程, 2021, 50(9): 341-352.

Zhang Hongwei, Li Xiaoxia, Zhu Bin, et al. TwoStage Object Tracking Method Based on Siamese Neural Network[J]. Infrared and Laser Engineering, 2021, 50(9): 341-352.(in Chinese)

[62] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4277-4286.

[63] 陳志旺, 張忠新, 宋娟, 等. 在線目標分類及自適應模板更新的孿生網絡跟蹤算法[J]. 通信學報, 2021, 42(8): 151-163.

Chen Zhiwang, Zhang Zhongxin, Song Juan, et al. Tracking Algorithm of Siamese Network Based on Online Target Classification and Adaptive Template Update[J]. Journal on Communications, 2021, 42(8): 151-163.(in Chinese)

[64] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1328-1338.

[65] Shuai B, Berneshawi A G, Modolo D, et al. MultiObject Tracking with Siamese TrackRCNN[EB/OL]. (2020-04-16)[2022-10-28].https:∥arxiv.org/abs/2004.07786.pdf.

[66] Zhang J M, Jin X K, Sun J, et al. Spatial and Semantic Convolutional Features for Robust Visual Object Tracking[J]. Multimedia Tools and Applications, 2020, 79(21/22): 15095-15115.

[67] Wang G T, Luo C, Xiong Z W, et al. SPMTracker: SeriesParallel Matching for RealTime Visual Object Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 3638-3647.

[68] Zhang Z P, Peng H W, Fu J L, et al. Ocean: ObjectAware AnchorFree Tracking[M]. Cham: Springer International Publishing, 2020: 771-787.

[69] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9538-9547.

[70] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8122-8131.

[71] Lin L T, Fan H, Zhang Z P, et al. SwinTrack: A Simple and Strong Baseline for Transformer Tracking[EB/OL]. (2021-12-02)[2022-10-28].https:∥arxiv.org/abs/2112.00995.pdf.

[72] Wang X, Shu X J, Zhang Z P, et al. Towards more Flexible and Accurate Object Tracking with Natural Language: Algorithms and Benchmark[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13758-13768.

[73] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 6268-6276.

[74] Ma Z A, Zhang H T, Wang L Y, et al. RPT++: Customized Feature Representation for Siamese Visual Tracking[EB/OL]. (2021-10-23)[2022-10-28]. https:∥ arxiv. org/abs/2110.12194.pdf.

[75] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: TemplateFree Visual Tracking with SpaceTime Memory Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13769-13778.

[76] Han W, Huang H T, Yu X X. TAPL: Dynamic PartBased Visual Tracking via AttentionGuided Part Localization[EB/OL]. (2021-10-25)[2022-10-28].https:∥ arxiv.org/abs/2110.13027.pdf.

[77] Zhang Y P, Huang X M, Yang M. A Hybrid Visual Tracking Algorithm Based on SOM Network and Correlation Filter[J]. Sensors, 2021, 21(8): 2864.

[78] 宋建鋒, 苗啟廣, 王崇曉, 等. 注意力機制的多尺度單目標跟蹤算法[J]. 西安電子科技大學學報, 2021, 48(5): 110-116.

Song Jianfeng, Miao Qiguang, Wang Chongxiao, et al. MultiScale Single Object Tracking Based on the Attention Mechanism[J]. Journal of Xidian University, 2021, 48(5): 110-116.(in Chinese)

[79] Yan S, Yang J Y, Kpyl J, et al. DepthTrack: Unveiling the Power of RGBD Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2022: 10705-10713.

[80] 劉嘉敏, 謝文杰, 黃鴻, 等. 基于空間和通道注意力機制的目標跟蹤方法[J]. 電子與信息學報, 2021, 43(9): 2569-2576.

Liu Jiamin, Xie Wenjie, Huang Hong, et al. Spatial and Channel Attention Mechanism Method for Object Tracking[J]. Journal of Electronics & Information Technology, 2021, 43(9): 2569-2576.(in Chinese)

[81] 楊梅, 賈旭, 殷浩東, 等. 基于聯合注意力孿生網絡目標跟蹤算法[J]. 儀器儀表學報, 2021, 42(1): 127-136.

Yang Mei, Jia Xu, Yin Haodong, et al. Object Tracking Algorithm Based on Siamese Network with Combined Attention[J]. Chinese Journal of Scientific Instrument, 2021, 42(1): 127-136.(in Chinese)

[82] 王殿偉, 方浩宇, 劉穎, 等. 一種基于改進RT-MDNet的全景視頻目標跟蹤算法[J]. 哈爾濱工業大學學報, 2020, 52(10): 152-160.

猜你喜歡
目標跟蹤卷積神經網絡深度學習
多視角目標檢測與跟蹤技術的研究與實現
基于深度卷積神經網絡的物體識別算法
基于改進連續自適應均值漂移的視頻目標跟蹤算法
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
基于卷積神經網絡的樹葉識別的算法的研究
空管自動化系統中航跡濾波算法的應用與改進
基于車牌識別的機混車道視頻測速算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合