?

視覺跟蹤技術中孿生網絡的研究進展

2024-03-05 08:15賀澤民曾俊濤袁寶璽梁德建苗宗成
液晶與顯示 2024年2期
關鍵詞:跟蹤器魯棒性模板

賀澤民, 曾俊濤, 袁寶璽, 梁德建, 苗宗成

(1.西京學院 材料與能源科學技術研究院, 陜西 西安 710123;2.北京星航機電裝備有限公司, 北京 100074;3.西北工業大學 光電與智能研究院, 陜西 西安 710072)

1 引言

目標跟蹤是計算機視覺領域中熱門的研究領域之一。一般來說,主要的跟蹤過程如下:首先,給出初始視頻幀中的目標區域;其次對跟蹤對象進行特征提??;然后進行一定的推理,建立起幀的聯系;最終在后續的視頻幀中定位到該目標,從而實現目標追蹤的功能[1]。目前,目標跟蹤廣泛應用于自動駕駛[2]、人機互動[3]、視頻監控[4]、機器人視覺[5]等領域。在大多數情況下,跟蹤器的應用場景相當復雜,存在很多干擾,包括遮擋、目標變形、相似物體、尺度變換、光照變化、快速運動等[6]。

近年來,深度學習發展迅速,尤其是深度卷積神經網絡,極大地促進了目標追蹤任務的進展[7]。深度學習作為一種強大的表示學習,能從原始數據中自動獲取具有抽象語義信息的特征表示,大量以深度學習為主的跟蹤器紛紛涌現[8]。大多數跟蹤器都是在離線時進行特征提取,需要網絡在線才能訓練,這導致了目標追蹤的魯棒性較差,極大地影響了跟蹤的精度和速度[9]?;趯\生網絡的目標跟蹤算法因為其優秀的精度和速度逐漸被人們廣泛關注。孿生神經網絡的概念首先是由LeCun等人提出。孿生網絡最早用于驗證支票上的簽名是否與銀行里備案的簽名一致,后用于對比兩個輸入的相似度,隨后又逐漸應用到目標跟蹤領域[10]。最先是由Tao等人提出的SINT算法。SINT算法將模型分成兩個相同的分支,然后將標記框和多個候選框分別輸入到兩個分支中,得到每個候選框與邊界框的匹配分數,然后選擇得分最高的候選框。但由于候選框太多,導致訓練的時間較長,使跟蹤器實時性較差[11]。鑒于這個問題,Bertinetto等人在基于SINT前提上提出完全卷積孿生網絡SiamFC,基本思路就是從搜索區域和目標模板中提取特征,通過比較搜索區域與目標模板的相似度,最后得到搜索區域的分數圖。通過運用最小化損失函數獲得最優模型,實現實時跟蹤[12]。

雖然基于孿生網絡的追蹤算法比之前的追蹤算法在性能上有所提高,但由于環境的復雜性,遮擋、變形等干擾因素都會對其產生較大的影響。為此,國內外許多學者在孿生網絡的基礎上提出了許多跟蹤算法,本文從3個方面對基于孿生網絡的目標跟蹤進行總結,分別為基于注意力機制孿生神經網絡的目標跟蹤、基于超參數推理孿生網絡的目標跟蹤、基于模板更新孿生網絡的目標跟蹤。其中注意力機制是指使神經網絡具備專注于輸入或者特征的能力,即選擇特定的輸入,用來提取圖像中的關鍵信息,同時忽略無關信息的難題;超參數推理是指用超參數調優使模型性能最大化的超參數正確組合的過程,用來解決搜索區域的搜索尺度較大的難題;模板更新是指用后續幀的信息來更新模板,解決只使用第一幀作為模板的難題。最后,對孿生網絡進行了總結。

2 基于注意力機制孿生神經網絡的目標追蹤

單目標跟蹤的主要目的是通過分析攝像頭捕獲的圖像序列模擬生理視覺系統的運動感知功能,計算運動目標在圖像的每一幀中的位置;然后,根據運動目標相關的特征值,將圖像序列中連續幀的同一運動目標關聯起來,獲得每一幀中目標的運動參數以及目標在相鄰幀之間的對應關系,從而得到目標的完整運動軌跡,圖1為近幾年單目標跟蹤算法的經典算法發展歷程。傳統的遞歸神經網絡(RNN)在機器翻譯中運用廣泛,但存在一些問題,如結構時間復雜度高、效率很低等。為了解決這些問題,Ashish等人提出了注意力機制這個概念[13],從此注意力機制受到關注并得到應用。Gao等人提出了一種名為TASNet的模板注意孿生網絡,核心就是結合第一幀和最新幀兩個模板的檢測結果,用注意機制計算模板的權重,獲得更好的跟蹤性能[14]。Wang等人開發了一個名為RASNet的跟蹤器,在Siamese框架中重新指定了相關過濾器,并引入不同類型的注意力機制來適應模型的需要,而不需要在線更新模型。他們利用離線訓練的一般注意、目標適應的剩余注意和選取特征的通道注意,不僅減輕了深度網絡訓練的過擬合問題,并且還增強了網絡的適應能力和辨別能力,提高了魯棒性[15]。He等人建立了用于實時跟蹤對象的一個雙重孿生網絡SA-Siam。SA-Siam是由語義分支和外觀分支組成,每個分支都是一個相似學習的孿生網絡,其中語義分支引入了一種通道注意機制,用來增加語義分支的識別能力[16]。

圖1 單目標跟蹤的發展歷程Fig.1 Evolution of single target tracking

Li等人指出,不同的特征通道對跟蹤的貢獻不同。他們提出的HSSNet跟蹤器利用了一個簡單的通道注意網絡來自適應地分配不同的特征通道的權重,使追蹤器能夠有多級特征融合功能[17]。Yang等人利用不同注意機制有效地融合不同層的一系列注意特征,提出了分層注意孿生網絡HASiam。HASiam充分利用了不同層次的特征,在不同層次應用空間關注和通道關注,更好地捕捉多層次語義上的視覺關注,有助于增強模型的識別功能。此外,頂層特征圖的分辨率較低。為了解決這個問題,在頂層中采用了非局部注意模塊[18]。Shen等人也提出了分層注意孿生網絡,但與前者不同的是,他們是將注意機制引入孿生網絡,通過計算注意權重增加匹配辨別能力[19]。SiamDA也在SiamFC的基礎上引用了通道注意模塊和非局部注意模塊,提出了雙重注意機制,提高了模型的識別能力,網絡結構如圖2所示[20]。TA-ASiam根據引入不同的訓練模式,可以同時捕獲位置感知和外觀感知兩種類型所需要的特征,然后根據特征分布規律,將通道注意網絡與空間注意網絡相結合,構建有效的特征選擇模塊,以適應物體外觀的快速變化[21]。

圖2 SiamDA的網絡結構Fig.2 SiamDA network structure of SiamDA

為了使孿生網絡可以在網絡中使用注意機制,許多學者引用了注意模塊。Yang等人開發了一個端到端的孿生注意網絡SiamAtt,在網絡中引入一個注意分支和分類分支,然后根據這兩個分支的得分重融合,獲得最后的目標位置[22]。SATIN采用了一種新的交叉注意模塊,利用通道級和空間級中間的注意信息,提高了特征圖的識別能力和定位能力,從而進一步提高了跟蹤性能[23]。SiamCC也采用了交叉注意特征增強模塊,用來解決前景背景與非語義背景之間的不平衡問題,極大提高了昏暗光影環境下視頻目標跟蹤的精度[24]。SiamTC引入了一種新的目標識別注意模塊,計算了模板分支和搜索分支之間的空間交叉注意以便傳遞相關信息,并且引入了精確跟蹤機制,進一步提高了目標識別的能力[25]。

大多數基于Siamese的跟蹤器都是依賴于一個固定的對象模板來匹配搜索區域內的目標,而忽視了特征表示對跟蹤任務的重要性。為了解決這個問題,Zhao等人提出用圖卷積網絡改進Siamese跟蹤器SAGT,將目標對象劃分為幾個子部分,并且設計了一個注意圖卷積網絡來建模各部分之間的關系,以端到端的方式在每一幀用注意方案增量更新圖的注意系數。而且采用一種基于深度強化學習的可學習級聯回歸算法來優化預測的邊界框來進一步提高定位精度[26]。Huang等人提出了一個基于注意轉移學習的孿生網絡SiamATL,它通過注意的在線更新策略明確地對模板和周圍環境建模,以避免環境污染,并且結合相互補償機制,充分利用了之前的知識來激勵決策模塊中的當前跟蹤器學習,實現在線跟蹤[27]。Xiao等人也基于在線更新的思想,提出了在線更新目標跟蹤的孿生注意網絡SBAN,將兩個互補的全局描述符整合在一起,建立信道之間的相互依賴關系,生成信道權重和增強關鍵特征,然后在線更新模塊利用之前的跟蹤信息,集成給定模板、流程模板和最后跟蹤的結果來更新目標模塊,以此來提高目標跟蹤能力。網絡結構如圖3所示[28]。

圖3 SBAN的網絡結構Fig.3 Network structure of SBAN

表1是基于注意力機制的孿生網絡目標跟蹤算法在數據集VOT2017上的具體表現,數據集包含視頻序列,通過自動生成邊框對數據集進行重新標注,使標注更加合理。評價指標為準確性、魯棒性和EAO。其中準確性是指跟蹤器在單個測試序列下的平均重疊率;魯棒性是指單個測試序列下的跟蹤器失敗次數,當重疊率為0時判定為失??;EAO是指平均重疊期望,表明跟蹤器在一個短時圖像序列上的非重置重疊的期望值。準確性和EAO的值都是越大越好,而魯棒性的值越小則代表系統越穩定。表1中的SBAN和TA-Siam的準確性都超過了0.6。這是因為SBAN運用了無全連接層的ResNet50作為骨干網,殘差網絡能夠為網絡后續計算提供深層次的語義特征,避免了梯度消失的問題,并且采用了注意力模塊,提高了跟蹤的準確性。TA-Siam也采用了ResNet-50殘差網作為骨干網,并且對殘差網絡進行了修改,即去除最后一個殘差模塊,并且減少步幅,引入了擴張卷積,提高了準確性。但SBAN由于采用了在線更新模塊,在線更新能夠對外界目標形變、環境等因素做出反應,導致魯棒性較強和EAO的值較大。SAGT的精確性和魯棒性都較強的原因是采用了注意圖卷積網絡,圖卷積網絡能夠從圖數據中提取特征,利用這些特征對圖數據進行分類和邊緣預測,并且還可學習級聯網絡提高定位精度,但缺點是FPS較低,只有25。SiamDA雖然準確性、魯棒性和EAO沒有前幾種算法好,但FPS較高,達到了80。TASNet、SA-Siam、SiamAtt、SiamATL算法的準確性基本都大于0.5,EAO的值也都大于0.2,且FPS都大于25,達到了實時跟蹤的效果,可見基于注意力機制的目標跟蹤算法都有著較好的性能。

表1 基于注意力機制孿生網絡的算法對比Tab.1 Comparison of twin network algorithms based on attention mechanism

3 基于超參數推理孿生神經網絡的目標追蹤

單個響應圖或者是相似圖不能包含足夠的空間信息[29]。為了處理這個問題,學者一般采用的方法是在多個尺度上進行匹配,以確定對象尺度的變化。SiamFC在5個尺度1.025{-2,-1,0,1,2}上進行對象搜索,然后以系數為0.35的線性插值更新比例提供阻尼[12]。作者還提供了一種只需要3個尺度的版本SiamFC-3s,將原來只有58幀/s的速度提升到85幀/s,精度從原來的0.524 0提升到0.533 5[12]。

目前的趨勢似乎偏離了多尺度的搜索。Siam-RPN通過使用區域建議網絡避免了多尺度的搜索,并且引入了錨點和許多的超參數。對于Siam-RPN,超參數調優是成功追蹤的關鍵之一,網絡結構如圖4所示[30]。Siamese CNN結合了Siam-RPN的區域建議網絡和特定領域的更新,使網絡能夠對特定的序列更具有辨別能力,并且區域建議網絡與跟蹤網絡共享權重,因此不需要花費太多的時間進行區域建議,并且采用了特定領域的微調和基于短期和長期的在線更新,顯著提高了跟蹤性能[31]。DaSiamRPN引入了干擾感知特征學習方案,使模型專注于語義干擾,提高了網絡的識別能力,進而提高了追蹤的魯棒性[32]。Siam-RPN++在SiamRPN的基礎上做了一些改進,首先用更深的網絡ResNet-50引入到孿生網絡中,加深了骨干網,并且消除了除填充的其他因素的影響,獲得了顯著的追蹤性能提升[33]。FCAF則提出用無錨建議網絡AFPN來取代區域建議網絡RPN,與SiamRPN++一樣,也采用ResNet-50網絡提供更豐富的特征表示,以代替骨干網比較淺的孿生網絡,并且引入了特征融合模塊,將底層細節信息與高層次語義特征有效結合,提高定位性能。為了抑制低質量的邊界框預測,增加了中心度分支[34]。Zhang等人提出了一種基于Siam-RPN的移動錨點分布結構,使錨點回歸以目標為中心,通過自適應可靠性評估和在線模板更新,克服了SiamRPN不能根據特定目標在線更新模型的缺點,模板的判別性能有了很大提升。此外,為了解決誤報誤導的問題,加入了多軌跡跟蹤機制,不斷提高追蹤器的分類能力[35]。SiamGan則采用導向錨點的方法,獲得更具有代表性的錨點,減少負樣本帶來的不利影響,提高了跟蹤器的魯棒性,并且結合了特征適應模板,用來適應目標尺度的變化,學習更具有鑒別性和有用性的特征,提高了跟蹤效率[36]。SiamCAR由兩個簡單的子網絡組成:一個用于特征提取的Siamese子網絡和一個用于邊界框預測的分類回歸子網絡,不僅避免了多尺度搜索、錨點和區域建議,而且以很少的超參數提供了最先進的性能,網絡結構如圖5所示[29]。

圖4 SiamRPN的網絡結構Fig.4 Network structure of SiamRPN

圖5 SiamCAR的網絡結構Fig.5 Network structure of SiamCAR

多域網絡(MDNet)將目標追蹤看成是一種分類任務[37],因此,與SiamCAR非常相似的結構SiamBAN也將視覺跟蹤問題看成同時進行的分類任務和回歸任務,完全避免了錨框。SiamBAN利用全卷積網絡的表達能力,而不需要預先定義錨框估計目標的尺度和縱橫比這種繁瑣的啟發式配置[38]。Siamese-ORPN則基于SiamRPN結合特征融合,形成了一種自頂向下的特征融合網絡。該網絡可以從視覺語義層次結構的多樣性中獲得顯著收益,并且結構簡單有效,具有相當的跟蹤效率[39]。它們的設計易于使用,無需在訓練前進行過多的超參數選擇,就像基于SiamRPN的跟蹤器一樣,開發的盒自適應頭由分類、回歸模塊構成,每個模塊都融合了屬于搜索分支和模板分支的特征。由于張量形狀的不同,它們在主干的不同層次上進行預測,即對來自搜索分支和模板分支的第i個卷積層進行預測,對第i+1個卷積層進行預測,以此類推,然后這些部分的預測匯集成最后的響應。表2是基于超參數推理孿生神經網絡的目標跟蹤算法在VOT2018數據集上的對比,后面的算法在性能上相比于最初的SiamFC有了很大的提升。其中首個使用區域建議網絡的SiamRPN在速度和精度上都得到了很大的提升,其速度為160 FPS。DaSiamRPN速度也能達到160 FPS,且準確性和EAO與SiamRPN相近,但魯棒性弱于SiamRPN。SiamRPN++的準確性和EAO高于SiamRPN,并且魯棒性也強于SiamRPN,這是因為SiamRPN++采用了網絡較深的ResNet-50殘差網絡代替了原先骨干網比較淺的網絡,并且消除了中心偏差的影響,提高了性能。但由于網絡較深,導致FPS遠低于SiamRPN。SiamGAN和SiamBAN的整體性能相近,SiamBAN采用無錨機制在某些情況下可以提供靈活的邊界框回歸,SiamGAN則采用導向錨定區域建議網絡選擇一個更有代表性的錨框,減少了錨框的計算量。這兩種算法相比于Siam-RPN都提高了魯棒性。Siamese-ORPN不僅在性能上在這些算法中最優,并且FPS也達到了85,展現出強大的性能。

表2 基于超參數推理孿生網絡的算法對比Tab.2 Comparison of twin network algorithms based on hyperparametric inference

4 基于模板更新孿生神經網絡的目標追蹤

在目前的單目標追蹤任務中,許多基于孿生網絡的目標跟蹤算法只使用第一幀信息作為模板,而沒有很好地利用后續幀的信息。特別是當這些信息中包含重要特征時,在處理復雜環境下的目標遮擋、非剛性形狀變形、平面外旋轉等問題時表現出了魯棒性較差、目標漂移等問題,這些問題可能會導致性能下降甚至跟蹤失敗。為了解決這個問題,一些學者開始采用模板更新的方法。Dsiam通過一個快速轉換學習的模型,有效地實現了模板更新,并且抑制了背景干擾[40]。UpdateNet的卷積神經網絡通過給定初始模板、累計模板和當前幀的模板估計下一幀的最佳模板,達到模板更新的目的[41]。而GradNet使用梯度指導視覺跟蹤中模板更新,并且為了保證較強的自適應能力和避免過擬合,提供了一種模板泛化方法[42]。SiamAttn通過引入一種新的孿生注意機制,通過通道注意選擇性強調相互依賴的通道特征,提供了一種自適應更新目標模板的隱式方式[43]。Fang等人提出了一種自適應分層的孿生追蹤算法,引入層次特征的提取,補充了目標形態的深度信息,有效提高了復雜環境下相似目標的識別能力,并且采用了自適應模板機制,實現了模板更新圖像的動態更新,解決了從第一幀獲取的信息可能過時的問題,最終實現了在多種自然場景下的實時跟蹤[44]。Xu等人使用輪廓檢測網絡和全卷積孿生跟蹤網絡,并結合形狀自適應模板更新,實現實時跟蹤[45]。為了解決目標變形導致跟蹤失敗的問題,他們還提出了一種新的模板更新方法,通過利用模板更新模塊對整個跟蹤過程進行重構,并且使用輪廓模板代替傳統的邊界框模板進行實時跟蹤[46]。

Liang等人提出了一種新的局部語義網絡LSSiam,通過提取更健壯的特征來解決目標飄逸問題,并且提出了一種有效的模板更新策略,即在跟蹤階段,讓網絡參數固定而不對網絡進行微調,只在關鍵幀處更新模板的特征,以避免過多的計算負荷[47]。Zhang等人提出了一種魯棒自適應學習視覺跟蹤算法SiamRAL,分別從模板幀和搜索區域中提取HOG特征、CN特征和深度卷積特征,分析每個特征的優點,進行特征自適應融合,提高特征表示的有效性。引入了一種模板更新策略,在跟蹤失敗、變形或者背景模糊等情況下,利用平均峰值相關能量(APCE)來確定是否更新學習變化因子,以提高跟蹤模型的精度,減少跟蹤漂移[48]。SiamRTU基于強化學習和actorcritic框架進行目標追蹤。在該框架中,網絡根據每一幀的跟蹤結果有效更新模板。這種更新模板策略提高了跟蹤精度,表現出優秀的跟蹤性能[49]。Zhang等人提出一個集成了輕量級孿生網絡和模板引導學習的跟蹤框架,引入一種兩步修剪方法來壓縮孿生網絡,構建模板引導學習模型,通過補償不同模板的獨立優點和抑制學習過程中的干擾,對模板進行在線更新,以增強模型對外觀變化的適應性,從而緩解模型退化問題[50]。

雖然模板更新的方法增加了跟蹤的準確性,但模板更新往往會伴隨一個困境,如果遇到漂移到背景或者相似外觀對象時會增加跟蹤失敗的風險。為了解決這個問題,SiamFT首先對可見光用可見光網絡與紅外圖像用紅外網絡進行處理,將兩個網絡中提取的可見光和紅外模板圖像的卷積特征進行拼接,形成融合模板圖像,然后對融合的模板特征和融合的搜索特征進行交叉關系,得到最終的響應圖并得到跟蹤結果[51]。DIMP[52]和PrDIMP50[53]則通過結合連體結構和在線更新,對目標特征和背景外觀信息充分利用進行目標模板更新,獲得了顯著的性能。此外,SiamEM則通過增強模板的方式,構建一個額外的模板框架作為推理階段魯棒預測的替代模板,無需額外的訓練成本,解決了實例空間的欠擬合問題[54]。SiamET也通過增強模板模塊,采用Resnet-50作為骨干網,通過離線訓練提高了追蹤的魯棒性,展現出優秀的追蹤性能,網絡結構如圖6所示[55]。

圖6 SiamET的網絡結構Fig.6 Network structure of SiamET

基于模板更新孿生網絡的目標跟蹤算法解決了大部分算法使用第一幀的信息作為模板的缺點,使其可以很好地利用后續幀的信息,而不用再依賴于第一幀的模板,在一定程度上改變了孿生網絡目標跟蹤的格局。表3為模板更新目標跟蹤算法在VOT2016數據集測試下的性能對比。從表3可以看出,性能最好的是采用了新的可變形注意模塊和自適應模板更新模塊的SiamAttn,其準確性為0.680,魯棒性為0.140,EAO為0.537,FPS為33,達到了實時跟蹤的效果;其次是UpdateNet,其EAO為0.481,準確性為0.610,魯棒性為0.206,也能保持實時跟蹤效果。雖然SiamRTU的性能也很好,其準確性和EAO分別達到了0.603和0.423,但其FPS只有20。因為該網絡要對每對模板生成響應映射,并且要計算響應值,采用最高的響應映射來預測當前幀中的目標位置,大幅提高了計算量,導致FPS較低。使用模板泛化的GradNet雖然性能不如之前的幾種算法,但是FPS達到了80,速度遠超于前面幾種。DSiam、SiamET和SiamRAL算法的準確性都大于0.5,EAO大于0.2,基本都達到了實時跟蹤的FPS。

表3 基于模板更新孿生網絡的算法對比Tab.3 Comparison of template-based update twin network algorithms

5 實驗結果與分析

本文通過對基于注意力機制孿生神經網絡的目標追蹤、基于多尺度推理孿生神經網絡的目標追蹤和基于模板更新孿生神經網絡的目標追蹤3種方法中選擇代表性的幾種算法和其他幾種追蹤算法進行測試。算法包括BiDiMP,Siam-RPN++、BiSiamDA、DaSiamRPN、SiamDA、GradNet、MDNet、PrDiMP50、CCOT、ATOM、TADT和GCT,基于注意力機制的算法有Siam-DA和BiSiamDA,基于超參數推理的算法有Siam-RPN++和DaSiamRPN,基于模板更新的算法有BiDiMP、GreadNet和PrDiMP50。測試工具的數據集為最受歡迎的基準目標跟蹤數據集之一OTB-2015。它由100個具有挑戰性的視頻組成,帶有遮擋、形變、快速運動、模糊等11個視頻屬性,便于分析跟蹤器應對不同場景的能力。

圖7為12種算法在數據集OTB-2015的結果,包含精確度圖和成功率圖。精確度圖的橫坐標代表位置誤差閾值,縱坐標代表精確度,曲線代表跟蹤算法估計的目標位置的中心點與地面實況之間的距離小于給定閾值的百分比。成功率圖的橫坐標代表重合度閾值,縱坐標代表成功率AUC,曲線代表擴展到給定閾值的重疊分數。當某一幀重合率大于設定的閾值,則該幀被視為成功。圖中不同顏色代表不同的算法,方框的值代表該算法的指標,指標越大則性能越好。從圖7可以看出,通過雙線性特征增強的模板更新DiMP取得了最優的性能,精確度達到了0.919,AUC達到了0.703,均高于SiamRPN++、SiamDA和DaSiamRPN等孿生跟蹤器;基于超參數推理的SiamRPN++以AUC0.696取得了第二的跟蹤結果,以0.052的差距領先于基于注意力機制的SiamDA;排名第三的是結合連體結構和在線模板更新的PrDiMP50,AUC為0.693;基于注意力機制的SiamDA的AUC為0.644。雖然基于注意力機制和超參數推理的方法二者都表現出不錯的性能,但模板更新方法在性能上表現得更加優秀,表明未來孿生網絡單目標跟蹤算法將是以模板更新相結合?;谧⒁饬C制和超參數推理的目標跟蹤算法都可以對特征進行提取,且不需要對模板進行更新,可以用于環境穩定持久的跟蹤?;谀0甯碌哪繕烁櫵惴軌驅ν饨绛h境變化做出反應,提高了追蹤器的性能。表4分別對3種基于孿生網絡目標跟蹤算法進行了總結和歸納??梢钥闯?,孿生網絡目標跟蹤算法在與時俱進,性能也在不斷提高。

表4 3種孿生網絡方法代表的算法對比Tab.4 Comparisons of the represent algorithms of three twin network methods

圖7 3種方法中代表算法在OTB-2015數據集上的比較。(a)成功率圖;(b)精度圖。Fig.7 Comparison of the representative algorithms in the three methods done on the OTB-2015 dataset. (a) Success rate plot; (b) Accuracy plot.

6 結論

隨著孿生網絡的出現,目標跟蹤得到了突破性的提升。本文介紹了基于孿生網絡目標跟蹤算法的進程,根據孿生網絡的特點分為3個方面,即基于注意力機制、基于超參數推理和基于模板更新孿生網絡的目標跟蹤,這些特點都使孿生網絡擁有優異的追蹤性能。將這3個方面的代表算法在OTB-2015數據集上進行了評估,孿生跟蹤器表現出優越的性能。雖然孿生網絡的方法比其他傳統方法具有一定的優勢,但在實際應用中,孿生跟蹤算法仍然在速度和性能上難以滿足任務的需求。結合文獻算法分析和總結,我們對未來的孿生目標跟蹤算法提出以下方面考慮:

(1)提高性能。隨著研究人員繼續探索孿生網絡的不同變化并優化其架構,我們可以期待在廣泛的任務上看到其性能的提高。這可能涉及調整孿生網絡之間共享信息的方式,或以更復雜的方式整合兩個子網絡的輸出。

(2)提高模型泛化能力。目前孿生網絡的跟蹤算法進行特征提取時,網絡的層數一般較多,需要在ImageNet的數據集上進行預訓練,訓練周期相對較長,未來可以通過無監督訓練或者小樣本訓練來提高算法的泛化能力。

(3)與其他架構的結合。孿生網絡可以與其他神經網絡架構相結合,以創建更復雜的模型。例如,研究人員已經探索了將孿生網絡與注意力機制或強化學習技術相結合。比如Transformer結構能夠關注相關的信息而忽略不相關的信息,克服了傳統神經網絡的一些局限性。雖然近兩年孿生結構結合Transformer的跟蹤算法還處于基礎階段,與孿生網絡結合展現出強大的性能,未來具有巨大的發展空間。這些混合模型可以在某些任務上提供更好的性能。

(4)優化主干網絡??梢酝ㄟ^對跟蹤模型進行輕量化處理,比如使用剪枝、量化等技術來減少多余的網絡計算,進而提高跟蹤算法的速度,并且還可以用神經結構搜索的方法,根據任務特點自動搜索專門用于目標跟蹤的骨干網絡。

猜你喜歡
跟蹤器魯棒性模板
鋁模板在高層建筑施工中的應用
鋁模板在高層建筑施工中的應用
光伏跟蹤器陣列跟蹤精度的測算方法研究
淺析一種風光儲一體化跟蹤器
荒漠綠洲區潛在生態網絡增邊優化魯棒性分析
基于確定性指標的弦支結構魯棒性評價
超長待機的自行車位置跟蹤器
雙向多軌跡判定方法在目標跟蹤中的應用研究
基于非支配解集的多模式裝備項目群調度魯棒性優化
非接觸移動供電系統不同補償拓撲下的魯棒性分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合