?

多模態視覺跟蹤方法綜述

2023-02-18 03:06李成龍鹿安東劉磊湯進
中國圖象圖形學報 2023年1期
關鍵詞:模態深度特征

李成龍,鹿安東,劉磊,湯進*

1.安徽大學人工智能學院,合肥 230601;2.安徽大學計算機科學與技術學院,合肥 230601

0 引 言

視覺跟蹤是計算機視覺研究中的前沿和熱點問題,在視頻監控、智能交通和無人駕駛等領域中有著重要的應用價值。然而,基于可見光成像的視覺跟蹤方法受光照變化、雨雪霧等惡劣天氣的影響較大,很難滿足復雜場景和環境下的應用需求。為了克服可見光成像的局限,學者們引入其他模態數據,包括紅外、深度、事件和語言數據,通過協同利用不同模態的互補優勢,實現復雜場景和環境下的魯棒跟蹤,對全天時全天候感知有著重要的價值和意義。例如,可見光波段對直徑小于2.5 μm的微粒穿透能力差,在霧霾環境下成像質量急劇下降,甚至失效,極大限制了視覺跟蹤性能。而紅外熱像是通過感知場景物體熱輻射而形成的,反映了場景物體表面的溫度分布,對霧霾穿透能力強,對可見光成像具有較好的補充作用。因此,多模態視覺跟蹤受到了越來越多的關注和研究。

多模態視覺跟蹤主要包含4個子任務:可見光—紅外(RGB and thermal infrared,RGBT)跟蹤、可見光—深度跟蹤(RGB and depth,RGBD)、可見光—事件跟蹤(RGB and event,RGBE)和可見光—語言跟蹤(RGB and language,RGBL),如圖1所示。與可見光成像相比,其他模態成像具有特定的成像優勢和劣勢。紅外傳感器是一種被動成像系統,反映了場景物體表面溫度分布,基本不受光線變化、霧霾和雨雪等惡劣天氣因素影響,但紅外成像分辨率低、易出現熱交叉。深度傳感器已廣泛應用于計算機視覺領域中,與可見光傳感器獲得圖像的顏色信息不同,它可以獲得圖像的深度信息,反饋的是圖像中各像素點和傳感器之間的距離信息,能夠較好地感知遮擋狀態,但深度成像距離近、噪聲多且受室外光線影響大。與可見光相機一幀一幀地記錄圖像內容不同,受生物啟發的事件相機以更低的延遲產生異步和稀疏的事件流,可以避免運動模糊,具有更大的動態范圍,在快速運動和低照度下能夠很好地工作,但事件成像缺乏物體紋理和細節信息?;谡Z言描述的目標表示方法能夠提供更明確的目標語義信息,可以有效增加目標表示的判別能力以及消除矩形框表示的歧義現象,但語言描述無法提供準確的外觀細節和定位信息。因此,本文在表1中總結了4種模態的優劣勢??梢钥闯?,可見光模態和其他模態具有良好的互補優勢。而如何充分挖掘和利用不同模態信息是多模態視覺跟蹤領域的核心問題。

圖1 可見光和其他模態成像及其互補性示意圖

表1 不同模態成像的優劣勢

目前,也有一些工作對多模態視覺跟蹤方法進行了整理和回顧,如Zhang等人(2020d)對RGBT視覺跟蹤方法的發展歷程進行了全面梳理,并根據跟蹤器框架的不同以及融合層次(如像素級、特征級和決策級)的不同對RGBT視覺跟蹤算法進行了劃分。Zhang等人(2020b)同時回顧了RGBT和RGBD視覺跟蹤方法,并根據輔助模態的作用和跟蹤框架的不同對多模態視覺跟蹤算法進行了劃分。盡管這些工作梳理了一些多模態視覺跟蹤方法,但是多模態視覺跟蹤不僅包含有RGBT和RGBD跟蹤,還包含RGBE和RGBL跟蹤,而現有的多模態跟蹤綜述缺少對這些多模態跟蹤方法的介紹。此外,考慮到多模態信息融合是多模態視覺跟蹤研究的核心,本文從信息融合的角度對現有算法進行歸類和分析,以期幫助讀者更容易、更深刻地掌握多模態視覺跟蹤領域發展的基本脈絡,能夠為讀者帶來更多的啟發。

1 RGB視覺跟蹤方法

本文僅簡單闡述與多模態視覺跟蹤方法具有較高相關性的RGB視覺跟蹤方法,更全面和深入地介紹可參考相關綜述論文。主要將現有RGB視覺跟蹤方法分為兩大類,即基于傳統模型的跟蹤方法和基于深度模型的跟蹤方法。

1.1 基于傳統模型的跟蹤方法

1.1.1 稀疏表示跟蹤方法

稀疏表示可以有效降低數據維度且減小特征向量各維度之間的依賴性,且稀疏約束可以使得計算后得到的各個基對于解釋數據具有同等的重要性,因此,稀疏表示模型成功應用于RGB視覺跟蹤中。Mei和Ling(2009)較早地提出了基于稀疏表示的目標跟蹤算法。他們引入了一個模板集,將稀疏表示優化轉換成一個L1范數最小二乘問題,并采用LASSO(least absolute shrinkage and selectionator operator)算法進行求解,較好地解決了遮擋和噪聲帶來的問題。受該工作啟發,研究者們提出了一系列基于稀疏表示的跟蹤算法。例如,Liu等人(2010)提出了一種兩步稀疏優化算法,極大提高了跟蹤效率。為了進一步提升魯棒性,Li等人(2012)將Gabor特征引入到基于稀疏表示的目標跟蹤算法中,有效地解決了光照變化帶來的影響。為了平衡實時性和魯棒性,侯躍恩等人(2013)提出一種將目標與背景聯合稀疏表示的跟蹤方法,把稀疏表示模板字典與背景信息相結合,有效地增強了跟蹤算法對背景的判別能力。

1.1.2 結構化支持向量機跟蹤方法

該類方法基于檢測算法,其核心是通過結構化支持向量機將目標樣本和背景樣本進行區分,從而實現對目標的定位。鑒于支持向量機的良好泛化能力、標簽噪聲魯棒性和核函數表示的靈活性,Hare等人(2011)引入結構化支持向量機到跟蹤任務中,提出了一種有效的判別式跟蹤模型,因其較好的跟蹤性能受到了廣泛關注。Kim等人(2015)提出了基于空間有序加權特征的結構化支持向量機跟蹤方法,通過隨機游走模型計算局部圖像塊的重要性權重,結合加權特征和結構化支持向量機實現穩健跟蹤。Ning等人(2016)提出了雙線性的結構化支持向量機優化方法和顯式特征映射,顯著降低了模型計算復雜度。此外,Li等人(2017a)在Kim等人(2015)工作基礎上引入動態圖模型更為魯棒的加權特征表示,有效融合了圖像塊之間的局部和全局關系,并結合結構化支持向量機顯著提升了跟蹤性能。

1.2 基于深度模型的跟蹤方法

1.2.1 深度相關濾波跟蹤方法

相關濾波跟蹤方法是通過循環矩陣的特性快速學習一個高判別力的相關濾波器,從而快速、穩健跟蹤。由于其計算效率高、性能好的特點,引起了研究者的廣泛研究,但前期的一些工作僅使用了手工設計特征,處理復雜場景和環境因素的能力有限。一些研究者結合深度特征和相關濾波模型,取得了顯著的性能提升。Ma等人(2015)使用多層深度特征訓練相關濾波器,有效地利用了多尺度信息,實現了由粗到細的融合和定位。后續有一系列工作研究如何更好地融合不同尺度特征下的濾波器及其預測的響應圖(Qi等,2016;Wang等,2018b;Danelljan等,2016,2017;Valmadre等,2017;張艷琳 等,2020)。

1.2.2 分類網絡跟蹤方法

這類方法一般通過多域卷積神經網絡提取出通用的深度特征,然后利用第1幀的正負樣本訓練域分類器,并通過后續的正負樣本進行微調域分類器,從而實現目標實例的有效跟蹤。Nam和Han(2016)首次提出基于多域卷積神經網絡的RGB視覺跟蹤方法,取得了優越的跟蹤性能,后續許多研究工作基于該模型進行了拓展。Song等人(2018)引入生成對抗網絡生成具有遮擋屬性的樣本,使得跟蹤模型可以更好地應對遮擋挑戰。Jung等人(2018)引入感興趣池化對齊(region of interest(ROI)align)操作,避免了重復的特征提取過程,在保持跟蹤性能的同時極大提高了跟蹤效率。

1.2.3 孿生網絡跟蹤方法

該類方法將視頻目標跟蹤視為匹配任務,通過使用目標模板特征在后續幀中匹配出正確的目標位置。其基本架構是由共享參數的雙分支卷積神經網絡和互相關層組成,其中雙分支網絡用以分別提取模板特征和搜索區域特征,互相關層執行相關操作獲得目標響應圖,響應圖上的峰值點就是目標位置所在。Bertinetto等人(2016)較早提出基于模板匹配的孿生網絡方法,促進了RGB視覺跟蹤領域的快速發展,涌現了一大批基于孿生網絡的跟蹤算法(Li等,2018a;Zhang和Peng,2019;Xu等,2020;陳志良和石繁槐,2022)等。

1.2.4 IoU優化跟蹤方法

為了充分發揮分類網絡跟蹤方法和孿生網絡跟蹤方法的優勢,Bhat等人(2019)提出了一種多任務跟蹤方法,同時執行分類和回歸任務。他們首先通過離線訓練一個IoU(intersection over union)預測器實現尺度估計,然后通過一個在線訓練的分類器來用于目標定位,這種分類和回歸兩個任務的協同工作有效地提升了跟蹤器的魯棒性。后續也有一些工作對其進行了改進,有效地提升了對目標和背景的判別性(Bhat等,2020)以及對相似干擾物的處理能力(Mayer等,2021)。

1.2.5 Transformer跟蹤方法

Transformer的注意力機制可以更好地建模全局依賴關系,在許多計算機視覺任務中都有著很好的應用,在RGB視覺跟蹤中也取得了較大的成功。Wang 等人(2021a)利用Transformer 結構建模了不同時刻的時序信息,豐富了跟蹤模型中的時序關系。Chen等人(2021)使用Transformer結構替代了孿生網絡跟蹤方法中的互相關操作,將模板信息融合到搜索區域中,可以更好地進行目標定位和尺度回歸。Yan等人(2021a)使用Transformer結構來預測目標的角點進行跟蹤,此外還引入了時空信息,可以更好地適應目標的外觀變化,進一步提升了基于 Transformer 跟蹤方法的魯棒性。然而,上述這些跟蹤器仍然依賴于卷積神經網絡提取特征,不能充分發揮Transformer全局建模的能力。為了解決這個問題,Cui等人(2022)使用Transformer結構同時進行特征提取和信息交互,進一步簡化了跟蹤器的結構,并極大地提升了跟蹤性能。

2 RGBT視覺跟蹤方法

從信息融合角度,本文把現有RGBT視覺跟蹤算法劃分為兩大類:結合式融合和判別式融合。結合式融合是通過不同的融合方法結合不同模態信息,而判別式融合是挖掘不同模態的判別信息進行融合。圖2展示了兩類融合方式的過程。

圖2 兩類融合策略示意圖

2.1 結合式融合

現有結合式融合的RGBT跟蹤算法可以分為5類:稀疏表示融合、協同圖表示融合、模態共享和特定信息融合、基于屬性的特征解耦融合以及其他結合式融合方法,下面分別予以介紹。

2.1.1 稀疏表示融合

由于稀疏表示模型具有非常好的抑制特征噪聲的能力,因此一些研究者將稀疏表示引入到 RGBT跟蹤中,旨在聯合建模多模態特征的稀疏表示并抑制特征噪聲。這些方法通常將傳統貝葉斯濾波框架拓展成多模態貝葉斯濾波框架實現跟蹤,其中運動模型和傳統方法一致,而似然模型一般是基于融合多模態信息的稀疏表示模型。

Wu等人(2011)首次將稀疏表示模型應用到RGBT跟蹤中,他們將可見光和紅外粒子(圖像塊)的特征拼接成1維的特征向量,然后采用稀疏表示方法實現多模態跟蹤。Liu和Sun(2012)設計一種聯合稀疏表示模型,分別計算每種模態的重構系數,并通過最小化操作融合兩種模態的重構系數,然后計算粒子的置信度作為似然分數。Li等人(2016b)提出一種拉普拉斯稀疏表示模型,利用了粒子之間的相似性提高稀疏表示的魯棒性。Lan等人(2020)設計了一種基于模態相關性感知稀疏表示模型,通過低秩正則化和稀疏正則化分別利用不同模態之間的相關性和自適應選擇具有代表性的粒子處理外觀變化。

然而,這些方法并沒有考慮到模態可靠性對跟蹤性能的影響,同時也忽略了前景和背景的判別信息,限制了跟蹤算法的魯棒性。為了解決這些問題,Li等人(2016a)提出了一種協同稀疏表示模型,對不同的模態數據通過傳統的聯合稀疏表示模型進行建模,同時為每個模態引入一個可靠性權重,實現多個模態的自適應融合。此外,該工作構建了一個RGBT跟蹤數據集GTOT(grayscale-thermal object tracking),為該領域的研究提供了一個統一的評價平臺。為了增加模態權重計算的可靠性,Li等人(2017b)設計了一種多任務拉普拉斯稀疏表示模型,利用圖像塊之間的相似性優化稀疏系數。為了克服遮擋、嘈雜背景等因素的影響,Lan等人(2019a)研究了如何有效地從潛在污染樣本中學習可靠的多模態稀疏表示,并將非負約束引入優化框架,增強了模型魯棒性。

盡管這些稀疏表示融合方法在抑制特征噪聲方面表現良好,但是由于稀疏表示模型的在線優化比較耗時,導致這些算法大都不能滿足實時性要求,且該類模型一般基于像素的特征表示,對復雜場景和環境具有較差的魯棒性。

2.1.2 協同圖表示融合

基于圖模型的視覺跟蹤方法能夠較好地抑制嘈雜背景對特征表示的影響,受到了一定的關注。這類方法一般是將樣本區域劃分成多個不重疊的圖像塊,把圖像塊的顏色和梯度特征連接在一起作為該樣本的特征表示,然后在結構化支持向量機跟蹤框架進行跟蹤。但該特征易受背景成分的影響,為此,學者們通過為每個圖像塊分配一個權重抑制背景塊的影響,并以圖像塊為圖結點構建圖模型,優化圖像塊權重的計算?;玖鞒倘鐖D3(Li等,2018c)所示。在RGBT跟蹤中,學者們主要考慮如何設計魯棒的協同圖模型,有效利用多模態信息提高權重計算精度和魯棒性。

圖3 基于跨模態排序算法的RGBT跟蹤流程圖(Li等,2018c)

Li等人(2017c)首次將圖模型應用到RGBT跟蹤中,提出了加權稀疏表示正則化協同圖模型,聯合優化模態權重、稀疏表示系數、圖結點相似性和圖結點權重。進一步,Li等人(2019a)提出了一種基于種子點稀疏優化的協同圖模型,通過L1范數約束權重變量和種子點權重的關系,以此降低噪聲種子點的影響。為了同時考慮模態間的協同性和異質性,Li等人(2018c)設計了跨模態排序圖模型,引入了模態之間的跨模態軟一致性有效融合多模態信息。Li等人(2022a)改進了跨模態排序圖模型,通過分離不同特征(顏色和梯度特征)的排序過程,在多任務學習框架下實現更為精準的權重計算。為了聯合利用局部信息和全局信息,Li等人(2019c)提出了一種局部—全局多圖模型,通過利用全局和局部線索挖掘多模態圖像塊之間的內在關系,實現多模態信息的協同融合。為了提高對初始化權重的魯棒性,Li等人(2018d)提出了一種兩階段排序模型,通過第1階段的排序結果重新初始化結點權重,以此降低初始化權重的噪聲影響。Shen等人(2022)提出了一種協同低秩圖模型,將輸入特征分解成低秩特征部分和稀疏噪聲部分,利用協同圖學習算法對其進行動態更新。Lan等人(2019c)提出了一種稀疏正則化錨點協同圖模型,通過圖結點親和性的學習構建錨點協同圖,進而設計了標簽預測模型,通過少量標注樣本準確預測樣本標簽。

協同圖表示融合模型使用局部特征表示目標,能夠對目標變形、部分遮擋等挑戰有著較好的魯棒性,且通過權重抑制背景成分影響,能夠較好地應對嘈雜背景等因素。但這類算法一般需要迭代優化多個變量,因此具有較差的跟蹤效率。此外,雖然使用了顏色和梯度特征,相對于稀疏表示融合方法有了較高的表示能力,但與深度特征相比,這類方法的表示能力仍舊較弱。

2.1.3 模態共享和特定信息融合

一些學者設計專門的網絡協同提取模態共享和模態特定信息,以此提高多模態特征的表征能力,然后結合模態共享和特定特征實現魯棒的視覺跟蹤(Lu等,2021)。通過在特征提取階段構建不同的子網絡分別提取模態共享特征和模態特定特征。

Li等人(2019b)提出一種多適配網絡,包括通用適配模塊、模態特定適配模塊和實例適配模塊,分別提取模態共享特征、模態特定特征和實例感知特征。具體地,通用適配模塊使用多模態數據學習模態共享表示,模態特定適配模塊則分別利用單模態數據學習模態特定表示。通過漸進式訓練策略實現了對多模態特征的解耦建模,有效提升了多模態特征的表征能力。此外,實例適配模塊通過在線更新機制能夠有效應對目標及其周圍環境的動態變化。為了更好地解耦模態共享和模態特定特征,Lu等人(2021)進一步設計了基于多核均方差函數的層級差異損失,以監督模態共享特征和模態特定特征的解耦學習,提升模型判別能力。具體地,該方法通過在多個層級上施以最大均值方差損失約束,最大化模態共享特征和模態特定特征之間的分布差異,同時最小化模態共享特征分布距離。此外,該方法在實例適配模塊中引入在線的模態權重預測網絡實現了更魯棒的自適應融合。類似地,Peng等人(2021)提出了一種具有耦合濾波器的雙流卷積互補特征融合網絡,有效提取紅外和可見光圖像之間的共享特征和特定特征。

盡管模態共享和模態特定信息融合方法提供了一種有效和通用的多模態結合式融合框架,但在模態特定特征學習中缺少模態間信息交互,一定程度上限制了融合性能。

2.1.4 基于屬性的特征解耦融合

深度跟蹤模型往往依賴大規模標注數據,且很難克服多種多樣的挑戰因素。Qi等人(2019)提出了一種基于屬性表示學習的跟蹤算法,通過基于屬性的多分支網絡學習目標相應屬性的特定表示,可以有效解耦目標外觀的建模過程,達到僅需少量參數就可以有效學習復雜目標外觀變化的目的,并克服了對大規模訓練數據的依賴。借鑒該解耦的方式,一些學者提出了基于屬性的多模態特征解耦融合算法, 一般采用多階段訓練方法建模不同屬性的參數,如圖4所示。

Li等人(2020)提出了一種挑戰感知網絡,實現適用于RGBT跟蹤任務的解耦框架。具體地,針對可見光和紅外數據既面臨著共同的挑戰(如快速運動、遮擋和尺度變化等挑戰),又面臨著特定的挑戰(如光照變化和熱交叉等挑戰),Li等人(2020)設計了一些參數共享的挑戰感知分支解決模態共享挑戰和一些參數獨立的挑戰感知分支解決模態特定挑戰。由于模態特定挑戰通常包含模態互補信息,因此還設計了指導模塊顯式地將較好模態的判別性信息傳播到較差的模態中,有效增強了較差模態的特征判別能力并抑制噪聲。此外,針對跟蹤過程中挑戰不可知的問題,他們還設計了一種自適應聚合模塊融合所有挑戰感知分支的輸出結果,學習過程如圖4所示。由于這些挑戰感知分支能夠在特定挑戰下對目標外觀進行建模,因此即使在訓練數據不足的情況下,也可以有效地學習目標表示。

圖4 基于屬性的特征解耦融合網絡模型及漸進式學習策略

然而上述工作只考慮了5種特殊的挑戰,而真實場景會包含更多的挑戰因素。為了解決這個問題,Zhang等人(2021b)提出了一種自適應屬性驅動表示的RGBT跟蹤算法,設計了一個通用分支學習其他挑戰因素下的特征表示。為了訓練這些不同的屬性分支,他們設計了一種數據生成策略,為每種屬性生成對應的訓練數據,并設計了一種屬性集成網絡,在通道級和空間級進行自適應聚合,以適應屬性不可知的跟蹤過程??紤]到融合過程的復雜性,Xiao等人(2022)通過屬性信息解耦融合過程,提出了一種基于屬性的漸進式融合網絡,設計了參數獨立的屬性融合分支來捕捉不同屬性下的多模態融合方式,設計了一種基于注意力機制的挑戰聚合模塊來自適應地聚合不同挑戰下的特征??紤]到Transformer可以捕捉全局信息,他們設計了自注意力增強模塊,用于增強聚合特征和主干網絡特征,并使用交叉注意力將聚合特征以更有效的方式與主干網絡特征進行自適應融合。

基于屬性的特征解耦方法提供了一種有效的目標表示方式,并克服了對大規模訓練數據的依賴。但在實際應用中,挑戰屬性是多種多樣的,如何充分挖掘屬性信息實現更為精準的目標表示,以及設計合適的網絡分支建模不同屬性下的目標表示還有待進一步探索和研究。

2.1.5 其他結合式融合方法

多模態信息的像素級融合可以直接使用單模態跟蹤方法實現跟蹤過程。Schnelle和Chan(2011)利用13種空間域和基于金字塔的像素級融合算法融合可見光和紅外圖像,提高了現有視頻監控系統的跟蹤性能,并采用基于背景減法的算法進行目標定位。Chan和Schnelle(2012)在此基礎上進一步進行了研究,使用13個基于像素的圖像融合算法進行圖像融合,確定了5種可以顯著提升跟蹤性能的基于金字塔的方法,并在后續的工作中分析了這些融合方法的計算效率。然而,像素級融合要求嚴格配對多模態數據,且很難充分挖掘多模態有效信息。為了驗證像素級、特征級和決策級融合的有效性,Zhang等人(2019a)提出了一種端到端的多模態融合跟蹤算法,采用數據生成策略解決訓練數據不足問題,通過對比不同融合策略的跟蹤結果,最終采取了在特征級融合多模態特征,并在國際權威的目標跟蹤比賽VOT2019中RGBT跟蹤賽道獲得冠軍。

由于相關濾波模型具有速度快、性能高的特點,因此一些學者在該框架下研究RGBT跟蹤算法。Wang等人(2018b)首次將相關濾波方法引入到RGBT跟蹤任務,提出了一種軟一致性相關濾波算法,充分考慮了多模態數據之間的協同性和異質性,并設計了一種加權融合機制來預測最終的響應圖。Zhai等人(2019)利用低秩約束聯合學習不同模態的相關濾波模型,實現模型的協同學習,對光照變化和惡劣天氣等挑戰具有很好的魯棒性。Feng等人(2020)提出了一種自適應時空正則化相關濾波模型,采用自適應加權融合方法和多尺度搜索機制,實現了決策級的多模態信息融合。Yun等人(2019)提出了一種判別融合相關濾波模型,通過有效地融合可見光和熱紅外模態的特征及響應圖提高跟蹤性能?;谙嚓P濾波的RGBT跟蹤算法雖然具有較快的跟蹤速度,但由于一般使用傳統特征,因此性能相對深度模型還有很大的差距。

2.2 判別式融合

結合式融合方法通過結合不同模態的所有信息融合多模態數據,但也往往會帶來特征的冗余和噪聲。而判別式融合方法旨在挖掘每個模態的判別性信息,通過僅聚合判別性信息降低了特征冗余和噪聲,實現多模態數據的有效融合?,F有判別式融合的RGBT跟蹤算法可以分為4類:特征選擇融合、基于注意力機制的自適應融合、雙向增強融合以及其他判別式融合方法。

2.2.1 特征選擇融合

特征選擇融合方法通過一些準則選擇多模態判別性特征用于視覺跟蹤。一方面避免了數據噪聲干擾,有利于提高跟蹤性能;另一方面消除了數據冗余,有利于提高跟蹤效率。

Li 等人(2018b)提出了一種基于雙流卷積神經網絡的RGBT跟蹤算法,通過雙流卷積網絡用于提取不同模態的深度特征,通過選擇融合網絡選擇判別性特征、去除冗余和噪聲特征,用于后續跟蹤。其中,特征圖的重要性是根據訓練過程的損失變化大小定義的。不同于上述方法,Zhu等人(2019b)提出了基于自適應剪枝策略的融合方法,通過一種多模態協作的方式來修剪所有模態的聯合特征,并采用全局平均池化和加權隨機選擇操作對每個通道進行打分,最后通過一種硬選擇機制保留高分數的特征通道,以此去除特征冗余和噪聲。進一步,Zhu等人(2022)將該剪枝策略分別應用于單模態分支和多模態融合分支,在更充分利用所有模態特征的同時消除了特征冗余和噪聲。

判別性特征選擇的標準是這類方法的關鍵,現有基于損失函數變化大小和損失函數驅動的選擇算法由于選擇標準的精準度和魯棒性問題,往往會去除有用信息,盡管顯著降低了計算開銷但也限制了跟蹤性能。

2.2.2 基于注意力機制的自適應融合

不同模態數據包含的信息量和判別性都是不同的,如何挖掘和利用有用信息、抑制噪聲信息對于 RGBT 跟蹤是非常重要的。最有代表性的一類方法是通過注意力機制計算數據的可靠性,包括模態可靠性、空間可靠性和通道可靠性,從而實現多模態信息的自適應融合,有效抑制數據噪聲?;谧⒁饬C制的自適應融合基本流程如圖5所示。

圖5 基于注意力機制的自適應融合示意圖

早期工作一般通過單類型注意力機制實現自適應融合,Zhu等人(2019a)提出了一種質量感知特征聚合網絡,同時考慮了不同模態的可靠性和不同層特征的可靠性,對多層深度特征進行自適應聚合。

為了建模簡單樣本與困難樣本之間的關系,Tu等人(2022)提出了一種多模態多邊界度量學習框架,通過探索和利用簡單正樣本、簡單負樣本、困難正樣本和困難負樣本之間的關系提升特征的魯棒性,并設計了一個基于注意力機制的質量感知聚合模塊。為了提高算法實時性,Zhang等人(2019b)在多模態孿生跟蹤模型中引入了基于注意力機制的特征融合網絡,用不同模態的響應圖計算不同模態的可靠性權重。進一步,Zhang等人(2020e)提出了一種基于動態孿生網絡的多層融合跟蹤算法,利用注意力機制計算多層特征的可靠性權重,實現多層次多模態特征的自適應融合。

然而,上述方法只考慮了模態可靠性,雖然能夠抑制噪聲模態的影響,但也會抑制模態中的判別信息,因此,一些學者通過引入通道注意力和空間注意力凸顯更為細粒度的判別性特征。Gao等人(2019)提出了一種漸進式的深度自適應融合網絡,通過基于通道注意力機制的自適應融合模塊估計不同模態特征不同通道的可靠性權重,有效地降低了特征噪聲和冗余信息。Zhang等人(2021c)進一步考慮了空間位置注意力對多模態信息融合的影響,提出了一個基于空間注意力機制的多模態融合網絡,估計不同模態響應圖不同空間位置的可靠性權重。

為了進一步挖掘注意力機制在多模態信息融合上的潛力,一些學者使用混合注意力機制,實現魯棒的多模態信息融合,并廣泛應用于 RGBT 跟蹤網絡中。Xu等人(2022)提出了一種基于通道注意力和空間注意力的多模態跨層雙線性池化的RGBT跟蹤算法,使用通道注意力實現多層特征通道的統一,然后通過基于空間注意力機制的質量感知融合模塊預測兩個模態特征中每個空間位置的可靠性權重,自適應地聚合不同模態不同層交互的雙線性池化特征。Zhang等人(2022a)提出了一種多層級多模態融合跟蹤算法,同時考慮了基于分布約束的互補圖像融合、基于通道注意力的判別特征融合和基于空間注意力的自適應決策融合,進一步提升了跟蹤性能。

2.2.3 雙向增強融合

特征選擇融合和基于注意力機制的融合方法可以分別看成硬選擇和軟選擇策略,而選擇策略有可能會抑制一些有用信息。例如,為每個模態進行可靠性加權,那么該模態的所有特征都將被削弱。為此,一些學者通過雙向增強融合策略避免有用信息的抑制,主要是利用一個模態的判別性信息增強另外一個模態的特征,同時會抑制該模態的數據噪聲。

Zhang等人(2022b)設計了一種互補感知的多模態特征融合網絡,通過權重生成模型選擇一個模態的判別性特征,利用元素級相加的方式將判別性特征傳播到另一個模態中。Mei等人(2021)提出了一種層級雙傳感器交互網絡,通過設計數據編碼模塊和特征交互模塊實現模態互增強。特征交互模塊結合兩個模態的特征計算可靠權重,以選擇每個模態的判別性特征,然后采用元素級相加方式實現模態互增強。Zhang等人(2020a)提出了一種基于模態感知的注意網絡,通過跨模態融合子網絡引導多模態判別性特征的充分交互,然后通過元素級相加將交互特征傳播到原始特征上,增強各個模態的特征表示。Wang等人(2020a)基于自注意機制設計了一個跨模態模式傳播模塊,該模塊首先對兩個模態特征執行自相關注意力操作,獲得每個模態的自相關關系矩陣,而后在兩個關系矩陣中執行融合操作,以實現模態間的互增強。此外該方法還引入時間域信息,通過長時上下文傳播模塊進一步增強當前的模態特征。為了充分利用低質量模態判別性信息,Lu等人(2022)提出了一種對偶門控互條件網絡,通過對偶門控模塊提取模態判別性特征,對另一個模態特征學習進行指導,同時通過雙門控機制過濾冗余和噪聲信息。這類方法雖然取得了較好的跟蹤性能,但模型稍顯復雜,跟蹤效率偏低。

2.2.4 其他判別式融合方法

以上判別式融合方法均是基于深度學習框架的,而一些學者在傳統跟蹤框架中也探索了判別式融合方法。Lan等人(2018)提出了一種判別性學習框架,在統一的計算模型中聯合優化特征表示、可靠性權重和分類器,從而使這3個學習任務相互受益,獲得更好的性能。為了緩解模態差異問題,Lan等人(2019a)提出了一種模態一致性的稀疏表示模型,并通過引入特征判別性一致性約束,實現多模態信息的協同建模和判別。

基于傳統模型的判別式融合方法盡管一定程度上解決了RGBT跟蹤中的部分挑戰,但其跟蹤性能難以與基于深度學習的多模態視覺跟蹤方法相比,而且這類方法往往會涉及較為復雜的迭代優化過程,使得跟蹤效率偏低。

2.3 融合策略總結和比較

得益于可見光和紅外的強互補優勢,當前的RGBT跟蹤領域引起了眾多學者的關注,并得到了快速發展。盡管各種多模態融合策略可以解決多模態跟蹤的一些問題,但是這些方法都有著各自的優缺點。因此,本文在表2中總結了當前主流融合方法以及它們優缺點的比較。

表2 主要RGBT跟蹤方法總結與優缺點比較

2.4 RGBT跟蹤數據集

大規模數據集對RGBT視覺跟蹤領域有著至關重要的作用,一方面可以幫助訓練深度學習算法,另一方面可以綜合評價不同跟蹤器的性能,有效促進該領域的研究和發展。Li等人(2016a)提出了第1個大規模RGBT視覺跟蹤數據集GTOT,包含有50對不同場景和條件下的RGBT視頻序列,并提供了7種挑戰屬性標注,用來評價算法在不同挑戰屬性下的性能。為了進一步豐富RGBT視覺目標跟蹤數據集的多樣性,Li等人(2017a)提出了一個更大規模的RGBT視覺跟蹤數據集RGBT210,包含有210對RGBT視頻序列。然而,RGBT210數據集的標注不夠精細。為了解決這一問題,Li等人(2019a)對其進行了改善,提出了更大規模的RGBT跟蹤數據集RGBT234,并提供了12種挑戰屬性標注。雖然上述3個數據集對于評估不同算法的性能已經足夠大,但是還不能滿足深度跟蹤器對大規模訓練數據的需求。為了解決這一問題,Li等人(2022a)提出當前最大規模的RGBT跟蹤數據集LasHeR,提供了1 224對RGBT視頻序列,并標注了19種挑戰屬性,這將有利于推動RGBT跟蹤領域的方法研究。此外,Zhang等人(2022a)提出了面向無人機平臺的RGBT跟蹤數據集VTUAV(visible-thermal unmanned aerial vehicle),并提出了RGBT長時跟蹤問題,這為RGBT領域拓展了新的研究空間。為了更為清晰地理解不同數據集的特點,本文在表3中總結了主流RGBT跟蹤數據集的細節。

表3 RGBT跟蹤數據集比較

3 其他多模態視覺跟蹤方法

除了RGBT跟蹤任務,多模態視覺跟蹤還包括RGBD跟蹤、RGBE跟蹤和RGBL跟蹤。由于這些領域的研究相對較少,因此本文將簡要闡述這3種多模態視覺跟蹤任務的研究進展。

3.1 RGBD視覺跟蹤

RGBD 跟蹤是引入與可見光圖像對應的場景深度圖,有效克服可見光模態的局限性,從而提高跟蹤魯棒性。特別是在低光照和遮擋情形下,深度圖能夠更好地跟蹤目標,并推理目標的遮擋狀態,如圖6(Liu等,2019)所示,圖中,中間一列表示特征響應,最后一列表示通過深度信息感知遮擋狀態。2012年,García等人(2012)提出了第1個RGBD跟蹤方法,通過濃縮算法融合了灰度特征、顏色特征和深度圖特征,用以區分前背景目標。2013 年,Song和Xiao(2013)提出了第1個大規模RGBD數據集,包含了100條配對的RGB和深度視頻序列,引起了計算機視覺領域研究者的廣泛關注。在早期RGBD跟蹤研究中,通常是針對單模態跟蹤器的拓展展開的,通過從深度圖中獲取手工設計特征或跟蹤結果,解決特定挑戰下的跟蹤問題。例如,Hannuna等人(2019)基于現有的該相關濾波算法(kernel correlation filter, KCF),聯合顏色和深度線索實現魯棒跟蹤,同時利用深度數據調整目標尺寸。盡管最近的工作引入深度學習技術,但大都基于現有單模態跟蹤器的拓展。本文大致將當前RGBD跟蹤方法分為兩類:早期融合和后期融合,下面予以分別介紹。

圖6 RGBD目標定位示意圖(Liu等,2019)

早期融合是指在像素級和特征級實現兩種模態的信息融合?;谙袼丶壢诤系腞GBD跟蹤算法(Liu 等,2019;Kart 等,2019;Xie 等,2019;Gutev和Debono,2019)通常是將深度圖和可見光圖像形成一種四通道輸入,然后使用單模態跟蹤算法實現目標跟蹤;基于特征級融合的RGBD跟蹤算法(Wang 等,2020b;Bibi 等,2016;Meshgi等,2016;Ma和Xiang,2017;Xiao 等,2018;Liu 等,2020;Zhao 等,2020;Yan 等,2021b)通常是對深度圖和可見光圖像分別提取手工特征或者深度特征,然后進行特征融合,并利用融合特征進行跟蹤。例如,Wang等人(2014)同時結合光流、顏色和深度圖特征預測目標位置。此外,基于深度跟蹤框架ATOM(arate tracking by orlap maximization)和DiMP(discriminative model prediction),Yan等人(2021b)提出了一種雙流網絡,通過構建一個額外的深度網絡分支提取兩種模態的深度特征。

在RGBD跟蹤領域中,大部分研究者更側重于在跟蹤結果中進行修正式融合,也稱為后期融合。一些研究算法通過使用深度模態的幾何或深度先驗信息來修正當前RGB跟蹤器的結果,這在早期的工作中得到廣泛使用(Zhong 等,2015;Chen 等,2015;Shi 等,2015;Kart 等,2018;Zhai 等,2018;Ding和Song,2015)。Shi等人(2015)提出使用來自可見光和深度圖像HoG(histogram of oriented gradient)的檢測結果,聯合可見光和深度圖像各自的跟蹤結果,并以加權融合的方式聚合上述結果。此外,根據深度圖像的直方圖判斷當前幀遮擋情況,從而對聚合后的跟蹤結果進行修正。為了進一步解決跟蹤中的遮擋問題,Zhai等人(2018)提出了一種基于深度圖像和定向梯度直方圖特征的目標遮擋判斷機制,并利用相關最大似然估計粒子濾波器算法,建立了目標預測—跟蹤—優化—再檢測的跟蹤機制,極大地提升了模型在遮擋場景中的跟蹤性能。類似地,Ding和Song(2015)同樣使用深度直方圖來判斷是否發生遮擋,但是額外引入了基于深度圖像的分割圖重新定位目標。

在RGBD多模態視覺跟蹤中,由于深度模態的成像質量的限制,現有的大多數 RGBD 跟蹤工作仍然以深度模態作為一種輔助的信息使用。無論是早期融合或者后期融合,通常聚焦于挖掘深度模態圖像的幾何或空間性質,獲得跟蹤目標的先驗信息。然而缺乏對深度模態特征信息的充分挖掘,這限制了該領域的基于多模態信息融合的跟蹤方法的發展。

3.2 RGBE視覺跟蹤

事件相機由于其低延遲、高動態范圍的特點,使得異步跟蹤成為可能。為了解決可見光相機存在的運動模糊問題,一些學者聯合可見光和事件相機的信息流,實現更可靠的跟蹤結果,圖7(Wang等,2022)展示了4個典型場景下可見光和事件信息的互補優勢。為了提供統一評測基準,Liu等人(2016)構建了一個小規模RGBE跟蹤數據集 Ulster,并提出了一個基準方法。他們將跟蹤過程分為3個步驟:1)使用聚類的跟蹤方法和事件相機數據生成感興趣區域;2)使用卷積神經網絡和可見光數據將這些感興趣區域劃分為前景和背景;3)使用粒子濾波從這些感興趣區域推斷出目標的位置。為了獲取更豐富的事件數據,Hu等人(2016)在現有跟蹤數據集的基礎上生成對應的事件流,構建了一個大規模RGBE跟蹤數據集VOT-DVS(visual object tracking dynamic vision sensors)和TD-DVS(tracking dataset dynamic vision sensors),可以應用于目標跟蹤、行為識別和目標識別等領域。

圖7 不同挑戰因素下的可見光成像和事件成像優勢(Wang等,2022)

早期的RGBE跟蹤方法通常是提取RGB的特征,然后利用事件流輔助檢測和跟蹤,如Tedaldi等人(2016)提出的基于迭代的幾何配準方法、Kueng等人(2016)提出的基于事件的視覺測程算法和Gehrig等人(2018,2020)提出的最大似然生成事件模型等。

為了更充分融合多模態信息,Huang等人(2018)提出了一種基于支持向量機的事件引導跟蹤模型,利用在線自適應區域搜索實現更準確的目標定位,利用事件數據和可見光數據重建樣本以實現多模態信息融合。Yang等人(2019)設計了一種時間互補濾波器和注意力機制聯合處理可見光數據和事件流,并構建了一個更大規模的RGBE跟蹤數據集NFS-DAVIS(need for speed-dynamic and active pixel vision sensor)。

隨著深度學習技術的發展,一些學者也探索了基于深度學習的RGBE跟蹤框架,并取得了較好的跟蹤效果。Zhang等人(2021a)提出了一種跨域注意力機制實現特征增強,并設計了一種加權方案自適應地平衡兩種模態的貢獻,能夠有效地、自適應地融合兩種模態的有效信息。此外,他們也提出了一個大規模RGBE跟蹤數據集FE108。為了進一步推進RGBE跟蹤領域的發展,Wang等人(2022)構建了一個更為完善的RGBE跟蹤數據集VisEvent,并提出了一種基于跨模態Transformer的多模態信息融合方法,以實現可見光數據和事件數據之間更有效的特征融合。

在RGBE視覺跟蹤中,由于可見光和事件數據格式的不同,為了實現多模態信息融合,現有做法通常將事件流轉換為事件圖像,這不可避免地帶來了信息損失,對事件流數據進行有效建模,進而挖掘可見光和事件流數據的互補優勢,對提升RGBE跟蹤器的性能具有重要意義。此外,由于可見光和事件相機捕獲信息的頻率不同,在跟蹤中關聯可見光和事件相機的信息存在著很大的挑戰。

3.3 RGBL視覺跟蹤

RGBL跟蹤是通過在第1幀中引入額外的對跟蹤目標的語言描述,結合目標的RGB圖像來執行后續的跟蹤任務。Li等人(2017d)提出這一研究問題的一個基準算法LSNet,并且該工作基于現有的跟蹤數據集OTB(object tracking benckmark)構建了第1個RGBL數據集Lingual OTB99,其中跟蹤示例如圖8(Li等,2017d)所示。

圖8 RGBL跟蹤過程示例(Li等,2017d)

圖像和語言模態之間存在較大的差異,現有RGBL跟蹤方法(Yang 等,2021;Wang 等,2021b)主要是將目標的兩種模態特征進行融合,通過充分利用模態間的互補信息豐富目標表示。Yang等人(2021)提出了一個多任務學習框架,將RGBL跟蹤解耦成3種子任務:視覺定位、跟蹤和融合,從而實現在第1幀跟蹤框缺失條件下的魯棒跟蹤。此外也有一些工作(Feng 等, 2021a,b)關注于后期融合。Feng等人(2021a)通過共享搜索分支,將語言和圖像分布作為模板分支分別進行跟蹤,然后聚合兩者的響應圖獲得最后的跟蹤結果。

在RGBL多模態視覺跟蹤中,由于其圖像和文本間的巨大差異,現有的工作通常都集中于特征空間中的多模態融合方法。此外在對目標描述中,靜態的文本模態和動態的圖像模態之間的不一致性對該領域是一個重要的挑戰,但是鮮有探索。

4 結 語

本文對RGBT,RGBD,RGBE,RGBL不同的多模態視覺跟蹤方法進行了總結和分析。由于目前主流的多模態跟蹤方法是基于RGB和熱紅外數據,所以本文從數據融合的角度詳細闡述了RGBT視覺跟蹤方法,并簡述了其他3種多模態跟蹤算法的研究進展。

4.1 工作總結

基于對現有研究工作的梳理,RGBT視覺跟蹤方法可以歸納為結合式融合和判別式融合兩大類。其中,結合式融合的研究可以分為兩個階段,早期研究者聚焦于稀疏表示融合和協同圖表示融合,這些工作對RGBT跟蹤的研究有著重要的推動意義。但是,這些方法受限于較弱的特征表示能力導致跟蹤性能不佳。隨著深度學習技術的發展,當前結合式融合方法得到了更深入的研究。例如,基于模態共享和模態特定信息融合策略以及基于屬性的特征解耦融合策略,通過充分利用數據驅動的解耦表征學習模式極大提升了RGBT跟蹤性能。然而這些方法往往依賴于對訓練數據的人工劃分和標注?;谂袆e式融合方法的RGBT跟蹤研究工作在深度學習時代興起并取得極大的關注。特征選擇融合策略和基于注意力機制的自適應融合策略是多模態融合領域中常用的融合方法并在許多領域都取得了一定的成功,然而在RGBT跟蹤中由于跟蹤場景和模態質量都是不斷變化的,現有的研究工作往往側重于抑制低質量或者低貢獻的模態信息,限制了跟蹤性能的進一步提升。為此,一些研究者探索了在模態質量分布差異場景下的多模態融合算法,即雙向互增強融合策略。該類方法通過引導不同質量下模態的判別性信息進行雙向增強模態特征表示能力。盡管判別式融合的跟蹤算法取得了較好的性能表現,但是在融合方法的設計上往往會引入較為復雜的融合模塊,對跟蹤效率有著較大的影響。盡管其他多模態視覺跟蹤任務也取得了較快的發展,但研究工作相對較少,對相應模態信息(如事件模態和語言模態)的挖掘和利用還有較大的空間。

4.2 未來展望

盡管多模態跟蹤領域發展蓬勃,跟蹤性能得到了極大的提升,但還存在著一些問題亟待解決,主要包括以下幾點。

1)復雜多模態數據。真實場景和環境中,多模態數據復雜多樣,具有不確定性、不一致性和數據噪聲,如何充分挖掘和利用多模態信息建立有效融合模型仍是多模態視覺跟蹤中的非常關鍵而具有挑戰的問題。

2)非配準數據?,F有多模態跟蹤方法大都需要高精度配準的多模態數據。然而,人工配準的代價十分昂貴,且人工或設備配準仍無法保證完全配準。因此,研究非配準數據下的多模態視覺跟蹤模型有著重要意義和應用價值。此外,如何利用非配準數據或者非配對數據實現多模態視覺跟蹤模型的訓練也是值得探索的研究方向。

3)模態缺失問題。在真實應用場景中,由于成像設備等問題,某些模態往往會存在缺失現象。而現有多模態視覺跟蹤方法是在數據完整的前提下進行的,無法處理模態缺失的問題。因此,研究適應各種缺失情形的多模態視覺跟蹤模型有著重要的價值。

4)無監督多模態融合?,F有多模態跟蹤方法通常依賴大規模標注的訓練數據,具有較大的人工標注和配準成本,且現有的多模態跟蹤數據集難以滿足深度模型的需要,導致跟蹤模型對新場景的適應能力弱。因此,如何設計無監督多模態融合方式,實現對大規模無標注多模態數據的充分利用,對提升跟蹤模型的適應能力和泛化能力具有重要的研究價值。

5)融合模型輕量化?,F有多模態視覺跟蹤方法為了充分挖掘多模態信息,設計了較為復雜的多模態融合模型,但也帶來了較大的計算量和存儲負擔,無法在實時應用場景和嵌入式設備上部署。因此,如何設計輕量化、高精度多模態融合模型是未來研究的一個方向。

6)輔助模態學習?,F有視覺系統大多基于單一模態成像,且嵌入多模態成像設備往往帶來較大的成本和代價。因此,研究多模態數據訓練、單模態數據測試的輔助模態學習算法,在不增加額外代價的基礎上有效提高視覺跟蹤算法魯棒性有著重要的價值和意義。

7)更多模態集成。目前的多模態視覺跟蹤方法均是針對兩種模態(RGB和其他模態)進行研究的,而不同模態對不同場景和環境的作用會有較大差異。因此,集成更多模態信息對多模態視覺跟蹤系統的魯棒性和適應性會有較大的幫助,是未來值得研究的一個方向。

8)統一平臺構建。目前,多模態視覺跟蹤的研究相對散亂,缺乏統一的數據集和評測平臺,為相關研究帶來極大不便,不利于該領域的研究和發展。因此,構建多模態視覺跟蹤的統一平臺,是該領域研究和發展的迫切需求。

猜你喜歡
模態深度特征
基于BERT-VGG16的多模態情感分析模型
根據方程特征選解法
多模態超聲監測DBD移植腎的臨床應用
跨模態通信理論及關鍵技術初探
深度理解一元一次方程
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合