?

深度學習的多目標跟蹤研究進展

2024-02-29 09:24張紅艷黃宏博何嘉玉
機械設計與制造 2024年2期
關鍵詞:跟蹤器關聯深度

張紅艷,黃宏博,2,何嘉玉

(1.北京信息科技大學計算機學院,北京 100101;2.北京信息科技大學計算智能研究所,北京 100192)

1 引言

多目標跟蹤是對于給定的視頻序列,找到每一幀圖像中的運動目標,在連續視頻幀中對同一個目標分配相同的身份標識號(ID),從而形成不同物體各自的運動軌跡。這些物體可以是任意的,如行人、車輛、運動員、動物以及足球等無生命物體。多目標跟蹤在智能監控[1]、人機交互、虛擬現實、自動駕駛汽車[2]以及人群行為分析等領域都有許多實際應用價值。但是多目標跟蹤也面臨著一系列挑戰,主要有:(1)目標種類繁多且復雜多變;(2)新目標的產生和舊目標的消失;(3)目標的數量未知;(4)遮擋以及目標之間的相互遮擋;(5)跟蹤的物體消失一段時間后重新出現;(6)不同的目標擁有相似的外觀;(7)背景干擾;(8)物體形變;(9)光照變化;(10)不同幀中同一目標身份切換次數過高,等等。解決這些問題對多目標跟蹤的發展以及視頻結構化和視頻語義理解有著重要的意義。

在大數據時代背景下,隨著計算機算力的提高和深度學習的發展,基于深度學習的圖像處理方法變得越來越流行。并且隨著更深的網絡結構和更大量的數據應用,使用深度學習的多目標跟蹤器性能也變得更好?;谏疃葘W習的多目標跟蹤算法主要采用兩個步驟:目標檢測和數據關聯,即首先通過目標檢測在視頻的每個幀中檢測感興趣的對象,然后通過數據關聯在不同幀中在檢測到的對象之間建立對應關系以獲得最終的運動軌跡。目標檢測可以根據目標跟蹤的速度和精度等性能要求選用適當的檢測器來實現。數據關聯的實現過程比較復雜,包括很多組件,其中有:(1)特征提??;(2)親和度/匹配成本計算;(3)標識號匹配。針對深度學習在跟蹤框架中的應用以及深度網絡結構的不同,將多目標跟蹤分為四類,并在此基礎上對未來的發展趨勢與前景進行深入探討。

2 使用深度學習的多目標跟蹤方法

2.1 基于深度特征的多目標跟蹤方法

深度神經網絡具有強大的學習能力,具體體現在特征提?。?]方面,其提取的深度特征具有更豐富、更抽象的語義信息。這些特征可以應用在圖像分類和目標檢測等計算機視覺子方向,并極大促進了這些領域的發展。使用深度特征代替傳統的手工特征可以有效的提高多目標跟蹤的性能。

文獻[4]使用深度學習的方法提出了DeepSORT。該算法使用自定義殘差網絡在行人重識別數據集上進行訓練,提取深度外觀特征并映射到一個超球面。接著使用這些特征來計算檢測目標與跟蹤目標之間的最小余弦距離。在關聯階段,利用卡爾曼濾波得到的跟蹤預測框與當前幀的檢測框之間的馬氏距離和余弦距離的線性加權作為關聯度量并計算成本矩陣,隨后使用級聯匹配將跟蹤預測框和檢測框進行配對。這種簡潔的跟蹤方法既融合了運動信息又考慮了外觀信息,可以在保持實時速度的同時獲得較高的多目標跟蹤準確度(MOTA),并且可以有效減少遮擋問題帶來的影響。

文獻[5]認為DeepSORT 把目標檢測與重識別特征提取作為兩個獨立任務(兩步法)進行,不僅沒有特征共享而且時間利用率低。所以他們提出了一種新的跟蹤基準(FairMOT)—把目標檢測與重識別特征提取兩個任務聯合起來,稱為一步法。輸入的圖像幀首先經過多尺度融合網絡提取特征,解決目標尺度不同的問題,然后輸出高分辨率特征圖。接著把特征圖送人目標檢測重識別網絡兩個并行分支。后續關聯階段與DeepSORT采用的方法一致。實驗證明,最終結果達到了最好的跟蹤性能,而且相對于兩步法速度更快。

該類方法利用深度特征進行跟蹤,可以有效地減少遮擋帶來的身份切換次數,并且在數據關聯階段使用卡爾曼濾波加匈牙利算法結合的方式,有效地提高了跟蹤效率。缺點是僅在外觀方面使用深度特征并不能完全代表目標,影響跟蹤精度。

2.2 基于端到端的數據關聯的多目標跟蹤方法

深度學習不僅可以應用于特征提取,還可用于數據關聯的其他部分。多目標跟蹤框架中存在很多相互影響的模塊,包括軌跡歷史信息與當前檢測之間的匹配、更新跟蹤目標的狀態以及管理目標軌跡的開始與結束等關鍵子模塊,如何在一個整體框架中實現這些子模塊并實現好的跟蹤效果。近年來,不少研究人員通過簡化跟蹤過程,提出了以端到端數據關聯的方式來實現上述目標。

在在線多目標跟蹤框架中,可以使用由預測和觀測值更新組成的貝葉斯濾波器估計被跟蹤對象的狀態。文獻[6]將循環神經網絡擴展為對這些過程進行建模,模擬貝葉斯濾波算法。該算法主要由三部分組成,分別是運動預測、匹配以及管理軌跡的起止,并且使用循環神經網絡完成全部過程。盡管跟蹤結果有提高,但實際多目標跟蹤評估數據集中的跟蹤結果并沒有達到最高精度,原因有如下兩點:(1)此方法僅考慮運動特征;(2)啟動和終止軌跡沒有考慮對目標關聯有重要作用的上下文特征。

為了解決這些問題,文獻[7]設計了一個分層的深度網絡結構,該結構包含三個子長短期記憶網絡,分別用來預測長期運動特征、提取外觀特征和上下文特征。然后這些特征被串聯起來,并送入到最高級長短期記憶網絡,用來計算檢測結果與已有軌跡之間的親和度矩陣。為了學習這種分層結構,三個子網絡首先經過預訓練,然后從頂部的長短期記憶網絡進行微調。因此,該方法實現了整個網絡結構端到端的訓練學習。實驗結果表明,同時考慮運動和外觀特征比僅使用運動特征更強大,并且還可以實現最新的人員重識別任務性能。

在全局優化的多目標跟蹤中,跟蹤被視為檢測集的最佳分區,可以使用概率圖、網絡流等在整個檢測范圍內進行全局推理使最終的關聯代價總和最小。文獻[8]提出了一個基于信息傳遞網絡的多目標跟蹤器,利用問題的自然圖結構來同時執行特征學習和結果預測。其具體跟蹤流程為:首先是圖的構建,節點對應視頻的檢測,邊對應檢測之間的連接;其次是特征編碼包括外觀特征與幾何特征;然后是神經信息傳遞,節點與鄰邊分享外觀信息,邊與伴隨節點分享特征信息;最后對圖中的每條邊引入了一個二元變量,判斷該邊是否被激活。實驗證明,離線圖在全局范圍內進行跟蹤,相對于在線跟蹤,可以得到更準確的結果。

端到端的數據關聯減輕手工設計成本,無需人工調參,靈活性好,并且在在線跟蹤中,相對于卷積神經網絡僅能提供空間信息,使用循環神經網絡還可以處理時序信息更適用于多目標跟蹤。在離線跟蹤中,使用端到端的全局推理可以得到更準確的跟蹤結果。但該類方法對硬件要求高,運行速度低。

2.3 基于單目標跟蹤器擴展的多目標跟蹤方法

上述多目標跟蹤方法主要采用基于檢測跟蹤的策略,并通過使用數據關聯算法進行跨幀鏈接檢測來處理任務。但是,這些方法嚴重依賴于檢測結果的質量。如果檢測丟失或不準確,則容易丟失目標對象。隨著單目標跟蹤器的不斷完善,研究人員提出了一種基于單目標跟蹤器擴展的多目標跟蹤流程,可以緩解多目標跟蹤中由于遮擋、檢測器性能不好導致的目標丟失等情況,增強跟蹤魯棒性。

文獻[9]提出了一個基于單目標跟蹤的在線多目標跟蹤框架(STAM),如圖1所示。該框架使用卷積神經網路學習強大的辨別性外觀模型,利用單個對象跟蹤器的優點來調整外觀模型并在下一幀中搜索目標,每個目標分配一個單目標跟蹤器。但是直接將單目標跟蹤應用于多目標跟蹤會因為遮擋導致漂移,針對這個問題,他們引入了時空注意力模型機制。時間注意力機制使用加權損失函數來更新模型參數,使得被遮擋越嚴重的樣本對損失函數的影響越小??臻g注意力機制對樣本的空間特征進行加權,更加關注未被遮擋目標區域的特征,使得分類器的輸出結果更加準確。除了目標之間的相互遮擋會造成跟蹤漂移,還有當出現和目標相似的干擾時也會引起漂移,出現這種現象的原因主要是訓練樣本的數據不平衡導致單目標跟蹤器學不到可區分性特征。

圖1 STAM算法結構Fig.1 Structure of STAM Algorithm

為了減輕數據不平衡,文獻[10]基于最新的單目標跟蹤器(ECO)引入一種新的成本敏感損失函數使處于目標附近的難樣本的懲罰權重變大。除此之外,還加入了數據關聯部分來協助單目標跟蹤器。首先應用單目標跟蹤器來跟蹤每個目標,直到跟蹤結果變得不可靠(例如,跟蹤得分低或跟蹤結果與檢測結果不一致)時,目標被視為丟失。接著掛起跟蹤器并執行數據關聯來計算軌跡與檢測之間的匹配概率。一旦丟失的目標通過數據關聯連接到檢測,將更新狀態并恢復跟蹤過程。雖然該跟蹤器取得了不錯的性能,但是仍存在一些問題:首先,從兩個單獨的模型中提取用于單目標跟蹤器和親和力度量的功能,這會增加較多的計算開銷;其次,由于在關聯性計算中沒有使用單目標跟蹤器功能,因此他們必須訓練額外的關聯網絡對此進行補救,這進一步增加了他們的內存需求;最后,單目標跟蹤器和親和力模型的獨立特征提取以及復雜的親和力網絡設計,使訓練程序變得復雜。文獻[11]對此進行了改進,提出了一種基于多任務學習的在線多目標跟蹤模型(UMA),該模型將基于單目標跟蹤的運動模型和親和力網絡端到端地集成到一個統一的框架中。利用親和力模型可以幫助單目標跟蹤器學習更多的區分特征以更好地處理遮擋,從而簡化了訓練和測試過程,有效地提高了計算效率。

該類方法對于檢測缺乏的問題有一定的魯棒性,可以通過區域搜索得到暫時的目標定位信息。如果單目標跟蹤器自身的定位能力強,那就相當于做了額外的檢測,所以其跟蹤性能不錯。缺點是該類方法是針對每個目標進行依次跟蹤,跟蹤效率太低。

2.4 聯合在線檢測與跟蹤的多目標跟蹤方法

不論是基于檢測的跟蹤,還是基于單目標跟蹤器的框架,都是把檢測或單目標跟蹤與數據關聯分開進行,要么重點考慮選擇性能更好的檢測器,要么重點研究跟蹤部分,并沒有考慮兩者之間的聯系。使用聯合檢測跟蹤框架,一方面好的檢測可以提高跟蹤器的性能,另一方面,跟蹤結果可以在一定程度上彌補目標檢測器的漏檢、錯檢等問題。

文獻[12]訓練了具有ResNet-101和特征金字塔網絡的目標檢測器(Faster R-CNN),將目標檢測器轉換為跟蹤器(Tracktor++)并利用上一幀中的目標邊界框回歸目標在當前幀中的位置,當出現遮擋或分類分數低于閾值時認為軌跡終止,否則繼續。新目標的產生是根據檢測結果與已有軌跡的交并比(小于閾值)來創建,算法思想,如圖2所示。除此之外,為了減少幀間身份切換次數,他們還對跟蹤器進行了拓展,一方面是運動模型部分,應用相機運動補償(CMC)和恒定速度假設(CVC)分別來解決大幅度的相機運動和視頻的低幀率問題;另一方面利用外觀模型,針對重新出現的目標使用孿生網絡進行重識別。實驗表明,在Faster RCNN、DPM和SDP三種不同檢測器的輸入下,跟蹤性能差距不大,所以該算法對于平衡檢測的輸入效果提升很大。

圖2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++

在此跟蹤框架基礎上,文獻[13]通過將Faster R-CNN 換成CenterNet[14]實現跟蹤,因此跟蹤的邊界框也就變成了跟蹤邊界框的中心點?;谶吔缈虻臋z測器會列舉出潛在目標的所有位置,并對每個目標進行分類以及后處理?;谥行狞c(CenterNet)的方法與Tracktor++相比,是端到端的,更簡單快速準確。他們訓練檢測器以輸出從當前目標中心點到前一幀中心點的偏移矢量,僅基于此預測偏移量與前一幀中檢測到的中心點之間的距離進行的貪心匹配就足以實現目標對象關聯。為了結構簡單,當一個目標離開圖像或被遮擋并重新出現時,將為其分配新的標識,即不考慮重識別部分?;谳p量級架構,此跟蹤器可以實時運行并且跟蹤性能比較好。

該類方法把檢測和跟蹤整合到統一框架,可以利用檢測與跟蹤相輔相成,實現更好的跟蹤結果。但是該類方法并不能很好的應對遮擋帶來的問題,其身份切換次數比較高、漂移問題嚴重。

3 算法性能比對

公開數據集和評價指標對于推動計算機視覺的發展非常重要,同樣對于推動多目標跟蹤的發展也具有十分重要的意義。本節主要介紹了多目標跟蹤領域的常見數據集和評價指標,并對上文提到的方法進行性能比對。

3.1 數據集

(1)多目標跟蹤挑戰(MOT Challenge)是最常用的多目標跟蹤基準,它為行人跟蹤提供了目前公開的一些最大的數據集。對于每個數據集,提供真實標注信息并劃分訓練集和測試集。多目標跟蹤挑戰為大部分數據集提供檢測,這樣研究者可以只專注于提升跟蹤性能,并且為研究者提供測試平臺。

MOT15[15]:全稱為2D MOT 2015,它包含22個視頻,其中11個用于訓練,11個用于測試。收集在固定或移動攝像機拍攝、不同的環境和照明條件等情況下的各類視頻。它總共包含11283個不同分辨率的幀,1221個不同的標識和101345個檢測框。

MOT16:具有更大的行人密度,視頻也更具有挑戰性。數據集中總共包含14個視頻,其中7個用于訓練,7個用于測試。這次數據集包含11235幀,1342個標識,總共292733個檢測框。

MOT17[16]:與MOT16 具有相同的視頻,但具有更準確的標記,并且每個視頻有三組檢測:一組來自Faster R-CNN,一組來自DPM,一組來自SDP。使用三個檢測器提供的結果更加準確,也是現在主要使用的數據集。

MOT20[17]:具有極大的行人密度,包含8個視頻(4個用于訓練,4個用于測試),該數據集包含13410幀、6869個軌跡(標識)和2259143個檢測框,比以前的數據集多得多。

多目標跟蹤與分割(MOTS)[18]:該數據集將多目標跟蹤任務擴展到實例分割跟蹤,使用半自動標注程序在兩個現有的跟蹤數據集(MOT Challenge 和KITTI)上創建了密集的像素級的標注。新標注包含了10870個視頻幀、977個不同對象(汽車和行人)以及65,213個像素掩碼。

跟蹤任何目標(TAO)[19]:多目標跟蹤領域的類別往往來自自動駕駛和視頻監控中特定的幾種對象(車輛、行人、動物等),從而忽略了現實世界的大多數物體。于是為了改變多目標跟蹤的現狀,TAO數據集可以跟蹤任何對象。該數據集包含2907個不同環境的高清視頻。每段視頻平均長度半分鐘,包含833個對象類別。

(2)KITTI數據集

多目標跟蹤挑戰數據集重點關注行人跟蹤,KITTI數據集[20]關注于人和車輛的跟蹤。該數據集由21個訓練序列和29個測試序列組成,總共約19000幀(32分鐘),于2012年發布。它們由安裝在行駛汽車上的攝像機收集,包含市區、鄉村和高速公路等場景采集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋。

(3)nuScenes數據集

nuScenes[21]數據集是于2019 年發布的大型自動駕駛數據集,有1000多個場景,其中包含140萬幅圖像、40萬次激光雷達掃描(判斷物體之間距離)和110萬個三維邊界框。該數據集使用了6個攝像頭、1個激光雷達、5個毫米波雷達、GPS及慣導系統在內的多個傳感器進行獲取,包括對于自動駕駛系統有挑戰性的復雜道路、天氣條件等。

(4)BLVD數據集

BLVD 數據集[22]由西安交通大學夸父號無人車采集。采集車上裝載多種傳感器用于周圍感知,包括一個三維激光雷達、一個全球定位系統(GPS)及慣性導航系統、兩個高分辨率多視點相機。該數據集定義了三種參與者,包括車輛、行人和騎行者,其中騎行者包括騎自行車的人和摩托車的人。BLVD一共標注654個包含12 萬幀的序列。根據標注場景中交通參與者的密集程度(低和高)和光照條件(白天和晚上),BLVD包含四種場景。

3.2 評價指標

為了評估MOT算法的性能,主要使用兩組評價指標:VACE指標[23]和CLEAR MOT 指標[24]。前者從不同的方面描述單個指標,包括虛警(FP)、漏警(FN)、大部分成功跟蹤的目標數(MT)、大部分丟失的目標數(ML)、身份切換數(IDS)和軌跡碎片數(Frag);后者旨在衡量所有預測軌跡的整體性能,主要包括多目標跟蹤準確度(MOTA)和多目標跟蹤精度(MOTP)。在上述所有的評價指標中MOTA考慮了各種可能的跟蹤錯誤,所以使用其作為重要的評價指標。它的定義如下:

式中:GT—真實標記框的數量。

3.3 實驗對比

鑒于不同的跟蹤器采用不同的數據集進行評估,我們把上文提到的算法分別在MOT15 和MOT17 挑戰數據集上進行性能比較,如表1、表2所示。其中,考慮了額外的指標IDF1[25],以更好地表示跟蹤的準確性?!硎緮抵翟酱笮阅茉胶?,↓表示數值越小性能越好。

表1 在MOT15數據集上的實驗結果Tab.1 Experimental Results on the MOT15 Dataset

表2 在MOT17數據集上的實驗結果Tab.2 Experimental Results on the MOT17 Dataset

從實驗結果可以看出,基于深度特征的跟蹤方法—FairMOT取得了最好的MOTA結果,但是該類的其他方法的效果并不好,說明FairMOT算法使用的無錨框的檢測算法(CenterNet)性能更好,更適用于多目標跟蹤。這點從同樣使用該檢測算法的Cen‐terTrack的實驗結果就可以看出。與此同時,FairMOT的IDSW值并不小,說明一步法相對于兩步法還是存在很大的不足。但從大類上看,聯合在線檢測跟蹤的算法總體性能比較好,普遍優于其他算法,說明檢測器的性能對跟蹤結果影響深遠,也進一步說明了計算機視覺領域各個任務之間是相互影響的。端到端數據關聯的算法中,基于全局優化的NeuralSolver 表現出色,其IDSW 值很小,說明利用整體信息的方式與在線跟蹤相比,可以獲取更多特征信息?;趩文繕烁櫰鞯腟TAM 在Frag 和IDSW也取得較小的值,說明引入的時空注意力機制有效的緩解遮擋帶來的影響。

4 研究展望

基于對以上四類多目標跟蹤算法的分析比對,提出以后的研究展望。

4.1 數據集的完善

目前大多數數據集是基于交通環境中行人和車輛的跟蹤研究,對于其他類別的跟蹤研究少之又少。改變多目標跟蹤現狀,提出包含更多類別的多目標跟蹤數據集至關重要。

除了增加類別外,現有的跟蹤器遠沒有足夠的標記數據集來訓練滿意的模型以在所有條件下進行跟蹤,所以如何對數據集進行大量準確豐富的標記來輔助跟蹤器進行跟蹤是個巨大挑戰。

綜上,創建標注全面、類別豐富的多目標跟蹤數據集是該領域的一個重點研究方向。

4.2 目標檢測算法性能的提升

目標檢測作為多目標跟蹤組成部分的第一環節,其性能對跟蹤結果有巨大影響。雖然目標檢測領域已經取得巨大成功(Cen‐terNet等),但是針對于多目標跟蹤領域的檢測還需要進一步發展。漏警影響著MOTA的得分,使用更高質量的檢測器仍然是減少漏警的最有效方法,也是多目標跟蹤需要進一步探索的方向。

4.3 深度學習的應用

利用深度神經網路提取的深度特征代替傳統手工特征來進行跟蹤,對跟蹤性能有很大提升。同樣,把深度學習應用到跟蹤的其他部分,像匹配矩陣的計算、注意力機制的加入等,也推進了多目標跟蹤領域的發展。但是由于深度學習的計算量過大,一方面會導致計算速度慢并使跟蹤達不到實時速度,另一方面需要計算性能更好的設備。所以繼續推進深度學習在多目標跟蹤領域的發展并提高計算速度也是未來需要深入研究的重點。

5 結論

多目標跟蹤對于智能監控、人機交互、虛擬現實、自動駕駛汽車以及人群行為分析具有巨大的實用價值。詳細分析了深度學習的多目標跟蹤的研究進展,并根據不同的跟蹤框架和網絡結構,將其分為基于深度特征、基于端到端數據關聯、基于單目標跟蹤器擴展和聯合檢測跟蹤的四類方法,綜合分析其跟蹤原理、性能特點以及優缺點。預測多目標跟蹤的發展趨勢和研究方向,對其進一步研究具有建設性意義。隨著深度學習的深入發展以及硬件系統計算性能的提升,多目標跟蹤的研究和應用將會呈現更美好的前景。

猜你喜歡
跟蹤器關聯深度
光伏跟蹤器陣列跟蹤精度的測算方法研究
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
深度理解一元一次方程
淺析一種風光儲一體化跟蹤器
“一帶一路”遞進,關聯民生更緊
超長待機的自行車位置跟蹤器
深度觀察
深度觀察
深度觀察
奇趣搭配
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合