?

基于YOLO與軌跡關聯的多目標跟蹤算法

2022-12-20 02:17胡樹寶
南昌工程學院學報 2022年3期
關鍵詞:外觀軌跡關聯

胡樹寶,呂 莉,徐 暢,康 平

(南昌工程學院 信息工程學院,江西 南昌 330099)

隨著計算機視覺技術的快速發展,作為主要研究分支的目標跟蹤受到廣泛關注,在智慧交通、視頻監控以及人機交互等領域發揮著重要作用。根據被跟蹤目標數量的不同,目標跟蹤算法可分為單目標跟蹤與多目標跟蹤兩類。從國內外跟蹤領域的總體發展來看,單目標跟蹤技術已經相對成熟,而多目標跟蹤技術仍然具有較大的發展空間。在單目標跟蹤中,一般方法是人為設定一個先驗目標框,然后在后續幀中對先驗框內目標位置進行預測,然而多目標跟蹤過程不再只是預測單一目標位置,人為設定先驗目標框的方式也無法適應多變量估計問題。目前應用于多目標跟蹤任務的主流算法是基于檢測的跟蹤策略(tracking-by-detection,TBD)。TBD類跟蹤策略利用檢測器區分多目標跟蹤任務的前景與背景,通過跟蹤器在預測目標位置的同時,不斷與檢測器進行信息交流的方式,提高跟蹤過程魯棒性。例如,Dicle[1]等基于TBD策略提出The Way They Move:Tracking Multiple Targets with Similar Appearance(SMOT)算法,該算法將檢測器與跟蹤器融合,利用運動動力學作為線索區分外觀相似的目標,最大限度地減少目標錯誤識別,恢復由于遮擋以及目標超出視野范圍而丟失的數據,在處理遮擋問題時表現出色。Song[2]等人基于TBD策略提出Gaussian Mixture Probability Hypothesis Density(GM-PHD)算法,采用高斯混合概率假設密度處理噪聲干擾,有效降低了誤檢率和漏檢率,在處理遮擋問題和碎片現象時取得了良好的效果。目前,雖然許多目標跟蹤算法取得了不錯的跟蹤效果,但是由于多目標跟蹤過程較為復雜,且易受光照變化、目標遮擋、目標形變等因素干擾的原因,使得如何處理遮擋、如何準確關聯軌跡以及如何提高實時性等問題依然是多目標跟蹤任務中困擾學者們的主要挑戰。

針對上述挑戰,本文沿用TBD策略對行人進行跟蹤,提出基于YOLO與軌跡關聯的多目標跟蹤算法。通過改進YOLOv3[3]檢測器,提出YOLOv3-SE檢測框架,完成跟蹤過程中目標檢測任務,提高整體跟蹤速度;將卡爾曼濾波[4]作為跟蹤器,預測下一幀目標位置坐標;利用行人重識別基線模型[5]提取具有判別性的外觀特征,計算外觀相似度,結合運動模型構建軌跡間關聯概率,再與匈牙利關聯策略[6]相融合,提出一種基于外觀與運動特征的關聯模型,提升軌跡關聯魯棒性。在MOT2016公開數據集上的實驗結果表明,與當前一些主流跟蹤算法相比,本文算法取得了較好的跟蹤準確率,在實時性等多個指標上取得了領先。

1 基于檢測的多目標跟蹤算法

1.1 YOLOv3-SE檢測框架

YOLOv3作為One-stage類檢測框架,檢測速度優勢明顯,但在檢測精度上仍有較大的提升空間。因此,本文在YOLOv3的基礎上,利用通道注意力機制、跨階段局部網絡(Cross Stage Partial Network,CSPNet)[7]以及 1×1 網絡[8]進一步提升其檢測精度,提出YOLOv3-SE檢測框架。如圖1所示,YOLOv3-SE檢測框架分為3個階段:特征提取、特征融合以及預測輸出。

圖1 YOLOv3-SE檢測框架

(1)特征提取階段。輸入圖像經卷積層與CBL(卷積—批量歸一化—帶泄露線性整流函數)層,完成圖像特征信息的初次提取和兩次降維,獲取多種分辨率的特征圖;利用包含殘差網絡的跨階段局部網絡(CSP_ResNet),降低計算成本以及由于網絡層數增加所帶來的梯度消失的風險;采用通道注意力機制(Squeeze-and- Excitation,SE)[9],重新調整各通道特征權重,抑制無用特征的同時,保證關鍵特征信息得到充分利用。結構如圖2所示。Squeeze實際是一種空間域上的特征壓縮,即對C×H×W的特征圖進行平均池化得到C×H×W特征向量的過程,計算過程如式(1)所示。

(1)

式中Uc表示U中第c個二維特征矩陣,下標c表示對應通道;H和W分別表示特征圖的高和寬。Excitation過程則是依據兩個全連接層間建模相關性,依據輸入特征數目生成對應的權重值,計算過程如式(2)。

Ac=Fex(Zc,W)=σ(W2δ(W1Zc)),

(2)

式中xk-1=(Lk-1,vk-1)表示第一次全連接;δ(.)表示ReLU激活函數;W2δ(.)表示第二次全連接;σ(.)表示Sigmoid函數。Squeeze與Excitation操作完成后,開始對張量X的特征重新標定,就是將歸一化權重Ac加權到每個通道的特征上,標定過程如式(3)。

(3)

圖2 通道注意力機制

(2)特征融合階段。對13×13、26×26尺寸特征圖進行上采樣,并與降維后的特征圖拼接,得到包含不同深度特征信息的新特征圖,利用特征金字塔結構輸出13×13、26×26、52×52三種尺寸的特征圖。

(3)預測輸出階段。采用1×1網絡在不同大小的特征圖上進行預測,利用1×1卷積核減少卷積過程的參數量,降低運算復雜度。為避免同一目標輸出多個預測框,通過非極大抑制(NMS)[10]去除冗余預測框,保留得分最高的預測框作為最終預測結果。

1.2 目標狀態預測

使用具有良好抗噪聲干擾能力的卡爾曼濾波[4]預測目標位置。設待跟蹤目標上一狀態為xk-1=(Lk-1,vk-1),其中L和v分別表示位置和速度,k-1表示上一幀圖像??紤]到外部控制量和外部噪聲干擾的問題,由運動學和相關數學公式可得狀態預測方程如式(4)。

(4)

(5)

1.3 基于外觀與運動特征的關聯模型

一般的軌跡關聯方法僅靠預測值與檢測值之間面積交并比作為軌跡關聯的依據,無法準確判斷長期遮擋前后目標是否一致,軌跡誤匹配問題相對嚴重。本文受行人重識別技術善于根據行人的衣著、體態、發型等外觀信息,從跨攝像機視角下的圖像集合中識別同一行人身份的啟發,采用以ResNet50為骨干網絡的行人重識別基線模型提取外觀特征,設計外觀關聯代價用于軌跡關聯。但考慮到多目標跟蹤場景較為復雜,不同目標有時會具有相似的外觀,若僅依賴外觀特征容易導致錯誤關聯。因此引入運動模型,利用目標空域信息提高軌跡間關聯準確率,從而解決跟蹤過程中目標被長期遮擋后軌跡誤匹配問題。

1.3.1 外觀關聯代價設計

行人重識別基線模型識別行人身份過程如圖3所示。來自不同幀的n個圖像輸入模型后,進入ResNet50骨干網絡(Backbone network),經過5個階段提取外觀特征,輸出形狀為7×7×2048(寬×高×通道數)的Feature Map(特征圖),再經平均池化(Pooling Layer)與全連接層(FC Layer)降維得到形狀為1×1×751的新特征圖,通過SoftMax函數輸出Person ID(行人身份標簽)。

圖3 行人重識別基線模型識別行人身份過程

依據行人重識別基線模型提取的各幀外觀特征,計算檢測值與預測值之間的外觀關聯代價DA(i,j)。

(6)

1.3.2 運動關聯代價設計

依據檢測目標的位置坐標,得到預測目標和檢測目標之間位置差,以此計算運動關聯代價DM(i,j)。

DM(i,j)=‖pj-pi‖2,

(7)

式中pj為檢測目標中心的二維坐標矢量,pi為預測目標中心的二維坐標矢量。

1.3.3 軌跡關聯概率設計

依據外觀相似度與運動關聯代價,將二者加權(λ表示權重)結合得到最終的軌跡關聯概率D(i,j)。

D(i,j)=λDA(i,j)+(1-λ)DM(i,j).

(8)

1.4 算法流程

本文多目標跟蹤算法流程如圖4。

圖4 算法流程圖

具體算法步驟可總結如下:

(1)輸入圖像后,YOLOv3-SE進行目標檢測;

(2)利用檢測結果,初始化卡爾曼濾波器,并預測下一幀圖像中目標的位置坐標;

(3)檢測當前幀目標,使用行人重識別基線模型提取外觀特征信息,得到外觀關聯代價,再結合運動關聯代價構建軌跡關聯概率,將最終軌跡關聯概率融入匈牙利關聯策略中,完成軌跡關聯匹配;

(4)若有未匹配的檢測結果,則初始化新的卡爾曼濾波器;若有未匹配的預測結果,則判定該目標可能被遮擋或消失,同時記錄歷史遮擋幀數,若遮擋幀數累計大于70幀,則認為目標消失,移除該軌跡;

(5)更新卡爾曼濾波器的相關參數,并返回步驟(3),經過多次迭代直至所有圖像被處理完畢。

2 實驗結果與分析

本文在COCO[11]與MOT2016[12]數據集上進行實驗。實驗條件:運行內存為64GB,GPU為RTX2080Ti。

2.1 評價指標

2.1.1 目標檢測評價指標

目標檢測評判指標主要為平均精確率(AP),驗證集平均精確率(APval),測試集平均精確率(APtest),預測框與真實框的交并比大于0.50時平均精確率(AP50),單幀檢測耗時(Speed)。

2.1.2 目標跟蹤評價指標

目標跟蹤評判指標主要為跟蹤準確率(MOTA),跟蹤軌跡命中率(MT),跟蹤軌跡丟失率(ML),身份標簽切換總次數(IDS),跟蹤精度(MOTP),每幀跟蹤速度(FPS),本文中FPS同時考慮檢測與關聯的時間。MOTA的計算公式如式(9)。

(9)

式中FP表示誤判總數,當預測值和檢測值沒有匹配上時,將錯誤的預測值稱為FP。FN表示漏檢總數,當預測值和檢測值沒有匹配上時,將未被匹配的真實標注目標稱為FN。IDS表示規定幀內目標身份標簽切換總次數。GT表示規定幀內所有真實標注目標的總數。

2.2 檢測框架性能對比

在COCO目標檢測數據集上進行實驗,實驗結果見表1。由表1可知,YOLOv3-SE 檢測精度明顯優于 YOLOv3,同時單幀檢測耗時僅比YOLOv3增加0.9ms,依然保持了檢測速度上的優勢。

2.3 目標跟蹤算法性能對比

2.3.1 消融實驗

為了更準確的了解SE模塊與關聯模型對跟蹤性能的影響,在MOT2016數據集上進行消融實驗。將YOLOv3-SE的SE模塊去除并聯合特征提取器作為基線(Baseline)跟蹤算法,Baseline+SE表示在Baseline中添加SE模塊,Baseline+SE+M表示在Baseline中添加SE模塊與關聯模型。消融實驗結果見表2。

由表2可知,Baseline+SE與Baseline相比,MOTA提高0.3個百分點,MOTP提高0.4個百分點,MT提高0.2個百分點,IDS降低25次。Baseline+SE+M與Baseline+SE相比,MOTA提升0.1個百分點,MOTP指標持平,MT提升0.6個百分點,IDS降低15次。消融實驗結果表明,SE模塊與關聯模型可以有效提升跟蹤性能。

表1 檢測框架在COCO數據集上的實驗結果

2.3.2 不同測試序列上的實驗結果

在MOT2016數據集不同測試序列上進行實驗。實驗結果見表3。

表2 在MOT2016數據集上的消融實驗結果

表3 本文算法在不同測試序列上的實驗結果

由表3可知,本文算法在MOT16-03測試序列上的跟蹤性能最佳;在MOT16-14測試序列上的跟蹤性能最差。部分原因是MOT16-14測試序列由車載攝像頭采集,相機鏡頭存在移動與抖動,導致鏡頭中的目標模糊。首先,這會造成行人重識別基線模型提取的外觀特征模糊,對軌跡關聯的優化作用減??;其次會給卡爾曼濾波進行狀態預測帶來干擾,增大預測值與真實值之間的誤差。而MOT16-03測試序列由靜止攝像頭采集,鏡頭角度固定,采集的畫面相對平穩且清晰,雖然目標數較多也較為擁擠,但行人重識別基線模型提取的外觀特征豐富,對軌跡關聯的優化作用較為明顯,對卡爾曼濾波進行狀態預測的干擾較少,預測目標位置相對精準。對于其他測試集而言,干擾因素類別和程度的不同是造成跟蹤效果差異較大的重要原因之一。如MOT16-01、MOT16-06以及MOT16-07測試序列中遮擋問題較為突出,頻繁遮擋會對多目標跟蹤造成較大的困擾,降低跟蹤的準確率;MOT16-08測試序列中目標尺寸變化大的問題以及MOT16-12測試序列中目標被長期遮擋的問題,都會給跟蹤過程帶來不同程度的干擾。同時,不同測試集幀內跟蹤目標數量也有差別,尤其是MOT16-01中每幀目標數量相對較少,對于FN、FP以及IDS這類絕對數值指標影響較大,這也是造成相同算法在不同測試集跟蹤效果差距較大的重要原因之一。

為了直觀的體現本文算法處理長期遮擋的性能,截取在MOT16-12 測試序列上第80幀至第91幀的跟蹤結果,如圖5所示。

圖5 第80幀至第91幀的跟蹤結果

由圖5可知,本文算法可以較好的跟蹤到幀內行人目標,并且在第91幀中正確恢復了由于大面積遮擋而在第81幀中丟失長達10幀,目標“11”的身份標簽。充分說明本文設計的軌跡關聯概率,一定程度上解決了目標被長期遮擋后,軌跡誤匹配問題。

2.3.3 多目標跟蹤算法實驗結果比較

不同跟蹤算法在MOT2016測試集上的實驗結果見表4。由表4可知,本文算法與EAMTT[13]、MOTDT[14]、SORT[15]、DeepSort[16]和TubeTk[17]算法相比,MT、ML、FN以及FPS指標均為最優。其中,MT達到35.3%,ML和FN僅為17.7%與50 597次,FPS達到13.9Hz。MOTA 則達到61.9%,僅次于TubeTk算法的64.0%。EAMTT算法采用強弱檢測相結合的方式提升檢測階段準確率,但這也直接導致檢測耗時增加,整體算法FPS降低,而且數據集強弱分類存在一定誤差,容易使分類檢測的FN升高;MOTDT、SORT以及DeepSort算法,三者都采用兩段式檢測方法,檢測速度較慢,導致整體算法FPS偏低,其中SORT算法軌跡關聯依據單一,也是造成其IDS較高的主要原因。由式(9)可知,影響MOTA的主要是FP、FN以及IDS總和,總和越低MOTA越高。TubeTk算法的FP比本文算法低6 775次,兩者FP差距較大,直接導致TubeTk 算法的FP、FN以及IDS三者總和低于本文算法,也是其MOTA優于本文算法的主要原因。但是在 MT、ML、FN、IDS 以及FPS各項指標上,本文算法均優于TubeTk算法,尤其是FPS指標,比TubeTk算法高12.9Hz,實時性優勢明顯。

表4 不同算法在MOT2016數據集上的實驗結果

3 結論

本文提出的YOLOv3-SE檢測框架可以快速精準的檢測跟蹤目標,提出的軌跡關聯模型可以準確的關聯跟蹤軌跡,一定程度上解決了多目標跟蹤過程中實時性與長期遮擋的問題。實驗結果表明,本文算法與EAMTT、MOTDT、SORT、DeepSort以及TubeTk算法相比,具有較好的實時性,且有效提高了跟蹤準確率。

猜你喜歡
外觀軌跡關聯
外觀動作自適應目標跟蹤方法
鳥類能識別植物的外觀等
A Shopping Story to Remember
解析幾何中的軌跡方程的常用求法
不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
軌跡
軌跡
“一帶一路”遞進,關聯民生更緊
奇趣搭配
智趣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合