?

基于層級特征與相似性估計的跟蹤器

2019-11-12 02:40傅成華
關鍵詞:相似性層級時刻

楊 捍, 傅成華

(四川輕化工大學自動化與信息學院, 四川 自貢 643000)

引 言

目標跟蹤在計算機視覺中有著廣泛的應用,例如機器人、自動駕駛、或者視頻監控。然而對于多目標跟蹤來說,需要定位視頻中每個物體的位置以及身份序號,并且在不同的幀中將同一身份的物體關聯起來。在多目標跟蹤中,大多數算法采用基于檢測的跟蹤,得益于檢測算法的發展,大多數的工作著重于數據關聯部分,也就是將在不同幀間檢測到的物體,關聯起來,實現多目標的跟蹤。Fast-RCNN[1]等雙階段檢測算法,或者YOLO[2]、SSD[3]等單階段的檢測算法都能獲得很好的效果。同樣地,本文也聚焦于基于檢測的數據關聯部分來實現多目標的跟蹤。

在多目標跟蹤中,比較廣泛的做法是,通過建模,提取不同幀間的不同物體的特征,衡量跨幀間物體的相似度,比如有采用運動模型的文獻[4-6]等,也有采用外觀特征的文獻[7-9]等,以及多模態組合特征文獻[10-12]等。而外觀特征著重于對比,不同時刻目標框表示外觀的相似性。傳統的做法是手工提取特征,由于未考慮到外觀的多樣性、受光照變化、及遮擋等影響,效果較差,并且基于提取外觀特征的模型,往往在遇到外觀特征特別相似的情況下,表現很差。而基于運動模型,往往是假設運動速度為常數的情況下,在當前狀態預測下一個時刻的狀態,通??煞譃榛诰€性的運動模型以及非線性的模型,但是在長時間的跟蹤下,運動模型對于物體遮擋并不能很好地處理。

因此,為了使多目標跟蹤衡量跨幀物體間相似度判別能力更可靠,在面對遮擋問題時具有更好的特征提取能力,本文設計了一個深度層級特征提取的神經網絡來得到不同視頻幀間物體的特征,以及不同幀間物體之間相似度的衡量矩陣。使得所提取的特征更具有代表性和魯棒性,并作為數據關聯部分的輸入。

1 方 法

本文提出了基于深度學習的多層級特征提取和相似性計算網絡。該網絡融合了不同層級間的外觀特征,并同時生成不同幀間物體間的相似性矩陣,實現端到端的學習。

1.1 檢測部分

由于深度學習的發展,目標檢測得到了很大的發展。本文采用基于YOLOv3[13]的行人檢測技術,來做多目標跟蹤的第一步,為多目標跟蹤提取視頻中每一幀中物體所在的位置。

1.2 層級特征提取以及相似性計算網絡

深度特征層級抽取網絡,如圖1所示,由兩部分組成,一部分是基于特征提取網絡(前半部分),剩余部分為相似性估計網絡。網絡輸入為兩幀和檢測算法所檢測到物體的中心坐標,層級特征抽取網絡是雙端網絡,例如,t時刻的視頻幀輸入上端,t-n時刻的視頻幀輸入下端,隨著網絡的逐漸加深,特征圖的尺寸會越來越小。其中,抽取9個特征圖的特征,其中有3個特征圖來自圖1中moblenet[14],有6個特征圖來自圖1中的擴展網絡。得到的9個特征分別經過圖1中moblenet[14]和擴展網絡各自的層級降維網絡。設置在一幀中所檢測物體最多有個Nm,最后將得到的9個特征向量拼接在一起形成Nm*520維特征向量。如圖1中的F1特征向量對應于t時刻視頻幀經過特征層級提取與降維網絡所得到的特征向量矩陣。同理,Ft-n對應于t-n時刻的視頻幀數。得到Ft-n的矩陣大小同樣為Nm*520,將得到的F1和Ft-n特征組合成Nm*Nm*1040三維的特征組合矩陣。1040是由2個520維度的通道數拼接而成,而Nm*Nm對應于兩幀間各個物體間的對應關系,Nm為每幀中所能檢測到的最大行人數量。

圖1中由不同幀所得到特征矩陣組合而成的特征組合矩陣作為相似性估計網絡的輸入,經過表1中相似性估計網絡中的結構,最終得到相似性矩陣M,如圖2中矩陣C,表明兩幀間物體的對應關系。在矩陣C的基礎上做了改進(圖2中有改進原因),使得圖1中的M1可以表示相對于t-n幀,t幀中離開的物體,同理,M2可以表示相對于t幀中,t-n幀中沒有的物體,也就是剛進入視野的物體。M1經過行方向上的softmax得到A1,M2經過列方向上的softmax得到A2。A1、A2作為損失的輸入,其中由A1、A2得到的a1、a2也將作為損失函數的輸入,章節1.3部分會詳細介紹。

圖1 層級特征提取和相似性估計網絡流程

表1 層級特征抽取與相似性估計網絡結構

表1為圖1中擴展網絡部分以及相似性估計網絡部分的結構圖參數。擴展網絡部分由11層卷積神經網絡組成,輸入為moblenet[14]最后一層特征的輸出。而相似性估計網絡是由5層卷積神經網絡組成,輸入為兩幀間所提取到的特征組合。擴展網絡所提取的特征是為了輸入到層級降維網絡中(見表2),分別從表1所提取的特征取6層輸入層級特征降維網絡,同時也從moblenet[14]所提取的特征抽取3層輸入層級特征降維網絡。最后通過各自的降維網絡得到520維度的特征(由輸出通道數相加得到)。

表2 層級降維網絡

圖2 相似性矩陣

圖2中,圖2(a)表示視頻中的一幀,圖2(b)表示視頻中的另一幀。圖2(a)幀中包含有序號1、2、3、4的行人,而圖2(b)幀中包含了序號為1、2、3、5的行人,其中1、2、3序號的行人同時出現在圖2(a)幀和圖2(b)幀中,此時c矩陣表示兩幀間的相似矩陣。假設每幀中最多檢測到5個物體(本文設置最大檢測目標數為100),故矩陣的大小為5*5,其中矩陣C中行表示圖2(a)幀中的身份序號,而列表示圖2(b)幀中的身份序號,在圖2(a)與圖2(b)兩幀中同時出現并且匹配的為1、2、3序號的行人,故在矩陣對應位置值為紅色標記1。另外,圖2(a)幀中序號4與圖2(b)幀中序號5行人在對應幀中沒有行人可以匹配,也可以理解為行人4離開了當前視頻,以及行人5剛進入視頻,因此為了解決在矩陣中也可以表明兩幀間物體的離開與進入,分別在矩陣C的最后一行最后一列加入第◎列和第◎行,得到矩陣D來表示兩幀物體間的離開與進入。其中,x表示每幀中剩余的可檢測與可跟蹤的物體數。

1.3 損失函數

圖1后部分網絡為網絡的損失部分,M1矩陣的第m行表示關聯t-n時刻第m個物體在t時刻與之對應的物體,此時對應的矩陣大小為Nm*(Nm+1)。最后一列表示相對于t-n時刻,t時刻舊的物體離開所對應的幀或者新的物體進入的幀。同理可得M2矩陣添加的最后行。M2矩陣的第n列表示在t時刻第n個物體對應于t-n時刻幀的物體。如圖,將得到的M矩陣分別添加一列和一行后得到M1與M2矩陣,分別表示從t-n時刻到t時刻物體關聯信息,以及從t時刻幀到t-n時刻幀物體間的關聯信息,此時M1、M2矩陣大小為Nm*(Nm+1)。得到的M1矩陣和M2矩陣分別在行方向和列方向經過softmax函數,得到對應的A1矩陣和A2矩陣。A1矩陣大小為Nm*(Nm+1),A2矩陣大小為Nm*(Nm+1)。

所得到的A1、A2作為深度層級可分離網絡的輸出,并以此作為網絡的損失函數的輸入,此時可得從t-n時刻到t時刻對應的前向損失loss1,如公式1,同理可得從t時刻輸入幀到t-n時刻輸入幀的后向損失,如公式2。Tt-n,t是損失函數的標簽值,大小為(Nm+1)*(Nm+1)。公式(1)與公式(2)中,T1、T2分別表示標簽矩陣Tt-n,t。為了和矩陣A1、A2的大小相對應,分別減去第◎行和第◎列。a1、a2表示分別從A1、A2減去◎行◎列所得到的矩陣。公式(3)表示一致性損失,因為,無論從t-n到t時刻所得到的相似性矩陣,還是t到t-n時刻的特征相似性矩陣,其差異值理應越小越好。

公式(4)中T3表示標簽相似矩陣D同時去掉◎行和◎列所得到的矩陣,而max(a1,a2)也可由圖1中的M0表示,公式(4)衡量最終網絡所得到的不計未同時出現物體的相似性矩陣與同樣的不計未同時出現物體相似性的標簽標矩陣的差異。由公式(1)~公式(4)可得網絡的最終損失Loss。

(1)

(2)

(3)

(4)

(5)

1.4 數據關聯部分

1.4.1 跟蹤流程中的層級特征抽取與相似性估計

訓練的時候采用雙端網絡,雙端網絡是共享網絡權重,而在數據關聯部分,使用單端網絡,流程如圖3所示。視頻的每一幀經過檢測器件得到跟蹤類別物體的坐標,將每一幀圖片以及檢測物體的坐標傳入到特征抽取網絡,也就是圖1中的前半部分單端的流程。 對于特征抽取網絡的部分,視頻的每一幀所提取的特征矩陣都會被儲存,以便與下一時刻視頻幀所提取的特征組成特征組合矩陣傳入相似性估計網絡中,得到相似性矩陣。

圖3 數據關聯流程

1.4.2 數據關聯流程

如何將不同幀間的同一物體關聯起來,是解決跟蹤問題的關鍵。檢測部分決定了能否檢測到物體,而數據關聯部分決定了能否將同一物體匹配起來。本文設計了基于層級特征網絡提取到的特征,輸入到相似性估計網絡中得到不同時刻幀間不同物體間的相似性矩陣。例如在視頻開始第一幀,初始化軌跡數量和檢測到的物體數量一致,在后續幀輸入網絡后,會根據前面N幀提取得到的特征矩陣,與當前幀的特征矩陣一起輸入圖3中的相似性估計網絡,得到各自的相似性矩陣。最終將當前幀,與前面N幀的相似性矩陣做累加得到最終的相似性矩陣,并利用匈牙利算法[15]在得到累加相似性矩陣上做全局最優的指派問題,也就是兩幀間同一物體的匹配。再根據匈牙利算法指派的結果,做軌跡的更新。

總體看來,本文設計的跟蹤器是在線的跟蹤器,與離線跟蹤器不同點在于,不需要未來的視頻幀來跟蹤當前幀的物體,只需要輸入當前幀之前的視頻幀,因此,相對于離線的跟蹤器,在線跟蹤更適用于實際的場景,例如監控等需要實時跟蹤的場合。

2 實驗部分

2.1 實驗細節

選用MOT16數據集,數據集包含了7個視頻場景,分為訓練集和測試集,利用pytorch框架在NVIDIA RTX 2070GPU訓練而得,訓練每次批次為4,總的訓練輪數140輪,設置Nm為100,采用SGD[16]優化器。

2.2 結果對比

在最終的測試集上得到實驗結果見表3。

表3 基于MOT16測試集的實驗結果

表3中,箭頭向上表示指標越大越好,箭頭向下表示指標越小越好。MOTA[19]指標表示目標跟蹤的準確率,是衡量多目標跟蹤最重要的指標。MOTP[19]則表示多目標跟蹤的精度,其計算是由標簽上物體目標框與檢測所得到的目標框的重合率計算而得。MT[20]表示大部分被跟蹤的目標,而ML[20]表示大部分未被跟蹤的目標。實驗結果表明在測試指標上本文采用的方法相對于一些其他的方法取得了一定的優勢。其中,MOTA指標由公式(6)計算得到:

(6)

其中:FPt由表示在t時刻的目標誤檢數量,FNt表示在t時刻目標漏檢測的數量,ID_Swt表示在跟蹤過程中目標發生身份互換的數量,GTt表示t時刻對應的標簽。

2.3 實驗結果展示

實驗的部分仿真結果如圖4所示。由圖4可知,本文所提出的基于層級特征提取相似性計算網絡能有效提取不同物體的特征,經過計算所得到的相似矩陣具有很好的判別性,能夠緩解由于遮擋問題造成的物體身份的改變。如,序號73以及序號16的物體都能夠在被遮擋后有效地還原目標的身份。緩解了多目標跟蹤中遮擋問題造成的身份改變問題。

圖4 部分視頻跟蹤效果圖

3 結束語

在基于檢測的在線多目標跟蹤的框架下,提出了基于層級特征提取的跨幀間物體相似度計算的網絡,該網絡可以端到端的訓練,在得到網絡的固定權重后,應用于跟蹤的流程,并利用匈牙利算法,在得到的各幀間相似矩陣的基礎上,做物體間各物體最優的指派,也就是不同幀間同一物體的匹配,并不斷更新跟蹤的軌跡。實驗結果表明,經過層級特征提取得到的相似性矩陣具有對不同幀間物體相似性很好判別能力,同時對遮擋問題有一定的緩解,并在多目標跟蹤的一系列指標上得到了一定的提高。

猜你喜歡
相似性層級時刻
一類上三角算子矩陣的相似性與酉相似性
科室層級護理質量控制網的實施與探討
冬“傲”時刻
捕獵時刻
軍工企業不同層級知識管理研究實踐
淺析當代中西方繪畫的相似性
基于軍事力量層級劃分的軍力對比評估
職務職級并行后,科員可以努力到哪個層級
低滲透黏土中氯離子彌散作用離心模擬相似性
一天的時刻
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合