運動信息引導的目標檢測算法

2022-10-13 09:58胡海苗沈柳青高立崑李明竹

北京航空航天大學學報 2022年9期

胡海苗沈柳青高立崑李明竹

(北京航空航天大學計算機學院, 北京 100083)

近年來,隨著監控設備的不斷更新換代,越來越多的便捷實惠的視頻監控設備被大范圍地應用于日常生活之中[1]。這些隨處可見的監控設備不僅記錄著人們的生活,而且保障著人們的安全。但現實監控場景是比較復雜的,場景中目標的尺寸、姿態也是多種多樣,會出現被遮擋目標、小目標等容易漏檢的困難目標,降低目標檢測算法的準確率。因此,針對固定攝像機拍攝出來的監控視頻進行目標檢測依然是一項充滿挑戰的任務。

在目標檢測算法的發展歷程中,算法種類可以分為傳統的目標檢測算法和在卷積神經網絡基礎上發展起來的目標檢測算法。

傳統的目標檢測算法又可以分為2 類:一類是利用手工設計特征的檢測算法;另一類是利用運動變換信息的檢測算法。

對于利用手工設計特征的目標檢測算法,都遵循著同樣的流程,分別是區域選擇、特征提取和分類器分類。首先是區域選擇,也被稱為候選區域提取,是為了從圖像中生成大量的候選區域,用于下一步的特征提取。在特征提取階段,一般使用手工設計的特征,也就是紋理、顏色等底層特征,如梯度方向直方圖特征(histogram of oriented gridients, HOG)[2]、局部二值模式(local binary pattern, LBP)[3]、尺度不變特征變換(scale invariant feature transform, SIFT)[4],這些底層特征經過編碼學習后,能夠得到更深一層的特征,包括主成分分析(principal component analysis, PCA)特征、線性判別分析(linear discriminant analysis, LDA)特征等。總體來說,手工設計的特征在光照變化、遮擋等復雜場景下的魯棒性較差,因此會導致目標檢測的準確率不高。進入到分類階段,使用訓練過的分類器對提取的特征進行分類,得到目標檢測的結果。另一種傳統的目標檢測算法是利用運動變換信息對目標進行檢測。具體來說,是利用運動目標檢測算法,如幀間差分法[5]、背景差分法[6-8]等,生成運動前景圖,從而得到運動目標的位置。

基于卷積神經網絡的目標檢測算法可以分為單階段算法和兩階段算法,不同在于是否有明確的感興趣區域(region of interest,ROI)提取步驟。在單階段算法中,會將整幅圖像劃分為小格子,在小格子上按照預先設定的錨框直接對圖像進行分類和回歸,典型算法有SSD 系列算法[9]、YOLO 系列算法[10-13]、RetinaNet 算法[14]。兩階段算法通常會使用區域建議網絡(region proposal network,RPN),通過預先設定的錨框,提取出ROI,再通過全連接網絡針對提取出的ROI 進行分類和回歸操作,典型算法有R-CNN[15]、Fast R-CNN[16]、Faster R-CNN[17]、Cascade R-CNN[18]。相比較而言,單階段檢測器時間效率更高,但兩階段檢測器的準確率更高。

基于卷積神經網絡的目標檢測算法的性能很大程度上依賴于訓練時所使用的數據集,而在大部分數據集中,困難目標的數量較少,導致模型分布不均衡,無法對該類目標有充分的學習;同時,困難目標由于特征不顯著,很容易被檢測器忽略,造成漏檢;不僅如此,基于卷積神經網絡的目標檢測算法還要求對數據要有較高質量的標注,如果要對困難目標進行標注,需要花費較多的人力,對數據集中的目標進行仔細的辨認和精準的標注,代價比較昂貴,甚至在標注時很可能會引入干擾,反而降低了檢測器的性能。除此之外,現有的基于卷積神經網絡的目標檢測算法對候選目標框置信度的預測考慮不夠全面,只考慮到了分類置信度,即目標屬于該類別的概率。但是,分類置信度高并不能說明該候選目標框的位置也是十分精準的,只考慮分類置信度,可能會導致定位精準的候選目標框被篩除,影響目標檢測算法的準確率。

傳統目標檢測算法中的利用運動變換信息的目標檢測算法[5-8],可以快速發現困難目標,并且運動前景圖中的前景位置能夠體現目標的空間位置信息。而在室外監控場景下,大部分的目標都是能提取到運動信息的,同時,處于運動狀態的目標是更應該關注的目標。因此,可以考慮將運動信息與目標檢測算法相結合,提升目標檢測的準確性。但是運動目標檢測算法的缺點也是顯而易見的,該類算法主要針對的是運動目標的檢測,因此,在目標靜止或運動幅度不大時,很難或不能完整提取出目標區域。

本文提出了一種運動信息引導的目標檢測算法主要創新點如下:①提出一種改進的運動目標檢測算法,在ViBe 背景建模算法[7]的基礎上進行了改進,改進后的算法能夠減少靜止目標融入背景的情況;②提出一種基于運動信息的多尺度特征融合模型,將以運動前景圖為主的運動信息作為空間權重與特征金字塔網絡提取的特征圖相融合;③提出一種運動前景圖指導的定位分支模塊,根據前景的位置信息學習預測候選目標的定位置信度,作為目標分類置信度的補充。

1 相關工作

目前來說,運動信息在目標檢測算法中的應用分為2 種:①傳統目標檢測算法中利用運動變換信息的檢測算法;②將運動信息(主要是光流信息)引入到卷積神經網絡中,簡化卷積神經網絡特征的提取或進行多幀特征的融合。

深度特征流(deep feature flow, DFF)[19]方法首次將光流信息引入到了目標檢測網絡中,Zhu等發現,在基于卷積神經網絡的目標檢測算法中,最耗時的步驟是特征提取,并且對于一個連續的視頻序列來說,相鄰幀提取的特征差別并不大,因此,在卷積神經網絡中引入了光流信息來預測特征圖,減少神經網絡在提取特征方面的時間開銷。DFF 網絡中,將視頻幀分為關鍵幀和非關鍵幀。卷積神經網絡對關鍵幀提取特征;而對非關鍵幀,會與關鍵幀一起輸入到光流網絡中,得到光流信息,再根據光流信息對關鍵幀的特征進行修正,作為非關鍵幀的特征進行后續的分類回歸。

光流引導的特征融合(flow guild feature aggregation, FGFA)[20]網絡在DFF 網絡的基礎上,利用光流信息聚集相鄰幀上的特征,提高檢測的精度。對于當前幀,FGFA 網絡會將其前后各k幀的特征按照DFF 網絡的方法預測出對應的當前幀特征,再將這2k幀特征按照權值平均的方法與當前幀特征聚合,將聚合后的特征進行后續的分類回歸。

光流信息可以通過深度學習方法或傳統方法獲取。深度學習方法需要進行額外的標注和訓練,傳統方法在背景發生劇烈變化時會失效,并且光流信息對光照的變化比較敏感,也不能像運動前景圖那樣明確地反映出來前景的位置。而本文的應用場景是針對固定攝像機拍攝的監控視頻,不用考慮到周圍環境的運動,因此,可以使用幀間差分法或背景差分法來獲取運動信息,運動信息的獲取更加快速,能更加準確地反映前景位置。同時,本文引入運動信息,目的是采用一種便捷的方式為卷積神經網絡提供目標的位置信息,而不用進行代價昂貴的標注,光流信息的深度學習方法需要引入額外的標注,反而違背了這一初衷。

為了提高檢測器的定位精度,目前使用的改進方法大致有2 類:一類是選擇更加能夠反映定位準確性的定位損失函數;另一類是在檢測器中加入定位置信度的預測。一般來說,判斷預測目標定位是否精準,是通過計算預測目標的檢測框和標注信息中真值框的IoU 值。但是IoU 存在一個問題,對于沒有重疊的2 個框,因為IoU 值為0,所以無法進行學習訓練。在這種情況下,有學者提出了 GIoU ( generalized intersection over union)[21]的概念。 GIoU 同時關注了重疊區域和不重疊區域,即使兩框沒有重疊,也能計算出距離值,取值范圍為[ -1,1],越接近1 表示兩框的重疊程度越大,越接近- 1 表示兩框的距離越遠。而對于在檢測器中加入定位置信度預測的方法,IoU-Net[22]中為檢測器設計了一個獨立的定位分支,在Faster R-CNN 網絡的基礎上,使用真值框和檢測框IoU 作為定位置信度進行學習;IoUaware RetinaNet[23]是在RetinaNet 網絡的基礎上,在回歸分支中增加了一個模塊預測定位置信度。

以上方法對于定位精度的衡量都是根據檢測框和真值框來計算的,需要精確的標注信息,但是對于數據集中的困難目標,在很多時候是缺少標注的,而在運動前景圖中可以顯示出這類目標的位置,因此,可以通過計算運動前景圖中前景的外接矩形框和預測目標檢測框的匹配程度,作為候選目標的定位置信度指標。同時,相較于采用獨立的定位分支,本文在檢測器中直接增加一個定位分支,使用與回歸分支和分類分支相同的特征,學習候選目標的定位置信度,保證特征的一致性。

2 本文方法

在室外視頻監控的環境下,針對基于卷積神經網絡的目標檢測算法對困難目標標注代價高和置信度預測時考慮不全面這2 個問題,本文提出了一種運動信息引導的目標檢測算法。從基于卷積神經網絡的目標檢測算法的特征提取和置信度預測這2 個方面展開研究,分為3 個模塊:運動前景圖獲取模塊、多尺度特征融合模塊和定位分支模塊。網絡結構如圖1 所示。

圖1 本文方法網絡結構Fig.1 Network structure of the proposed method

本文所提目標檢測算法以原始視頻幀和視頻幀對應的運動前景圖作為輸入。運動前景圖獲取模塊的作用是獲取視頻幀對應的運動前景圖。本文針對的是攝像機固定下的監控場景,因此選取了快速的、無監督的ViBe 背景建模算法來獲取運動前景圖,并對ViBe 算法進行了改進。改進后的算法能夠減少靜止目標融入背景或提取前景有殘缺的情況。整個網絡結構可以看作2 個階段:①特征提取階段。通過ResNet 的骨架網絡輸出一系列的特征圖,經過特征金字塔網絡(feature pyramid networks, FPN)輸出金字塔網絡的各層尺寸不同的特征,通過本文提出的多尺度特征融合模塊,將運動信息與金字塔網絡的各層輸出進行融合,形成各層最終的特征圖。 ②檢測階段。將特征提取階段獲取的特征圖輸入到檢測器中進行檢測,經過分類分支、回歸分支及本文提出的定位分支,得到檢測框、分類置信度和定位置信度,再經過非極大值抑制(non maximum suppression,NMS)[24]得到最終的檢測結果。

2.1 運動前景圖獲取模塊

ViBe[7]算法是一種像素級的背景建模算法。在初始化時會對像素點建立一個鄰域集合,對于之后新的圖像幀,為每個像素點計算其與每個鄰域像素點的歐氏距離。如果該像素與足夠多的鄰域像素點(一般設置為20)歐氏距離小于設置的閾值(一般為16),則認為該像素點屬于背景像素;否則認為該像素點屬于前景像素,由此生成運動前景圖。

運動目標檢測算法存在一個問題,對于視頻中運動一段時間后長時間靜止的目標,會將其判斷為靜止目標,或在檢測的前景上出現空洞。為了減少這種情況的發生,本文對ViBe 算法進行了改進,利用歷史幀與當前幀的相似度對靜止目標作二次判斷,避免靜止目標融入到背景之中。

改進的ViBe 背景建模算法會為每個像素點設置一個前景計數器fgCount 和一個前景標志fgFlag。初始時前景計數器fgCount 設置為0,表示該像素點被判斷為前景的次數為0,前景標志fgFlag 也設置為0,表示該像素為背景。

對于輸入的圖像,將圖像中的各個像素與初始背景模型進行匹配度計算。如果像素點與背景模型匹配,則認為該像素點為背景點,將該像素點的fgCount 和fgFlag 都置為0,對該像素點對應的鄰域背景模型進行更新;如果不匹配,則認為像素點為前景點,fgCount 值加1,fgFlag 置為1,表示該像素點為前景。

當一個像素的前景計數器fgCount 達到閾值(設置為10)時,認為該前景已經持續存在了一段時間,需要判斷該前景對應的是否為靜止目標。判斷方法是:計算該像素與所保存的歷史背景幀的對應像素的誤差平方,確定相似度,如果相似,認為該點為靜止目標,fgCount 置為0,fgFlag 保持為1;否則fgCount 和fgFlag 都置為0,對該像素點對應的鄰域背景模型進行更新,并用當前幀的像素更新歷史背景幀的對應像素。

圖2(a)為原始視頻幀,圖2(b)為ViBe 算法得出的前景圖,圖2(c)為改進的ViBe 算法得出的前景圖,第1 行中目標長時間靜止,消失在前景圖中,改進的ViBe 算法能夠得到靜止目標的前景,第2、3 行中目標靜止導致前景圖中有空洞,改進的ViBe 算法能夠填補前景中的空洞。

圖2 運動前景圖結果比較Fig.2 Comparison of foreground map results

2.2 基于運動信息的多尺度特征融合模塊

基于運動信息的多尺度特征融合方法網絡結構如圖3 所示。

圖3 基于運動信息的多尺度特征融合模塊網絡結構Fig.3 Network structure of multi-scale feature fusion module based on motion information

為了獲取更多目標的信息,本文在運動前景圖的基礎上,將原始視頻幀的灰度圖與運動前景圖進行通道拼接,得到引導圖。這樣,不僅可以對運動前景圖補充信息,而且可以將運動前景圖也擴充為三通道的圖像,方便后續操作。同時,基于運動信息的多尺度特征融合模塊是在特征層面進行運動信息與特征圖的融合操作,因此,為了保證最終獲得的運動信息和卷積神經網絡產生的特征圖具有相同的尺寸和通道數,會將獲得的引導圖也輸入到相同的骨架網絡中,得到最終的運動信息。

輸入的原始視頻幀經過骨架網絡和特征金字塔網絡之后得到了自上而下X1、X2、X3、X4四層特征,同樣,運動前景圖與原始圖像灰度圖通道拼接后的引導圖經過骨架網絡后得到了G1、G2、G3、G4四層的運動信息,這些信息是特征融合模塊的輸入。下文就以第4 層的特征融合模塊為例進行介紹,特征融合方式如圖4 所示。

圖4 多尺度特征融合模塊示意圖Fig.4 Schematic diagram of multi-scale feature fusion module

式中:X′1、X′2、X′3分別為將X1、X2、X3經過上采樣操作處理成與X4相同大小的特征;M4為將X4與獲取的引導圖拼接在一起,經過一個簡單的卷積網絡后得到的注意力分布圖;X1→4、X2→4、X3→4分別為特征金字塔網絡前3 層特征圖與注意力分布圖按元素相乘后的特征;X～4為第4 層融合后的特征。

其他層的特征融合模塊的操作與第4 層類似,通過這種方式將運動信息與特征金字塔網絡各層特征融合,使得特征圖重點關注可能存在目標的區域。

2.3 運動前景圖指導的定位分支模塊

本文根據計算的候選目標檢測框與前景區域外接矩形框的匹配程度作為衡量候選目標定位置信度的指標。受到IoU 計算公式的啟發,考慮可以用兩者區域交集的面積比上并集的面積來表示匹配程度。但是通過對運動目標前景區域的觀察發現,在目標比較密集的區域,其前景區域會粘連在一起,提取的外接矩形框也會包含多個目標,使用兩者區域的并集作為分母就會得到一個比較小的值,無法正確地反映兩者的匹配程度。因此,在計算檢測網絡提取到的預測目標檢測框與前景圖中的外接矩形框匹配程度時,對IoU 的計算方法進行了改進,如下:

本文在目標檢測算法的檢測器中增加一個分支作為定位分支,該分支與分類分支和回歸分支共享2 個全連接層,3 個分支保持特征的一致性。增加定位分支后的檢測器結構如圖5 所示,圖中各組成結構上的數字代表該結構輸出的大小,C表示使用的數據集中目標種類的數目。

圖5 引入定位分支后的檢測器結構Fig.5 Detection head structure after introducing localization branch

定位分支和分類分支、回歸分支一樣,會共同參與到對于全連接層的訓練中,提升全連接層在提取特征時的定位準確率,使候選目標能夠得到一個定位置信度的同時,也能夠提升回歸分支中檢測框的定位精度。

3 個分支使用的訓練損失函數各不相同,分類分支使用了交叉熵損失函數:

式中:Ltotal為整個網絡的損失。

在測試階段,通過定位分支獲得每個預測目標的定位置信度,再與分類分支獲得的分類置信度進行加權求和,獲得目標最終的置信度:

confidencescore= ?·clsscore+ (1- ?)locscore(11)

式中:confidencescore為目標最終的置信度;clsscore從分類分支獲得,為候選目標的分類置信度;locscore從定位分支得到,為候選目標的定位置信度;?為權重,本文取值0.6。得到預測目標的最終置信度后,用這一置信度指導NMS 方法進行重復候選框的篩除,獲得檢測結果。

3 實驗結果與分析

3.1 實驗設置

本文實驗在Ubuntu 系統下進行,整體神經網絡框架基于Pytorch 構建而成。程序編寫中使用的主要編程語言為Python3,同時為了方便程序的管理和使用,通過anaconda 搭建了一個虛擬環境,全部實驗都在虛擬環境下進行。除此之外,在硬件方面,使用了GPU 加速訓練過程。

本文使用的基線方法是Cascade R-CNN[18]網絡,包括ResNet-50 骨架網絡、特征金字塔網絡、RPN 網絡和級聯檢測網絡。在訓練策略上采用聯合訓練方法,使用隨機梯度下降法(stochastic gradient descent, SGD)訓練策略,初始學習率設置為0.001,使用step 方法進行學習率的調整,動量設置為0.9,權值衰減系數為0.000 1。

本文在進行實驗時選用了3 個數據集:①筆者所在實驗室自建的且已經公開發表的數據集DML_det[25];②DukeMTMC[26]數據集中的一部分數據;③PETS09[27]數據集中的部分數據。其中,DML_det 數據集來自于筆者所在實驗室,拍攝于北京航空航天大學,時間跨度較長,數據集中的目標較小。訓練階段使用了DML_det 中的18 段視頻段,測試階段使用了其中10 個視頻段,并且對視頻段進行了采樣間距為100 幀的采樣。 Duke-MTMC 數據集拍攝于杜克大學校園。本文選擇了Cam1 和Cam9 兩個場景進行實驗,同樣使用了采樣方法,每隔100 幀選取一張圖像,共獲得了2 556幀圖像,其中一半圖像作為訓練集,另一半圖像作為測試集。 PETS09 數據集拍攝于英國雷丁大學,選擇了S0 作為訓練集,S2 中的L2 難度的測試集作測試。 S0 中共包含7 163 張訓練圖像,S2 的L2 中共包含1 131 張測試圖像。針對使用的3 個數據集,在訓練測試時只對其中的行人目標進行檢測,騎自行車或三輪車的行人也歸屬于行人類別。

評價標準方面,本文采用了與COCO 數據集相同的評價方式,即通過平均精確率(average precision, AP)和召回率(Recall)來評價模型[28]。

對于網絡給出的檢測框,只有當其與真值框計算出的IoU 大于設定的閾值時,才認為檢測結果是正確的。這個目標被成功地檢測出來,則屬于正確的正樣本(true positive, TP),而如果有一個被標注的目標,沒有檢測框與其對應,就認為這是一個錯誤的負樣本(false negtive, FN),當一個沒有被標注過的區域出現了檢測框,就認為這是一個錯誤的正樣本(false positive, FP)。基于上述對不同檢測結果的定義,精確率(Precision)和召回率(Recall)的計算公式如下:

式中:Recall 表示正確檢測出來的目標占所有目標的比率。

本文采用了多個IoU 閾值對提出的算法進行評估,其中AP@ [0.5:0.95]代表選取了從0.5、0.55 到0. 95 的IoU 閾值,計算這些閾值下的平均精確率,再求這些平均精確率的平均值,Recall@ [0.5:0.95]代表從0.5、0.55 到0.95 的IoU 閾值下的平均召回率。

3.2 對比實驗

本文提出了一種基于運動信息的多尺度特征融合方法。利用運動目標檢測算法可以獲得目標位置信息,尤其是困難目標信息的特點,并對運動目標檢測算法進行改進,將運動前景圖作為空間權重融合到卷積神經網絡提取的特征圖中。同時,提出了一種運動前景圖指導的定位分支模塊,根據運動前景圖中前景的空間位置,衡量卷積神經網絡候選目標的定位置信度。

為了說明本文算法對目標檢測算法準確率的提升,選取了幾種近年提出的目標檢測算法,同樣在 DML _ det 數據集、 DukeMTMC 數據集和PETS09 數據集上進行了訓練和測試,與本文算法做對比,實驗結果如表1 ～表3 所示。

從表1 ～表3 的實驗結果可以看出,YOLOX、YOLOF、Sparse R-CNN、Deformable DETR 等算法對于本文所使用的數據集表現不好。一方面,本文選用的數據集數據量遠小于COCO 數據集;另一方面,如Sparse R-CNN 算法需要多個輪次的訓練才可以達到最好的效果。整體的實驗結果表明,對于固定攝像機拍攝的監控視頻場景下的行人檢測,本文算法表現較好。

表1 DML_det 數據集上本文算法與其他目標檢測算法對比Table 1 Comparison of the proposed algorithm with other object detection algorithms on DML_det dataset %

表2 DukeMTMC 數據集上本文算法與其他目標檢測算法對比Table 2 Comparison of the proposed algorithm with other object detection algorithms on DukeMTMC dataset %

表3 PETS09 數據集上本文算法與其他目標檢測算法對比Table 3 Comparison of the proposed algorithm with other object detection algorithms on PETS09 dataset %

3.3 消融實驗

將本文提出的多尺度特征融合方法和定位分支模塊,分別應用于基線方法Cascade R-CNN 中,在DML_det 數據集、DukeMTMC 數據集和PETS09數據集上對算法進行了消融實驗,得到的結果如表4 ～表6 所示。

表4 DML_det 數據集性能評價指標Table 4 Performance evaluation indexes of DML_det dataset

表5 DukeMTMC 數據集性能評價指標Table 5 Performance evaluation indexes of DukeMTMC dataset

表6 PETS09 數據集性能評價指標Table 6 Performance evaluation indexes of PETS09 dataset

從表4 ～表6 實驗結果可以看出,引入多尺度特征融合模塊和定位分支都可以在基線方法上帶來精確率和召回率的提升,并且將2 種方法整合之后,在精確率和召回率方面有更近一步的提升,可以說明本文算法的有效性。同時,對改進的ViBe 算法進行了實驗驗證,從表4 ～表6 中的結果可以看出,使用改進后的算法獲取運動前景圖,能夠提升目標檢測的準確率。

圖6 ～圖11 分別展示了3 個數據集上基線方法和引入了本文算法后的部分結果示意圖,綠框代表真值框,紅框代表檢測框。圖6 中的第1幅圖和第4 幅圖中,環境中存在與行人目標相似的物體,因此產生了誤檢。在引入本文算法后,增加了運動前景圖的信息,誤檢的物體在前景圖中沒有對應的前景,因此特征響應值降低,從而去除誤檢。圖8 中的第1、3、4 幅圖和圖10,因為測試數據中的目標被遮擋或目標太小,而沒有被檢測器檢測出來,引入本文算法后,這些困難目標在前景圖中可以反映出來,提升了特征圖的響應值,因此能夠被檢測到。圖6 中的第2、3 幅圖和圖8 中的第2 幅圖,使用基線方法檢測框的位置偏離目標,而引入本文算法后,能夠使檢測框位置更加準確。

圖6 DML_det 數據集基線方法結果Fig.6 Baseline method results of DML_det dataset

圖7 DML_det 數據集本文算法結果Fig.7 The proposed algorithm results of DML_det dataset

圖8 DukeMTMC 數據集基線方法結果Fig.8 Baseline method results of DukeMTMC dataset

圖9 DukeMTMC 數據集本文算法結果Fig.9 The proposed algorithm results of DukeMTMC dataset

圖10 PETS09 數據集基線方法結果Fig.10 Baseline method results of PETS09 dataset

圖11 PETS09 數據集本文算法結果Fig.11 The proposed algorithm results of PETS09 dataset

4 結論

本文提出了一種運動信息引導的目標檢測算法,適用于固定攝像頭下的監控視頻場景,包括改進的運動前景圖獲取方法、基于運動信息的多尺度特征融合方法和運動前景圖指導的定位分支模塊。所提算法在設計時沒有引入復雜的先驗信息或需要進行精細的標注,并且通過在3 個固定監控視頻行人檢測數據集上所作的實驗,驗證了本文算法可以提升目標檢測算法的準確率。