?

視頻目標檢測中位置注意力網絡

2024-03-25 01:58郭意凡楊大偉
大連民族大學學報 2024年1期
關鍵詞:注意力尺寸特征

郭意凡,楊大偉,毛 琳

(大連民族大學 機電工程學院,遼寧 大連 116650)

視頻目標檢測是指對連續視頻序列進行分析和處理,從而檢測和識別出特定目標,輸出目標類別和位置。當前視頻目標檢測算法存在對移動目標無法準確定位問題,其由于對目標位置信息提取不夠充分,從而影響后續目標分類和識別,使得目標檢測產生誤差。

隨著自動駕駛技術的發展,許多學者致力于視頻目標檢測算法的改進研究,提出大量有價值的視頻目標檢測算法[1]。視頻目標檢測算法主要分為雙階段和單階段目標檢測算法。雙階段視頻目標檢測算法先通過區域生成網絡(Region Proposal Network,RPN)生成一系列候選框,再對候選框進行分類和回歸。雙階段檢測法最早可以追溯到由Ren等[2]提出的一種端到端目標檢測框架Faster R-CNN網絡,該網絡以VGG-16為主干,使用RPN和池化操作生成候選框并對其篩選達到定位目標的目的。但定位不精確,對小目標的檢測效果不佳。在此基礎上,He等[3]提出Mask R-CNN網絡,增加實例分割的能力,它共享與Faster R-CNN相同的特征提取網絡,使目標檢測和實例分割之間共享計算,進而提高速度和效率。Mask R-CNN網絡通過引入掩碼分支生成與每個目標實例對應的像素級掩碼,解決目標定位問題;設計了RoIAlign操作,使用雙線性插值方法從特征圖中準確提取與候選框對應的多尺度特征,避免信息損失,提高像素級別的定位精度。然而,其對高分辨率圖像的檢測效果欠佳。

基于以上缺點,學者們提出基于回歸思想的單階段檢測法,直接在特征圖上進行密集的分類和邊界框回歸,避免雙階段算法候選框生成過程中的誤差。Redmon等[4]提出基于YOLO(You Only Look Once)的目標檢測算法,在單次前向傳播過程中,將輸入圖像劃分為固定大小的網格單元。每個網格單元負責預測一個或多個邊界框,通過使用卷積神經網絡提取特征,并在每個網格單元上同時預測邊界框位置和類別,避免重復計算和多階段處理。但網絡結構較為簡單,對小目標定位效果較差。之后Redmon等[5]提出YOLOv3算法,引入多尺度預測和訓練策略,對不同尺度特征圖進行處理以檢測不同尺寸目標。其通過融合低層特征與高層特征,利用低層和高層特征的語義信息,提升對小目標的位置檢測能力。但在錨框預測嚴格情況下,預測精度仍然不夠。對此Ge等[6]提出YOLOX,繼承上述多尺度預測策略,采用具有更多卷積層和特征通道的網絡結構;將檢測過程解耦為目標分類和目標框回歸兩個獨立任務,使用無錨方式進行目標框回歸簡化算法設計;采用自適應訓練策略逐步增加訓練分辨率并增強多尺度數據,使得模型能適應不同尺度的目標和場景,提高模型泛化能力。但是在現實世界的視覺場景中,一旦模型完成最新幀處理,周圍環境就有可能發生變化,因此通過檢測前一幀的位置信息輔助當前幀預測十分必要。Yang等[7]在Ge等的基礎上,提出基于流感知的視頻目標檢測網絡(Real-time Object Detection for Streaming Perception),該網絡引入特征金字塔(Feature Pyramid Network,FPN)模塊[8]。FPN通過引入側邊連接,實現跨層級的信息傳遞,將高層語義信息傳遞給低層,從而彌補低層細節信息不足。此外,該網絡利用目標在連續幀之間的運動信息預測目標位置,采用雙流感知模塊(Dual Flow Perception,DFP)提取靜態流中的語義特征和動態流中的運動特征,但動態流和靜態流獲取的特征直接拼接,缺少上下文信息之間的語義關聯。

單階段和雙階段檢測法均采用深度卷積神經網絡(Convolutional Neural Network,CNN)等特征提取模型從圖像中學習豐富的特征表示,適用于涵蓋多個類別的目標檢測任務。然而對于姿態變化、遮擋等情況,二者都缺乏對邊緣細節特征的提取,導致檢測結果不穩定或錯誤。綜合以上問題,本文提出一種視頻目標檢測中位置注意力網絡(Position Attention Network,PA-Net)。PA-Net采用位置注意力機制(Coordinate Attention,CA)[9],在橫向和縱向上根據檢測目標的位置信息計算相應注意力分數,并將此分數賦予不同區域的特征。根據物體邊緣與背景像素的顯著差異調整特征的注意力權重分布,加強對邊緣的感知能力,突出目標邊緣位置,提高目標定位準確性。

1 PA-Net算法

1.1 問題分析

檢測誤差圖如圖1?,F有的視頻目標檢測算法采用無錨檢測,在移動目標場景下主要存在無法精確定位目標位置的問題,造成檢測框與真值框有偏差的現象,圖中虛線框處即為檢測誤差區域。該現象是由于無錨檢測方法對目標定位能力有限所導致。在基于錨框的傳統檢測方法中,錨框通常覆蓋目標的不同部分,用于預測目標框的位置和大小。這種設計可以利用不同寬高比的錨框適應不同大小和形狀的目標,從而提高邊緣特征的覆蓋范圍。無錨檢測不使用預定義的錨框作為參考,直接使用中心點到邊界的距離回歸物體邊界框以簡化設計。無錨檢測方法在生成檢測框時通常依賴于目標的邊緣特征,邊緣特征能夠提供目標與背景之間明顯的分界線,有助于確定目標的位置和邊界。由于沒有預設錨框輔助回歸目標存在的區域,基于無錨的檢測方法需要從圖像中學習并提取目標特征以準確框定目標。如果目標具有復雜的幾何變化,如形狀變化、姿態變化或尺度變化,或因遮擋等因素使得目標與背景區分度低,這種方法在一定程度上無法適應上述情形,導致無法準確定位目標邊緣。

圖1 檢測誤差圖

因此,本文引入一種位置注意力機制增強對目標邊緣的關注程度,充分提取與目標邊緣相關的特征。位置注意力利用上下文信息推斷目標不同區域的重要性并根據其重要性分配相應權重。目標邊緣包含豐富的形狀、結構等視覺特征,通過捕捉上述特征能夠有效識別前景和背景的輪廓差異,因此目標邊緣被視為圖像中的重要區域。CA可為目標邊緣這一重要區域分配更多權重,增強邊緣區域的特征表達,有助于減少檢測框在目標邊界的定位誤差。

1.2 位置注意力網絡

位置注意力網絡通過將特征圖各位置像素值與水平和垂直兩個空間方向的注意力權重相乘,調整對目標不同部分的關注度,捕獲位置信息,準確突出感興趣區域的邊緣,改善在目標移動情形下出現定位偏移而檢測目標不準問題。位置注意力網絡結構圖如圖2。

圖2 位置注意力網絡

位置注意力網絡在保持原始特征不變情況下,通過殘差結構[10]縮小特征提取過程中的特征差異,增強特征表示能力;在X和Y兩個空間維度使用全局平均池化將每個通道的特征圖轉化為一個標量值,從而減少特征圖維度,降低模型計算復雜度;卷積模塊在不同位置的特征關系和空間結構捕捉方面具有顯著作用;通過引入非線性變換獲得不同特征的權重值,并將權重值與相應特征匹配。

1.3 PA-Net算法

PA-Net算法采用位置注意力網絡捕捉目標位置的空間關系和動態變化,使模型更敏感地對目標移動做出響應,從而精準框定目標。PA-Net網絡結構圖如圖3。

圖3 PA-Net網絡結構

PA-Net分為主干、雙流感知模塊、位置注意力模塊以及下游任務(分類、目標、回歸)四部分。

(1)主干包括CSPDarkNet-53[11]網絡和FPN。CSPDarkNet-53網絡對輸入視頻幀進行處理,處理后的視頻幀輸入到特征金字塔模塊,通過在底層特征圖和頂層特征圖之間建立連接融合不同分辨率的特征圖,以保留多尺度的語義和細節信息。公式如(1)所示:

N=P(M)。

(1)

式中:M表示輸入視頻幀的特征數;P表示CSPDarknet-53主干網絡中的二維卷積、不同尺度的池化、殘差塊結構和FPN操作;N表示經主干網絡和特征金字塔多層級特征提取操作輸出的多尺度特征圖。殘差連接使得特征更快傳遞,減少特征丟失;多尺度特征提取可獲得更全面的特征表示,提高模型對小尺寸和大尺寸目標的檢測能力。

(2)雙流感知模塊由2D卷積構成。主干輸出的多尺度特征圖通過上下采樣操作產生多分辨率特征圖并將其進行跳躍連接,再使用2D卷積提取特征圖中的靜態特征和動態特征,實現對目標基本語義信息和運動狀態的捕獲。靜態特征和動態特征拼接后得到K2、K1、K0三個不同尺寸的特征圖,其空間尺寸分別為8×8、4×4、2×2。

(3)位置注意力模塊對特征圖K1進行處理。較小尺寸的特征圖包含物體的輪廓等關鍵信息較多,較大尺寸的特征圖包含物體的紋理等細節特征居多[4],特征圖尺寸過大或過小均會對目標檢測效果造成影響。因此,為尋求輪廓和紋理信息提取中的平衡點,采用位置注意力模塊提取特征圖K1的位置信息。該模塊流程如下:

首先,通過殘差單元補充損失信息;

其次,使用全局平均池化在水平和垂直方向分別對每個通道進行一維特征編碼操作,建立水平和垂直兩個方向的特征關聯,產生一對方向感知特征圖。方向感知特征圖計算過程如下:

(2)

(3)

第三,水平和垂直兩個方向的感知特征圖沿空間維度進行拼接,通過F1函數和非線性變換在兩個方向上對空間信息進行編碼生成空間特征圖。公式如下所示:

f=δ(F1(concat(zh,zw)))。

(4)

第四,中間特征圖沿水平和豎直兩個空間維度被分成兩個獨立的張量,通過Fh和Fw變換,分別將兩個張量變換為相同通道數的注意力權重輸出。公式如下所示:

gh=σ(Fh(Rh(f)));

(5)

gw=σ(Fw(Rw(f)))。

(6)

式中:Rh(f)和Rw(f)分別表示將f按照橫向和縱向兩個空間維度劃分的水平和豎直分量;Fh和Fw為1×1卷積核;σ為sigmoid函數;gh和gw分別表示水平和豎直維度的注意力權重。通過計算水平和垂直方向的注意力權重,并將其應用于相應的特征張量,為下一步實現對關鍵信息的強調,從而增強或減弱特定區域特征表示做準備。

第五,原始特征圖與水平和豎直兩個方向的注意力權重相乘得到空間位置注意力塊輸出,即:

(7)

(4)經過位置注意力模塊進行權重調整的輸出特征圖與K2、K0相結合輸入至分類、目標、回歸模塊輸出最終的預測結果。分類、目標、回歸模塊采用SiLU激活函數(Sigmoid-Weighted Linear Unit)[12]捕捉和表達目標關鍵區域特征。視頻幀輸出即為分類、目標和回歸結果。

2 實驗結果分析

2.1 實驗設計

本文算法實驗運行環境硬件配置為NVIDIA-GeForce2080Ti顯卡,軟件系統為Ubuntu18.04,深度學習框架為Pytorch1.8.1。本文使用視頻自動駕駛數據集Argoverse-HD[13]進行訓練,該數據集包含多段1 920×1 200像素的高分辨率視頻幀,幀率為30fps,使用中心RGB攝像頭采集數據,采用Li等[14]提供的對所采集數據的檢測注釋,為數據集中的對象添加詳細標記。通過比較模型預測的邊界框和實際注釋的邊界框,可以計算模型的交并比、準確率等指標。模型訓練以COCO預訓練模型為基礎進行微調,從而適應不同類別的檢測。所有檢測結果都是在驗證集上計算以評估模型性能,驗證集的數據來自視頻自動駕駛數據集Argoverse-HD中的24個視頻,每個視頻時長為15~30秒不等,幀總數為15 062,目標類別包括人、汽車、交通燈、停車標志等。

訓練階段的BatchSize(批尺寸)設置為4,測試階段的BatchSize設置為8。學習率為0.001×BatchSize/64,在訓練第一個epoch(周期)時,采用基于熱身策略(warm-up strategy)的余弦調度(cosine schedule)不斷調整學習率,之后的訓練過程中學習率穩定在3.125×10-6。模型訓練參數設置與StreamYOLO算法相同,訓練周期為15,權重衰減為0.000 5,隨機梯度下降(stochastic gradient descent,SGD)動量為0.9。圖像基本輸入尺寸為600×960像素,但圖像長度在800到1 120像素之間均勻分布,未使用任何數據增強(如馬賽克,混合,水平翻轉等),保證特征圖饋送到相鄰幀時能夠對齊。測試階段,輸入圖像大小保持在600×960像素。

2.2 性能指標

PA-Net算法使用交并比(Intersection over Union,IoU)、流精度(Streaming Average Precision,sAP)[14]作為評估指標。實驗將所有類別目標的IOU分別設為0.5:0.95、0.5、0.75。根據目標尺寸將目標分為小目標、中目標、大目標三個類別,分別用s、m和l表示。sAP計算公式如下:

(8)

式中:Q為總類別數;AP為精確度的均值。流精度越大,表示檢測框與真實目標框重疊程度越高,目標檢測越精準。

2.3 實驗結果分析

為驗證本文算法較于基準算法StreamYOLO的優越性,設置相同環境與超參數,測試不同交并比下所有目標的檢測效果,結果見表1。

表1 不同交并比下測試結果對比 %

從表1中能夠看出,本文提出的PA-Net算法在Argoverse-HD數據集上相對于原始的StreamYOLO算法取得顯著的檢測精度提升。在IOU閾值分別為0.5:0.95、0.5和0.75的情況下,PA-Net算法的檢測精度比原始算法分別提升0.3%、0.1%和0.6%。在IOU閾值設置為0.5:0.95的情況下對不同尺寸目標進行測試,結果見表2。

表2 不同尺寸目標下測試結果對比 %

在小目標、中等目標和大目標中的實驗結果表明,PA-Net算法對不同尺寸目標的檢測效果有所改善,尤其對中等目標的檢測效果最佳。目標尺寸過小,其在圖像中占據的像素較少,容易被噪聲所覆蓋,使得檢測效果降低。目標尺寸大,其邊界更加清晰明顯,使得檢測相對容易。中等目標尺寸介于二者之間,在與二者的對比之中,運用本文提出的注重位置變化的算法,使得檢測精度提升達到1%。在Argoverse-HD數據集上驗證StreamYOLO算法和本文算法的可視化結果對比如圖4。

圖4 可視化結果對比

本文使用四組現實戶外場景圖像對比原算法與PA-Net算法的檢測效果,圖中虛線框表示原算法與本文算法檢測對比區域。圖4第(1)行可以看出StreamYOLO算法中卡車的檢測框明顯向下偏移,PA-Net則完整覆蓋卡車;圖4第(2)行中StreamYOLO出現明顯漏檢、錯檢情況,PA-Net改善了此情況;圖4第(3)行在面對諸如人體等具有復雜形狀和姿態的目標時,StreamYOLO對物體邊緣細節特征提取不充分,未能將目標各部分全部捕捉在檢測框內,譬如第(3)行左圖中行人的手部在檢測框外。PA-Net對邊緣特征的關注度更強,使得框定效果更加準確,如第(3)行右圖所示行人手部被包圍在檢測框內;圖4第(4)行中,在昏暗場景下PA-Net的檢測框也能比StreamYOLO更加貼合目標物體邊界,并且檢測精度更高。

與原始StreamYOLO算法相比,本文所提出的PA-Net算法通過在大小適中的特征圖上增強對位置信息的提取,在適度的布局特征和細節特征中捕獲更多位置信息,尤其注重邊緣特征的提取。在移動目標相對較多,尺寸多樣,目標存在遮擋等情況下,預測框更接近真值框,目標檢測表現較為客觀。

2.4 實驗對比結果分析

為證明空間位置注意力在位置信息提取上的有效性,探究空間位置注意力連接方式是否影響空間位置信息獲取的準確度問題,對所提出的網絡模型進行消融實驗。實驗分為7組,測試在不同尺度特征圖上運用空間位置注意力提取特征對目標檢測精度的影響。CA在三種尺寸的特征圖K2、K1、K0中的連接方式如圖5。

(a)CA-K2型連接方式 (b)CA-K0型連接方式 (c)CA-K1型連接方式

圖5a中CA-K2型連接方式指在尺寸為8×8的特征圖上加入空間位置注意力,探究對位置信息的提取能力。圖5b中CA-K0型連接方式是在2×2的特征圖上加入空間位置注意力。圖5c中CA-K1型連接方式在4×4的特征圖中引入空間位置注意力。其余四種連接方式分別是在大小為8×8和4×4的兩個特征圖上同時添加空間位置注意力,即CA-K2+CA-K1型連接方式;在4×4和2×2兩個尺寸的特征圖上同時添加空間位置注意力,即CA-K1+CA-K0型連接方式;在8×8和2×2的兩個特征圖上添加空間位置注意力,即CA-K2+CA-K0型連接方式;將空間位置注意力同時加入8×8、4×4和2×2三張特征圖上,即CA-K2+CA-K1+CA-K0型連接方式。消融實驗在不同交并比下的sAP值見表3。

表3 CA不同連接方式實驗結果對比 %

對比實驗結果表明,CA-K2型連接方式與原始算法相比檢測性能略有提升,CA-K0型連接方式性能有所下降。8×8的特征圖具有相對較高的分辨率,可以較好地保留目標細節和位置信息。通過應用CA,網絡可以更準確關注目標特定位置的信息。2×2的特征圖尺寸相對較小且分辨率較低,側重于圖像的結構和布局,喪失大部分目標細節特征,應用CA會引入更多噪聲或不準確的位置信息。由CA-K2與CA-K0的對比可得紋理細節信息對于檢測準確度的重要性。CA-K2+CA-K1較于基準算法效果有所下降,CA-K1+CA-K0效果有所提升,對比發現細節特征過多,缺乏整體布局信息,造成圖像中目標和環境之間缺少上下文和語義信息。CA-K2+CA-K0效果同樣下降,8×8的特征圖更細粒度,2×2的特征圖更粗粒度,同時在其中引入CA使得較細粒度的特征圖引入過多的位置信息,較粗粒度的特征圖引入過少的位置信息,這種不平衡導致網絡難以正確融合和利用不同分辨率的特征圖。CA-K2+CA-K1+CA-K0性能略微下降,8×8、4×4和2×2的特征圖皆通過下采樣從原始輸入圖像得到,其中的特征存在重疊和相關性,同時在三個特征圖上添加CA產生過多冗余信息,增加網絡計算復雜性。綜上所述,本文的PA-Net算法使用CA-K1型連接方式增強位置信息的提取效果最佳。PA-Net算法使特征圖既擁有局部細節,又具有整體結構。只在K1支路加入CA降低計算量,加速模型收斂,改善原始算法StreamYOLO中邊緣特征提取不完整的缺陷,取得最大檢測性能提升。

3 結 語

本文針對StreamYOLO視頻目標檢測算法中移動目標邊緣細節特征提取不充分問題,提出PA-Net網絡,通過引入位置注意力結構增強特征圖中邊界區域特征表達,使得網絡更加敏銳感知目標邊界。與StreamYOLO算法相比,PA-Net算法改善了移動目標定位存在誤差的問題,在交并比為0.5:0.95、0.5和0.75下,sAP指標分別提升0.3%、1.6%和0.6%,基本實現較高的目標檢測性能,對漏檢、錯檢現象也具有一定改善作用,能夠應用于機器人和自動駕駛等領域。后續將進一步提高目標模糊和背景復雜等場景中的目標檢測效果和魯棒性。

猜你喜歡
注意力尺寸特征
尺寸
讓注意力“飛”回來
CIIE Shows Positive Energy of Chinese Economy
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
D90:全尺寸硬派SUV
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
佳石選賞
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合