?

基于有效感受野的目標檢測算法

2020-08-27 14:09楊建秀
關鍵詞:空洞尺度卷積

楊建秀

(山西大同大學物理與電子科學學院,山西大同 037009)

目標檢測的任務是確定圖像中所有感興趣目標的位置和大小,是計算機視覺領域中的研究熱點,廣泛應用于智能視頻監控、機器人導航、工業檢測等諸多領域。但在實際的應用場景中,由于各類物體存在不同的形狀、姿態、外觀以及遮擋、光照等外界因素的干擾,使得目標檢測存在著許多困難,特別是小目標的檢測。由于深度學習爆發式的發展,目標檢測算法已由基于手工特征的傳統算法快速向基于深度學習的檢測算法轉變。

基于深度卷積神經網絡的檢測算法主要有兩種,一種是基于兩階段(two-stage)的目標檢測算法,如R-CNN 系列[1-2],首先要依據輸入圖像產生可能包含目標物體的區域候選框,然后對生成的區域候選框進行精細的分類和回歸;另一種是基于單階段(one-stage)的目標檢測算法,如YOLO[3]和SSD[4]等,該算法直接在卷積神經網絡中提取特征同時完成目標物體的分類和位置回歸。針對小目標物體檢測的算法,主要是利用網絡內部多尺度特征金字塔的淺層預測完成對小目標的分類回歸;同時為了增強小目標的特征表達能力,一些網絡結構如FPN[5],RetinaNet[6]和RefineDet,利用自頂向下結構為小目標提供上下文信息。鑒于人腦識別小目標的策略,可以適當增大對小目標物體的感受野,就可以很好的識別目標。因此,本文提出一種基于有效感受野的小目標檢測算法。該算法在單階段目標檢測算法SSD的基礎上,利用自頂向下結構進行層間特征融合的同時,采用空洞卷積操作為小目標提供多樣性的有效感受野來增強特征,使其學習到更有效的語義信息來提高小目標特征的判別性和魯棒性,為解決小目標的識別檢測問題提供一條新思路。

1 有效感受野的目標檢測算法

1.1 網絡結構

目標檢測算法是在基于單階段目標檢測SSD[4]基礎上實現的,整體結構共分為三部分,SSD 原始結構網絡的特征提取層(Original Feature Layers,OFL),有效感受野模塊(Effective Receptive Field Module,ERFM) 和最后特征增強的預測層(Enhanced Feature Layers,EFL)。整體的網絡結構設計如圖1 所示。本文沿用原始SSD 的基礎網絡結構VGG-16作為卷積特征提取的主干網絡。由于較小的目標很容易在更深的卷積層中丟失,本文只保留了Conv1_1 到Conv_fc7 的卷積層,移除了Conv_fc7之后較深的卷積特征層,同時可保證利用自頂向下結構進行特征融合后可得到全局上下文信息來提供有效的感受野。因為較深的卷積層有更大的感受野,利用自頂向下結構添加上下文信息時會引入大量的背景干擾,不利于小目標的精確定位。同時根據無人機數據集中小目標尺寸分布情況,本文選擇Conv3_3,Conv4_3,Conv5_3 和Conv_fc7 四個不同的特征層用于小目標物體的檢測,生成四個原始特征提取層。然后根據本文提出的有效感受野模塊將這些原始特征提取層轉換為對應的四個增強的特征預測層P3、P4、P5和P6。最后利用soft-max分類損失函數和regression 回歸損失函數實現多目標多類別的精確定位。

圖1 目標檢測的整體網絡結構設計圖

1.2 有效感受野模塊(Effective Receptive Field Module,ERFM)

經典的FPN[5]和StairNet 利用自頂向下結構形成多尺度特征金字塔來增大感受野,但每一特征層的感受野都是相同的,限制了目標檢測的性能。本文提出的有效感受野模塊ERFM在利用自頂向下結構在網絡內部形成一個多尺度特征金字塔的同時,在具有一樣感受野的特征層中利用空洞卷積提供多樣性的感受野??斩淳矸e[7]可以在不降低分辨率的情況下來增大感受野,同時又可以進一步獲取多尺度的上下文信息,而且不需要引入額外參數。因此,ERFM 不僅可以利用自頂向下結構提供全局的上下文信息增大有效的感受野,也可利用空洞卷積得到多樣性的感受野,使其目標學習到更為有效的上下文信息和語義信息。因此ERFM為小目標提供了增強的特征表示,提高小目標的判別能力和魯棒性,其結構圖如圖2所示。

圖2 有效感受野模塊(ERFM)

為確保當前特征能夠與深層特征進行點對點相乘(element-wise product),本文先對當前特征層Fn進行1×1 卷積得到Fn',然后深層特征Fn+1也進行1×1 卷積,并對其結果進行反卷積操作得到和Fn' 相同大小尺度的特征層F'n+1。將Fn' 和Fn+1'進行點對點相乘得到新的特征圖Pn',本文對新的特征圖Pn' 按通道數分為兩半分別對其進行不同次數的空洞卷積操作,最后將其結果級聯在一起得到增強后的預測特征層Pn。因此,ERFM利用自頂向下結構和空洞卷積操作為小目標提供全局和局部上下文信息的同時,又提供多樣性的有效感受野來增強特征,使其學習到更為有效的語義信息來提高小目標特征的判別性和魯棒性。

2 實驗結果與分析

2.1 實驗環境

為了驗證本文的算法性能,本文實驗數據采用公開可用的無人機車輛數據集[8],其中訓練圖像樣本的數量為23,258,測試樣本為16592 張圖像。人工標注圖像中的3類目標分別為小汽車、卡車和公交車作為訓練數據集。實驗的硬件環境為NVIDIA GeForce GTX-1080Ti GPU,軟件仿真平臺為Ubuntu16.04 操作系統下的Caffe 深度學習框架[9],CUDA版本為8.0,cuDNN 版本為6.0。本文實驗利用公開分類網絡VGG ISSVRC[10]的權重作為網絡訓練的初始值,訓練圖像大小為300×300,每批次訓練圖像數量(batch size)為16。訓練所用初始學習率為0.001,訓練次數共為120 k次,在80 k次和100 k次時學習率降為0.0001和0.00001.

2.2 實驗結果分析

移除了SSD中Conv_fc7之后的卷積層,利用自頂向下的結構為小目標提供全局上下文信息得到合適有效的感受野,避免較深層引入太大的感受野會帶來較多的背景干擾;同時利用空洞卷積操作為小目標提供局部上下文信息從而得到多樣性的有效感受野來增強特征。由圖3可以看出,本文提出的小目標檢測算法對不同尺度、形變、遮擋、模糊程度和照明度等情況下能夠保持高的召回率以及具有良好的檢測性能。

3 結論

針對小目標判別性不足的問題,本文借鑒人腦識別小目標的策略,適當增大小目標感受野有利于它的準確定位,為此提出一種有效增大感受野的小目標檢測算法。本文以單階段多尺度特征預測的神經網路結構為基礎,利用自頂向下的結構將深層語義特征和淺層細節特征進行融合,為小目標提供全局上下文信息來增大有效的感受野;同時利用空洞卷積在不降低分辨率的情況下增大感受野,可以進一步獲取多尺度的局部上下文信息增強小目標的特征表示。實驗結果表明,本文提出的基于有效感受野的小目標檢測算法,可以較好解決處于遮擋、陰影干擾等復雜環境下小目標定位問題,為中高級計算機視覺問題提供良好的預處理手段。

猜你喜歡
空洞尺度卷積
番茄出現空洞果的原因及防治措施
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
論社會進步的評價尺度
如何避免想象作文空洞無“精神”
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
空洞的眼神
宇宙的尺度
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合