?

融合注意力機制的深層次小目標檢測算法

2022-04-13 02:40趙鵬飛謝林柏
計算機與生活 2022年4期
關鍵詞:淺層卷積注意力

趙鵬飛,謝林柏,彭 力

物聯網技術應用教育部工程研究中心(江南大學 物聯網工程學院),江蘇 無錫214122

目標檢測作為計算機視覺的基礎任務之一,目前在自動駕駛、醫學病灶檢測、智能安防等方面得到廣泛應用。近年來基于卷積神經網絡的目標檢測算法不斷發展,總體可以分為兩階段(two-stage)檢測算法與一階段(one-stage)檢測算法。兩階段檢測算法如Faster R-CNN、R-FCN(region-based fully convolutional network)等,這類算法是基于候選區域的算法,首先使用區域提議網絡(region proposal network,RPN)生成候選區域,然后通過對候選區域進行分類和回歸,得到最終檢測結果;一階段檢測算法如SSD(single shot multibox detector)、YOLO(you only look once)、YOLOv2、YOLOv3等,這類算法能夠直接對目標進行定位,輸出目標的類別檢測信息。

目前的目標檢測算法對于中大目標檢測已經取得較好的檢測效果,但對小目標檢測的效果不佳,這是由于小目標背景復雜度高,其邊緣信息不顯著以及容易遭遇光照遮擋等。因此針對小目標的檢測能力仍需進一步提高。SSD 算法通過多尺度特征圖進行預測,在精度與效率上均有不錯的提升,但對于小目標檢測效果較差。為了提高SSD 算法對小目標的檢測精度,Li 等提出了FSSD(feature fusion single shot multibox detector)模型,通過在SSD 算法的基礎上新增一個輕量級的特征融合模塊來生成一個全新的特征金字塔檢測模型,改善了對小目標的檢測效果。Liu等提出了RFB-Net(receptive field block net)模型,通過構建多分支卷積層的感受野模塊,并使用空洞卷積代替原有的卷積操作來擴大特征圖的感受野大小,進一步提高了對小目標檢測能力。陳幻杰等對SSD 算法的高層與低層特征采取不同的特征提取方法來改善對中小目標的檢測效果。梁延禹等利用非局部通道注意力整合全局空間信息來增強淺層特征中的小目標的上下文語義信息,有效提高對小目標的檢測準確率。

針對目前算法對于小目標檢測能力不足的問題,在SSD 算法的基礎上提出一種融合注意力機制的深層次小目標檢測算法。首先,針對骨干網絡特征提取能力不足的問題,選取網絡Darknet-53 替換VGG 網絡并改進網絡的殘差結構來提高骨干網絡的特征提取能力,減少小目標特征信息的丟失。其次,在多尺度特征圖檢測階段,通過并聯多個不同的空洞卷積構成特征增強模塊,在不增加參數量的同時有效增大卷積核的感受野,從而豐富特征圖的多尺度語義信息。此外,采用一種基于高效通道注意力模塊的特征融合策略對不同尺度大小的特征圖進行特征融合。該方法使用雙線性插值上采樣的方法放大深層特征圖,再使用通道注意力機制對不同特征通道進行加權,將深層卷積層中的豐富的語義信息融入到淺層卷積層中,有效提高特征融合下對語義信息的利用率,從而改善淺層語義特征信息不足的問題。實驗結果表明,提出的深層次小目標檢測算法在保證一定檢測速度的前提下對于模型的檢測精度有了明顯的提升。

1 相關理論

SSD 算法基于回歸思想和Anchor 機制,采用多尺度特征金字塔檢測方式進行預測,其整體框架結構如圖1 所示。特征提取網絡為VGG-16,不斷向下采樣形成尺度不斷減小的多個特征圖。SSD 算法設計了6 個尺度的特征圖來檢測目標對象,利用深層特征圖尺寸小、感受野大和語義特征信息豐富的特點來檢測大目標;利用淺層特征圖尺寸大、感受野小和細節特征信息豐富的特點來檢測小目標。針對單張輸入圖像,SSD 算法通過長寬比不同的候選框來對目標的位置與類別進行預測,最后利用非極大值抑制(non-maximum suppression,NMS),生成最終的檢測結果。

圖1 SSD 算法框架Fig.1 SSD algorithm framework

2 本文算法

算法的整體框架結構如圖2 所示,其中Conv 代表卷積操作,BN(batch normalization)為批歸一化處理,Mish 為激活函數,Res unit 為骨干增強網絡中的殘差單元,FEM(feature enhancement module)為特征增強模塊,Feature Fusion 為提出的一種特征融合策略,ECAM(efficient channel attention module)是高效通道注意力模塊。模型整體結構由改進后的骨干增強網絡I-Darknet53 與多尺度淺層特征增強網絡組成。骨干增強網絡中CBM 模塊表示Conv+BN+Mish,Res 表示殘差單元,其中ResX 表示個殘差單元級聯。由圖中可知,從骨干增強網絡的第三、四、五個卷積塊提取的3 個特征圖尺寸大小分別為38× 38、19×19、10×10,接著繼續向下采樣最終提取6 個特征圖進行多尺度預測,得到最終檢測結果。

圖2 本文整體框架Fig.2 Proposed overall framework

2.1 骨干增強網絡

選取兼顧精度與效率的Darknet-53 代替VGG16網絡作為骨干網絡進行特征提取。Darknet-53 由殘差單元堆疊而構成,殘差結構可以解決由于網絡深度加大訓練過程中出現的梯度消失與爆炸以及準確率下降的問題。但隨著網絡深度的增加,模型運算量也會增加,并且網絡在增加深度的同時往往沒有充分利用卷積核的通道信息。因此為了提高骨干網絡對通道特征信息的充分提取能力,提出分組殘差結構替換初始殘差結構形成骨干增強網絡,如圖3 所示。該分組殘差結構通過更小的卷積組代替殘差結構中3×3 卷積,該模塊將1×1 卷積后的卷積層按通道分為個通道組,分別用,,…,x表示,每一組的寬和高相同,通道數為輸入特征圖的1/。每一組可以用式(1)表示:

圖3 I-Darknet53 結構圖Fig.3 Structure of I-Darknet53

其中,為3×3 卷積核,為尺度控制參數,設置=4。該模塊的輸出是包含不同感受野大小的組合,相比于單個的3×3 卷積核,該結構能擴展網絡寬度,提取更多的全局信息。該結構通過連接在同一層卷積層內的不同特征通道,交織不同特征通道的特征信息,能夠顯著提高對通道特征信息的利用,從而提高骨干網絡的特征提取能力。為減少模型參數量,避免增加算法運行時間,只將每組殘差塊的最后一個殘差結構替換為所提出的分組殘差連接結構。

卷積之后,添加非線性激活函數能讓神經網絡學習到更多的非線性關系。選用Mish激活函數代替骨干網絡中的Leaky ReLU 激活函數,兩種激活函數圖像如圖4 所示,Mish 激活函數無正向邊界,可以避免梯度飽和,曲線處處光滑,在絕對值較小的負值區域允許一些負值,有利于特征信息流動,提高網絡的學習能力。Mish 激活函數的表達式為:

圖4 激活函數曲線Fig.4 Activation function curve

2.2 淺層特征增強網絡

如圖5 所示,對于不同尺度的特征圖進行可視化,可以看出淺層特征圖有較多的細節特征,輪廓清晰,但語義信息較弱。而深層特征圖不斷向下采樣,逐漸丟失了目標的細節特征,但語義信息比較豐富,能夠提取抽象的特征。因而本文提出獲取淺層增強特征的小目標檢測模型,簡稱淺層特征增強網絡。從圖2 的整體結構框圖看,淺層特征增強網絡主要由特征增強模塊與高效通道注意力模塊指導下的特征融合模塊組成。

圖5 特征圖可視化Fig.5 Visualization of feature map

為了豐富淺層特征圖的多尺度特征信息,提出特征增強模塊(FEM),如圖6 所示。特征增強模塊由卷積核大小為3×3,擴張率=1,2,4 的多尺度空洞卷積與1×1 卷積組成。多尺度空洞卷積級聯可以在幾乎不增加網絡參數量的情況下充分擴大特征圖的感受野,最后通過1×1 卷積將特征信息進行融合,形成特征信息增強的新特征圖。提取的特征圖通過與感受野大小不同的卷積核卷積后再進行融合能夠有效提高網絡對多尺度特征的提取能力,從而減少卷積過程中的語義與細節信息損失,有利于豐富淺層特征圖的特征信息和對小尺度目標的檢測。

圖6 特征增強模塊Fig.6 Feature enhancement module

注意力機制在目標檢測、語義分割以及姿態估計等不同深度學習任務中得到廣泛應用,通過對卷積核提取的不同特征通道進行深度建模,從而增強重要特征信息的表達能力。Hu等提出了擠壓及激勵注意力模塊(squeeze-and-excitation networks,SENet),通過對不同特征通道的依賴關系建模,自適應地對特征通道進行加權,增強目標語義信息的特征表達。Woo 等結合通道與空間關系,提出了特征表征能力更強的混合域卷積注意力模塊(convolutional block attention module,CBAM)。在SENet的基礎上,Wang等提出一種高效通道注意力模塊(ECAM),如圖7所示,該注意力模塊通過全局平均池化(global average pooling,GAP)操作和全連接層FC 來捕獲特征圖的每個特征通道與其(<9)個相鄰特征通道的依賴關系,快速有效地提高對目標特征的表示。具體過程如下所示。

首先通過輸入特征塊的每個通道c進行GAP 操作,獲得全局感受野g

接著在不減少通道數的情況下,通過卷積核大小為(<9)的一維卷積1d進行跨通道交互學習,再經過Sigmoid 函數,就能得到每個通道c的權重w

最后將權重w與輸入特征塊進行逐通道相乘得到一個對目標語義信息表征能力更強的特征塊。

圖7 中的一維卷積1d中卷積核大小為奇數,且<9,故選取跨通道參數值為3、5、7 進行消融實驗對比,=3 時模型取得了最佳的檢測精度。

圖7 高效通道注意力模塊Fig.7 Efficient channel attention module

為了可視化所提高效通道注意力模塊對于小目標特征信息的提升效果,使用Grad-CAM方法來直觀地展示不同注意力模塊對淺層特征圖檢測小目標的影響。本文選取兩類典型的注意力模塊擠壓及激勵注意力SE 模塊、卷積注意力CBAM 模塊與本文的高效通道注意力ECAM 模塊進行熱力圖實驗對比。圖8 為加入不同的注意力模塊對尺寸大小為38×38的融合后的特征圖的熱力圖對比,圖中熱力圖的紅色部分越深說明對這部分的關注度越高。從圖8 可以看出,本文選取的ECAM 注意力模塊對模型的提升效果優于SE 模塊與CBAM 模塊,這是由于ECAM注意力模塊能夠更深層次地顯著學習特征圖不同特征通道的重要性,加權強化目標的重要信息,弱化抑制無關的不重要信息,從而加強淺層對小目標特征的感知表征能力。由于ECAM 模塊只是通過捕獲特征圖的每個通道及其個鄰域通道之間的相互依賴關系,相較于SE 模塊與CBAM 模塊用更復雜的計算量來進行通道改善,ECAM 模塊更加輕量化。

圖8 熱力圖的可視化Fig.8 Visualization of heat maps

針對淺層特征圖語義信息不足的問題,提出一種高效通道注意力模塊引導下的特征融合策略。如圖9 所示,通過結合高效通道注意力模塊來融合不同層次特征圖的特征信息從而增加淺層特征圖的語義信息。淺層特征基礎融合的工作原理如式(6)所示:

圖9 特征融合模塊Fig.9 Feature fusion module

其中,、、表示需要進行融合的特征圖,、、表示在融合前進行的變換函數,先將特征圖通過特征增強結構得到尺寸大小以及通道數都不變的特征圖,為了減少計算量,將、特征圖通過1×1 卷積進行通道降維,使通道數都變為256 個,接著對其分別進行2 倍和4 倍上采樣,這里使用雙線性插值上采樣的方式來代替反卷積上采樣從而減少算法的計算量,使得輸出的特征圖、尺寸統一為38×38。 φ表示特征融合操作,X表示獲得的基礎融合特征圖,通過Concat(concatenate)的特征融合方式對特征圖、、進行特征圖拼接操作得到的特征圖通道數為768,尺寸大小為38×38,再經過3×3 卷積減小上采樣的混疊效應,最終得到淺層增強特征圖。所提的特征融合策略中加入BN 層進行批歸一化處理有利于加快模型收斂和訓練速度,防止梯度消失,提高網絡的泛化能力。BN 層后面加入ReLU 激活操作有利于神經網絡學習到更多非線性關系。但由于Concat 操作僅僅是在通道維數上對特征進行拼接,忽略了每個通道之間的相互關系,這種特征融合方式不能反映特征通道之間的重要性,因而在Concat 融合操作之后加入了高效通道注意力ECAM 模塊。ECAM 模塊對不同特征通道加權,充分挖掘小目標的上下文語義特征信息,從而對淺層與深層進行更深度的特征融合。實驗結果表明所提特征融合策略能顯著提高模型對小目標的檢測精度。

3 實驗結果與分析

3.1 實驗平臺與參數設置

實驗在Python3.6 以及Pytorch1.2 的深度學習框架上進行,使用的操作系統為Ubuntu16.04,使用CUDA9.0 和cuDNN7.0 進行加速GPU 運算,GPU 由4塊英偉達GTX1080Ti(11 GB 顯存)組成。

模型訓練采用隨機梯度下降算法(stochastic gradient descent,SGD)對網絡模型的權重進行更新優化,算法參數設置批次batch size 大小為32,初始學習率為0.001,學習率衰減權重為0.000 5,動量因子取0.9,最大迭代次數設置為400 000。

3.2 實驗數據

實驗數據集為PASCAL VOC數據集和HRRSD航空遙感數據集。PASCAL VOC 數據集包含PASCAL VOC2007 和PASCAL VOC2012,總共20 類目標,訓練的圖片總共16 551 張,測試圖片4 952 張。HRRSD 航空遙感數據集是中國科學院制作的遙感圖像目標數據集,包括13 類目標,總共21 761 張圖片。

3.3 評價指標

使用mAP(mean average precision)作為算法檢測精度的評價指標,每秒處理圖像的幀數(frame per second,FPS)作為檢測速度的評價指標。mAP 定義為所有類別平均準確率(average precision,AP)的平均值。平均準確率定義為:

其中,代表召回率,代表準確率。

3.4 實驗結果分析

實驗通過聯合訓練VOC2007 與VOC2012 數據集300 000 次迭代,并在VOC2007 測試集上進行測試得到實驗結果,當輸入圖片尺寸為300×300 時,模型的檢測精度mAP 為80.2%;輸入圖片擴大為512 ×512 時,模型的檢測精度mAP 為82.3%。如表1 所示,將改進后的算法與當前一系列目標檢測算法在VOC2007 測試集上進行比較,所提算法較SSD 算法的檢測精度分別提高了3.0 個百分點與2.8 個百分點;在輸入圖片尺寸為300×300 時,較Faster-R-CNN 算法的mAP提高了7.0個百分點;與骨干網絡為Darknet-19 的YOLOv2 相比,本文算法的mAP 提高了3.4 個百分點;與骨干網絡為Darknet-53的YOLOv3相比,mAP提高了0.9 個百分點;與BPN(bidirectional pyramid networks)相比,檢測精度幾乎持平,但所提算法的檢測速度明顯優于BPN 算法。所提算法在輸入圖片尺寸為300×300 和512×512 的檢測速度為48 frame/s和32 frame/s,雖然檢測速度較SSD 稍慢,但準確率得到了較大提升,仍然具有實時性。

表1 在VOC2007 測試集上不同算法的對比Table 1 Comparison of different algorithms on VOC2007 test set

為了進行更詳細的分析,本文從20 類不同的目標類別中選取了5 類具有代表性的小目標種類。表2為不同算法在VOC 數據集上對于這5 類小目標的檢測效果。從表2 可以看出所提算法的小目標平均檢測準確率明顯優于其他算法。相比于SSD 算法,模型對5 種小目標的平均檢測精度分別提高了6.8 個百分點與10.2 個百分點。明顯可以看出對于瓶子、椅子以及盆栽這些尺度較小的目標提升效果顯著,從而更加驗證了所提算法在小目標檢測上的有效性。

表2 在VOC2007 數據集上的小目標檢測結果對比Table 2 Comparison of small object detection results on VOC2007 dataset %

圖10 為所提算法與目前性能優異的檢測算法的散點圖,縱坐標為檢測精度mAP 值,橫坐標表示檢測速度值。Faster R-CNN、R-FCN、YOLOv2、DSSD(deconvolutional single shot detector)算法是在Titan X測試的,其余算法是在1080Ti 上測試的。從圖10 中可以看出,所提算法的檢測性能優于其他的目標檢測算法。

圖10 不同檢測算法的速度和精度的散點圖Fig.10 Scatter plot of speed and accuracy of different detection algorithms

如圖11 所示,所提算法與SSD 算法在PASCAL VOC2007 測試集上選取較難檢測到的小目標圖片進行檢測結果對比。其中,圖11 上面為SSD 算法的檢測結果,下面為所提算法的檢測結果。從圖11 明顯看出,所提算法相比SSD 算法,取得了更好的小目標檢測效果,可以有效地減少小目標誤檢、漏檢以及被遮擋的情況。從圖11 中的檢測對比圖可以看出,較難檢測到的小尺度目標船只以及被遮擋住的小綿羊都能更多更準確地檢測出來,更進一步證明了本文采取的有效的改進方法通過增強淺層的語義上下文特征信息,提高了模型對小目標的檢測性能。

圖11 SSD 算法與本文算法在PASCAL VOC2007 測試集上的定性對比Fig.11 Comparison between SSD algorithm and our algorithm on PASCAL VOC2007 test set

航空遙感圖像中多為方向錯亂、背景復雜的小目標。圖12 是SSD 算法與本文算法在遙感數據集上的定性檢測效果對比圖。表3 是各算法在航空遙感數據集中選取的4 類小目標的檢測性能對比。從表3的結果可以看出,所提算法在選取的4 類小目標的平均檢測準確率,相比SSD 算法76.5% mAP 的檢測精度,提高了13.4 個百分點。同時,明顯可以看出所提算法在選取的船只、儲油罐、飛機等小而密的目標上檢測效果突出,證明所提算法滿足遙感小目標檢測場景的精度要求。并且從圖12 的定性檢測結果對比圖也可以看出,所提算法對遙感圖像中的小目標的檢測效果明顯優于SSD 算法,能夠檢測到的小目標飛機、船只數量明顯多于SSD 算法,證明了所提算法對檢測小目標的有效性。

表3 不同算法在HRRSD 數據集上的結果對比Table 3 Comparison of different algorithms on HRRSD dataset

圖12 SSD 與本文算法在HRRSD 數據集上的定性對比Fig.12 Comparison between SSD algorithm and our algorithm on HRRSD dataset

3.5 消融實驗

在消融實驗中,對算法所提模塊進行了對照實驗。從表4 可以看出,骨干網絡Darknet-53 對于特征提取有顯著效果,準確率提高了0.7 個百分點,證明了該骨干網絡能夠增強特征的表達能力。提出的骨干增強網絡在準確率上提高了模型0.4 個百分點。此外在特征融合前對淺層特征圖進行了特征增強,該結構能夠豐富特征圖的多尺度信息,對于模型檢測準確率,提高了0.3 個百分點。對淺層特征圖進行的特征融合對于模型的準確率提高了0.7 個百分點,證明該特征融合能夠一定意義上將淺層的細節信息與深層語義信息進行融合,從而增強淺層特征圖的語義信息。消融實驗中選取的3 組不同的注意力模塊對模型性能影響的對比實驗與最后ECAM 模塊中值大小不同的3 組對照實驗表明,當跨通道參數=3 時,所提的高效通道注意力模塊能夠使模型檢測精度達到最佳,檢測性能效果優于注意力SE 模塊與CBAM 模塊。

表4 PASCAL VOC2007 測試集模型簡化測試Table 4 Ablation studies on PASCAL VOC2007 test set

另外針對本文所提的在Darkenet-53 網絡中構建新的分組殘差結構以及高效注意力模塊引導深淺特征的融合這兩個改進方法對模型檢測小目標的影響,本文對不同階段的淺層特征圖進行了可視化結果對比。如圖13 所示,第二列為兩種方法都沒有參與,第三列為僅使用了分組殘差結構構成的骨干增強網絡改進,第四列為同時使用了新的分組殘差結構以及通道注意力機制引導深淺特征的融合這兩個改進方法。從圖13 可以看出,這兩種方法對小目標的檢測均是有利的,淺層的空間細節信息與上下文語義信息在逐漸增加,因而對于模型檢測小目標,這兩種方法都改善了對小目標的檢測效果。

圖13 兩種改進方法對淺層特征圖的影響Fig.13 Influence of two improved methods on shallow feature map

4 結束語

為了更好地檢測小目標,本文提出了一種融合注意力機制的深層次小目標檢測算法。通過改進Darknet-53 中的殘差連接來提高骨干網絡的特征提取能力,設計了一種淺層特征增強網絡,通過高效通道注意力模塊對淺層與深層進行特征融合從而改善淺層語義信息不足的問題。實驗結果表明,所提算法在所選的數據集上表現突出,能夠有效地提高小目標的檢測精度。未來的工作將繼續探索在復雜場景(目標模糊、遮擋等)下的小目標檢測方法。

猜你喜歡
淺層卷積注意力
晉西黃土區極端降雨后淺層滑坡調查及影響因素分析
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
淺層換填技術在深厚軟土路基中的應用
如何培養一年級學生的注意力
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
A Beautiful Way Of Looking At Things
近30年陳巴爾虎旗地區40厘米淺層地溫場變化特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合