?

融合全局上下文注意力的遙感圖像檢測方法

2024-03-04 13:19朱文球雷源毅
兵器裝備工程學報 2024年2期
關鍵詞:注意力卷積樣本

廖 歡,朱文球,雷源毅,徐 軻

(湖南工業大學, 湖南 株洲 412000)

0 引言

遙感圖像的目標檢測技術在軍用和民用領域都發揮著不可或缺的作用,具有重要的應用價值。遙感圖像目標檢測技術旨在復雜的遙感背景圖像中找到需要的目標,如飛機、油罐、車輛等[1],并精確地對其進行位置定位和分類。然而,由于遙感圖像背景復雜度高、目標尺寸多樣性高等特點,使得檢測的目標存在過高的誤檢和漏檢問題。傳統基于人工提取圖像特征,如HoGDetector、DMP算法,其設計復雜、效率以及泛化能力低下。近些年來,深度學習在目標檢測中取到了重大的進展。通過構建深度神經網絡訓練大量數據來學習目標的特征信息,較傳統的手工提取特征算法已經取得了更好的精度,并且實現起來更加方便、效率更高。目前,基于深度學習的目標檢測算法主要分為2種類型。一類是基于候選框的兩階段目標檢測算法,最經典的是Girschick提出的R-CNN[2]、Fast-RCNN[3]和Faster-RCNN[4]算法,其設計復雜、消耗資源多且檢測速度較慢;另一類是基于回歸的單階段目標檢測算法,具有代表性的是SSD[5]、Retina-Net[6]和YOLO[7-10]系列方法。相較于兩階段目標檢測算法,單階段目標檢測算法不僅在在網絡設計結構層次方面更加簡單,而且在檢測精度、速度方面也更優。其中YOLO系列的YOLOv5模型在精度和速度方法具有很高的檢測能力,在學術界和工業界都使用廣泛。

綜上所述,本文中提出一種融合全局上下文注意力機制的遙感圖像目標檢測算法。在YOLOv5s的6.1版本基礎上,設計一種全局上下文注意力機制和YOLOv5中C3結構融合的模塊C3_GC,提升網絡模型對圖像全局特征的捕捉能力;使用VariFocal Loss作為模型置信度和分類損失,以此提高對圖像小目標的召回率;采用基于歸一化的注意力模塊,用來降低圖像中不太顯著的權重;利用動態卷積在降低模型參數情況下,提升網絡模型對目標的檢測精度。

1 YOLOv5

YOLOv5根據網絡深度和寬度的不同,劃分了YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x等4個網絡模型,其中YOLOv5s是模型容量、復雜度最小的一個。由于本實驗數據集不夠大,因此選取YOLOv5s的6.1版本模型作為基礎模型,具體結構如圖1所示。

YOLOv5s主干網絡主要由C3、CBS和SPPF結構組成。C3結構主要借鑒了跨階段網絡CSPNet[11]的思想,將輸入特征分為2個部分處理。主干部分通過卷積、歸一化和激活函數逐步提取特征,分支僅僅通過卷積層調整通道;通過劃分梯度信息,消除了大量的梯度冗余信息。CBS結構由卷積Conv、歸一化BatchNorm和激活函數SiLU組成,用于提取模型的特征。SPPF結構將輸入特征串行通過多個5×5的最大池化層,再經由CBS網絡結構提取堆疊的特征,能夠增大網絡的感受野,提升網絡的表征能力。

圖1 YOLOv5s網絡結構示意圖

YOLOv5s模型沿用了YOLOv4中自頂向下和自定向下的多尺度融合方式,并且引入了CSP結構,然后將特征信息傳入到檢測層中。

YOLOv5s一共有80×80、40×40和20×20等3個不同尺度的檢測層,用于預測大中小目標的類別和位置預測。然后通過非極大值抑制算法等后處理操作,輸出置信度分數最高物體的類別信息。

2 模型改進

2.1 融合全局上下文注意力機制

在目標檢測領域中,一般通過深度卷積神經網絡去提取圖像的特征信息。而深度卷積神經網絡是基于其局部的像素點進行感知,要想獲得長距離的依賴關系,一般通過多次堆疊卷積層來獲取。然而,直接重復堆疊卷積層使得模型計算效率低下,且在長距離間會導致信息傳遞困難,難以優化。

圖2 Global Context Modeling網絡結構示意圖

GC[12]模塊由Context Modeling和Transform 2個模塊組成,其結構示意圖如圖2所示。圖2中,H和W分別表示特征圖的高度和寬,C表示特征圖的通道數。輸入圖像首先通過Context Modeling中1×1的卷積和Softmax操作計算出注意力權重特征圖,然后和輸入進來的H*W*C進行矩陣相乘,且將每一個通道的特征層內所有值相加得到C*1*1的全局關系。然后,通過Transform結構中,2個1×1的卷積降低參數量,此外還采用了LayerNorm來減少模型優化的難題。最后通過廣播機制將H*W*C和C*1*1的全局信息按元素信息進行相加,得到強化圖像全局重要信息的輸出結果。為了解決長距離信息依賴問題,提出一種融合全局上下文注意力機制的C3模塊,命名為C3_GC。圖3即為C3_GC模塊的結構示意圖。

圖3 C3_GC網絡結構示意圖

2.2 Varifocal Loss損失函數

遙感圖像目標檢測較難的一個問題是圖像中目標類別和背景類別極端不平衡,其中檢測目標僅僅占很少的圖像區域。這會導致網絡模型對檢測目標的學習效率降低,過多地去關注背景類的特征信息。Focal Loss[13]損失函數可以解決目標類與背景類數據不平衡的問題,定義為

(1)

式(1)中:p是模型預測為目標的概率,取值在0和1之間;y的取值為-1或者1,分別代表背景和或者目標;α為可調節平衡因子;(1-p)γ為目標類調節因子,γ為背景類調節因子。2種調節因子可以提高對難檢測、誤檢的重視程度,且減少簡單樣本對模型損失的貢獻,使得Focal Loss能夠解決模型訓練時樣本數據不均衡的問題。

Focal Loss采用平等對待正負樣本的方式,而在實際的目標檢測中,正樣本對模型的貢獻更為重要。因此,提出一種基于binary cross entropy loss的損失函數,命名為varifocal loss[14]定義為:

(2)

式(2)中:p是IACS預測值,表示預測為目標類的得分;q表示分類的條件,對于目標類來說,將其設置為真實框和預測框之間的IOU閾值,否則設置為0,對于背景類來說,q值為0。

如式(2)所示,通過使用γ的因子縮放損失,varifocal loss僅僅減少了負樣本的損失貢獻,而不會對正樣本進行比例的縮放。負樣本損失貢獻減少,而正樣本損失相對來說增大,使模型能夠更加關注于目標類的相關特征信息。

2.3 歸一化注意力機制

注意力機制一般用于捕捉圖像的特征信息,不同的注意力機制是通過不同的關注機制獲取圖像不同特征維度上的信息。然而,常見的注意力機制缺乏分辨捕捉特征的重要程度,導致提取的特征效率低下。因此,提出一種基于歸一化的注意力模塊(NAMAttention)。

NAMAttention[15]從空間和通道2個維度去關注圖像的特征;較常規注意力機制不同的是,它通過控制比例縮放因子來判斷空間或者通道的方差值,以此來表示它們的重要程度。比例縮放因子越大,證明所捕捉圖像的空間或者通道特征更加重要,使得網絡會更加關注這些特征。

通道注意力機制模塊如圖4所示,比例因子γi的權重Wi反應出各個通道變化的大小以及通道的重要程度。

由于深度神經網絡模型一般隨著深度的增加,特征圖的通道數會增大,更多的信息存放在通道信息中。因此,這里將NAMAttention的通道注意力機制模塊,加入到YOLOv5s的檢測頭位置,充分獲取通道的特征信息。

圖4 通道注意力機制

2.4 多維動態卷積

在深度神經網絡領域,常規卷積只有一個靜態卷積且與輸入樣本沒有建立聯系,導致卷積缺乏動態變化性,提取特征效果差。近些年來,動態卷積使用越來越廣泛,如DyConv和CondConv,它們在卷積核上添加注意力機制,使卷積核與輸入的樣本存在緊密關系,賦予了卷積核的動態特性,使模型的精度得到進一步的提高,它們都忽略了輸入通道、卷積核空間和輸出通道維度的注意力關注。因此,提出一種多維動態的卷積(ODConv)。

ODConv沿著空間、輸入通道、輸出通道以及卷積核空間的核維度學習更豐富的注意力,且采用更少的卷積核,使其在取得更優性能的同時也能降低計算量。詳細結構如圖5所示。

圖5 多維動態卷積

3 實驗結果分析

3.1 實驗環境配置

實驗環境如表1所示,集成開發工具使用Pycharm。

表1 實驗環境配置

3.2 數據集和評價指標

實驗使用的遙感數據集是NWPU VHR-10。NWPU VHR-10是一個用于空間物體檢測的10級地理遙感數據集,由西北工業大學于2014年發布,擁有650張包含目標的圖像和150張背景圖像。數據集種類包括田徑場、港口、橋梁、飛機、油罐、艦船、汽車、網球場、籃球場和棒球場10個類別。

目標檢測領域中,通常使用準確率(Precision)、召回率(Recall)和平均檢測精度(mAP)來衡量模型的好壞。

(3)

(4)

(5)

(6)

式(3)—式(6)中:TP為正確檢測出正樣本的數量;FN為漏檢的正樣本數量;FP為誤檢的負樣本數量;AP為單個類別的準確率;mAP為平均檢測精度;c代表類別的個數。

3.3 網絡訓練及參數設置

由于實驗數據集的數據量較少,這里選擇YOLOv5s作為實驗基礎模型,且開啟Mosaic數據增強。

實驗使用ImageNet上的YOLOv5s的預訓練權重進行遷移學習。選取數據集中70%樣本為訓練集,20%樣本作為驗證集,10%樣本作為測試集。實驗采用隨機梯度下降優化器(SGD),批處理大小(batch size)設置為16,循環次數設置為100個epochs。

YOLOv5s模型訓練包括目標框、置信度和分類三大損失,實驗改進方法在驗證集上的損失率曲線如圖6所示。

圖6 損失率曲線

模型的損失隨著迭代次數的增加而減少,在迭代次數達到80次之后損失值趨于穩定,且接近為0,說明模型訓練已達到最優效果。

3.4 結果分析

通過在NWPU VHR-10數據集的驗證集上進行了消融實驗,來證明改進之后模型的有效性,實驗結果如表2所示。

表2 消融實驗

進一步對實驗表格進行可視化展示,如圖7所示。

圖7 mAP橫向對比

其中,C3_GC代表在C3模塊中融合GC全局上下文注意力機制;VF代表varifocal loss;NAM代表的是歸一化注意力機制;ODConv代表的是動態卷積。

實驗提出改進方法的消融實驗結果如表2所示,提出的新模塊C3_GC,P、R、mAP分別提升2.5%、0.6%、1%;損失函數改進為VF,P、R、mAP分別提升3.9%、2.3%、2%;采用NAM,P、R、mAP分別提升1.1%、1.5%、1.7%;利用ODConv,P、mAP分別提升3%、0.4%,R下降0.8%;整體的P、R、mAP分別提升了1.8%、4.7%和2.2%。雖然本文中方法的mAP不是最高,但從P、R和mAP綜合來看是最優模型。

通過分析數據集圖像,提出的C3_GC模塊,讓骨干網絡捕捉到更多的淺層特征信息;使用歸一化通道注意力機制,增強網絡模型對深層次信息的關注,與SE、ECA等常規注意力機制相對比,mAP提升更高,如表3所示。這些操作都使得模型的平均檢測精度更高;改進的多維動態卷積,在不同維度上提取特征圖的信息,提升了模型的檢測精度,即使召回率有些許下降,但模型的計算量也隨之下降,如表4所示。另外varifocal loss 通過突出正樣本數據,顯著提高了模型的召回率。

表3 注意力機制對比

表4 模型計算量

為了驗證實驗所改進算法的先進性,同樣采用驗證集,對算法進行對比實驗,將其與主流的目標檢測算法進行對比。由表5可知,改進的實驗方法獲得了最優的mAP值結果。

表5 模型性能對照表

進一步,對所改進方法在測試集的目標檢測結果進行可視化展示,圖8、圖9和圖10給出了YOLOv5s和所改進方法在幾個典型遙感圖像樣本上的檢測結果示例,其中左圖表示原YOLOv5s模型,右圖表示改進后的算法模型。從圖8可以看出,在高空拍攝下改進后的算法模型能夠減少漏檢小目標的問題;從圖9可以看出,檢測目標附近有各種不同的復雜背景信息;通過對比,改進算法在復雜背景下檢測的置信度更高,并且能夠檢測出由于遮擋而被漏檢的目標,從而在一定程度上提升了網絡模型的檢測效果。從圖10可以看出,改進后的算法模型能夠提升多尺度目標的檢測效果。

圖8 高空小目標檢測效果

圖9 復雜背景下檢測效果

圖10 多尺度下檢測效果

4 結論

通過驗證集實驗數據表明,本文中所改進的方法有效提升了遙感圖像目標檢測的準確率、召回率和平均檢測精度,同時降低了模型的計算量。此外,當前Mosaic4數據增強,雖然能夠增加數據樣本的多樣性,但同時也讓小目標的尺寸相對變的更小,會導致模型檢測精度、召回率難以有質的提升,后續研究將在不改變目標相對尺寸的前提下,嘗試更多的數據增強方式。

猜你喜歡
注意力卷積樣本
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
用樣本估計總體復習點撥
從濾波器理解卷積
推動醫改的“直銷樣本”
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
隨機微分方程的樣本Lyapunov二次型估計
A Beautiful Way Of Looking At Things
村企共贏的樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合