?

基于RSSD 的遙感圖像目標檢測算法

2024-04-02 03:42呂向東彭超亮陳治國孫鵬飛趙曉楠
現代電子技術 2024年7期
關鍵詞:注意力精度特征

呂向東,彭超亮,陳治國,孫鵬飛,趙曉楠,徐 旸

(1.山東港口青島港集團有限公司,山東青島 266001;2.中車長江運輸設備集團有限公司,湖北武漢 430065)

0 引 言

遙感圖像擁有廣闊的視野和豐富的信息,廣泛應用于偵查監視、資源勘探、災害監測、軍事作戰等領域[1]。遙感圖像目標檢測是遙感圖像解譯的重要分支之一,對于挖掘圖像的感興趣區域信息至關重要。傳統的目標檢測方法有基于統計的目標檢測、基于知識的目標檢測以及基于模型的目標檢測[2]等,這些方法由于需要人工設定先驗條件,穩健性差、智能程度低,難以用于檢測背景信息復雜的遙感影像目標。隨著深度學習技術的迅速發展,遙感圖像的目標檢測技術實現了重大突破,并已成為當前的研究熱點。然而,遙感圖像存在背景復雜、目標空間占用比小等特點,對遙感圖像目標檢測帶來了極大挑戰[3]。

2012 年,卷積神經網絡(Convolutional Neural Network, CNN)在ImageNet[4]圖像分類比賽中取得巨大成功,推動了深度學習在圖像目標檢測領域的應用,并逐步取代傳統的目標檢測方法。目前基于深度學習的目標檢測方法大致分為兩類:一類是基于區域的目標識別方法,如Faster R-CNN[5]、R-FCN[6],這些算法將目標檢測分為兩個階段,先使用區域候選網絡(Region Proposal Network, RPN)提取候選目標信息,再利用檢測網絡預測和識別候選目標的位置和類別,稱為雙步目標檢測算法;另一類是基于回歸的目標識別方法,如SSD(Signal Shot MultiBox Detector)[7]、YOLO(You Only Look Once)[8]等,此類算法直接通過網絡產生目標的位置和類別信息,稱為單步目標檢測算法。文獻[9]利用Microsoft COCO[10]數據集對比分析了Faster R-CNN、R-FCN 及SSD三種檢測算法的性能,結果表明Faster R-CNN 算法精度最高,SSD 算法速度最快。文獻[11]采用多層特征融合的方法改善SSD 算法在小目標檢測上的缺陷,提出了RSSD 算法,但該算法對淺層特征信息均進行特征增強,產生過多的特征圖,在提高檢測精度的同時降低了檢測效率。文獻[12]提出FPN(Feature Pyramid Network)方法,通過多尺度特征預測和特征融合提高檢測性能,但FPN 方法由于直接利用深一層的卷積特征增強反向特征,無法充分利用高層語義信息[13]。文獻[14]提出了一種利用ResNet101 改進SSD 的檢測算法,但其網絡層數太深,網絡結構過于復雜,會導致檢測速度大幅度降低。

為提高SSD 算法對遙感影像數據集中小目標特征的提取精度,提出基于RSSD 的遙感圖像目標檢測算法。該算法在SSD 網絡結構的基礎上,將基準網絡模型VGG 替換為殘差網絡模型ResNet-50,在網絡框架中引入注意力模塊,使得感受野更關注目標特征,增強低層網絡的信息表征能力,采用特征金字塔融合方法,融合網絡結構中的高層語義特征和低層視覺特征,將網絡的高層特征通過上采樣與低層網絡提取的特征進行融合,增強檢測目標的定位能力,提高小目標檢測的精度。

1 基于RSSD 的目標檢測算法

SSD 是Liu W 等在2016 年ECCV 上提出的一種目標檢測算法,是目前主要的目標檢測框架之一。SSD 算法同時具有Faster R-CNN 和YOLO 的優點,既可以提高檢測準確率又可以兼顧檢測速度。SSD 算法主要由兩部分組成:一是采用VGG-16 的前端基礎網絡提取圖像目標的初級特征;二是采用級聯的卷積神經網絡提取圖像目標的高級特征。SSD 算法采用特征金字塔網絡的檢測方式在特征圖上進行不同尺度的Softmax 分類和位置回歸。

SSD 算法用于檢測遙感圖像小目標時,網絡結構的基準網絡VGG 與預測小目標的卷積層Conv4_3 進行特征融合,將會出現在低級卷積特征層中語義信息不夠的問題,使得隨著遙感影像小目標數據集中圖片和網絡層數的增加,SSD 算法提取的特征信息不足,造成識別小目標的精度較低。為提高SSD 算法對遙感影像數據集中小目標特征的提取精度,提出基于RSSD 的遙感圖像目標檢測算法。RSSD 網絡結構如圖1 所示。

圖1 RSSD 網絡結構

RSSD 算法在SSD 網絡結構的基礎上,首先,將基準網絡模型VGG 替換為殘差網絡模型ResNet-50,通過增加網絡深度充分提取遙感圖像小目標數據集的底層特征。相比于VGG-16,ResNet-50 網絡層數更深,能夠更充分提取圖像的特征信息,且能有效避免梯度彌散和退化現象;相比于ResNet-101,ResNet-50 網絡層數較淺,適合訓練樣本數量較少的遙感影像數據集。其次,在網絡框架中引入注意力模塊,使得感受野更關注目標特征,增強低層網絡的信息表征能力。最后,采用特征金字塔融合方式,將網絡的高層特征通過上采樣與低層網絡提取的特征進行融合,增強檢測目標的定位能力,提高小目標的檢測精度。

2 特征金字塔融合

特征金字塔網絡是表達輸出CNN 網絡得到圖片信息的一種有效方法,在目標檢測中得到廣泛應用,并取得了顯著效果[15]。特征金字塔網絡通過對不同層的特征圖進行特征融合,預測多尺度的特征圖[16]。

SSD 算法引入ResNet-50 網絡后,為避免SSD 目標檢測算法中低層網絡語義信息不足導致特征提取不充分,造成檢測小目標效果較差的問題,利用圖像特征金字塔融合的方式搭建檢測模型,將上采樣的高層特征與低層網絡提取的特征進行融合。圖像特征金字塔預測流程如圖2 所示。

圖2 特征金字塔網絡預測流程圖

3 注意力機制

注意力機制的提出來源于人類視覺系統(Human Visual System, HVS)。為了合理利用有限的視覺信息處理資源,人類需要選擇并集中關注視覺區域中的特定部分,稱為注意力機制。圖像的局部特征提取可以看作一種注意力機制。注意力機制通常作為神經網絡的一個附加神經網絡,能夠對某些輸入的部分硬性選擇,或者將不同的權重分配給不同的輸入部分。

在ResNet-50 殘差網絡模型中引入注意力模塊,增強RSSD 網絡對遙感圖像中小目標特征信息的提取能力,提高檢測精度。注意力模塊主要由兩部分組成:一部分是通道注意力模塊(Channel Attention Module);另一部分是空間注意力模塊(Spatial Attention Module)。注意力模塊結構如圖3 所示。

圖3 注意力模塊結構

輸入的特征圖F經過通道注意力模塊時,空間維度被壓縮,經過共享全連接層MLP 生成通道注意力特征圖Mc。通道注意力模塊不僅考慮Average pooling,還引入Max pooling,計算公式如下:

式中:Fcavg和Fcmax分別表示在通道注意力模塊中經過Average pooling 和Max pooling 的特征圖;W0和W1表示多層感知機模型中的兩層參數;σ為sigmoid 函數。

通道注意力特征圖Mc通過第二部分空間注意力模塊的空間關系生成空間注意力特征圖Ms,空間注意力特征圖更加關注目標所在位置的特征信息,是對通道注意力部分的補充??臻g注意力模塊對注意力特征圖進行通道層面上的壓縮后,再對其通道維度上分別做Average pooling和Max pooling,得到的特征圖通道數為2,計算公式如下:

式中:F′表示經過通道注意力模塊計算之后的特征圖;和分別表示在空間注意力模塊中經過Average pooling和Maxpooling的特征圖;f7×7表示卷積核大小為7×7 的卷積運算;“?”表示元素乘法,在乘法過程中注意特征值被相應地傳播;F″為最終確定的輸出。最后,使用一個卷積核為1 的隱藏層進行卷積操作,生成最終的二維空間注意力圖。

4 實驗分析

為驗證RSSD 算法對遙感圖像目標的檢測效果,采用VEDAI 航拍遙感影像數據集進行測試分析。VEDAI是航空影像中車輛檢測的數據集,是一種在不受限制的環境中對目標檢測算法進行基準測試的工具。原始的大視場圖像被分割成1 024×1 024 像素并包含不同種類車輛以及其他混淆對象。VEDAI 數據集的圖像分為單通道紅外圖像和RGB 三通道彩色圖像,所有圖像都在與地面相同距離處拍攝,每張圖像平均包含約5.4 個車輛目標,占整個圖像總像素的0.07%,是典型的遙感影像小目標數據集。實驗硬件采用NVIDAI RTX2080Ti GPU,PC 機操作系統為Ubuntu 18.04,在Python 中基于Pytorch 深度學習框架構建算法模型。為了更好地適應GPU 顯存性能,選擇數據集中圖像大小為512×512 且RGB 三通道彩色圖像子集進行實驗[17]。VEDAI 數據集中包括9 類目標,分別為Boat、Camping、Car、Others、Pick_up、Tractors、Trucks、Vans 以及Plane。9 類目標數量如表1 所示。

表1 VEDAI 數據集中9 類目標數量

實驗中初始學習率為1.1×10-3,迭代30 000 次后學習率調整為1.1×10-4,迭代60 000 次后終止訓練,動量參數為0.9,權重衰退率為0.000 5,batch size 設置為8。

平均準確率均值(mean Average Precision, mAP)和每秒幀率(Frame Per Second, FPS)是目標檢測領域最常用的評價指標。mAP 定義為所有對象類別平均精度(Average Precision, AP)的平均值,AP可用積分計算表示:

采用SSD 算法和RSSD 算法分別訓練VEDAI遙感影像數據集的訓練集,并檢測測試集中的小目標。SSD 算法和RSSD算法的小目標檢測精度變化趨勢如圖4所示。

圖4 檢測精度變化趨勢圖

由圖4 可以看出,隨著迭代次數的增加,約在10 000 次迭代后,小目標檢測精度值保持平穩上升。經過大約40 000 次迭代后,SSD 算法的小目標檢測精度穩定在0.55 左右,而RSSD 算法的檢測精度穩定在0.60 左右,說明RSSD 算法較為明顯地提升了小目標的檢測精度。

為驗證RSSD 算法的性能,同時利用訓練集訓練SSD 算法和RSSD 算法在測試集上對9 類小目標進行檢測,各類目標檢測結果如表2 所示。

表2 各類目標檢測結果對比

實驗結果表明,相比于SSD 算法,本文提出的RSSD算法的目標檢測平均精準度由56.47%提高到63.26%,平均檢測精度得到顯著提升。特征金字塔融合有效地利用淺層特征層中豐富的局部細節信息和深層特征層的高層語義信息,提升了算法的泛化能力。RSSD 算法通過替換基準網絡,加深了原有網絡的層數,增加了提取特征信息的計算量,由于引入注意力機制也影響了算法的檢測速度,但是檢測效果有明顯提升。SSD 算法和RSSD 算法檢測VEDAI 數據集的部分目標檢測結果如圖5 所示。

圖5 VEDAI 數據集的部分目標檢測效果

由圖5 可知:SSD 算法對遙感圖像目標檢測存在明顯的漏檢、錯檢和準確率低的問題;RSSD 算法可以避免漏檢、錯檢目標,提升較小目標的檢測準確率。

5 結 語

為提高遙感圖像小目標的檢測效果,本文提出基于RSSD 的遙感圖像目標檢測算法。該算法采用殘差網絡模型ResNet-50 作為SSD 網絡的基準網絡模型,能夠提取更深層次的特征信息,且有效地避免梯度彌散和退化現象;引入注意力模塊,增強低層網絡的信息表征能力;通過圖像特征金字塔融合的方式對小目標進行位置回歸,提升了目標檢測效果。該算法增強了復雜背景的干擾抑制性,提高了較小目標的檢測精度,比SSD 算法的mAP 提升6.79%。

注:本文通訊作者為彭超亮。

猜你喜歡
注意力精度特征
讓注意力“飛”回來
如何表達“特征”
不忠誠的四個特征
基于DSPIC33F微處理器的采集精度的提高
抓住特征巧觀察
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
GPS/GLONASS/BDS組合PPP精度分析
改進的Goldschmidt雙精度浮點除法器
線性代數的應用特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合