?

基于YOLOv5 的高分辨率遙感圖像目標檢測算法

2023-10-31 09:39李在瑞鄭永果東野長磊
智能計算機與應用 2023年10期
關鍵詞:尺度卷積特征

李在瑞, 鄭永果, 東野長磊

(山東科技大學 計算機科學與工程學院, 山東 青島 266590)

0 引 言

近些年,隨著衛星及遙感技術的發展,遙感圖像的目標檢測在城市規劃、災情救援、車輛監控等各種實際應用中起到了至關重要的作用[1]。 深度學習技術的迅速發展,使得目標檢測有了重大突破,許多高性能的神經網絡算法被提出[2]。 目前,基于深度學習的目標檢測算法可以大致分為二階段算法和一階段算法兩類,二階段算法專注于提升模型對目標的檢測精度,一階段方法則在追求精度的基礎上又兼顧了檢測速度。

二階段算法的經典模型是Fast R-CNN[3],其使用Region Proposal Network(RPN)來選擇對象的候選邊界框,隨后又進一步篩選出較為準確的目標區域。 特征金字塔網絡(FPN)[4]使用類似金字塔的結構來學習不同尺度的特征。 Tridentnet[5]通過引入擴展卷積來改變大小最佳的感受野,并基于不同大小的感受野構造多分支結構,從而解決多尺度檢測問題。 一階段模型中,SSD[6]增加了多個卷積層,以獲得多尺度特征圖進行預測,并設計不同大小的先驗邊界框以更好地檢測目標。 YOLOv4[7]采用了更為高效的csp-darknet 作為主干網絡并設計多尺度預測。 TPH-YOLOv5[8]則將Transformer 與網絡相結合,增強模型提取特征的能力。

以上算法雖然在識別自然圖像時都表現出了良好的效果,但由于遙感圖像存在背景復雜、目標尺度變化范圍大、物體分布密集等檢測難題[9],通用目標檢測算法對高分辨率遙感圖像的檢測具有很大的局限性[10]。 為解決上述問題,本文基于YOLOv5 框架,提出特征信息補充與加強以及多尺度融合的方法,以增強模型的檢測能力。

1 相關工作

1.1 YOLOv5 模型

隨著YOLO 系列網絡的提出,其在各種視覺檢測任務中展現了出色的性能。 其中,YOLOv5 主干網絡是由Focus 模塊、CSP 結構以及SPP 模塊組合而成。 Focus 模型會對圖片進行切片操作,在寬和高兩個維度上每隔一個像素取一個值,從而使特征圖的通道數變為原來的4 倍,能夠在最大程度減少信息損失的同時實現兩倍下采樣。 YOLOv5 在CSPNet[11]的基礎上重新設計csp 結構,并在原本的darknet 網絡中大量插入該結構。 spp 模塊對特征圖做不同大小的池化操作,從而在原特征圖的基礎上融合不同感受野,豐富上下文信息[12]。

YOLOv5 在Nick 部分結構參考了FPN 和PAN。首先,設計自頂向下路徑來融合網絡中不同層次的特征,將包含豐富語義信息的深層特征向下傳遞與淺層結合,能夠提高模型對多尺度目標的檢測能力;后又增加自底向上的金字塔結構,把淺層特征映射到深層網絡,補充檢測目標的細節及空間信息,進一步提升模型的檢測效果。 同時,在nick 部分應用csp2_x 結構,使用X個卷積模塊替代殘差單元。

Head 部分則對圖片進行預測與分類,YOLOv5 設計3 種尺寸的特征圖來檢測大中小不同種類的目標,最后通過非極大值抑制來篩選預測框,實現檢測過程。

1.2 Transformer 模塊

Transformer 模塊早先廣泛應用于NLP 領域,通過自注意力機制來捕獲序列元素之間的依賴關系,在可并行性和特征提取方面展現了出色的性能[13]。近些年來,許多計算機視覺的學者開始將其作用于圖像相關的研究上。 Parmar 等人提出 Image Transformer[14]算法,基于Transformer 解碼器用于圖像生成任務;隨后Vision Transformer[15]被提出,并首次在大型圖像數據集上展現出超越卷積網絡的性能,在圖像分類方面具有較強的泛化能力;Swin Transformer[16]則采用移動窗口的機制來計算注意力,有效解決了傳統Transformer 模塊中計算復雜度較高的問題,并通過不同窗口之間的特征交互提取到更為豐富的語義信息。

Transformer 由編碼器和解碼器兩部分組成,基本原理是通過將圖片展開成一維,得到圖像特征張量,輸入到編碼器部分使用多頭自注意力學習目標特征,增強圖像中目標的語義信息,再利用解碼器與解碼器協同訓練,學習注意力規律來強化目標和特征之間的關聯關系,進而提升檢測效果。

2 R-YOLOv5 遙感圖像目標檢測算法

R-YOLOv5 目標檢測算法結構如圖1 所示。 首先,在YOLOv5 的主干網絡CSPDarkNet 中使用跨階段局部擴張結構,替代原本的跨階段局部網絡結構;其次,在主干網絡的輸出特征圖瓶頸部分結合Transformer 模塊中的編碼器;最后,在原本的Nick部分嵌入多尺度特征融合模塊。

2.1 跨階段局部擴張結構

跨階段局部網絡結構(Cross Stage Partial Structure,CSP)被大量應用到YOLOv4 的主干網絡,YOLOv5 又在v4 的基礎上將其與nick 部分結合。CSP 結構包括兩個分支:一是將輸入特征圖進行X個殘差單元的卷積操作,另一部分進行簡單的3*3卷積計算特征后,與上一分支結合。 CSP 結構能夠增強網絡的特征提取能力,使模型獲取到更為豐富的語義信息。

針對遙感圖像中檢測目標尺度變化較大,物體分布密集的特性,對CSP 結構進行改進,提出跨階段局部擴張結構( Cross Stage Partial Dilated Structure,CSPD),如圖2 所示。 首先,保持殘差單元分支不變,在另一分支中使用6 個連續的擴張卷積,擴張率分別為3、6、12、18、24,來獲取同一特征圖的不同感受野,從而覆蓋遙感圖像中各種不同尺度的檢測對象。

圖2 跨階段局部擴張模塊結構圖Fig.2 Cross Stage Partial Dilated module

其次,當圖像中目標分布較為緊密時,使用擴張卷積會丟失特征信息,為了避免檢測對象的漏檢現象,在連續的6 個擴張卷積基礎上采用密集連接結構,將原特征圖與每層的卷積分別做逐個元素的加操作,從而加強特征的傳播,豐富語義信息。

2.2 瓶頸Transformer 結構

YOLOv5 主干網絡分別輸出3 個不同層次大小的特征圖,作為后續多尺度特征融合部分的輸入。將主干網絡中負責輸出特征圖的瓶頸(Bottleneck)部分與Transformer 模塊中的編碼器相結合(如圖3所 示), 提 出 瓶 頸 Transformer 結 構( TR -Bottleneck),提高模型對語義信息的提取能力,豐富圖像全局信息,抑制背景對目標識別的影響。

圖3 瓶頸Transformer 模塊結構圖Fig.3 Transformer bottleneck module

首先,將圖片做切分并降低維度,即將原本H*W*C的圖像變為N*(P2*C) 的Tokens,其中隨后輸入Encoder 中的多頭注意力機制,進一步做特征提取,如式(1)所示:

式中:Q、K、V分別為輸入多頭注意力的查詢向量、鍵向量、值向量,dk代表特征維度。 將查詢向量與鍵向量相乘后,經過softmax 激活函數并歸一化處理,再與V相乘加權,得到輸出結果。

最后輸入由兩個全連接層及激活函數組成的MLP(前饋神經網絡)得到整個Transformer 模塊的輸出特征,并與Bottlenck 結構的特征信息結合。

2.3 多尺度特征融合模塊

YOLOv5 輸出的3 種尺寸的特征圖,分別對應大中小不同的檢測對象,高層語義信息中檢測大目標,低層語義信息中檢測小目標,而遙感圖像中往往既有大目標又有小目標。 特征融合時,由于不同層間特征的不一致性,將會影響最后的檢測結果。 為了緩解上述問題,更好的讓網絡利用高低層語義信息,在nick部分的最后,嵌入多尺度特征融合模塊(Multi Scale Feature Fusion Module,MSF),如圖4 所示。

圖4 多尺度特征融合模塊結構圖Fig.4 Multi-scale feature fusion module

首先將3 種尺寸的特征圖進行采樣操作,調整到同一尺寸;再根據通道維度整合并接入SoftMax函數生成權重參數;最后3 層特征分別乘上各自的權重參數,得到融合后的特征,表達如式(2)所示:

式中:x1、x2、x3分別為3 種尺寸的特征圖,cat表示對特征圖做通道維度的整合, ?表示點乘操作,f則為最終的輸出特征。

3 實驗

3.1 實驗環境與數據集

實驗在linux 系統下進行,所用GPU 為Tesla P100,顯存16 G,深度學習框架為pytorch。 實驗所用遙感數據集為DIOR,其中包括23 463 張圖像,訓練與測試各取一半的樣本。

3.2 評價指標

實驗采用平均精度均值(mAP)、平均精確率(AP) 作為評估指標,AP和mAP是可以反映多類別目標全局檢測精度的指標在文獻中被廣泛用于評估多類別目標檢測性能表達如式(2)、(3)所示:

其中,平均精度AP表示的是計算單類目標P - R曲線下面積的結果,p為精確率,R為召回率;而mAP是所有類別AP的平均值;N為檢測目標的類別總數;APi表示第i個類別的平均檢測精度。

3.3 算法流程

如圖5 所示,R-YOLOv5 算法首先對輸入的遙感圖像進行預處理,擴展圖像數據;其次,根據模型配置文件搭建網絡結構,讀取訓練參數,并根據訓練結果更新網絡參數;最后,加載訓練權重與測試數據集,輸出模型的預測圖像。

圖5 R-YOLOv5 算法流程圖Fig.5 R-YOLOv5 algorithm flowchart

3.4 實驗結果

表1 為本文算法R-YOLOv5 與不同目標檢測模型在DIOR 數據集下的實驗結果。 其中包括一階段模型Faster-RCNN,以SSD、RetinaNet、YOLOv4 為代表的二階段模型,及無錨方法YOLOX。

表1 DIOR 數據集下對比試驗Tab.1 Results on Dior dataset %

由表1 可知,R-YOLOv5 對飛機、機場、船、橋、車輛等密集分布、大小尺度不一目標的精度均有不同程度的提高,具有良好的表現。

圖6 所示為R-YOLOv5 對密集分布、大小尺度不一目標的效果圖。 這兩種情況在檢測過程中都較易對目標錯檢或漏檢,模型識別的難度較大。 如圖6(a)、(b)中飛機與油罐的分布較為密集,模型對此類目標能夠較為全面的做出識別;圖6(c)、(d)中車輛與橋梁、棒球場與網球場等各類物體的尺度變化給模型帶來了檢測難題,結果表明,R-YOLOv5 可以較為準確的檢測出目標對象。

圖6 R-YOLOv5 檢測結果Fig.6 R-YOLOv5 detection result

4 結束語

基于高分辨率遙感圖像存在檢測對象密集度高、大小不一等問題。 本文提出R-YOLOv5 算法,通過擴大感受野和增強特征信息以及改善特征融合來提高模型對密集物體以及多尺度目標的檢測精度。 實驗表明,本文提出的目標檢測算法在遙感數據集上具有較好的識別能力。

猜你喜歡
尺度卷積特征
基于3D-Winograd的快速卷積算法設計及FPGA實現
財產的五大尺度和五重應對
如何表達“特征”
從濾波器理解卷積
不忠誠的四個特征
基于傅里葉域卷積表示的目標跟蹤算法
抓住特征巧觀察
宇宙的尺度
9
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合