基于YOLOv5的遙感圖像小目標檢測方法研究

2021-07-09 13:49劉博宇

電子樂園·中旬刊 2021年8期

劉博宇

摘要：針對現有目標檢測算法難以在遙感圖像中對小目標進行高精度檢測的問題，本文提出了一種基于YOLOv5s的遙感圖像小目標檢測改進算法。采用Mosaic mix對原有數據增強方式進行改進，豐富了樣本數據集;在網絡結構中引入CBAM注意力模塊，引導模型對小目標信息的關注，提升了網絡針對小目標的檢測性能。結果表明，改進后的算法相較于原始YOLOv5s的MAP值（IOU0.5）提升了3.12%，相較于YOLOv3算法也漲幅了1.35%。

關鍵詞：YOLOv5s算法;小目標;數據增強;CBAM注意力模塊

現階段目標檢測算法可分為兩大類，一種為以R-CNN[2-3]為代表的雙階段檢測，另一種為以SSD[4]、YOLO[5]為代表的單階段檢測。本文以YOLOv5s模型作為基礎針對小目標進行改進工作。

1 YOLOV5s算法

YOLOv5s網絡結構主要由主干網絡（Backbone）、頸部（Neck）、頭部（Head）三部分組成。在主干網絡Backbone部分，主要完成對輸入圖像的特征提取，其中包含卷積模塊（CONV）、瓶頸模塊（C3）以及金字塔池化（SPPF）。C3能夠提升網絡殘差學習能力及網絡運算速度。頸部Neck為特征融合網絡，采用自頂向下與自底向上聯合的特征融合方式，更好地融合了多尺度特征[6]。頭部Head輸出了包含類別概率、對象得分及輸出框位置的向量，網絡通過各檢測層輸出的向量生成目標的預測邊界框及類別概率。

2 改進的YOLOv5算法

2.1改進數據增強

Mosaic數據增強是對圖片進行隨機抽取、剪切、排列的操作方法。任意選取數據集中的4張圖片按順序拼接，最后縮放裁切為固定尺寸作為一張新的數據集圖片輸入模型。由于原始Mosaic數據增強中拼接方式隨機性較強、空間利用率不高，使得輸入模型的數據多為背景信息。針對小目標在檢測時精度低、易漏檢的問題，本文將原有的4張圖片擴充至9張。改進后一方面能夠減少無用信息輸入、提高模型訓練效率;另一方面增加小目標出現的概率、豐富數據集。

在此基礎上，我們對Mosaic數據增強進行更深層次的探究。在原先只利用一種Mosaic增強方法的基礎上，提出了Mosaic mix數據增強方式。即按照不同比例對數據集分別進行Mosaic 1（不進行圖片拼接，只進行旋轉、縮放、色調增強等處理）、Mosaic 4及Mosaic 9的數據增強處理。此種方式一方面能夠使得訓練集的尺度變換特性更加多樣，豐富原有數據集中的小目標樣本;另一方面能夠提升網絡對小目標的特征學習能力，增強網絡的魯棒性。

2.2 CBAM注意力模塊

CBAM模塊中包含了通道注意力模塊及空間注意力模塊，并能將二者高效融合。相較于傳統的單通道注意力機制，CBAM擁有更加良好的檢測效果。本文在YOLOv5sSPPF操作之前，以及每一次尺度預測前分別添加CBAM模塊。此時，注意力模塊一方面能夠在信息完備的檢測圖上實現特征增強;另一方面能夠獲取更準確的特征信息，提高檢測準確性。

3 實驗與分析

本文利用哈爾濱工業大學遙感數據集進行訓練及測試，采用MAP（均值平均精度）作為評價指標，與原始YOLOv5網絡及YOLOv3網絡進行對比。

3.1 數據集及預處理

哈爾濱工業大學遙感圖像數據集包含4500幅目標圖像，目標種類包括汽車、飛機、艦船，共3類。對上述目標圖像按4：1的比例分為訓練集以及測試集。

3.2 網絡訓練環境

本實驗采用的訓練環境為：Pytorch深度學習框架;YOLOv5 6.0版本

訓練時設置的參數：Batchsize為64;初始學習率為0.01%;訓練總迭代次數為800。

3.3 結果分析

（1）數據增強改進

Mosaic mix最終MAP值可達83.26%，相對于針對小目標檢測的YOLOv3算法（MAP值81.91%）也漲幅了1.35%。

（2）CBAM注意力模塊

通過對比原始YOLOv5s與引入注意力機制后的模型測試結果，人眼都較難識別正確的小目標車輛，本文改進后的目標檢測器卻能正確識別并能夠提升原有小目標的檢測概率，說明本文引入CBAM注意力模塊后，確實提升了模型的小目標檢測能力。

4結束語

針對小目標在目標檢測中存在的精度低、易漏檢的問題，本文提出一種改進的YOLOv5模型。模型基于Mosaic mix數據增強及CBAM注意力模塊。實驗表明，本文提出的改進方法能夠快速、準確地檢測出遙感圖像中的小目標，MAP值可達83.26%，同時可檢測出諸多原始模型漏檢的小目標。下一步將對復雜背景下的遙感圖像小目標檢測進行研究。

參考文獻（References）

[1] Girshick R， Donahue J， Darrell T. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus： IEEE，2014， 580–587

[2] Girshick R. Fast R-CNN. 2015 IEEE International Conference on Computer Vision （ICCV）. Santiago： IEEE， 2015， 1440–1448.

[3] Liu W， Anguelov D， Erhan D. SSD： Single shot multibox detector.European Conference on Computer Vision. Cham： Springer， 2016，21–37

[4] Redmon J， Divvala S， Girshick R. You only look once： Unified， realtime object detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas： IEEE， 2016， 779–788.

[5] ZHU L L，GENG X，LI Z，et al.Improving YOLOv5 with Attention Mechanism for Detecting Boulders from Planetary Images[J]. Remote Sensing，2021，13（18）：152-161.

電子樂園·中旬刊2021年8期

電子樂園·中旬刊的其它文章: 城市景觀照明亮化工程的項目管理方法; 試析GPS-RTK技術在工程測量中的應用及其技術要點; 探析建筑工程施工現場管理的優化策略; 節能環保在建筑裝飾裝修工程施工中的實踐研究; 暖通空調設計在綠色建筑中的運用; 油田地面建設工程項目進度與管理探討