?

基于幾何適應與全局感知的遙感圖像目標檢測算法

2023-03-24 13:25顧勇翔藍鑫伏博毅秦小林
計算機應用 2023年3期
關鍵詞:集上全局卷積

顧勇翔,藍鑫,伏博毅,秦小林*

(1.中國科學院 成都計算機應用研究所,成都 610041;2.中國科學院大學,北京 100049)

0 引言

近年來,隨著航天遙感技術的不斷發展,遙感圖像數據不斷豐富,而且遙感數據中含有飛機、車輛、橋梁等敏感目標,因此對遙感圖像進行目標檢測在國防安全、災害預測、智慧城市建設等領域具有重要意義。

自2012年AlexNet[1]被提出,卷積神 經網絡(Convolutional Neural Network,CNN)已經從根本上改變了計算機視覺任務的處理方式。借助CNN 強大的特征表達能力,圖像分類[2]、目標檢測[3]及語義分割[4]等任務的性能取得了巨大提升。在COCO(Common Objects in COntext)[5]目標檢測任務中,測試集的平均精度均值(mean Average Precision,mAP)已經提升到63.1%[6],表現出不俗的性能?;谏窠浘W絡的目標檢測算法主要分為以R-CNN(Region-based Convolution Neural Network)[7]為代表的兩階段檢測器和以YOLO(You Only Look Once)[8]系列為代表的單階段檢測器。它們最主要的區別在于:單階段檢測器直接在特征圖上生成候選框,而兩階段檢測器通過額外的區域建議網絡生成候選框。Faster R-CNN(Faster R-CNN)[9]是經典的兩階段檢測器,它將特征提取、區域建議、邊界回歸和分類集成到一個框架中,顯著提高了檢測性能;然而,額外的區域建議網絡需要大量的計算資源,限制了處理速度。而經典的單階段檢測器YOLO 結合前沿技術迭代更新,具有良好的實時性。

遙感圖像目標檢測算法大多由通用目標檢測算法改進而來。雖然這些算法能夠在自然場景的數據集上表現出良好的檢測性能,但是遙感圖像存在背景復雜、目標方向任意和目標尺寸小等問題,傳統的CNN 難以有效提取遙感圖像目標的幾何特征和全局信息,檢測效果不佳。

為提高遙感圖像目標檢測的精度,本文基于YOLOv5[10]提出一種基于幾何適應與全局感知的遙感圖像目標檢測算法。本文的主要工作有:1)針對遙感圖像目標尺寸小、目標方向任意的問題,將可變形卷積和自適應空間注意力模塊通過密集連接串聯堆疊,然后構建密集上下文感知模塊(Dense Context-Aware Module,DenseCAM),進一步學習對遙感目標幾何形變具有穩健性的深度特征,以解決普通卷積對局部幾何特征提取不足的問題;2)針對遙感圖像背景復雜的問題,在骨干網絡末端引入Transformer,以較小的開銷增強全局特征的提取能力,通過挖掘遙感圖像全局背景信息進一步增強模型的分類能力;3)聯合使用局部上下文和全局信息,形成特征互補,進一步提高遙感圖像目標檢測精度。

1 相關工作

1.1 YOLO算法基本原理

YOLOv1[8]將目標檢測視為單一的回歸問題,通過CNN直接在一張完整的圖像上預測目標類別概率并進行邊界框回歸。首先將輸入圖像劃分為一定大小的網格,每個網格負責檢測中心上的目標;然后根據CNN 提取的特征一次性預測目標的邊界框位置、大小、定位置信度以及所有類別概率向量;最后通過非極大值抑制算法進行后處理。

YOLO 算法經歷數次更新迭代,在目標檢測領域表現突出。YOLOv5 是最新版本,融合了許多高效的技術。在骨干網絡中,使用跨階段局部(Cross Stage Partial,CSP)[11]網絡,降低計算開銷并優化梯度更新過程,使用空間金字塔池化(Spatial Pyramid Pooling,SPP)[12]模塊融合不同感受野特征;在特征融合網絡中,使用PANe(tPath Aggregation Network)[13]增強信息流動并聚合特征;使用廣義交并比(Generalized Intersection over Union,GIoU)[14]增強對實例尺度的感知;使用K-means 聚類算法生成適應數據集實例分布的錨點框;使用Mixup[15]和Mosic[16]進行數 據增強;使 用SiLU(Sigmoidweighted Linear Units)[17]增強網絡的非線性映射能力。

1.2 面向遙感場景的目標檢測優化算法

CNN 已被應用于遙感目標檢測領域,但遙感圖像是俯瞰拍攝,與自然場景圖像存在較大差異,它的特點為目標尺寸小、目標方向任意和背景復雜,因此遙感目標檢測是一個亟待解決的任務。為解決遙感圖像密集區域中目標形變的問題,高鑫等[18]在CNN 中引入可變形卷積和可變形感興趣區域(Region of Interest,RoI)池化模塊[19]增強網絡對幾何變換的建模能力,提高了密集區域車輛目標的檢測性能,但未關注遙感圖像復雜背景的問題。為解決遙感目標易受背景相似物干擾的問題,胡滔[20]在分類檢測頭中引入雙路徑通道注意力模塊,減弱噪聲區域通道的特征響應并增強分類特征。針對遙感目標尺度多樣的問題,田婷婷等[21]在特征金字塔網絡(Feature Pyramid Network,FPN)[22]中,使用空洞卷積代替普通卷積并增加跳躍連接操作以實現遙感場景下的多尺度特征融合。此外,遙感圖像往往包含更多的背景噪聲,從而導致目標的邊界信息模糊,難以有效提取目標的幾何信息。Xu等[23]將淺層特征和采樣后的深層特征以相同尺度融合來解決特征提取不充分的問題。汪亞妮等[24]在SSD(Single Shot multibox Detector)模型中引入注意力分支,與檢測分支融合得到了更加豐富的語義信息。

從目標檢測流程來看,骨干網絡提取的特征是后續特征融合的基礎,具有重要意義。但是目前許多遙感目標檢測工作并沒有關注骨干網絡的結構設計?;仡欉b感圖像的成像過程與待檢測目標特點,本文在骨干網絡的設計上獲得如下啟發:1)遙感圖像呈現的視角為俯視圖,目標尺寸小且方向任意,通過增強局部幾何特征建模,有利于增強定位能力。2)遙感圖像俯瞰拍攝,包含更多的空間信息,背景復雜,通過綜合全局信息挖掘同類共性特征,有利于增強分類能力。

2 改進的YOLOv5目標檢測算法

2.1 網絡結構

本文基于YOLOv5 提出一種基于幾何適應與全局感知的遙感圖像目標檢測算法,由骨干網絡、特征融合網絡、檢測頭三部分組成,如圖1 所示。其中:Ci是輸入圖像進行2i倍降采樣后生成的特征圖;骨干網絡輸出對應整張輸入圖像的特征圖;特征融合網絡使用PANet 融合C3~C6的多層次特征圖以獲取多尺度信息;檢測頭則基于候選框進行分類與位置回歸;P3~P6為融合C3~C6后生成的新的特征圖。改進算法保留了骨干網絡淺層的跨階段局部網絡設計,將SPP 模塊替換為DenseCAM,增強對局部幾何特征的建模能力;在骨干網絡末端引入 Transformer,使用 C3TR(Cross stage partial bottleneck with 3 convolutions and TRansformer)模塊代替原始全卷積操作,增強模型的全局信息感知能力。

圖1 改進YOLOv5s6的框架Fig.1 Framework of improved YOLOv5s6

2.2 密集上下文感知模塊DenseCAM

在遙感目標檢測任務中,局部上下文信息對提高定位能力至關重要,因為它可以提供額外的定位相關信息。所提DenseCAM 模塊如圖2 所示,由包含通道壓縮函數fC、可變形卷積v2(Deformable Convolution Network v2,DCNv2)[25]和自適應空間注意力模塊(Adaptive Spatial Attention Module,ASAM)的基本結構使用密集連接串聯堆疊兩次構成。

圖2 DenseCAM模塊結構Fig.2 Module structure of DenseCAM

為學習變換不變性特征并提取豐富的多尺度上下文信息,首先引入可變形卷積。在卷積運算的位置上引入偏移量,可變形卷積可以有效提取幾何語義信息,但同時也會丟失部分位置信息。DCNv2 引入擴展變形建模范圍的調制機制后該問題會更嚴重。

為緩解DCNv2 造成的定位信息丟失,引入ASAM 細化特征,整體結構如圖3 所示。受CBAM(Convolutional Block Attention Module)[26]中空間注意力的啟發,除了在每個位置的所有通道上進行最大池化與平均池化操作,還引入1× 1卷積作為可學習池化層,自適應地計算每個位置與任務相關的統計信息,然后將3 張統計信息圖拼接后使用7× 7 卷積生成注意力系數圖。ASAM 的計算過程如下:

圖3 ASAM模塊結構Fig.3 Module structure of ASAM

其中:F為輸入特征圖;C為特征圖F的通道 數;f1×1(·)、f7×7(·)分別表示核大小為1× 1 與7× 7 的卷積運算;S為Sigmoid 激活函數;?為逐元素相乘運算;[C→1 ]代表通道 數變為1。

密集連接拼接所有層的輸入,然后傳遞給之后的所有層,以加強特征傳遞并優化梯度更新??紤]到運算效率,在DenseCAM 中使用通道壓縮函數fC在通道維度拼接輸入的各尺度特征圖,然后將通道數壓縮為輸入特征圖F的1/4。

與SPP 模塊提取固定感受野的多尺度特征不同,DenseCAM 模塊通過DCNv2 根據上下文內容動態調節局部感受野范圍;通過ASAM 進行特征選擇,抑制與任務無關的信息;通過密集連接實現多尺度特征的深度融合。在構建DenseCAM 模塊時,ASAM 模塊不改變特征圖通道數,兩個DCNv2 模塊的初始膨脹系數d分別設為1、2。

2.3 Transformer

遙感目標(飛機、汽車等)往往與全局背景存在密切關聯,即飛機常出現在停機坪,而汽車常出現在停車場及公路。傳統堆疊卷積層的操作雖然能在一定程度上增加感受野范圍,但文獻[19]指出普通卷積的有效感受野增長與網絡堆疊深度呈平方根關系,表明該操作低效且開銷大。另一方面,僅一層Transformer[27]即可實現全局依賴,對解決高分辨率遙感圖像全局信息提取效率低的問題具有一定的優越性。

Transformer 是一個完全基于自注意力機制的模型,它利用自注意力機制從全局自適應地聚合相似特征,增強模型的特征表達能力。對于遙感目標檢測,使用Transformer 進行全局特征建模能夠挖掘同類別實例間的全局共性特征,有利于增強模型的分類能力。自注意力機制的計算過程如下所示:

其中:X為輸入特征圖;fQ(·)、fK(·)、fV(·)為線性映射函數;n為X的通道數;Q、K、V一般稱為查詢、鍵和值。

通過相似度權值的計算,Transformer 過濾低匹配的噪聲信號,增強高匹配的特征加權。Transformer 的計算復雜度和空間復雜度與輸入特征圖的空間尺寸平方呈正比,將它置于骨干網絡末端能以較低的開銷增強模型的全局感知能力。

3 實驗與結果分析

3.1 數據集

為驗證本文改進YOLOv5 算法的有效性,在UCASAOD[28]與RSOD[29]數據集上進行實驗。其中:UCAS-AOD 數據集采集于Google Earth,圖像大小為1 280×659~1 372×940,包含1 000 張飛機圖像、510 張汽車圖像和900 張負樣本圖像,共標注14 596 個目標。RSOD 數據集來源于Google Earth和天地圖,圖像大小為512×512~1 083×923,包含446 張飛機圖像、165 張油箱圖像、176 張立交橋圖像和189 張操場圖像,共標注6 950 個目標。將RSOD 數據集中存在的40 張未標注操場圖像直接剔除,因此實驗時RSOD 數據集中操場圖像數量為149。實驗時首先將數據集中的原標簽轉換為適合YOLO 訓練的格式,然后按照文獻[30]的數據劃分方式,將每類圖像按8∶1∶1 隨機劃分為訓練集、驗證集和測試集。

3.2 評估指標

采用mAP@0.5 和mAP@0.5∶0.95 進行性能評估,它的大小與網絡性能的好壞呈正相關關系。其中:平均精確度(Average Precision,AP)為P-R曲線下 的面積;精確率P(Precision)表示預測為正例中真正例的比例;召回率R(Recall)表示所有正樣本中被正確預測出來的比例。各指標計算公式如下:

其中:NTP為被正確分類的正例樣本數;NFP為被錯分為正例的負例樣本數;NFN為被錯分為負例的正例樣本數;NC為類別數。mAP@0.5 表示交并比(Intersection over Union,IoU)為0.5 時AP 的均值,記為AP50;mAP@0.5∶0.95 表示IoU 從0.5取到0.95,間隔為0.05 時AP 的均值,記為mAP。P、R均在IoU=0.5 時統計。

3.3 實驗環境及參數設置

實驗基于YOLOv5 官方開源項目實現,使用YOLOv5s6作為基本配置,所有實驗均在1 塊NVIDIA RTX3090(24 GB顯存)上進行,Pytorch 版本為1.9.0。實驗前首先利用COCO數據集對各模型的骨干網絡及特征融合網絡進行預訓練。

與YOLOv5 默認參數一致,實驗時輸入圖像尺寸設為1 280×1 280,初始學習率設為0.01,動量設為0.937,衰減系數設為0.000 5,Batch size 設為16,使用隨機梯度下降(Stochastic Gradient Descent,SGD)優化器。訓練Epochs 設為200,訓練過程中,前3 個Epoch 使用Warmup 算法進行預熱;輸出預測結果后,使用非極大值抑制算法進行后處理。

3.4 結果分析

為驗證改進的YOLOv5 算法對遙感圖像目標檢測的有效性,在測試集上進行性能驗證,除精度指標外,還統計了參數量與浮點數運算量,并與工業中廣泛使用的YOLOv3-SPP(Spatial Pyramid Pooling)算法進行對比,結果如表1 所示。

表1 不同算法在UCAS-AOD與RSOD數據集上的檢測結果對比Tab.1 Comparison of detection results of different algorithms on the UCAS-AOD and RSOD datasets

在UCAS-AOD 數據集上,本文算法對全部類別的AP50、mAP 分別為96.7%、65.8%,相較于YOLOv3-SPP 分別提高了0.6、1.1 個百分點,相較于YOLOv5s6 分別提高了1.2、1.8 個百分點。本文算法對汽車、飛機兩類典型遙感小目標的AP50、mAP 具有明顯優勢,具備良好的小目標檢測性能,能從弱語義的目標中提取更強的特征。

在RSOD 數據集上,本文算法的AP50相較于YOLOv3-SPP、YOLOv5s6 分別下降了2.8、0.1 個百分點,表明本文算法具有一定的局限性。從各類別目標檢測精度來看,本文算法對油罐類別目標的檢測效果不佳,這可能是因為油罐顏色及幾何形狀單一,且分布密集,傳統卷積在正方形感受野下就能獲得較好的特征表示,而DenseCAM 模塊在計算位置偏移時易受相鄰實例和陰影輪廓影響,對背景相似物給出了較低置信度的誤判,該問題在實際工程上可以通過設置高置信度閾值緩解。對于飛機類目標,本文算法的AP50為94.4%,取得了該類別的最高值,表明針對小目標檢測具備一定優勢。而本文算法在更苛刻的mAP 指標上相較于YOLOv3-SPP、YOLOv5s6 分別提高了1.4、1.5 個百分點,表明本文算法能夠更精確地定位目標示例,具備良好的邊界特征提取能力。YOLOv3-SPP 雖然在AP50上取得了最佳性能表現,但mAP 表現不佳,表明它更適合低精度檢測任務,對背景相似物表現出良好的魯棒性,但同時對邊界信息提取不足。

本文算法在兩個數據集上的mAP 均優于YOLOv3-SPP和YOLOv5s6,說明通過嵌入DenseCAM 與Transformer 可以提高遙感目標檢測精度。從模型效率上來看,本文算法顯著優于YOLOv3-SPP 算法,在取得相同量級性能的情況下,參數量、運算量為YOLOv3-SPP 算法的21.9%、10.9%。相較于YOLOv5s6,本文算法雖然在參數量上增加了10.5%,但在運算量上僅增加了1.2%,檢測效率較高。

在測試集上對YOLOv5s6 與本文算法進行可視化對比,檢測結果如圖4、5 所示??梢钥闯?,無論是飛機、車輛等小目標,還是立交橋、操場等大目標,本文算法均能取得較為理想的檢測結果。得益于DenseCAM 模塊對局部幾何特征的有效提取與Transformer 的全局感知能力,本文算法提高了遙感目標檢測精度。

對于圖4 的汽車目標,本文算法能夠檢出UCAS-AOD 數據集中漏標且被YOLOv5s6 漏檢的汽車實例,表明本文算法具備良好的魯棒性。

對于圖5 的飛機目標,本文算法能夠檢出被YOLOv5s6漏檢的飛機實例;對于立交橋目標,立交橋的YOLO 格式[8]真實坐 標標簽 為(0.472 093,0.534 670,0.642 791,0.388 950),YOLOv5s6 預測為(0.392 093,0.558 505,0.447 442,0.399 783),與真值的IoU 為63.0%;本文算法預測為(0.466 977,0.537 378,0.699 535,0.411 701),與真值的IoU 為86.8%,相較于YOLOv5s6 提高了23.8 個百分點,表明本文算法能夠更精確地定位立交橋位置,提取更強的邊界特征。

圖5 在RSOD數據集上的檢測示例Fig.5 Detection examples on RSOD dataset

為探究YOLOv5s6 與本文算法在骨干網絡上對特征的學習差異,在UCAS-AOD 測試集上通過熱力圖可視化骨干網絡不同階段特征圖的前4 個通道,結果如圖6 所示??梢钥吹?,在具有相同網絡結構(第3~5 階段)的特征圖上兩者差異較小,而在修改部分(第6 階段)的特征圖上則差異較大,表明不同網絡結構能夠引導不同類型特征的學習。

圖6 在UCAS-AOD數據集上的骨干網絡特征圖可視化Fig.6 Visualization of feature maps of backbone network on UCAS-AOD dataset

3.5 消融實驗

為驗證各模塊的有效性,在樣本量更大的UCAS-AOD 數據集上開展消融實驗:將Transformer、CAM 與DenseCAM 依次嵌入YOLOv5s6 模型,結果如表2 所示。其中:CAM 舍棄了DenseCAM 中的密集連接,在未使用通道壓縮函數的情況下將DCNv2 和ASAM 串聯堆疊兩次??梢钥闯?,在嵌入各單個模塊后,均能獲得比YOLOv5s6 更好的性能。嵌入CAM 模塊后,AP50與mAP 分別提升了1.0 與1.0 個百分點。在進一步結合密集連接后,DenseCAM 模塊在AP50與mAP 上分別帶來了1.0 與1.1 個百分點的性能提升。由于DenseCAM 在密集連接時使用通道壓縮函數降低中間特征圖的通道維度,在取得與CAM 相近性能的情況下參數量與浮點數運算量分別減少了18.0%與2.8%,降低了模型復雜度。通過挖掘局部上下文信息并融合豐富的多尺度信息,DenseCAM 模塊能夠有效建模目標實例的輪廓特征,高效地提高定位精度。在嵌入Transformer 后,AP50與mAP 分別提升了0.3 與0.6 個百分點,由于網絡結構設計時考慮了Transformer 復雜度,在骨干網絡末端將其引入,因此改進算法在幾乎不增加參數量的情況下,浮點數運算量甚至比原始YOLOv5 算法更少。在結合Transformer 與DenseCAM 模塊后,AP50與mAP 均獲得了最佳性能。Transformer 與DenseCAM 模塊在mAP 上分別帶來0.6與1.1 個百分點的性能提升,而結合兩個模塊后mAP 提高了1.8 個百分點,表明局部上下文信息和全局信息相輔相成,形成了特征互補,能夠有效提高遙感圖像目標檢測精度。

表2 UCAS-AOD數據集上的消融實驗結果Tab.2 Results of ablation study on UCAS-AOD dataset

4 結語

遙感圖像目標檢測具有重要研究意義,本文在YOLOv5基礎上提出了一種基于幾何適應與全局感知的遙感圖像目標檢測算法。針對遙感圖像目標尺寸小、目標方向任意的問題,將SPP 模塊替換為密集上下文感知模塊DenseCAM,以增強模型對目標實例局部幾何特征的提取能力。針對遙感圖像背景復雜的問題,在骨干網絡末端引入Transformer,以較低的開銷增強模型全局感知能力。實驗結果表明:與基線模型相比,借助局部上下文特征和全局特征提供的額外定位與分類信息,本文算法能夠有效提高遙感圖像目標檢測精度。雖然本文算法能夠帶來一定的性能改善,可以更精確地定位目標實例,但在某些場景下仍易受背景相似物干擾。后續工作將繼續根據遙感場景特性進行網絡結構設計,著眼于實際場景需求,構建魯棒性更強的高精度遙感目標檢測算法。

猜你喜歡
集上全局卷積
Cahn-Hilliard-Brinkman系統的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
基于3D-Winograd的快速卷積算法設計及FPGA實現
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
從濾波器理解卷積
落子山東,意在全局
基于傅里葉域卷積表示的目標跟蹤算法
復扇形指標集上的分布混沌
新思路:牽一發動全局
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合