?

融入混合注意力的可變形空洞卷積近岸SAR小艦船檢測

2022-12-21 03:23龔聲蓉徐少杰周立凡朱杰鐘珊
中國圖象圖形學報 2022年12期
關鍵詞:空洞艦船特征提取

龔聲蓉,徐少杰,周立凡,朱杰,鐘珊

1. 東北石油大學計算機與信息技術學院, 大慶 163318; 2. 常熟理工學院計算機科學與工程學院,常熟 215500

0 引 言

合成孔徑雷達(synthetic aperture radar,SAR)可以提供全天候全天時的高分辨率圖像,在海洋監測和海上交通監管中發揮著重要作用(Liu等,2019)。近年來,SAR圖像的艦船檢測引起了人們的關注(Heiselberg和Heiselberg,2017;阮晨 等,2021),傳統方法主要依賴于恒虛警率(constant false-alarm rate,CFAR)及其改進算法(Dai等,2016;Ao等,2018),這些方法基于手工制作的特征,速度慢,易受屋頂、集裝箱等類似船舶的物體或由海雜波引起的干擾,對復雜背景下的小型船舶識別效果不佳。因此,迫切需要新的目標檢測模型來提高SAR艦船的檢測性能,尤其是提高近岸復雜背景下小型艦船檢測性能。

卷積神經網絡(convolutional neural network,CNN)可以從數據本身學習深層特征,它的特征提取能力比手工制作的特征提取器更為優越(Wang等,2019)。因此,基于CNN的檢測器已經廣泛應用于SAR圖像艦船檢測中。Li等人(2017)使用遷移學習和困難樣本挖掘等策略將Faster-RCNN(faster region convolutional neural network)(Ren等,2017)算法用于SAR艦船檢測,但忽略了SAR圖像中各種艦船尺寸差距過大的問題。Zhao等人(2019)在Li等人(2017)方法的基礎上,采用多層次特征融合改進了一階段檢測器SSD(single shot multibox detector)(Liu等,2016),大幅改善了模型對多尺寸艦船檢測效果。

但是,針對SAR圖像近岸復雜背景下小型艦船檢測任務的深度學習目標檢測模型依然較少,且具有諸多挑戰(阮晨 等,2021)。首先,與光學圖像不同,SAR圖像主要通過不同目標的后向散射回波來構建圖像。因此,在SAR圖像中沒有顏色、紋理等特征,只能大致顯示目標的形狀和亮度。在空曠海面上,艦船目標在SAR圖像中呈現亮白色艦船形狀,海水則是黑色,易于網絡區分學習。然而,近岸港口情況多變,現有方法無法正確區分部分建筑物、暗礁與小型船舶,造成誤檢和漏檢。此外,在內陸河道、港口等場景中,小型艦船通常緊密??吭谝黄?,在SAR圖像中呈現為連成一體的形狀,現有方法難以精確定位每艘船的邊界,導致多艘艦船檢測為1艘艦船,造成漏檢。

針對上述問題,Lin等人(2019)在Zhao等人(2019)方法的基礎上,使用編碼尺度向量排序來過濾向量值較低的候選框,減少了近岸建筑物的干擾,但同時也使網絡直接忽略圖像質量不高的小型艦船,造成漏檢。Gui等人(2019)基于輕量級檢測器,直接合并淺層和高層(丟棄中間層)來提高模型定位精度,卻降低了模型對中型艦船的檢測精度。Dai等人(2020)引入雙向多尺度特征融合技術來加強網絡對已提取特征圖的融合效果,卻忽略了對近岸復雜背景的抑制,雖然提升了對小型艦船的查全率,但降低了查準率。阮晨等人(2021)在Dai等人(2020)方法的基礎上,引入權重機制,區分不同尺度特征圖的重要性,并在融合前使用視覺注意力機制引導網絡抑制近岸復雜背景,提出了一種無錨框近岸艦船檢測方法。

上述方法主要考慮對SAR圖像提取的多層級特征圖做一些復雜融合,用上層語義信息輔助模型進行分類,下層空間信息輔助模型進行定位,未充分考慮卷積核形狀與艦船形狀之間的聯系,導致模型對近岸小型艦船檢測精度依然較低。本文以Cascade-RCNN(Cai和Vasconcelos,2018)模型為基線模型,分析模型誤檢漏檢的場景及原因,針對性地提出一種基于可變形空洞卷積的SAR艦船特征提取網絡。首先,使用一種加權融合可變形空洞卷積(weighted fusion deformable atrous convolution,WFDAC)替代ResNet-50(He等,2016)中的3×3卷積模塊,擴大模型感受野,進行多感受野特征提取與融合,引入目標極點的局部信息輔助模型分類。接著,提出3通道混合注意力機制(triple mixed attention,TMA),引導網絡更加關注近岸細節提取,提高模型細分類效果。

1 本文算法

1.1 FENDet模型整體結構

為了探究傳統方形3 × 3卷積在SAR艦船領域的使用效果,本文使用HRSID(high-resolution sar images dataset)數據集(Wei等,2020)進行研究與實驗。HRSID數據集將艦船分為近岸場景與離岸場景,近岸場景與離岸場景的艦船圖像示例如圖1所示,其中,綠色矩形框為艦船標注。

圖1 HRSID數據集示例Fig.1 Samples of HRSID ((a) offshore sample; (b) inshore sample)

表1展示了Cascade-RCNN在HRSID數據集中近岸和離岸場景下的檢測結果。Cascade-RCNN在離岸簡單背景下的平均精度(average precision,AP)為98.0%,在近岸復雜背景下的AP值卻只有79.6%。其中,小艦船與大艦船的AP值較低。表明模型對近岸復雜背景下的小艦船和大艦船檢測效果不佳。在HRSID數據集中,小、中、大型艦船的占比分別為60.2%、36.8%、3%。大型艦船檢測精度低可能是由于樣本數量較少等原因造成的。

表1 Cascade-RCNN在HRSID數據集上的檢測精度Table 1 Cascade-RCNN detection precision on HRSID /%

為了探究小型艦船在近岸復雜場景下檢測精度低的原因,本文分別選取在簡單背景下、近岸復雜場景下、近岸密集場景下和近岸建筑物干擾場景下的SAR艦船圖像,Cascade-RCNN的檢測結果如圖2所示??梢钥闯?,在簡單場景下(圖2(a)),Cascade-RCNN檢測艦船的能力較高,但是對圖像邊緣和緊靠在一起的艦船出現了誤檢和漏檢情況,說明模型對艦船定位精度不夠。在近岸復雜場景下(圖2(b)—(d)),Cascade-RCNN容易將近岸的建筑物或水中的島嶼誤檢成艦船。通過對誤檢漏檢小目標的觀察與分析,本文發現許多誤檢的島嶼和陸地建筑,在某些特征上與艦船目標相似,如長寬比都在1.5-2.2之間,整體亮度均衡等。說明Cascade-RCNN對小目標的細節特征提取與細分類效果不佳。原因可能是這些小目標像素總量較小,在高層次特征圖上無法提供詳細語義信息,在低層次特征圖上提供了許多相似的細節信息。

圖2 Cascade-RCNN在不同場景下的檢測結果可視化Fig.2 Visualization of detection results of Cascade-RCNN in different scenarios ((a) offshore simple; (b) inshore complex; (c) inshore dense; (d) inshore building disturbance)

針對模型對小目標的細節特征提取與細分類效果不佳問題,本文提出一種針對復雜背景下SAR近岸艦船的特征提取網絡(feature extraction network,FEN)。圖3展示了FEN與Cascade-RCNN結合后的檢測器FENDet結構。本文算法首先使用加權融合可變形空洞卷積模塊取代殘差塊中的3 × 3傳統卷積,接著在每一層級特征圖前使用3通道混合注意力機制引導網絡關注細節特征,最后通過原Cascade-RCNN檢測網絡進行特征融合、候選框篩選與預測,生成最終結果。

圖3 FENDet模型結構Fig.3 The structure of FENDet

1.2 加權融合可變形空洞卷積

一般情況下,出于性能和計算量的考慮,大部分基于CNN的檢測模型以ResNet-50為骨干網絡,這種模型深度限制了網絡的感受野,導致模型在淺層特征提取時只能提取每一像素點周圍8個點的特征并進行融合,在高級語義特征提取時也只是機械性提取方形區域內固定點的信息。而在SAR圖像中,艦船通常為長條形斜向???,在艦船目標周圍的任一方形區域內,既存在艦船信息,也存在艦船附近的背景信息。因此,固定方形形狀與大小的傳統卷積核,會同時提取艦船與艦船周圍的背景特征,給模型分類和定位造成干擾。此外,傳統卷積的感受野RFi較小,計算為

(1)

式中,RFi-1表示上一層的感受野,ki表示第i層的卷積核尺寸,sj表示第j層的卷積步長。

在淺層網絡中獲得艦船目標的整體信息有助于模型進行分類。然而,普通的卷積在淺層的感受野有限,因此本文引入空洞卷積(Chen等,2018)來擴大卷積的感受野??斩淳矸e是一種能夠擴大卷積核感受野的有效技術??斩绰蕿閞的空洞卷積會在普通的卷積核權值之間引入r-1個零點,相當于將k×k卷積核擴大到k+(k-1)×(r-1),卻不增加任何參數或計算量。然而,單純的使用空洞卷積提取特征,由于零點的存在,會造成特征圖中相鄰信息的不連續性。因此,本文對不同空洞率卷積核提取的特征圖進行加權融合,增加了特征圖中特征的關聯性。此外,大部分艦船在SAR圖像中呈長條形。如果直接使用空洞卷積進行特征提取,方形提取框會引入更多的背景信息干擾模型進行分類與定位。因此,本文在空洞卷積的基礎上引入可變形卷積(Zhu等,2019),使卷積核提取的位置更加貼合艦船形狀,極大程度地減少了背景信息對目標分類的干擾。

圖4直觀展示了傳統卷積和本文所提加權融合可變形空洞卷積的感受野對比。圖4(a)中的綠色方形框表示傳統卷積的感受野,圖4(b)中的紫色不規則多邊形框表示加權融合可變形空洞卷積的感受野??梢钥闯?,在同一深度條件下,加權融合可變形空洞卷積的感受野更大,能基本包含艦船目標整體,使網絡獲得艦船整體信息。

圖4 傳統卷積與加權融合可變形空洞卷積感受野對比Fig.4 Comparison of traditional convolution and WFDAC perceptual fields ((a) traditional convolution; (b) WFDAC)

圖5對比了同一網絡深度下,傳統3 × 3卷積與WFDAC在特征提取時卷積核權重的相對位置。在圖5中,綠色圓點和橙色圓點分別表示3 × 3傳統卷積和空洞率為3的3 × 3空洞卷積在提取特征時權重的相對位置,綠色矩形框表示艦船目標。傳統卷積如圖5(a)所示,通過權重與固定位置像素相乘來提取特征。圖5(b)為在傳統卷積的基礎上增加一個空洞卷積后,兩個卷積權重的相對位置,通過不同空洞率卷積核權重分別與固定位置像素相乘并融合來提取特征。圖5(c)為對兩個卷積分別逐一預測相對偏移位置,使權重相對位置更貼合艦船形狀后,可變形空洞卷積權重的相對位置。然后將不同空洞率卷積核權重分別與相對偏移位置上的像素相乘并加權融合來提取特征。

圖5 傳統卷積與WFDAC卷積核權重相對位置對比Fig.5 Comparison of the relative positions of ordinary convolution and WFDAC convolution kernel weights((a) traditional convolution; (b) add atrous convolution; (c) WFDAC)

對一個以x為輸入,w為權重,空洞率r為1的傳統卷積Conv(x,w,1),轉化為WFDAC的計算過程為

fWFDAC=S(x) ·Dconv(x,w,1)+ (1-S(x))·Dconv(x,w+Δw,r)

(2)

式中,S(·)由5 × 5的平均池化和1 × 1的卷積組成,Dconv為可變形卷積,Δw為空洞率為r的卷積核的偏移權重。如果不做特別說明,在實驗中,r=3。

WFDAC模塊在淺層特征圖中提取更大范圍的細節信息,并使模型感受野更貼合艦船形狀,減少對復雜背景的特征提取。在深層特征圖中,空洞率為1的卷積由于其感受野自然增加,會重復提取淺層特征圖中空洞率為3的卷積感受野內的特征,這使得同一感受野、同一區域下的圖像區域至少為兩個跨層卷積提取特征并進行加權融合,增加了特征提取效率。

加權融合可變形空洞卷積WFDAC的總體結構如圖6所示,在WFDAC模塊的前后分別增加了一個全局上下文模塊。這個模塊與SENet(Hu等,2020)相似,但沒有任何非線性層,且輸出被加回輸入特征圖而不是與它相乘。增加前處理全局上下文模塊是為了給S(·)函數提供全局上下文指導,使其能生成更有效的融合權重。增加后處理上下文模塊是為了減少不同感受野特征圖相加帶來的混疊效應。實驗表明,前后全局上下文模塊使AP值提升了0.5。

在實驗時,本文加載了在ImageNet上訓練好的權重文件作為骨干網絡ResNet-50的初始權重。但對于從傳統卷積層轉化來的WFDAC卷積來說,缺少了空洞率為3的權重。針對這一問題,基于不同尺寸的物體可以被同一組權重粗略檢測出來這一實際經驗,將空洞率為1的卷積權重初始化為W1,空洞率為3的卷積權重初始化為W1+ΔW,這就是圖6中的鎖定參數機制。其中,W1是ResNet-50在ImageNet上的預訓練權重,ΔW初始化為0。實驗表明,當固定ΔW為0時,會有0.1AP的下降。但是沒有鎖定機制的模型會造成5AP的下降,其原因本文推測是因為不同權重會提取特征圖的不同信息,如果權重相差過大,在信息加權融合時會出現干擾和矛盾。

1.3 3通道混合注意力機制

人類在視覺感知過程中會將注意力集中于視野中的一部分而忽略其他部分。人類感知中的注意力涉及選擇性地集中于給定信息的一部分而忽略其余部分的過程。這種機制有助于提煉感知信息,同時保留其上下文。一些方法提出在CNN架構中有效地合并這種注意機制,以提高大規模視覺任務的性能。這些注意力機制具有通過明確建立通道之間的依賴性或空間上的加權掩膜來改進由傳統卷積層生成的特征表示的能力。學習注意力權重本質上是使網絡有能力學習不同特征點的重要程度,從而進一步關注目標對象。Wang等人(2017)在殘差注意力網絡中提出了一種額外掩膜編解碼器模塊來直接生成立體注意力權重矩陣。Hu等人(2020)在Wang等人(2017)方法的基礎上,提出了SENet,通過學習網絡中每個通道的權重來模擬特征圖中的跨通道關系。Woo等人(2018)在Hu等人(2020)的通道注意力基礎上再度集成了空間注意力機制,提出了CBAM(convolutional block attention module),在通道維度和空間維度上利用全局平均池化和全局最大池化來生成注意力權重。Zhao等人(2020)將CBAM注意力模塊和空洞卷積模塊引入到SAR艦船目標檢測任務中來,提高了艦船檢測精度。

圖6 WFDAC模塊結構Fig.6 The structure of WFDAC

盡管CBAM引入空間注意力作為通道注意的補充模塊,彌補了空間信息的主要損失,但它的空間注意權重和通道注意權重是相互獨立計算的,并不考慮兩者之間可能存在的依賴關系。受Misra等人(2021)方法的啟發,本文引入了跨維度交互的概念,通過捕捉輸入張量的空間維度和通道維度之間的交互來解決這個缺陷,提出了3通道混合注意力機制TMA。

本文通過旋轉和殘差連接尋找不同維度之間權重的依賴關系,并通過一個3分支結構和池化操作融合交叉維度之間權重的依賴關系。3通道混合注意力機制示意圖如圖7所示,由3個平行的分支組成,其中兩個負責捕捉通道維度C與空間維度H或W之間的跨維度權重,另一個分支類似于CBAM,用于建立空間注意力權重。所有3個分支的輸出通過簡單的平均進行融合。輸入特征映射F∈RC×H×W分別與空間注意權重矩陣WS∈R1×H×W、通道—橫向注意權重矩陣WCW∈R1×C×W和縱向—通道注意權重矩陣WHC∈R1×H×C相乘,獲得顯著特征映射F′∈RC×H×W。計算過程為

(3)

式中,⊙表示點乘。

空間注意模塊主要提取特征映射的位置信息。

圖7 TMA模塊結構Fig.7 The structure of TMA

首先,沿通道軸分別進行最大池化和最小池化,突出顯示特征圖空間中的極值信息并將結果拼接起來。接著,使用一個7 × 7的卷積層對拼接后的特征圖進行降維與特征提取,生成空間注意圖。計算過程為

WS(F)=σ(conv7×7(concat(Pmax(F),Pmin(F))))

(4)

式中,σ表示sigmoid函數,conv7×7表示7×7的卷積和批歸一化運算,concat表示拼接操作,Pmax表示最大池化,Pmin表示最小池化。通道—橫向注意模塊和縱向—通道注意模塊主要提取跨維度權重的相互關系,如圖7所示,計算過程與空間注意力相似,只是在開始和末尾對輸入特征映射F∈RC×H×W進行了90°的旋轉與逆旋轉操作。

本文將TMA模塊添加在每個階段輸出特征圖之前,通過連續的空間注意力和跨維度注意力提高特征圖的區域關注能力,可有效減少SAR近岸場景中的復雜背景干擾,如暗礁、近岸形似建筑等。

2 實驗與分析

2.1 實驗平臺

實驗運行環境為i7-9750 CPU,Nvidia Tesla P100 GPU,16 GB顯存。操作系統Ubuntu16.04,深度學習框架Pytorch 1.6.0,腳本語言Python 3.7。CUDA(compute unified device architecture)和cuDNN(compute unified device architecture deep neural network)版本分別為CUDA 10.1和cuDNN 7.6.4。

2.2 實驗數據集

選用HRSID(Wei等,2020)和SSDD(SAR ship detection dataset)數據集(Li等,2017)評估本文方法。SSDD是第1個公開的SAR艦船檢測數據集,數據主要由RadarSat-2, TerraSAR-X, and Sentinel-1提供,拍攝于中國煙臺和印度維薩卡帕特南,分辨率為1-10 m,包含海洋和近岸地區的大量船舶目標,共有1 160幅圖像和2 456個艦船目標,平均每幅圖像包含2.12艘艦船,小型、中型和大型艦船占比分別為60.2%、36.8%和3%,訓練集和測試集分別包含928和232幅圖像。

HRSID數據集是2020年發布的一個大型SAR艦船檢測數據集,包含不同場景、不同雷達和不同極化方式生成的圖像。HRSID中有5 604幅經過裁剪的艦船圖像,包含16 951個艦船目標,平均每幅圖像包含3艘艦船,小型、中型和大型艦船占比分別為54.5%、43.5%和2%,訓練集和測試集分別包含3 642和1 962幅圖像。

SSDD和HRSID數據集的對比如表2所示。

表2 SSDD和HRSID數據集參數對比Table 2 Comparison between SSDD and HRSID datasets

2.3 模型評價指標

采用精度P(precision)和召回率R(recall)兩個平均精度系列指標評價和對比模型效果。

精度P定義為預測正確的正例占預測結果中所有正例的比例,即

(5)

召回率R定義為預測正確的正例占被預測樣本中所有正例的比例,即

(6)

式中,TP為預測正確的正樣本數量,FP為預測錯誤的負樣本數量,FN為預測錯誤的正樣本數量。

以艦船類目標的精度為x軸以及召回率為y軸繪制P-R(precision-recall)曲線,然后計算這條曲線與坐標軸之間的面積,得到艦船類目標的AP,具體為

(7)

式中,P表示精度,R表示召回率。

根據區域交并比(inter of union,IoU)取值的不同和目標大小的不同,本文將AP指標細分為AP、AP50、AP75、APs、APm和APl。AP系列指標有10個IoU閾值,分布在0.5-0.95之間,步長為0.05。AP是10個IoU閾值AP分數的算數平均,AP50和AP75分別是IoU閾值選擇為0.5和0.75時的AP分數。APs、APm和APl分別是尺寸較小(面積< 32×32像素)、尺寸中等(32×32像素<面積<64×64像素)和尺寸較大(64×64像素<面積)對象的AP分數。

2.4 模型訓練參數

為保持檢測器的相同超參數,選擇mmdetection(Chen等,2019)進行訓練和測試。為了進行更精確的分類與定位,訓練和測試過程中,SAR圖像按比例調整為1 000 × 1 000像素。檢測器用GPU(graphics processing unit)訓練,共12輪;動量和權重衰減分別設置為0.9和0.000 1。訓練和測試中對低精度邊界框嚴格過濾時,IoU閾值設置為0.7。Cascade-RCNN中的IoU閾值設置為{0.5,0.6,0.7}。本文選擇初始學習率為0.002 5的SGD(stochastic gradient descent)作為優化器,其他超參數在mmdetection中設置為默認值。

2.5 結果與分析

2.5.1 各模塊有效性分析

為了驗證WFDAC和TMA兩個模塊對檢測效果的影響,對各模塊進行評估,在HRSID數據集上以Cascade-RCNN為檢測模型,對兩個模塊進行消融實驗,結果如表3所示??梢钥闯觯?)添加WFDAC模塊(第2行)后,模型在各方面,尤其是大型艦船檢測精度得到較大提升,從26.6%提升到31.4%。主要是由于WFDAC模塊擴展了模型每一層的感受野,使模型能夠將大型艦船當做一個整體來學習。此外,空洞率為1的卷積與空洞率為3的卷積融合方式,使模型在不同深度上提取同一感受野不同層次的特征并加以融合,這種特征重提取也是模型能提高小型艦船檢測精度的原因。2)TMA注意力機制模塊(第3行)的AP75指標有較大提升,這是因為原來的Cascade-RCNN提取底層位置信息不夠明確,造成了模型預測時高質量目標框不多。TMA模塊增強了網絡對艦船區域的關注度,使預測的目標框更加精準。3)兩個模塊結合使用后,模型對特征信息的提取更加精準,能有效區分小型艦船與相似島嶼、小型建筑物之間的細微區別,AP50和APs在原來的基礎上分別增加了2.8%和3.5%。

表3 在HRSID數據集上的消融實驗Table 3 Ablation experiments on HRSID dataset /%

空洞率r對WFDAC模塊的性能影響如表4所示。為提高特征提取效率,本文根據兩個可變形空洞卷積相對位置偏移不重合和傳統卷積跨兩個階段對可變形空洞卷積感受野特征進行高級語義特征提取這兩個規則,將實驗中的空洞率r設置為1、3、5??梢钥吹?,當r=3時,效果最佳。當r=1時,WFDAC模塊退化為兩個同樣感受野的可變形卷積進行特征提取與融合,因此提升較小。當r=5時,可能由于兩個卷積之間距離太遠,模型難以獲取兩個卷積之間的權重關系,造成精度下降。

表4 空洞率r對可變形空洞卷積模塊性能的影響Table 4 Effect of void ratio on WFDAC module

TMA與其他注意力模塊在ResNet-50上的參數增加量對比如表5所示。在參數計算公式中,C表示該層的輸入通道數量,r表示在計算通道注意力時在MLP(multi-layer perceptron)瓶頸中使用的縮減率,k表示注意力模塊中卷積核的大小。實驗中,設置r= 16,k= 7。結果表明,TMA的參數開銷較小。

表5 不同注意力模塊在ResNet-50上的參數增加對比Table 5 Comparison of parameter increases for different attention modules on ResNet-50

傳統卷積和WFDAC在相同深度下的特征提取結果對比如圖8所示。圖8(b)(c)分別取自原始ResNet-50模型第一層和最后一層卷積的前9個通道,圖8(d)和圖8(e)分別取自WFDAC替換傳統卷積后ResNet-50模型第一層和最后一層卷積的前9個通道??梢钥闯?,相比于傳統卷積提取的細節特征(圖8(b)),WFDAC在淺層網絡可以提取更多全局信息(圖8(d)),且對輸入圖像中各物體的位置保留得非常完整,更有利于模型對艦船目標進行定位。相比于傳統卷積提取的語義特征(圖8(c)),WFDAC在深層網絡可以提取更多有效語義信息(圖8(e)),輔助模型進行分類。

圖8 傳統卷積與WFDAC特征提取結果對比Fig.8 Comparison of traditional convolution and WFDAC feature extraction results((a) ground truth; (b) detailed features by traditional convolution; (c) semantic features by traditional convolution; (d) detailed features by WFDAC; (e) semantic features by WFDAC)

圖9展示了模型增加TMA前、后對輸入圖像的類激活圖的對比結果。圖9(a)中,艦船目標用綠色矩形框標出。圖9(b)和圖9(c)分別為模型增加TMA前、后對輸入圖像的類激活圖,藍、綠、黃、紅表示激活程度遞增。

從圖9(b)可以看出,原模型對艦船目標的關注度較為寬泛,對艦船目標周邊的背景像素給予了較高關注度,在艦船像素上的激活程度不高。增加TMA模塊約束了模型的關注范圍,降低了模型對艦船目標周邊背景像素的特征提取能力。此外,TMA模塊在一定程度上增加了模型對艦船像素的類激活度,突出了艦船和艦船周邊相似建筑的差異性。

2.5.2 FEN有效性分析

為驗證骨干網絡FEN的有效性,在兩階段、一階段和無錨框目標檢測器中分別挑選一種經典方法Cascade-RCNN、YOLOv4(you only look once v4)(Bochkovskiy等,2020)和BorderDet(Qiu等,2020)作為檢測器在HRSID數據集上進行實驗,結果如表6所示。在第1組實驗中,3種模型使用ResNet-50作為骨干網絡進行特征提取。結果表明,在相同訓練參數下,BorderDet的檢測精度最高,可能是因為HRSID數據集中小型艦船占比較高,且艦船一般呈斜向分布。而通過預測極值點來確定目標位置,并通過極值點信息進行分類的無錨框方式不容易受到艦船目標周圍環境的影響。3種檢測器中,Cas-cade-RCNN對大型艦船的檢測精度最高,因為在區域推薦過程中,所有特征圖壓縮為20 × 20像素,有利于模型生成更能多包含大型目標的候選框。在第2組實驗中,3種模型使用本文所提的FEN作為骨干網絡??梢园l現,3種檢測器的AP50分別增長了2.8%、2.6%和1.6%。說明FEN能夠顯著增強模型的特征提取能力,并進一步提升艦船檢測精度。在小型艦船檢測精度上,3種檢測器分別增長了3.5%、2.6%和2.9%,在中型艦船和大型艦船上,3種檢測器的精度也有一定上漲,充分驗證了FEN特征提取網絡在改善小型艦船誤檢漏檢情況時的有效性。值得一提的是,在BorderDet中,模型主要通過4個極值點的信息進行目標的定位和分類,致力于提取目標周邊局部信息的FEN反而對模型造成了干擾,導致模型對大型艦船的檢測精度有所下降。

圖9 TMA模塊的類激活圖對比Fig.9 Comparison of class activation diagrams with and without TMA modules ((a) ground truth; (b) without TMA; (c) with TMA)

表6 在HRSID數據集上不同模型使用ResNet-50和FEN作為骨干網絡的平均精度比較Table 6 Comparison of the average accuracy among different models on the HRSID dataset using ResNet-50 and FEN as the backbone network /%

本文方法在HRSID數據集上不同場景的測試結果可視化樣例如圖10所示。圖10(a)是在空曠海面上對稀疏簡單背景下小型艦船的檢測結果,圖10(b)—(d)分別是在近岸復雜背景下對小型密集分布艦船、多尺度分布艦船和大型艦船的檢測結果??梢钥闯?,本文算法對簡單背景下的小型艦船檢測基本無漏檢誤檢,對近岸復雜背景下??枯^近的小型艦船可分辨艦船數量并精準定位,對與艦船相似的島嶼和岸上建筑物,由于注意力機制的存在,也能區分它們與艦船的差別。此外,對占據圖像大部分區域的大型艦船,由于模型感受野的增加,也能較為準確地識別。

圖10 Cascade-RCNN+FEN在HRSID數據集上的檢測結果Fig.10 Detection results on HRSID dataset with Cascade-RCNN+FEN ((a) small ships in sparse background empty sea surface; (b) small and densely distributed ships in nearshore complex background; (c) multi-scale distribution of ships in nearshore complex background; (d) large ships in nearshore complex background)

為探究本文方法主要提升簡單背景還是復雜背景的艦船檢測精度,對本文基準方法和Faster-RCNN(Ren等,2017)、RetinaNet(Lin等,2017)、Mask-RCNN(He等,2017)、Mask Scoring RCNN(Huang等,2019)、Cascade Mask RCNN(Cai和Vasconcelos,2018)等先進檢測器以及本文方法進行測試。測試時,將HRSID數據集分為近岸和離岸場景,近岸場景背景較為復雜,離岸場景背景較為簡單。測試結果如表7所示??梢钥吹?,本文方法在近岸和離岸場景中均取得了最優結果。其中,相較于基準模型Cascade-RCNN,本文方法在近岸和離岸場景中AP分別提升了3.5%和1.2%,表明本文方法的提升主要體現在復雜場景下的精度提升,證明了本文方法在復雜場景下的有效性。

表7 HRSID數據集中近岸與離岸場景檢測情況對比Table 7 Comparison of nearshore and offshore scenario detection results in the HRSID dataset /%

2.5.3 泛化性分析

HRSID數據集是2020年提出的SAR艦船檢測數據集。為了證明本文模型的泛化性,在經典SAR艦船檢測數據集SSDD上,將本文方法與其他先進檢測器精度進行對比,結果如表8所示??梢钥吹?,一階段的目標檢測器精度落后于二階段檢測器,在二階段檢測器中,級聯的檢測器精度高于原本的檢測器。需要說明的是,由于SSDD數據集并沒有語義標注,所以表8中的檢測器都沒有語義分支。實驗結果表明,與其他先進檢測器相比,本文方法效果最佳。

3 結 論

SAR圖像艦船檢測的挑戰之一在于對近岸小艦船目標的細節特征提取和細分類效果不佳。為了緩解上述問題,本文從微觀上引入加權融合可變形空洞卷積替代傳統卷積,使每層網絡可以自適應提取和融合不同感受野特征。此外,本文引入3通道混合注意力機制,使網絡可以關注更重要的信息,減少陸地復雜情況干擾。本文方法提高了模型在HR-SID和SSDD艦船檢測數據集上的檢測精度,分別從87.1%和93.1%提高到89.9%和95.9%。然而,本文方法所需計算資源較多,在下一步工作中,將重點關注現有模型無法在衛星等資源受限場所應用的問題,圍繞模型壓縮與輕量化展開研究,進一步提升模型的實用性。

表8 在SSDD數據集上本文方法與其他檢測器的精度對比Table 8 Accuracy comparison of our method and other detectors on the SSDD dataset /%

猜你喜歡
空洞艦船特征提取
艦船通信中的噪聲消除研究
鍛造過程中大截面塑料模具鋼中空洞缺陷的閉合行為
艦船測風傳感器安裝位置數值仿真
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
空洞的眼神
艦船腐蝕預防與控制系統工程
用事實說話勝過空洞的說教——以教育類報道為例
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合