?

多尺度特征增強的遙感圖像艦船目標檢測

2021-09-24 01:05劉萬軍高健康曲海成姜文濤
自然資源遙感 2021年3期
關鍵詞:艦船尺度注意力

劉萬軍,高健康,曲海成,姜文濤

(遼寧工程技術大學軟件學院,葫蘆島 125105)

0 引言

遙感圖像艦船目標檢測一直是遙感圖像處理的研究熱點,核心任務是定位和識別圖像中的艦船目標,在漁業管理、海上運輸、船只救援、保衛領土等領域有著重要的現實意義[1]。在遙感圖像中,艦船存在被復雜的背景包圍,目標小且密集排列的現象,這導致艦船漏檢現象嚴重,是遙感圖像解譯面臨的挑戰性問題。

傳統的艦船目標檢測算法通過先驗信息和紋理特征對圖像進行海陸分離[2],選擇水域作為感興趣區域,使用模板匹配、形態學比對算法、監督分類[3]在感興趣區域檢測艦船目標。由于艦船檢測受到霧氣、云層、光照的干擾,傳統的算法檢測精度較低、魯棒性差,很難滿足實用性需求。卷積神經網絡[4]在目標檢測中的應用,使得更多高效的目標檢測算法被提出,檢測算法可分為單階段和雙階段兩類,主流的單階段檢測模型有YOLO系列[5]、SDD算法[6],該類方法基于回歸的思路,直接預測類別置信度,并且在圖像上定位出目標位置,但是單階段檢測對于多尺度、小目標的檢測效果較差。雙階段模型提出了區域建議網絡結構,生成一系列包含潛在目標的候選框,再進一步確定目標類別和校正邊界框。以Faster R-CNN[7]為代表發展出了特征金字塔網絡(feature pyramid networks,FPN)[8]、Mask R-CNN[9]等基于多尺度特征融合的算法。單階段的模型檢測速度更優,達到了實時檢測的效果,雙階段的檢測準確率更占優勢。

雖然基于深度學習的檢測算法不斷地應用在遙感圖像艦船檢測中,但都是基于水平區域的檢測,遙感圖像中存在方向角任意的艦船,目標角度一旦傾斜,水平檢測框的冗余區域與船只的重疊部分會變大,不利于后期非極大值抑制操作。為了提高方向任意目標的檢測效果,Ma[10]提出采用旋轉錨,引入角度變量控制檢測框方向,有效地提高了候選框的質量;Yang等[11]基于旋轉框目標檢測,提出密集連接特征金字塔結構(dense feature pyramid networks,DFPN),高層語義信息不僅和相鄰層進行融合,還要和其余特征層進行融合,增強了語義信息的傳播?;谛D區域檢測算法適應艦船目標旋轉特性,有效解決了檢測區域冗余問題,不過對于背景復雜的小目標,檢測性能有待提高。

為了突出復雜背景下的艦船目標,本文提出多尺度特征增強的遙感圖像艦船目標檢測算法,命名為MFEDet??紤]到艦船目標尺度多變,提出密集連接感受野模塊(densely connected receptive field,DCRF),不同空洞率的卷積,涵蓋更密集的不同感受野的特征,可以豐富高層語義特征的多尺度表達;為抑制遙感圖像的背景干擾,設計基于注意力機制的特征融合結構(attention-guided feature fusion,AFF),旨在一次使用特征金字塔所有層,通過尺度調整、加權融合、注意力增強的方式,突出目標位置,減少目標漏檢現象。

1 旋轉區域檢測網絡原理

為了實現方向任意的艦船目標的檢測,本文選擇旋轉區域檢測網絡(rotation region detection network,RRDN)作為算法原始框架,該框架是在Faster R-CNN基礎上改進的,同樣包含3個階段:特征提取網絡、區域候選網絡(region proposal networks,RPN)和Fast R-CNN階段。

RRDN在特征提取階段采用FPN獲取多尺度特征,FPN結構如圖1所示。將圖像輸入主干網絡進行特征提取,得到特征層{C2,C3,C4,C5},高層特征語義信息豐富,適用于目標種類的判別,低層特征具有較高分辨率和位置信息,適用于目標位置的回歸,以自頂向下的方式將高層特征信息融入低層特征中,得到{P2,P3,P4,P5} 4個融合特征層。FPN以簡單的方式,使得高層特征為低層特征的目標檢測提供指導信息。

圖1 FPN結構Fig.1 Feature pyramid network structure

與傳統的檢測不同,RPN階段需要利用方向包圍框(oriented bounding box,OBB)重新定義錨框,從而適應旋轉目標。OBB采用五元組(x,y,w,h,θ)表示旋轉錨框,其中(x,y)表示旋轉錨框中心點坐標,旋轉角θ表示水平軸逆時針旋轉遇到旋轉框第一條邊所成的夾角,同時標記該邊為w,另一條邊為h,旋轉角θ的范圍為(0°,90°]。OBB的表示如圖2所示。

圖2 方向包圍框的表示Fig.2 The representation of oriented bounding box

OBB提供了(-π/6,0,π/6,π/3,π/2,2π/3)6個旋轉角,能更準確地描述旋轉錨框之間的角度差。此外,RPN會初步判斷錨框屬于目標還是背景,為下一階段提供更精確的候選框。

在Fast R-CNN階段,ROI Align利用候選框的位置坐標,在特征圖上提取固定大小的感興趣區域(regions of interest,ROI),為了匹配ROI的對齊操作,該階段提取的是候選區域水平外接矩形,不是候選框本身。接著傳送至后續全連接層,實現候選框更精確的分類和回歸,輸出最好的檢測結果。

基于RRDN的檢測模型,利用FPN結構,將高層語義信息自頂向下傳播至低層特征,實現了特征的重用,對尺度不一的目標檢測很有幫助;RPN中旋轉角的設置,更適應旋轉目標方向任意的特性,輸出的檢測框冗余區域小。因此,選擇該模型用于艦船類的目標,檢測效果更佳。

2 多尺度特征增強檢測方法(MFEDet)

遙感圖像包含的背景信息會干擾目標特征的表達,造成目標位置的模糊,使用RRDN模型依然存在漏檢現象。為解決上述問題,本文對提取到的特征信息增強,豐富多尺度特征的表達,使目標特征獲得更多關注?;赗RDN模型,對提取的特征信息增強,首先利用DCRF模塊的不同空洞率卷積,感知多尺度感受野語義特征;其次設計基于注意力機制的特征融合結構,融合高層語義信息和低層位置信息,使用注意力網絡減弱背景信息的干擾,突出目標位置。本文方法的總體結構如圖3所示。將處理好的數據送入特征提取網絡,基礎網絡選用Resnet_101提取特征,提取的特征送入FPN進行特征融合;其次,考慮到最高層C5感受野單一,對高層語義信息的感知不充分,增加DCRF模塊,不同空洞率的卷積會獲取多尺度感受野特征,經過密集連接的方式,豐富P5層的多尺度特征;接著,將融合后的特征層{P2,P3,P4,P5}送入AFF中,根據層級權重進行自適應特征融合,對融合后的特征做注意力增強,給與目標位置更多關注,融合后的特征在與之前各層疊加,組成新的特征層{A2,A3,A4,A5},每個新層都融合了高層語義信息和低層位置信息;最后,在RPN中根據設定的旋轉錨框(anchor)選定到高質量的候選框(proposals),Fast R-CNN階段經過兩個全連接層(fc),實現目標的分類回歸,輸出最終的檢測結果。圖3中cls表示分類分支,其作用是判別檢測框所屬類別是否為目標;Score2×代表模型輸出的目標和非目標的兩種概率,當目標概率更大時,系統判定該檢測框的類別為目標;回歸分支reg預測的是目標的參數化坐標;(tx,ty)為預測框的中心點坐標;tw和th為目標框的長和寬;tθ為目標框相對于水平軸的旋轉角度。

圖3 總體結構Fig.3 Overall framework

2.1 密集連接感受野模塊(DCRF)

卷積神經網絡被用來提取圖像特征信息,越深的卷積網絡,提取到的語義信息越豐富。FPN將最高層P5語義信息,采用自頂向下的傳播方式,融入進較低層級{P2,P3,P4},利用高層特征的語義信息對低層特征進行增強,這對小目標檢測效果的提升非常重要。低層特征可以融合高層特征的信息,但最高層P5直接由C5降維得到,沒有融合任何上下文信息,且通道數由2 048驟減至256,信息損失嚴重,因此,需要對高層特征層進一步強化,利用不同感受野的卷積豐富P5層語義信息。

RFBNet[12]在Inception[13]網絡基礎上,提出了RFB_S結構,選用不同空洞率的卷積,可覆蓋多尺度的感受野,對提取上下文的信息非常有用,但是該結構中的每個分支都是獨立存在的,提取的特征相互之間缺少依賴。受DenseNet[14]密集思想的啟發,本文改進RFB_S結構,提出了DCRF模塊。DCRF結構如圖4所示,圖中?表示串聯(concat)操作。該模塊采用的兩個策略:級聯模式和并行模式。級聯模式采用密集連接方式,較大空洞率的卷積層接收較小空洞率的卷積層的輸出,可以充分利用上下文信息,產生更大的感受野。并行模式使得多個卷積層接收相同的輸入,經過不同卷積核的卷積層以及不同空洞率的空洞層后,輸出多尺度的感知特征。另外,為了保持原始輸入的全局信息,將全局平均池化層(global average pool,GAP)和上采樣層(up sample)連接,與串聯后的信息相加,實現全局信息與局部信息的融合。該模塊不僅繼承了RFB_S結構多空洞卷積的優點,而且更好地利用了卷積層之間的內部聯系。

圖4 密集連接感受野模塊Fig.4 The module of DCRF

2.2 基于注意力機制的特征融合結構(AFF)

遙感圖像存在背景信息復雜的問題,導致后續RPN生成的候選框會引入噪聲信息,眾多噪聲信息會淹沒目標,使目標區域變得模糊,出現誤檢漏檢現象。因此,在特征送入RPN層之前,有必要對特征層進行注意力增強,更多地關注目標特征,弱化非目標特征。若是對所有特征層{P2,P3,P4,P5}單獨進行注意力增強,會導致計算量激增,并且每一層只做自身注意力增強,高層特征缺乏低層位置信息,低層特征缺乏高層語義信息,層級之間信息缺少有效的溝通,表現出不平衡狀態。對此,設計AFF結構,加權融合所有高低特征層信息,從整體上增強目標特征的表達,特征融合結構如圖5所示。

圖5 特征融合結構Fig.5 Feature fusion structure

在FPN后,進一步對提取到的特征層{P2,P3,P4,P5}進行特征增強。AFF結構與Libra R-CNN中BFP思想類似,一次利用所有FPN層,通過分辨率調整、加權融合的方式,得到一層融合后的特征,對該層做雙重注意力增強,將增強后的特征再和原始層相加,實現特征強化和高低層信息充分融合,得到了增強后的多尺度特征層{A2,A3,A4,A5}。

2.2.1 加權融合層級特征

FPN的P5層獲取到更多是的是語義信息,P2層為高分辨率層,學習到更多的是細節特征,適合小目標檢測,但是缺乏語義信息指導,小目標容易產生漏檢現象,高低層特征融合能夠很好地解決這個問題。P4層的分辨率更適合語義信息和細節信息的融合[15],所以將4層特征尺寸調整至P4大小進行特征融合。通常的融合方式是各層相加取平均,將各層空間信息差異較大的特征直接相加,會削弱多尺度特征表達能力。本文通過獲取不同特征層在空間位置(i,j)上的權重,對4層特征進行自適應融合,融合方式定義為:

(1)

(2)

2.2.2 雙重注意力網絡

注意力機制[16-17]的提出,有效地解決了目標遮擋、模糊問題。遙感圖像中的艦船目標容易被復雜的背景信息淹沒,目標位置的模糊容易導致漏檢現象,所以,使用注意力機制對特征增強是十分必要的。本文設計的位置和通道雙重注意力網絡如圖6所示。上半部分為位置注意力,融合后的特征圖Px經過一系列不同卷積核的卷積運算,得到了雙通道顯著圖,雙通道分別映射了前景和背景的概率,Softmax函數會將顯著圖的值映射到[0,1]之間,選擇顯著圖的一個通道與Px相乘,生成新的特征圖,可以抑制噪聲信息,強化目標信息。下半部分是通道注意力機制,使用SEnet[18]的通道注意力輔助增強特征層,順著通道維度對Px進行全局平均池化壓縮,獲取全局感受野,經過全連接層和Sigmid非線性處理,將輸出結果作為每個通道的權重值。為了使通道注意力更輕便,用比例r減少全連接層尺寸,選擇合適的比例r能兼顧模型的計算效率和檢測性能(r=4)。通道注意力獲得的權重值也與Px相乘,生成的特征圖與位置注意力特征圖做融合,得到新的注意力特征圖Ax。

圖6 雙重注意力網絡Fig.6 Dual attention network

注意力網絡可視化如圖7所示。圖7(a)為加權融合后的特征圖,出現目標位置模糊現象,說明融合前FPN提取到的高低層特征目標特征已經被背景信息淹沒,目標位置不夠顯著。圖7(b)為注意力增強后的特征圖,注意力機制的引入,突出目標位置,抑制噪聲信息對特征圖的干擾,很好地解決了待檢測目標模糊問題。目前大多數的注意力網絡都是非監督的,不能更好地關注目標位置,本文設置可監督機制,即在訓練階段,根據真值圖生成的二值掩碼如圖7(c)所示,將掩碼和位置注意力中雙通道顯著圖的交叉熵損失,作為注意力網絡損失,優化注意力網絡。沒有添加注意力損失的無監督顯著圖,目標位置標記不精確,目標區域模糊,如圖7(d)所示;有監督的顯著圖目標位置更突出,能夠很好地引導網絡關注目標信息,顯著圖如圖7(e)所示。

(a)注意力網絡輸入特征圖 (b)注意力網絡輸出特征圖 (c)二值掩碼圖

2.3 損失函數

為了訓練RPN,提取高質量的候選框,需要在所有旋轉框中挑選正負樣本,每個框會分配一個二值類別標簽和5個參數化坐標。正樣本的旋轉框需要滿足以下兩個條件之一即可:①旋轉框與真實目標框之間交并比(intersection over union,IOU)重疊大于0.5,且角度差小于15°;②旋轉框與目標框的IOU重疊最高。同樣的負樣本也是兩個條件:①IOU重疊小于0.2;②IOU的重疊大于0.5,但角度差大于15°。小批量總數是512,正負樣本比例是1∶1,其余不滿足條件的候選框會被摒棄。

同RPN階段類似,Fast R-CNN階段也以同樣方式選擇正負樣本,不同的是小批量總數變為256。該階段也會對每個候選框分類,分配5個參數化坐標,回歸出最終預測框,加入了角度信息后,旋轉框可以更精準的定位目標,參數化坐標的回歸定義為:

(3)

(4)

式中:變量x,xa,x′分別為預測框、旋轉框和真值框的中心點x坐標(y,w,h,θ同樣);k(k∈Ζ)為保持旋轉角在(0°,90°]、令旋轉框保持在相同位置的參數,當k為奇數時,邊框的w與h需要互換。損失函數采用多任務損失,新增注意力損失后,其定義為:

(5)

Lreg(t,t′)=smoothL1(t-t′),

(6)

(7)

smoothL1函數避開了L1和L2損失函數的缺陷,解決了梯度爆炸問題,強魯棒性使得該函數更適合目標框的回歸。

3 實驗結果與分析

3.1 參數設置

在RPN階段采用旋轉框作為錨框,使用5個變量{x,y,w,h,θ}來唯一確定旋轉框,(x,y)表示目標框中心點坐標,旋轉角θ是由x軸逆時針旋轉與框所成的夾角,并記框的這條邊為w,另一條邊為h,旋轉角范圍是[-90°,0°),這與OpenCV中的定義保持一致。本文從多尺度、多角度、多長寬比3個參數生成各式各樣的旋轉錨框。為特征層{A2,A3,A4,A5,A6}(A6是由A5下采樣得到)分配單一尺度,尺度大小分別為{32,64,128,256,512}像素,設計6個角度{-15°,-30°,-45°,-60°,-75°,-90°}預測艦船的方向,可以多角度覆蓋目標,根據艦船形狀,設置錨框有{1∶2,2∶1,1∶3,3∶1,1∶5,5∶1,1∶7,7∶1}的長寬比。每層上每個特征點產生48個旋轉框(8×6),輸出240個回歸參數(5×48)和96個分類分(2×48)。

本文實驗是在Ubuntu16.04系統、NVIDIA GeForce GTX 1080Ti的計算機上,深度學習實驗環境為TensorFlow。為加快模型收斂,使用預訓練模型ResNet101對網絡進行初始化。實驗經歷100k次迭代,前40k次迭代的學習率為0.001,再40k次學習率降為0.000 1,最后20k次迭代為0.000 01,權重衰減為0.000 1,動量為0.9,優化器選擇Momentum。

3.2 實驗數據和評估指標

DOTA是用于遙感圖像目標檢測的大型數據集,每個實例都由一個任意的四邊形標記,包含2 806張來自不同平臺的圖像[19],每張圖像分辨率大小從800×800到4 000×4 000不等,囊括了多尺度、任意方向和形狀各異的目標。從該數據集中提取出包含艦船的圖像,并以256像素點的步幅,裁剪出1 000×600的子圖像,再經過180°旋轉、水平翻轉對數據進行增強。

使用平均精度(average precision,AP)評定不同方法在艦船類目標檢測的性能[19],它是反映全局性能的指標,由精確率P和召回率R積分得出,定義為:

(8)

(9)

(10)

式中:TP為艦船樣本被正確標記為艦船個數;FP為非艦船樣本被標記為艦船個數;TN為非艦船樣本被正確標記為非艦船目標個數;FN為艦船樣本被標記為非艦船目標個數。

3.3 自身模塊對比實驗

本文選用旋轉區域檢測網絡作為基礎網絡(Baseline),包括特征提取網絡(ResNet_101),FPN,RPN,ROI Align以及旋轉非極大值抑制等。將以上基礎網絡和所有的實驗參數保持一致,使用平均精度衡量性能,自身模塊實驗結果見表1,表中加粗部分為同類指標中的最佳值。

表1 不同模塊的消融實驗結果Tab.1 Results of ablative experiments of different module

基礎網絡的精確率雖高,但其召回率只有76.56%,目標漏檢現象嚴重;DCRF可以感知到不同感受野信息,減少高層語義信息的損失,將框架的AP提高到69.52%,召回率明顯增加了4.26百分點;AFF模塊融合增強高低層特征,高層信息能指導低層特征檢測小目標,低層信息豐富高層特征的空間信息,單獨結合AFF,同樣會提高召回率,相比于基礎網絡,AP增長至69.66%;本文方法MFEDet在基礎網絡之上,結合DCRF和AFF模塊,進一步改善框架性能,AP達到71.61%。不同模塊的對比結果見表2。本文選取3類圖片驗證各模塊的有效性:示例1為背景復雜的艦船圖像,示例2中圖像艦船目標密集排列,示例3的圖像中存在小目標。

表2 不同模塊的結果展示Fig.2 Show the results of different modules

(續表)

1)DCRF模塊有效性分析。表2第二行為基礎網絡的結果,在背景雜亂、目標密集的圖像中,該方法的漏檢現象嚴重。第三行為增加DCRF模塊的結果,DCRF利用不同空洞率卷積,獲得多尺度感受野特征,增強高層語義信息的提取和傳播,使目標漏檢現象明顯減少,大目標和小目標均能被準確的標記。

2)AFF模塊有效性分析。第四行為MFEDet檢測結果,可以看出,對于密集排列的目標,模型給出了更準確的目標框進行標記,艦船和背景相似的困難目標也被精確檢測到,證明AFF模塊的引入,抑制了背景信息的干擾,目標位置受到更多關注,改善了困難樣本的漏檢問題。

3)表2最后兩行分別為基礎檢測模型的3幅場景的特征圖和本文提出的MFEDet模型下圖像的特征圖。前者提取的特征目標位置不夠顯著,邊緣出現模糊現象,并且部分目標被背景淹沒,目標特征丟失,相比之下,MFEDet模型對提取到的特征進行多尺度增強,抑制了背景信息的表達,目標位置更清晰準確,有效地解決了艦船漏檢問題,更適用于復雜場景下的遙感圖像目標檢測。

3.4 對比實驗

為了進一步驗證MFEDet的有效性,本文方法還和FR-O[20],RRPN,R-DFPN以及RADet[21]作比較,不同方法的對比結果見表3。

表3 不同方法的對比結果Tab.3 Different methods comparison results (%)

表中FR-O代表Faster R-CNN OBB檢測器,是DOTA官方給出的旋轉檢測方法,可以看出該方法的AP相對較差。R-DFPN和RRPN等旋轉區域的檢測法,雖然艦船檢測準確率相對較高,但是艦船召回率低,漏檢現象嚴重,準確率和召回率不能很好地平衡,導致其AP較低。此外,本文還與最新的RADet檢測器做了對比,由二者的AP可知,本文方法相對于最新的檢測算法,檢測性能依然有優勢。

本文方法在RRDN算法基礎上新增兩個模塊,提高檢測性能的同時,測試速度依然處于較快水平。不同方法訓練時間和測試時間的比較見表4。

表4 不同方法的訓練時間和測試時間Tab.4 Training time and test time for each method (s)

4 結論

本文提出的多尺度特征增強的艦船目標檢測方法,針對方向任意、場景復雜、小目標聚集的遙感艦船圖像。

1)設計了兩個新的結構,在最高層添加密集連接感受野模塊(DCRF),改進FPN網絡,有效地增強了高層語義信息的表達。

2)設計基于注意力機制的特征融合結構(AFF),加權融合了高低層信息,同時對融合后的特征進行雙重注意力增強,抑制噪聲信息并突出目標位置,對于復雜場景中的小目標檢測十分重要。

3)針對艦船不同長寬比的特點,設置不同長寬比例和不同旋轉角的錨框,改善檢測區域的冗余問題。在傳統的多任務損失中新增注意力損失,不斷優化注意力網絡,使整個檢測模型達到最佳。在DOTA公開遙感數據集上,本文方法取得了較好的檢測效果。

猜你喜歡
艦船尺度注意力
艦船通信中的噪聲消除研究
讓注意力“飛”回來
艦船測風傳感器安裝位置數值仿真
財產的五大尺度和五重應對
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
艦船腐蝕預防與控制系統工程
9
臺日艦船對峙內幕曝光
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合