?

一種多尺度特征關聯網絡的遙感影像場景分類方法

2024-01-05 11:10段燁陳國坤李佳田金維胡浩
遙感信息 2023年5期
關鍵詞:尺度注意力卷積

段燁,陳國坤,李佳田,金維,胡浩

(昆明理工大學 國土資源工程學院,昆明 650093)

0 引言

在遙感技術快速發展的大背景下[1],對地觀測衛星成為常用的數據源,遙感影像的應用變得日漸廣泛。隨著遙感影像的發展,影像解譯作為解讀遙感影像的方式也在不斷地發展。遙感影像場景分類的目的是根據影像的關鍵特征內容,判斷遙感影像上的地物類別。因遙感影像的分辨率不斷提高,單張影像能涵蓋的信息量變多,這一技術在地理學、生態學、城市規劃等學科中受到關注和應用[2]。

在遙感影像的圖像處理方面,單純使用全局信息會錯誤地將背景當成關鍵特征,從而導致分類出現錯誤結果。因此,準確地獲取局部特征信息至關重要,而融合多尺度圖像信息和注意力機制可以很好地解決這一問題。多尺度圖像信息提取是計算機視覺領域常用的方法,其中最有代表性的是特征金字塔。Lin等[3]提出特征金字塔網絡(feature pyramid networks,FPN)用于目標檢測,通過自頂向下和橫向連接的過程,解決低層特征語義信息少的問題,實現圖像中的多尺度融合。然而,FPN自頂向下的多尺度圖像融合方式會將不同尺度的冗余信息和無關信息向下融合,無法更好地關注特征信息。注意力機制最早被引用于遞歸神經網絡(recurrent neural network,RNN),直至Hu等[4]提出的SE-Net在卷積神經網絡中使用了注意力機制。該網絡將通道信息并入特征提取方法中,通過改變不同通道的權重指數來應用注意力機制。應用注意力機制后具有顯著特征信息的通道被增強,使得卷積神經網絡能夠更好地關注特征信息。

2017年Transformer[5]模型在自然語言處理(natural language processing,NLP)領域的成效優于RNN與卷積神經網絡(convolutional neural network,CNN)。該模型僅使用編解碼結構和注意力機制就能取得很好的效果。Dosovitskiy等[6]將Transformer模型引用到計算機視覺領域,并提出了ViT (visual transformer)模型,所提模型在許多圖像處理任務中表現出優異的性能。盡管ViT表現優異,但計算復雜度很高。為了解決這些問題,Liu等[7]提出Swin Transformer模型,將圖像分為多個窗口,僅對每個窗口進行計算,從而限制了計算復雜度。通過滑動窗口的機制,使每個窗口的信息得到交互,既能實現多頭自注意力的空間注意力效果,一定程度上也能減少網絡的計算復雜度。

結合上述所表現出來的問題,本文提出一種新的多尺度特征關聯網絡。該網絡結合了Swin Transformer中的滑動窗口多頭自注意力(shifted window multi-head self attention,SW-MSA)模塊、FPN結構和關聯模塊,采用空洞卷積進行影像特征提取,以擴大感受野來結合上文語義信息。此外,多頭注意力模塊中的滑動窗口方式可以提高局部信息的提取效率,其中借助FPN結構進行自上而下的融合,可實現更好地關注局部信息,減少多尺度影像直接融合的冗余信息,同時使用關聯模塊能進一步加強通道內的關鍵特征。實驗結果表明,該方法能夠提升MFC-Net網絡的局部特征提取和背景抑制的能力,以提高遙感影像場景分類的精度。

1 研究方法

1.1 多尺度特征關聯網絡的遙感場景分類模型

本文提出的遙感場景分類模型由3個主要部分構成:多尺度影像提取部分、獲取空間注意力與多尺度融合部分及多尺度特征關聯與分類部分,具體如圖1所示。

圖1 MFC-Net結構

MFC-Net網絡結構的核心思想為:將預處理影像輸入ResNet-18架構,以獲取多尺度圖像Ci(i=1,2,3,4);將多尺度圖像輸入到多信息融合特征金字塔(multi-information fusion feature pyramid,MIF-FP)中,獲取多尺度圖像特征信息并進行融合輸出Mi(i=1,2,3,4);將融合后的特征信息輸入多特征關聯部分,進行特征信息相互關聯獲取Oi(i=1,2,3,4),經平均池化后融合為特征F,再將F輸入到softmax分類器中進行分類預測,輸出預測類別。

1.2 多尺度圖像提取

本文采用ResNet18作為多尺度圖像提取的架構,其殘差結構可以避免整個網絡出現過擬合的情況,從而更好地提取所需的多尺度影像。

ResNet18的網絡架構由5個Conv卷積層、1個全局平均池化層以及1個全連接層組成。本文使用ResNet18中前4個Conv卷積層來完成多尺度圖像獲取,輸出結果如式(1)所示。

(1)

式中:Conv1、Conv2_x、Conv3_x、Conv4_x均為卷積層操作;I∈RH×W×C為預處理后輸入的影像;H、W和C分別為輸入影像的高、寬和通道數;Ci為多尺度特征圖,分別為C1∈R(H/2)×(W/2)×64、C2∈R(H/2)×(W/2)×64、C3∈R(H/4)×(W/4)×128、C4∈R(H/8)×(W/8)×256分別為提取多尺度影像的結果。

本文未使用第5個卷積層進行多尺度圖像提取,其原因為第5個卷積層輸出的圖像尺度較小,而小尺度圖片在后面進行的獲取空間注意力與多尺度融合部分中難以達到更優的效果。相比之下,大尺寸圖像在使用空間注意力的效果更為明顯。因此,選擇特定的結構來進行多尺度圖像提取,能夠更好地提取所需的多尺度影像特征信息。

1.3 多信息融合特征金字塔

MIF-FP是基于FPN框架提出的一種融合多尺度圖像特征信息的架構。較傳統FPN結構,本文將空洞卷積與SW-MSA加入其中,提取的多尺度圖像Ci經多信息模塊后使其獲得關注信息并進行上下層融合得到Mi,框架如圖2所示。

圖2 MIF-FP結構

MI module如圖3所示,其表達如式(2)至式(3)所示。

圖3 MI module結構

Mi=attention{σ{Conv{Cat[MDC]}}}+Pi

(2)

MDC=DConv(Ci,1),DConv(Ci,2)

(3)

式中:Ci為ResNet18獲取的多尺度影像;Pi為經過空洞卷積計算后得到的特征影像;DConv(Ci,r)表示對多尺度影像Ci進行擴張率為r的空洞卷積計算;Cat(·)為通道拼接操作;Conv(·)為1×1卷積操作;σ(·)為ReLU激活操作;attention(·)為滑動窗口注意力模塊;Mi表示輸出結果。

傳統卷積局限于捕捉到特定位置的信息,忽略了上下文等密集語義信息。而空洞卷積通過調整擴張率,可以在不增加參數量的情況下獲得更大感受野。這種方式在保證圖像分辨率的基礎上能提取較大范圍的圖像特征,可以有效地提取影像上下文信息[8]。在提取圖像特征信息中,感受野越大所提取到的特征信息越接近于局部特征。不同于空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[9],本文僅使用較小擴張率的空洞卷積,這是因為在小尺度圖像和分類任務中,主要關注小部分和小區域的特征以及其上下文信息,而過大的擴張率可能會獲取到其他易混淆的特征。

SW-MSA是Swin Transformer中的滑動窗口自注意力模塊,與傳統的卷積空間注意力方式不同,SW-MSA通過將圖片劃分成M×M的窗口,這樣的做法更加注重對局部信息的空間注意力計算,即將影像P∈RH×W×C劃分為多個平面窗口,每一個窗口的訓練參數為WQ、WK、Wv3個參數矩陣,對每個窗口進行多頭自注意力計算,并且計算局部空間注意力時不會有過大的計算復雜度。同時加入滑動窗機制,使得每個窗口之間的信息能夠相交互,其自注意力機制如式(4)所示。

(4)

式中:Q,K,V∈RM2×d表示為每個窗口的變量、關鍵字和關系值矩陣;KT為轉置矩陣;B∈RM2×M2為相對位置偏置;d表示的是Q/K的維度大小;M2則表示為切分影像窗口的大小。

不同于傳統FPN直接自上而下的融合,MIF-FP模塊通過引入空洞卷積和SW-MSA空間注意力計算,獲取更多有用的上下文語義信息,避免了直接融合的信息冗余問題。MIF-FP對每層獲取的多尺度圖像使用空洞卷積進行局部特征獲取,經過空間注意力后能關注到各層圖像的關鍵特征信息。MIF-FP結構能夠對各層特征進行增強或抑制,以突出關鍵特征信息,如圖4所示。傳統FPN未添加特征增強或是抑制模塊,容易融合周圍無效信息,例如飛機類別圖中無法準確關注到右上角的目標地物,且未能有效屏蔽周圍無效信息;船類別圖和儲水罐類別圖也存在類似問題,因影響特征的關注而導致分類錯誤。MIF-FP則能夠有效抑制非關注特征,突出關鍵特征信息。

圖4 熱力圖可視化

1.4 多尺度特征關聯與分類

將MIF-FP輸出的融合圖像輸入到多尺度特征關聯部分進行最后的特征增強以及分類,主要架構如圖5所示,具體過程見圖6。

圖5 多特征關聯部分

圖6 關聯模塊

關聯是將Mi的相鄰層進行相關聯的操作。在多尺度圖像中,底層圖像通常包含著高層次圖像的特征信息,并且Mi通過前一部分的空間注意力計算,高層圖像的特征信息可以更好地融合到底層圖像中。接著,經過MIF-FP后,各層多尺度圖像的特征信息被提取到不同的通道中,使用關聯模塊將通道激活,與上一層的特征信息進行融合,加強關鍵特征的表現,抑制無效信息。因此,將底層特征與高層特征相融合,能夠更好地突出分類中所關注的重要特征信息。其結構計算如式(5)所示。

Oi+1=FC(Gpool[Mi])?Mi+1=
δ(Conv2[σ{BN{Conv1{Gpool(Mi)}}}])?Mi+1

(5)

式中:FC表示卷積層運算;Mi(i=1,2,3)表示第i層的特征圖;Oi+1(i=1,2,3)表示關聯后的第i+1輸出層;Gpool(·)為全局平均池化操作;Conv1(·)、Conv2(·)分別為降維1×1卷積和升維1×1卷積;BN(·)為批量標準化;σ(·)為ReLU激活操作;δ(·)為sigmoid激活操作;?為像素相乘操作。

最后將每層輸出結果Oi(i=1,2,3,4)進行平均池化和加和操作,得到最后特征。通過網絡計算最終得到F特征,輸入分類器進行分類,使用交叉熵函數進行整體網絡的損失計算。

2 實驗方法

2.1 實驗數據集

為驗證所提網絡架構的有效性,本文使用了兩個公開數據集進行驗證測試。

1)2017年武漢大學和華中科技大學共同發布AID(aerial image dataset)遙感場景影像數據集[10]。該數據集共包括30個場景類別,其中所有樣本的圖像均從世界上不同國家和地區采集獲得,每個類別包含220~420張影像,每張圖像為600像素×600像素,空間分辨率為0.5~8 m,總計有10 000張影像。

2)2016年西北工業大學發布的NWPU45(NWPU-RESISC45 dataset)數據集。NWPU45數據集包含飛機、教堂、沙漠等總計45個類別,每個類別有1 000張影像,影像空間分辨率為0.2~30 m,總計有31 500張影像,包含超過100個國家與地區的影像。

2.2 評價指標

本文所提方法的有效性通過使用總體分類準確率(overall accuracy,OA)、Kappa系數和F1值來評估。OA為經過計算后正確分類的樣本數占測試集總樣本數的比例,它反映了數據集總體的分類情況。Kappa系數是一個衡量分類效果和檢驗分類一致性的指標。分類一致性是指模型預測結果和實際分類結果是否一致?;诨煜仃囉嬎愕玫終appa系數,通常系數值落在0~1之間。F1值是精確率和召回率評估指標。

2.3 實驗配置

本實驗基于中國移動云服務器完成,操作系統為Ubuntu 18.04.3 LTS,GPU為Tesla V100。實驗基于Pytorch V1.10.1框架進行,其中超參數設置迭代次數為100,批處理大小為32,學習率為0.000 1。優化器采用Adam優化器,權重衰減為0.001,使用交叉熵函數作為損失函數。

2.4 實驗結果

在公共數據集上使用本文方法與現有已知相關分類方法進行對比實驗,以確保本文方法的有效性。AID數據集和NWPU數據集的訓練比例分別為50%和20%。首先,對兩種不同多尺度影像輸入方式進行比較;接著,進行不同擴張率的空洞卷積對比,并比較不同注意力機制的效果;最后,與其他方法進行對比。對比方法包括傳統簡單路線的VGG_VD16、傳統路線網絡的改進算法如VGG_VD16加入MSCP模塊[11]、多分支網絡DCCNN[12]、多分支注意力池化網絡APDC-Net[13]、深度遷移可變形卷積神經網絡DTDCNN[14]、注意力一致網絡ACNet[15]以及基于自注意力融合特征的SAFF[16]。表1表示在AID和NWPU數據集上不同算法的精度結果。

表1 不同提取方式的分類精度

本文使用兩種不同獲取多尺度影像方式進行對比。第一種輸入方式使用ResNet-18中后4個Conv卷積層的輸出結果,第二種輸入方式使用前4個Conv卷積層的輸出結果。

從表1能夠看出,在相同的網絡架構下,本文使用的提取方式2在兩個數據集的分類精度上提升1%左右。主要原因在于多尺度融合過程中,大尺寸的影像能夠獲得更多有效的特征。引入滑動窗口多頭自注意力機制,能夠將影像進行切割并獲取各個小塊的特征,而更大尺寸的影像能使影像切割進入更多的信息,有利于使用空間注意力。

本文對兩個數據集使用了3種不同膨脹方式的卷積模塊,并進行結果對比分析。由表2的實驗結果可以看出,與不使用空洞卷積和使用較大膨脹系數的空洞卷積相比,本文使用的較小膨脹系數卷積模塊分類總體精度提高1%左右。同時,使用較大膨脹系數的空洞卷積模塊所用時間更長。因此,在時間效率方面,本文所使用的小膨脹系數的模塊具有優勢。

表2 不同膨脹系數的卷積模塊

為探究注意力機制對于模型性能的影響,在多尺度特征關聯網絡中,使用SE(squeeze-and-excitation)和CBAM(convolutional block attention module)[17]兩種注意力機制,分別在兩個數據集上進行分類測試。結合表3給出的結果,可以看出在沒有使用注意力機制的網絡中,分類精度能達到93.82%和89.38%的分類效果,說明整體網絡在框架上具有一定的優勢。兩個注意力機制在分類總體精度上較SW-MSA差1%左右。注意力機制在金字塔這種多層特征融合的框架上有一定的影響,注意力能力越強且復合的模塊能更有效地利用這種特征融合框架。

表3 不同注意力方法的分類精度 %

在AID數據集中,MFC-Net比經典單一路線網絡VGG_VD16精度高5.09%;較經典網絡中添加特征融合算法的AlexNet-MSCP提升2.37%,與網絡層數更深的VGG_VD16-MSCP效果相當;較密集連接的特征增強網絡DCCNN和多分支注意力池化網絡APDC-Net分別提升3.24%和2.58%;較經典網絡中添加自注意力機制的VGG_VD16-SAFF提升0.9%;相比于遷移可變形卷積網絡DTDCNN提高5.47%;略低于使用約束注意力機制ACNet的95.38%。從上述結果可以看出,MFC-Net在特征提取、融合和增強方面與具有更深層次的特征提取層網絡VGG_VD16-MSCP和ACNet相當。

AID數據集中主要的易混分的類別有旅游勝地、廣場與公園。公園與旅游勝地存在相近地物,廣場與旅游勝地存在相似形狀的情況,如圖(7)所示。這幾類地物復雜且周圍地物會對其分類產生影響,關鍵特征地物受到周圍信息影響從而錯誤分類(圖7)。

圖7 在AID數據集上的易混分類別

NWPU數據集較AID數據集地物種類多,圖像數量大且有部分地物易混分,因此在分類精度上不如AID,本文方法較多數對比方法可以取得更高的分類精度。較傳統VGG_VD16提升10.72%;較VGG_VD16-MSCP提升1.58%,整體效果相當;較AlexNet- MSCP提升4.93%;較多分支網絡的DCCNN和APDC-Net分別提升4.88%和2.67%;比VGG_VD16-SAFF的精度高2.65%,較AID的提升效果更大;AlexNet-SAFF與本文方法精度差距較VGG_VD16-SAFF更大;相較于DTDCNN提升6.39%;低于ACNet的92.42%。NWPU中,對于無易混分類別的地物,MFC-Net能準確提取并增強地物特征,但易混分地物中,金字塔和關聯模塊的特征獲取能力還有待進一步提高。

NWPU數據集中最容易混分的是教堂和宮殿。宮殿的部分建筑物類型與教堂中的主要建筑物十分相似,多尺度融合以及注意力機制的運用不能很好地進行區分。另外,火車站分類成為鐵路,如圖8所示,二者類別中火車站通常包含著鐵路的地物特征信息,但當圖像內容復雜多樣且火車站特征地物較小時,空洞卷積和多尺度融合會丟失掉火車站特征信息,無法正確找到此類的關鍵特征,因此錯誤分類為鐵路。

圖8 在NWPU數據集上的易混分類別

表5展示了不同方法的網絡參數量。由表4和表5看出,MFC-Net在兩個數據集的總體分類精度上均優于VGG_VD16、VGG_VD16-MSCP、AlexNet- MSCP、DCCNN、APDC-Net、VGG_VD16-SAFF以及DTDCNN,較ACNet稍低;網絡參數量低于其余網絡,稍高于DCCNN和APDC-Net。

表4 不同方法在兩個數據集上的分類精度 %

表5 不同方法的參數量

MFC-Net將空洞卷積和滑動窗口多頭自注意力模塊融入金字塔結構,使其在遙感影像的場景特征提取上較上述對比網絡有更優的提取和抑制能力,且多特征關聯部分能在提取準確的前提下更好地增強特征信息。

相較于總體分類精度相近的ACNet網絡,雖然ACNet的分類精度略優于本文方法,但MFC-Net網絡的參數量僅為其十六分之一,其他參數量較少的網絡分類精度較低。因此,結合考慮精度和參數量的綜合表現,MFC-Net網絡具有一定的可用性。

2.5 消融實驗

本文方法中添加空洞卷積模塊、滑動窗口多頭自注意力模塊以及特征關聯模塊。本小節使用NWPU數據集對本文方法進行消融實驗,驗證各個模塊的有效性。表6為消融實驗的結果。

表6 消融實驗

從表6結果看出,滑動窗口多頭自注意力模塊和空洞卷積模塊對網絡的提升效果相當。兩個模塊結合在一起能更有效地提高分類精度,結合多尺度特征關聯模塊能達到最優效果。主要原因是僅使用空洞卷積雖然能聯系上下文語義信息,但卻無法更多地關注關鍵特征。引入滑動窗口多頭自注意力模塊后,可以在空間域上增強通過空洞卷積所獲得的特征,從而更好地關注關鍵特征,因此能有更好的效果。

3 結束語

MFC-Net以ResNet18為多尺度提取網絡,使用特征金字塔結構多尺度融合的基礎框架。此外,MFC-Net結合空洞卷積模塊和滑動窗口多頭自注意力機制模塊,以獲得圖像多尺度特征信息、多尺度注意力獲取以及多尺度特征圖像有效融合的效果。同時,MFC-Net采用多尺度特征關聯來增強提取特征之間的信息交互,通過多尺度特征加和的形式增強最終特征,最后進行有效的場景分類。實驗結果表明,在兩個大型且具有挑戰性的數據集上,場景分類總體精度較高。MFC-Net在多尺度圖像獲取部分過濾小尺寸圖像,使用大尺寸圖像結合空洞卷積的方式來提取局部、小區域的特征信息。此外,MFC-Net網絡內部使用Swin Transformer多頭自注意力模塊以增強特征提取效果。實驗結果證明該方法能有效提高分類精度,較Transformer類網絡,參數量更少、時間成本降低,表明了MFC-Net網絡的優越性。后續將研究在多尺度圖像融合部分中添加有效的判斷機制,提高特征增強的有效性。

猜你喜歡
尺度注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
財產的五大尺度和五重應對
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合