?

基于多層感知機的輕量級遙感影像語義分割方法研究

2024-02-21 06:00呂文琪簡夜明
軟件導刊 2024年1期
關鍵詞:解碼器卷積特征

呂文琪,馬 驍,簡夜明,向 毅

(重慶科技學院 智能技術與工程學院,重慶 401331)

0 引言

圖像分割是遙感影像建筑物檢測中的一項主要任務,對于在分辨率較高的大型圖像中提取固定建筑物至關重要。受高分辨率遙感圖像的成像因素以及建筑物自身尺寸和形狀特征多樣性的影響,遙感圖像建筑物分割一直是該領域的研究重點和難點。傳統的建筑物分割方法多基于人工構造特征結合傳統圖像分割方式,針對特定場景實現建筑物分割,但其無法達到自動分割建筑物的目標,且分割精確度較低、魯棒性較差。近年來,使用深度語義分割算法在固定建筑物提取中效果良好,UNet[3]是一項具有里程碑意義的研究成果,其展示了如何有效使用具有Skip Connection 的編碼器—解碼器卷積網絡進行圖像分割。近年來,UNet 已成為幾乎所有領先的圖像分割方法的標桿。繼UNet 網絡之后,研究者們又相繼提出一些關鍵性的擴展方法,例如UNet++[4]、UNet3+[5]、3D UNet[6]、V-Net[7]、Y-Net[8]以及KiUNet[9]等。

隨著注意力機制在圖像領域的廣泛應用,研究者們提出許多基于Transformer 的網絡結構用于醫學圖像分割,如Transfromer[10]可以使模型更加傾向于關注圖像的全局特征,對分割任務有著較大幫助。TranUNet[11]將ViT 架構修改為用于2D 醫學圖像分割的UNet。其他的一些基于Transformer 的模型,如MedT[12]、TransBTS[13]和UNETR[14]也相繼被提出。但是之前的工作大多關注于如何提高網絡性能,而忽略了關鍵的運行時間與效率問題。較復雜的模型雖然性能較好,但是復雜的結構在帶來較高準確率的同時也會產生大量計算參數,所需推理時間較長,導致模型訓練速度與效率降低。而往往在實際應用中,效率是必須考量的因素。在實驗室進行實驗時,通常會使用具有較強計算能力的機器(GPU)來輔助計算,以提高訓練速度,但這些輔助計算工具在實際應用中很難進行部署,導致一些模型往往只是停留在實驗階段,而沒有真正應用于實際。

當發生地震等自然災害時,如果破壞程度較高,建筑物會發生很大變化,通過遙感圖像對災區建筑物進行圖像分割有助于救援工作的開展。但現有圖像分割模型龐大,難以在實際工程中得到應用,所以對遙感圖像分割提取模型的輕量化具有重要的應用價值。然而,現有基于深度學習的模型均未考慮深度卷積網絡的輕量化與可移植性。模型從實驗室到落地實際工程應用,如何將模型進行輕量化處理是近幾年的研究熱點,2017 年,Howard 等[15]提出深度可分離卷積并構建了MobileNet 網絡,該網絡具有較高的分類精度,并在一定程度上減少了網絡的參數量。Tan等[16]提出在MobileNet 等相關網絡基礎上,對網絡深度、寬度及特征圖分辨率3 個維度以及圖像分類精度、效率之間的關系進行研究,并設置合適的約束條件,通過NAS 搜索得到一系列精度和效率兼優的網絡模型。

有研究發現,一種基于MLP(Multi-Layer Perception)的網絡被發現可以勝任計算機視覺任務。特別是MLPMixer[17],一個完全基于MLP 的網絡,其在性能上與Transformer 相同,但是相比Transformer,MLP 采用更少的參數與資源。MLP-Mixer 使用兩種類型的MLP 層,channel-mixing MLP 和token-mixing MLPs。channel-mixing MLP 用 來提取不同的token 特征,token-mixing MLPs 用來獲取局部空間信息。Graham 等[18]提出了類似的體系結構,并用更簡單的仿射變換取代了層歸一化。為了保存輸入圖像的位置信息,Hou 等[19]保持了輸入2D 圖像,并分別沿寬度和高度排列來提取特征?;贛LP-Mixer,Yu 等[20]使用空間移位操作代替token-mixing MLPs 層來捕獲局部空間信息,同樣實現了很高的效率。近年來,Lian 等[21]提出沿兩個正交方向移動標記,以獲得軸向感受野;Chen 等[22]提出一個循環全連接層,其可以同時沿著空間維度和通道維度混合信息,并能夠處理不同尺度的輸入圖像;Diakogiannis等[23]在ResUnet 的基礎上,定義了新的損失函數Dice,可以加速模型分割速率,但是存在極大的不平衡性;Valanarasu 等[24]基于MLP 和Unet 網絡設計出一種新的Unext網絡結構,但Unext只是使用了MLP 和卷積操作,并沒有在連接過程中考慮圖像的細粒度特征,忽略了一些通道上的感受野。

1 本文方法簡介

本文提出一種結合卷積模塊與MLP 模塊的網絡結構,遵循U-Net 網絡結構的5 層深度編碼器—解碼器體系,但在每個模塊的設計上作出了改變。將整個網絡分為兩個階段,減少卷積模塊的過濾器數量,在MLP 模塊中加入了移位操作,以提取不同移位對應的局部信息。同時,在跳躍連接過程中加入高效的通道注意力模塊,使用通道注意力強化網絡的多尺度特征信息,提高模型對于建筑物特征的靈敏度。并且,本文方法能夠在減少參數和計算復雜度的基礎上保持良好性能。

1.1 U-Net網絡結構

U-Net[3]是一種被廣泛應用于圖像分割的全卷積神經網絡。對于遙感圖像分割任務來說,研究者們對于各類遙感圖像中建筑物的位置分布更感興趣。U-Net網絡的工作原理如下:遍歷圖像的每一個像素,然后進行像素級分類,并根據分類后的像素種類進行圖像分割。其結構如圖1所示。U-Net 網絡包含編碼器和解碼器兩部分,編碼器的主要功能是提取圖像特征,解碼器的功能則是進行上采樣工作。由圖可知,左半部分為編碼器,是由兩個3×3 的卷積層再加上一個2×2 的池化層組成一個下采樣模塊;右半部分為解碼器,是由一個上采樣的卷積層和特征拼接concat 以及兩個3×3 的卷積層疊加構成。U-Net 有較深的網絡層,有更大的視野域,淺層卷積關注的是表層紋理特征,而深層網絡能關注更本質的特征。通過解碼器的反卷積得到更大尺寸的邊緣特征,會導致在下采樣過程中損失相應的邊緣特征,而通過特征的拼接可以找回邊緣特征。

Fig.1 U-Net network structure圖1 U-Net網絡結構

1.2 基于Attention-MLP的U-Net網絡

考慮到實際應用效率,本文專注于設計一個高效的網絡,使其具有更少的參數,且運算時間更短,同時能保證計算的準確性。為此,本文在原有的U-Net 網絡中引入多層感知機MLP,對原有U-Net 網絡結構中的兩層卷積層進行替換。同時,為了保證其具有良好性能,將注意力機制引入其中。在編碼器與解碼器進行跳躍連接過程中加入一個注意力控制機制。如圖2 所示,本文的網絡主要分為兩個階段:卷積階段和標記多層感知機階段。輸入的圖像首先通過編碼器,包括前面3 個卷積模塊以及2 個MLP 模塊。解碼器由2 個MLP 模塊以及3 個卷積模塊組成。每個編碼器塊將特征分辨率降低兩倍,每個解碼器塊將特征分辨率提高兩倍,在編碼器與解碼器之間會有跳躍連接。為了減少參數量,設置超參數為C1=32,C2=64,C3=128,C4=160和C5=256。與U-Net 網絡相比,本文方法有效減少了參數量,有助于進行計算。

Fig.2 Network structure combining convolutional module and MLP module圖2 結合卷積模塊與MLP模塊的網絡結構

1.3 卷積模塊

每一個卷積模塊都含有卷積層、歸一化函數以及GELU 激活函數。其使用3×3 大小的卷積核,步幅為1,填充為1。編碼器中的卷積層使用具有池化作用的2×2 最大池化層。在每一次池化后,圖像尺寸會變為原來的一半。在解碼器中,使用雙線性插值對特征圖執行上采樣。在UNet 網絡結構中可以使用雙線性插值來模擬轉置卷積的操作,提供更多可學習的參數。

1.4 Shift MLP

雖然MLP-Mixer 在學習自由性方面進行了增強調整,但在局部約束方面沒有提升,因此更容易導致過擬合現象,所以只有當使用具有超大規模數據量的數據集進行訓練時才會展現出效果[17]。為此,本文在MLP-Mixer 結構上加入一些約束條件,以幫助模型在中小規模數據集上取得更好的訓練結果。

在MLP 模塊的移動過程中,本文在數據集標記之前,首先按照軸向移動卷積層產生的特征,使得MLP 僅關注由卷積層提取出的某些特征。與axial-attention 類似,一個MLP 模塊有兩個shiftMLP 層,一層沿著圖像寬度移動,一層沿著圖像高度移動。本文將特征拆分為h 個不同的分區,并根據指定的軸將其移動j 個位置,從而有助于創建隨機窗口。

1.5 MLP模塊

在MLP 模塊(見圖3)中,首先對輸入特征進行移位操作,并將其送入標記模塊。將特征切分為大小3×3、通道為E 的不同patch,并將這些patch 傳遞給第一層MLP。第一層MLP 對其按寬度進行映射,之后通過一個深度卷積層。使用深度卷積層有助于對MLP 提取出特征的位置進行信息編碼,而且深度卷積層使用的參數較少,提高了效率。然后通過一個GELU 激活層。與常用的RELU 激活函數相比,GELU 有助于加速模型收斂。最近的大多數架構,例如VIT 和BERT 都成功使用GELU 函數并取得了很好的效果。通過GELU 后,再通過另一個MLP 層對特征進行高度上的映射。最后應用層歸一化將輸出特征傳遞到下一個塊。

Fig.3 MLP module圖3 MLP模塊

1.6 Attention模塊

在跳躍連接過程中通過在通道維度添加注意力機制,從而過濾無關信息,并提取具有辨別力的特征。Attention模塊如圖4 所示,通過卷積操作對輸入特征xg和xl進行相加得到特征f,對f的每個通道使用全局平均池化(Global Average Pooling,GAP)得到1×1×C 的向量,之后通過一維卷積實現不需要降維的局部通道交互方法,該方法只涉及少量參數。

Fig.4 Attention module圖4 Attention模塊

根據式(1)選擇一維卷積的卷積核,通過Sigmoid 函數生成每個通道的權重,最后將產生的通道權重加權到原特征f上得到新特征。

其中,Conv1 為一維卷積,k為一維卷積核大小,y為通道特征,C為通道數,λ和b 為超參數,ω為通道權重,σ為Sigmoid函數。

2 實驗與分析

2.1 數據集

實驗數據來自武漢大學季順平團隊基于衛星遙感影像制作并發布的WHU satellitedatasetⅠ數據集和WHU satellitedatasetⅡ數據集(數據集Ⅱ)[25]。數據集Ⅰ共有204 張512×512 遙感影像和對應的標簽圖像,包括來自ZY 3 號、IKONOS、Worldview 系列衛星的不同傳感器與空間分辨率(0.3~2.3m)的影像,涵蓋了歐洲、中國、南北美洲以及非洲的不同城市區域,能對建筑物提取算法的魯棒性進行有效檢驗。數據集Ⅰ的部分示例如圖5 所示。為增加樣本數量,本文首先將原始數據集影像裁剪為256×256 大小的子圖集,然后對子圖集進行旋轉、沿軸鏡像處理、均值濾波、椒鹽噪聲增強以及高斯噪聲增強處理,共得到20 094 張影像。最后將處理后的數據集按照8:1:1的比例劃分成訓練集、驗證集與測試集,影像數量分別為1 606、2 009、2 009張。其中,訓練集用于擬合模型,驗證集用于調試超參數以及監控模型是否發生擬合,測試集用于最終的模型泛化能力評估。數據集Ⅱ由17 388張512×512的遙感影像與對應標簽組成,包括6 個響鈴的衛星圖像,覆蓋東亞860 km2,地面分辨率為0.45 m。數據集Ⅱ的部分示例如圖6 所示。該測試區主要用于評估和開發深度學習方法,其中13 662張圖像用于訓練,其余3 726張用于測試。

Fig.5 Example of partial satellite image data of data setⅠ圖5 數據集Ⅰ部分衛星影像數據示例

Fig.6 Example of partial satellite image data of data set Ⅱ圖6 數據集Ⅱ部分衛星影像數據示例

2.2 實驗環境與參數設置

本文的實驗環境如表1 所示。根據實驗環境、采用方法、數據集規模及反復多次的實驗結果,設置數據集Ⅰ和數據集Ⅱ的batchsize 為16,共訓練170 個epoch;使用Adam優化器,設置動量為0.9;使用余弦退火方法調整學習率,設置最小值為0.000 01,最大值為0.000 1。

Table 1 Experimental environment configuration表1 實驗環境配置

本文所用到的網絡模型均使用二元交叉熵(BCE)和Dice 系數結合的綜合損失進行訓練,預測值與目標y之間的損失L可表示為:

其中,二值交叉熵損失LBCE的計算公式為:

其中,N為批處理大小,i為對應的索引,y為樣本真值為網絡的預測值。

Dice 系數損失在類別不平衡問題上表現優異,而在一般的遙感圖像中,建筑物的像素占比較少,所以可將遙感建筑物提取歸為不平衡問題。Dice 系數損失的表達式為:

其中,G 為標簽真值,Y 為網絡最終輸出的標簽,N 和i分別為批處理大小及對應的索引。

2.3 實驗性能比較

將本文方法與最近廣泛使用的分割框架進行對比,選擇了較為經典的UNet[3]、UNet++[4]和SegNet[23]等使用卷積神經網絡的模型進行了比較。使用GFLOPs 來衡量計算復雜度,GFLOPs 表示每秒10 億次的浮點運算數,理論上該數值越高越好。本文首先將參數量、計算復雜性以及運行時間等方面屬性與其他模型進行比較,結果如表2所示。

Table 2 Parameters,average training time and GFLOPs of different network models表2 不同網絡模型參數、平均訓練時間以及GFLOPs

由表2 可知,與UNet、UNet++、SegNet 相比,本文方法的每秒浮點數最少,訓練時間和計算復雜度最小,其參數量僅為1.471 93 M。

不同模型參數、平均運行時間以及計算復雜度減少百分比如表3所示。不同模型的Loss曲線如圖7所示。

Table 3 Parameters,average running time and calculation complexity reduction percentage of different models表3 不同模型參數、平均運行時間以及計算復雜度減少百分比%

Fig.7 Loss curves for different models圖7 不同模型的Loss曲線

從圖7 可以看出,3 種網絡隨著迭代次數的增加,損失值不斷減小,其中本文方法最快進入收斂狀態。

本文使用交并比(Intersection over Union,IoU)對實驗精度進行評價,計算公式為:

其中,TP 表示實際為正樣本且預測出結果也為正樣本的樣本數目;FP 表示實際為負樣本但預測出結果為正樣本的樣本數;FN 表示實際為正樣本但預測出結果為負樣本的樣本數。分別提取數據集Ⅰ測試集遙感影像中的建筑物,選取武漢、臺灣、洛杉磯、渥太華以及開羅5 個地區進行精度評價。不同地區的IoU 值如表4所示。

Table 4 IoU values for different regions表4 不同地區IoU值%

數據集Ⅰ提取分割結果如圖8 所示,本文方法在盡可能減少損失IoU 的情況下,具有較好的分割效果。數據集Ⅱ有17 388 張遙感圖像,由于可用作訓練的圖像較多,本文方法在數據量較多時可以有效提取不同的局部信息,并且能達到較高精度。數據集Ⅱ提取分割結果如圖9所示。

Fig.8 Extraction and segmentation results of dataset Ⅰ圖8 數據集Ⅰ提取分割結果

Fig.9 Extraction and segmentation results of dataset Ⅱ圖9 數據集Ⅱ提取分割結果

2.4 消融實驗

為了驗證本文方法的有效性,將改變注意力模塊和特征圖輸入大小,進行消融實驗。

在注意力模塊的消融實驗中,使用數據集Ⅰ作為訓練數據集,將Iou 與平均訓練時間作為評價指標。訓練過程使用同一實驗環境,參數設置相同,研究注意力模塊對實驗結果的影響。以加入Attention 模塊的網絡作為Baseline,消融實驗在數據集Ⅰ上的評價結果如表5所示。

Table 5 Evaluation results of ablation experiment on data set Ⅰ表5 消融實驗在數據集Ⅰ上的評價結果

從表5 中可以看出,在沒有Attention 模塊的網絡上,其Iou 僅為74.630 1%。在引入了Attention 模塊后,Iou 指標提高了1.731%。從評價指標中可以看出,Attention 模塊的引入可較好地提升遙感圖像分割精度。同時,對比兩種網絡的參數量,Attention 模塊的參數量僅增加了0.000 01 M。

在特征圖輸入大小的消融實驗中,以Iou 和平均訓練時間作為評價指標,以數據集Ⅰ作為訓練集,數據集中的原始圖像大小為512 × 512,采用不同的切分比率K 對原始圖像進行均等切分(K 取值為1、4、16、64),實驗結果如表6 所示。從表中可以看出,當切分比率為16、輸入圖像大小為128 × 128 時,Iou 的精度最高。這是因為當輸入圖像過大時,圖像中存在很多噪聲點,噪聲點對模型產生干擾,導致模型沒有學到有用的特征。而當輸入圖像過小時,像素之間的關聯性會降低,最終影響分割精度。

Table 6 Experimental results of different cutting ratios on data set Ⅰ表6 不同切分比率在數據集Ⅰ上的實驗結果

3 結語

本文針對現有遙感影像語義分割方法的不足,提出一種新的深度網絡架構用于遙感圖像分割。該方法采用一種局域卷積模塊與MLP 模塊相結合的架構。本文提出了一種帶有移位的MLP 模塊,降低了計算的復雜性,并減少了模型參數。在多個數據集上驗證了本文方法,并且與UNet、UNet++、SegNet 模型進行了對比實驗。結果表明,本文方法在盡可能保留IoU 均值的同時,訓練速度更快,復雜性更低,參數量更少,并且能夠實現較好的分割效果。

猜你喜歡
解碼器卷積特征
科學解碼器(一)
基于3D-Winograd的快速卷積算法設計及FPGA實現
科學解碼器(二)
科學解碼器(三)
如何表達“特征”
線圣AudioQuest 發布第三代Dragonfly Cobalt藍蜻蜓解碼器
從濾波器理解卷積
不忠誠的四個特征
基于傅里葉域卷積表示的目標跟蹤算法
抓住特征巧觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合