?

傳播深度和多尺度特征融合的遙感圖像分割

2021-12-12 12:04孫昊堃劉紫燕梁水波
無線電工程 2021年12期
關鍵詞:淺層殘差卷積

孫昊堃,劉紫燕,梁 靜,梁水波,袁 浩

(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)

0 引言

隨著科技的不斷發展,遙感圖像在無人機、城市規劃、災害現場評估和交通運輸等方面有著廣泛的應用,獲取遙感圖像中的地面信息有著極其重要的實用價值。然而,由于近些年來遙感圖像所包含地面與物體信息越來越多,結構越來越復雜,存在各種物體的大小不一、光照不一、陰影重疊和物體遮擋等現象,導致實際分割過程中存在目標尺度變化大、小目標眾多和目標排布密集等難點,給遙感圖像的發展與應用帶來了巨大的挑戰[1]。

圖像語義分割是根據圖片中的紋理、位置和顏色等信息,對圖片中的每個像素預測分類,從而得到特定目標的圖像,以滿足人們對圖像中目標精確定位的需求。傳統的圖像分割有基于閾值分割[2]、均衡直方圖[3]、區域生長[4-5]、尺度不變特征變換[6]和超像素等方法。

受AlexNet[7]啟發,科研人員將卷積神經網絡運用到圖像語義分割領域,并提出許多優秀的分割網絡模型。文獻[8]未考慮遙感圖像中像素之間的關系,缺乏空間一致性;文獻[9]對衛星拍攝圖像的中小目標分割效果差;文獻[10]無法充分利用遙感圖像整體的場景信息;文獻[11]存在局部信息丟失,損失信息的連續性;文獻[12]使用遠程殘差連接實現高分辨率的預測,但網絡結構十分復雜;文獻[13]存在訓練時嚴重消耗內存,對硬件設備要求高等問題;文獻[14]模型沒有下采樣過程存在計算量復雜、實時性差等問題;文獻[15]在醫療圖像領域效果較好,但對于包含類別多的遙感圖像效果表現不佳;文獻[16]提取局部信息較少導致分類的性能存在限制,遙感圖像分割的準確率不高。

上述網絡存在一些不足,例如,淺層特征傳播過程中丟失信息嚴重,獲得的全局上下文信息不完整,導致分割對象出現支離破碎的區域;空間位置和類別的多樣性會影響分割的準確性,若目標所占像素區域小并且特征不明顯則容易被忽略,導致背景同化得到錯誤的分類;對于不同大小的同類物體缺乏特征融合等。

為解決上述問題,本文在ResNet101網絡的基礎上改進特征融合結構,融合所提取的多層特征從而獲取更豐富的上下文信息,保留淺層特征在傳播過程中的完整性,有效提高位置信息的利用率,同時改善空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊的膨脹率設置,避免網格效應,更好地利用多尺度信息。最后,在公開數據集Satellite dataset I (global cities)上實驗,證明了本文模型的有效性。

1 傳播深度和多尺度特征融合網絡

基于融合深度特征的方法通過融合1個或多個卷積神經網絡不同層的特征,增加融合特征的信息量提高性能[17]。本文模型的特征融合方式有2種:多層級特征融合和多尺度特征融合。多層級特征融合即傳播深度特征融合,指不同提取深度的特征包含不同信息,高層級提取到的特征用于類別識別,低層級的特征用于精準定位,將二者提取到的信息融合,捕獲到高精度的全局上下文信息。多尺度特征融合是指將尺寸不同的特征信息融合,存在差異目標與卷積核并行運算,將二者結果相融合。為降低運算復雜度,本文采用膨脹率不同的卷積代替大小不同的卷積核。

本文提出的向前傳播深度和多尺度特征融合網絡示意如圖1所示,主體結構為改進特征融合的ResNet101殘差網絡。主干網絡使用跨連接方法多次融合淺層和高層特征信息,去除Fully Connected(FC)層后添加經過改進的ASPP模塊,實現不同深度和不同尺度的信息融合。

圖1 傳播深度和多尺度特征融合網絡示意Fig.1 Schematic diagram of propagation depth and multi-scale feature fusion network

1.1 ResNet101網絡

2015年,Residual Neural Network(ResNet)由微軟研究院何凱明等[18]華人學者提出。傳統的卷積神經網絡隨著層數增加,理論上會取得更好的效果。然而實踐表明,當模型層數達到一定深度,網絡性能并不會隨著深度增加而提高,相反會引起梯度消失與梯度爆炸等問題,從而導致精度下降。殘差網絡的提出有效地解決了上述問題,使網絡模型較深的情況下依舊能取得出色的性能。通常網絡的一層可以看作y=H(x),而殘差網絡中的殘差塊可以表示為F(x)=H(x)-x,即預測值H(x)與x觀測值的差值稱為殘差。殘差模塊結構如圖2所示。

每個殘差單元可表示為:

yl=h(xl)+F(xl,Wl),

(1)

xl+1=f(yl),

(2)

式中,xl和xl+1分別表示第l個殘差單元的輸入和輸出;h為直接映射;f為ReLU激活函數;F為殘差函數,表示學習到的殘差?;谝陨瞎娇汕蟪鰪臏\層l到深層L的學習特征:

(3)

根據鏈式求導法則,得到反向傳播過程中的梯度為:

(4)

圖2 殘差模塊結構Fig.2 Residual module structure

常見的ResNet網絡有ResNet18,ResNet50,ResNet101和ResNet150等,數字部分代表網絡所包含的層數。ResNet101網絡由4個Bottleneck組成,每個Block包含不同的殘差塊,如圖3所示。

圖3 ResNet101網絡結構Fig.3 ResNet101 Network structure

1.2 傳播深度特征融合

基于卷積神經網絡最后一層的輸出作為提取圖像的特征,卷積神經網絡在逐層運算過程中保持了圖像的空間特征,然而位置信息不夠精確,需要經過特征融合獲取更多的信息。較淺層的特征圖位置信息比較豐富,但語義信息相對缺乏。若能將淺層與深層的特征有效融合,既可以得到豐富的語義信息又能得到精確的空間信息,從而提高語義分割的精確度。本文模型針對經典網絡融合方式存在的缺點做出以下改進。

(1) 融合淺層信息。經典網絡FCN的融合方式通過深層特征圖多倍上采樣后與淺層相加,當加到第3個Block時效果最優,繼續添加更淺的Block1和Block2反而使效果變差。其原因包含2點:特征圖上采樣倍數過大(16倍),使得結果變粗糙;多次疊加最淺層信息,默認降低了深層信息的權重。本網絡利用了所有淺層的信息,為得到更好的效果主要采取以下2個措施:所有上采樣均為2倍,若需要更大的倍數則多次疊加2倍上采樣,并且每次疊加之間添加卷積層調節插值效果;將2個淺層特征圖融合為一個,降低此部分在最終融合結果中的權重。本文模型的階段1與階段2的內部融合均采用該方法降低權重。階段1融合Block1和Block2的內部融合結果如圖4所示。

圖4 內部融合Fig.4 Internal integration

(2) 利用融合結果實現前向傳遞。Unet網絡在編碼階段的前向傳遞沒有受到融合結果的影響,僅在解碼階段持續融合編碼階段的特征圖優化細節信息。這種方式未能充分地利用融合結果,本文采用前向傳遞的方式將融合后的結果用在特征圖中,能讓淺層信息得到充分提取特征。階段間的融合如圖5所示。

圖5 階段間融合Fig.5 Fusion between stages

1.3 多尺度特征融合

ASPP模塊的主要結構是空洞卷積,其主要作用是在保持特征圖分辨率大小的前提下增大感受野,即:

(5)

式中,y[i]為輸出;x[i]為輸入;r為空洞率表示卷積和之間插入r-1個空洞;w[k]為卷積核中第k個參數。r=1時,為標準卷積;r>1時,為帶孔的卷積。

當輸入為標準卷積時,輸出的感受野較小,淺層信息被使用多次從而產生多余信息。而輸入為空洞卷積時,可以通過不增加額外參數的情況下增加神經元的感受野,利用更多的上下文信息。

遙感圖像分割網絡中高層網絡的感受野比較大,語義信息表征能力強,但是特征圖的分辨率低,幾何信息的表征能力弱(即缺少空間幾何特征細節)??斩淳矸e可以提高感受野,并且不增加額外運算復雜度。ASPP采用具有4個不同膨脹率(6,12,18,24)的并行支路,其感受野不同可以提取不同尺度目標的信息。然而膨脹卷積不連續,并非所有像素都用來計算。膨脹不能覆蓋所有圖像特征,會產生網格效應。網格效應如圖6所示,有部分像素點的信息被忽略,即使多支路疊加也會忽略損失信息的連續性。為改善這種狀況,采用沒有最小公倍數的混合膨脹卷積,將膨脹率設置為(3,5,11,17),使卷積運算更合理地分配到每個像素點。通過以上操作,本文模型最后的特征圖經過混合膨脹卷積運算融合多尺度信息。

圖6 網格效應Fig.6 Grid effects

1.4 網絡架構

本文的網絡結構由3次傳播深度特征融合和并行混合膨脹卷積組成。3次傳播深度特征融合是從淺層開始向深層逐層融合,保留淺層特征的信息完整性。Block1和Block2的結果進行第1次融合,一方面保留高精度位置和形狀信息,另一方面融合的結果繼續前向傳播;第2次融合,用相同的辦法處理Block3和Block4;第3次融合包含所有層的信息,即前2次的融合、Block5和混合膨脹卷積的結果。

融合階段1:首先輸入圖像(512×512×3),Block1由卷積-卷積-最大池化構成,經過Block1得到256×256×32的特征圖。通過Block2的3個連續的Bottleneck結構得到128×128×256的特征圖。此時Block2的結果不直接前向傳播,而是和Block1的結果融合。將Block2的結果采取2倍上采樣,接著用1×1的卷積核將深度調節為32。相加得到階段1的結果,如圖7所示。

圖7 融合階段1Fig.7 Fusion stage 1

融合階段2:階段1的結果繼續前向傳播,經過Block3(連續4次Bottleneck結構)得到64×64×512的特征圖。經過Block4(連續23次Bottleneck結構)得到32×32×1 024的特征圖。此時Block4的結果不直接前向傳播,而是與Block3的結果融合。類似融合階段1,不再贅述。

融合階段3:階段2的結果繼續前向傳播,Block5(連續3次Bottleneck結構)不同于ResNet101的第5部分取消最后的池化層。因為所用數據集的分割對象為有較強先驗結構的矩形目標,所占像素寬度在30~50,若再次最大池化,會導致特征圖僅為原輸入的1/32,丟失有用信息。

經過Block5的運算,得到32×32×2 048的特征圖。使用混合膨脹卷積運算,以Concatenate的方式進行并行支路的融合特征。4條并行支路的卷積核大小保持不變,只將膨脹卷積層的padding與膨脹率設置相等即可得到分辨率相同的輸出結果。如式(6)和式(7)所示,若padding等于膨脹率,則特征圖運算前后的尺寸大小相等,可以在不增加運算復雜度的前提下實現特征融合:

(6)

sizedilation=sizeker+dilation_rate×2,

(7)

式中,sizeold為卷積運算前的特征圖尺寸;sizenew為卷積運算后特征圖的尺寸;sizeker為卷積核的尺寸;padding為特征圖填充尺寸;stride為卷積運算的步長;sizedailtion為加上卷積核填充后的卷積核尺寸,膨脹率為卷積核填充尺寸。

最后階段3的融合,包含階段1、階段2、Block5和混合膨脹卷積的結果,如圖8所示。融合后的結果再連續經過3次上采樣,最終可恢復到輸入大小相同尺寸。

圖8 融合階段3Fig.8 Fusion stage 3

1.5 損失函數

交叉熵損失函數(Cross-entropy Loss)作為遙感語義分割領域中常用的損失函數,是一種利于分類網絡進行標簽的置信度排序函數。首先將輸出值用Softmax函數激活,接下來和標簽做帶權重的交叉熵損失。數據集中前景和背景的像素比例約為1∶3,若不調節交叉熵損失項的權重,會使模型更偏向于更新背景相關的權值。因此在交叉熵損失項上乘以類別比例的反比來修正前景和背景損失項的權重:

L=w1×ytrue×log(ypred)+w0×(1-ytrue)×

log(1-ypred),

(8)

式中,w0和w1分別代表了當前數據的真實標簽為0或1所占的概率。

2 實驗結果與分析

本文的實驗平臺采用Ubuntu16.04操作系統,NVIDIA RTX 2070顯卡的環境。采用Adam優化算法,學習率為0.001,beta_1為0.9,beta_2為0.999,epsilon為10-8。batch大小為4,epoch為150。

2.1 標準數據集與評價指標

本文采用武漢大學公開遙感數據集Satellite dataset Ⅰ(global cities)[19],數據集信息是從世界各地的城市以及各種遙感資源(包括QuickBird,Worldview系列,IKONOS,ZY-3等)收集的,包含204張圖像(分辨率為512×512,能見度0.3~2.5 m),如圖9所示。

圖9 數據集樣圖Fig.9 A sample of the dataset

實驗中,使用語義分割中常見的準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1 measure)作為性能評價指標。值越大代表模型效果越好。每個像素的預測結果為4種之一,分別是真陽性(True Positive,TP)、假陽性(False Positive,FP)、真陰性(True Negative,TN)和假陰性(False Negative,FN)。

Accuracy是圖中預測正確的像素與總像素的比例,即:

(9)

Precision是圖中預測為正例的樣本中正例的比例,即:

(10)

Recall表示圖中有多少正例被正確地預測,即:

(11)

F1值由精確度和召回率計算得到,它表示精確度與召回率的加權調和平均,即:

(12)

2.2 與其他模型比較

為驗證本文模型的有效性,實驗將改進模型與FCN,PSPnet,DeepLabv3和Unet等經典網絡模型進行對比,分別從定性和定量2個方面評價,定性分析將從圖像分割的視覺效果評價,定量分析從準確率、精確度、召回率和F1值4個指標評價。

如圖10~圖13所示,在5個模型中DeepLabv3和PSPnet分割的效果最差,具體表現在與真實標簽圖相比建筑物輪廓粗糙,幾何特征未能真實還原。FCN的分割效果有一定的提升,建筑物的輪廓信息逐漸清晰,但與真實標簽相比,無法分割鄰近建筑物,與實際效果融合在一起。Unet已經能夠較為準確地分割出建筑物,但在小物體分割效果上不如本文所提出網絡模型。圖11~圖13中標出的黃色框為灌木叢旁的一組建筑物,真實標簽圖中區域棱角分明,輪廓清晰。PSPnet和DeepLabv3的分割結果顯示該區域信息缺失嚴重,無法恢復出建筑物基本輪廓特征。因為Unet和FCN網絡利用了提取深度特征融合,分割效果有明顯的提升。在所有網絡里,本文的模型分割效果最好,其細節表現性能優異,沒有出現邊緣有鋸齒狀或者參差不齊的情況。最終分割的邊緣與真實標簽高度相似,精確捕捉到分割目標的位置和形狀信息,在上述幾種模型中表現最好。

圖10 原始圖像Fig.10 Original image

圖13 UNet和Ourmodels

真實標簽中的建筑物目標一般具有直線型的邊緣,而本文所提算法僅能提取出鋸齒狀邊緣,這是由神經網絡多次下采樣后的信息損失導致的,而上采樣后的特征圖又無法完全恢復信息損失。邊緣處的誤檢或漏檢限制精度的提升。在未來的工作中為解決此問題,需要重點關注邊緣區域的像素分類結果,選出準確度不高的點,綜合利用該點的深層和淺層特征圖信息,訓練一個較小的網絡輔助判斷其分類,進一步提升整體精度。

每個模型在準確率、精確率、召回率和F1值4個指標的數據如表1所示。本文提出的模型準確率相較于DeepLabv3,PSPnet,FCN,Unet分別提升了3.97%,3.91%,3.4%,1.23%;精確率提升了12.95%,7.9%,5.55%,1.83%;召回率提升了4.85%,5.84%,5.04%,1.48%;F1值提升了13.23%,11.44%,9.51%,4.93%??梢缘贸?,本文提出的模型在4個指標均有提升,對比PSPnet,DeepLabv3提升比較明顯。對于遙感圖像中表現優異的Unet網絡也有一定的提升。

表1 5個模型的指標對比

2.3 消融實驗

為驗證本文各階段間融合與改進ASPP模塊的有效性,在Satellite dataset Ⅰ數據集上采用控制變量法設置消融實驗,與2.1節評價指標對比,實驗結果如表2所示。

表2 消融實驗

由表2可知,傳播深度融合stage3的作用最大,因為其基本融合了所有傳播深度的特征,有利于最終特征圖的優化,若不利用stage3的融合結果會導致準確率下降4.1%。其次是改善的ASPP模塊作用較大,能夠輔助提取多尺度信息,若取消該模塊會導致準確率下降2.6%。傳播深度融合stage1和stage2的作用微弱,其原因可能是:① 層數較淺導致并沒有提取到足夠的信息,使融合提升幅度不大。② 其都屬于局部特征融合,特征之間的差異較小對融合的作用較弱。綜合分析表2結果,本文所提出傳播深度的特征融合與改進的ASPP模塊取得最好的效果。

綜上所述,本文提出的網絡模型從定性與定量2個方面相比均優于目前主流的語義分割網絡。在提取圖像的位置和形狀精度上具有明顯優勢,驗證了淺層特征能保留更多的形位信息,充分利用淺層特征帶來分割效果提升的有效性。

3 結束語

本文針對遙感語義分割中淺層特征在傳播中丟失嚴重的問題,在ResNet101的基礎上使用傳播深度和多尺度特征融合的方式搭建了一個遙感圖像分割的網絡模型,并且在公開遙感數據集Satellite dataset Ⅰ上進行了一系列對比實驗。本文網絡模型能夠更加準確地處理復雜場景圖像中圖像分割問題,顯著改善類別邊緣區域分割效果。今后可以考慮在網絡后處理中添加邊緣銳化進一步提升效果。

猜你喜歡
淺層殘差卷積
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
淺層換填技術在深厚軟土路基中的應用
基于淺層曝氣原理的好氧顆粒污泥的快速培養
基于殘差學習的自適應無人機目標跟蹤算法
卷積神經網絡的分析與設計
東營凹陷北帶中淺層油氣運移通道組合類型及成藏作用
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合