?

基于BAU-Net的高分辨率遙感圖像中建筑物的分割提取

2021-07-29 09:51李林祥溫淑煥
燕山大學學報 2021年4期
關鍵詞:邊緣卷積建筑物

李林祥,袁 毅,溫淑煥,*

(1.燕山大學 智能控制系統與智能裝備教育部工程研究中心,河北 秦皇島 066004;2.燕山大學 工業計算機控制工程河北省重點實驗室,河北 秦皇島 066004)

0 引言

高分辨率遙感圖像是我國重要的國土資源,遙感圖像中建筑物的提取對經濟預測、數字化城市建設以及國防安全等具有重要意義。

遙感圖像中建筑物的分割提取實際上是將像素點分配語義標簽的過程[1]。高精度GPS以及影像技術的發展給遙感圖像帶來了更多的微小細節以及結構信息,但在減少類內差異的同時,也增加了類內方差,尤其顯著地表現在建筑物類別上,使建筑物包括更多精細的外形輪廓以及層次紋理圖案等細節信息[2]。

在傳統的遙感圖像特征提取任務中,通常采取人工處理或者機器學習算法等獲取圖像的灰度值、像素梯度以及形狀紋理等特征信息對目標進行分割提取。其中常用的方法可分為三類:基于閾值、基于邊緣、基于區域的分割方法。ANDRES等[3]采用K-means算法確定圖像的閾值信息,并在遙感圖像分割過程中加入K-means算法作為監督指導,實現了對特定區域目標的分割提取。王宇等[4]建立的主動輪廓模型算法將遙感圖像的局部區域灰度值作為分割特征,實現遙感圖像目標提取。

受深度卷積神經網絡的影響,由于全卷積神經網絡具有強有力的捕獲豐富的空間特征和多尺度信息的能力,基于全卷積神經網絡的顯著性目標檢測方法在圖像目標檢測領域取得了豐厚成果。

2017年,Wang等[5]利用全卷積神經網絡對高分三號高分辨率遙感圖像進行解析,出色地實現了水體、林地以及建筑物的識別分割。2018年,王宇等[6]利用ResNet網絡作為基礎網絡,后接條件隨機場對粗分割結果進行細化修正,實現了遙感圖像中建筑物的提取。目前較為經典的性能優越的目標檢測模型算法主要有ResNet網絡[7]、U-Net網絡[8]等深度學習模型。

由于高分辨率遙感圖像中建筑物類別多樣、紋理復雜、空間分布不規則等特殊因素,導致在此領域的應用仍存在以下難題:

1) 建筑物漏分割和誤分割;

2) 建筑物邊緣分割模糊;

3) 復雜結構建筑物無法完整識別分割;

4) 密集建筑物無法實現單獨分離分割;

5) 陰影和樹木遮蓋建筑物無法完整分割;

針對上述問題,本文基于U-Net網絡[8]提出了一種雙U型Encoder-Decoder架構[9]的邊緣意識U型深度神經網絡(Boundary-Aware U-Net,BAU-Net)。該模型能夠自動提取高分辨率遙感圖像中建筑物,在IAILD數據集(Inria Aerial Image Labeling Dataset)上的實驗結果證明,本文所提出的BAU-Net算法能夠有效地克服高分辨率遙感圖像中道路、車輛、樹木、陰影等強干擾因子,高精度分割提取出建筑物主體以及邊緣輪廓,并且本文所采用的混合損失函數可以在一定程度上解決密集建筑物的分離問題。

1 BAU-Net網絡模型

本文提出的基于BAU-Net的高分辨率遙感圖像中建筑物分割的深度神經網絡模型如圖1所示[10-11]。網絡模型整體架構分為兩個部分:粗特征提取網絡[10](Coarse Feature Extract Network,CFE-Net)和殘差細化特征網絡[11](Residual Refined Feature Network,RRF-Net),CFE-Net和RRF-Net均為基于U-Net的改進網絡構成的Encoder-Decoder框架。遙感圖像Image首先通過CFE-Net得到粗特征圖Mcoarse,然后經過RRF-Net學習真實圖像標簽與Mcoarse的殘差Mresidual得到細化特征圖Mrefined。其中Conv、BN、ReLU、MaxPool、B-U分別表示卷積、標準化批處理、激活、最大池化和雙線性上采樣操作,Supi(i=1,2,…,6)表示監督子圖。

圖1 BAU-Net深度神經網絡結構Fig.1 The structure of BAU-Net deep neural network

1.1 粗特征提取網絡CFE-Net

由于U-Net的平面連接網絡結構,導致其所融合的特征圖較少,融合特征不足,難以有效地捕獲全局各種尺度特征信息,增加特征損失,所以本

文采取全局密集跳躍連接的U-Net3+作為粗特征提取網絡CFE-Net來增強特征融合。U-Net3+獨特的全局密集連接融合所構成的Encoder-Decoder架構,使其在圖像分割領域得到廣泛的應用。

全局尺度融合主要表現為,CFE-Net的每一個解碼器層都融合有來自較大或相等尺度編碼器層的特征圖以及較小尺度的解碼器特征圖[10],這種特征融合操作在全局尺度下捕獲粗粒度語義和細粒度細節,其網絡結構如圖2所示[10]。

圖2 CFE-Net網絡結構圖Fig.2 The architecture of CFE-Net

其中,x表示輸入圖像,M(x,s1)為最大池化函數,s1表示池化核大小,C(x,s2)表示卷積操作,s2表示卷積核的大小,Re(x,t)表示連續重復函數,t為重復次數,i表示層數,N表示解碼器層的總個數,P(·)是聚集函數,其中包括卷積、池化和激活操作,D(·)表示下采樣,U(·)表示上采樣。

1.2 殘差細化特征網絡RRF-Net

殘差細化特征網絡主要是通過學習粗特征圖與真實標簽之間的殘差Mcoarse來細化粗特征圖得到更為準確的細特征圖Mcoarse,其計算公式[11]為

Mrefined=Mcoarse+Mresidual。

在下采樣過程中,Mcoarse首先經過3×3卷積,然后連續經過4次特征聚集和最大池化。橋接部分為特征聚集。上采樣過程對稱與下采樣,用雙線性上采樣代替最大池化,最后一層為單獨的3×3卷積生成顯著特征圖。然后粗特征圖Mcoarse與最后的顯著特征圖相加,進過Sigmoid函數輸出為最終的細化特征圖Mrefined。

本文所采用的RRF-Net網絡為基于U-Net構成Encoder-Decoder的架構,如圖3所示[11]。其中,B-U表示雙線性上采樣(Bilinear Upsampling),其他表示與上文表示相同。

圖3 RRF-Net網絡架構Fig.3 The architecture of RRF-Net

2 混合損失函數

本文網絡訓練中采用的損失函數定義[11]為

其中,i表示輸出特征圖的監督層數,N表示深度監督層的總個數,由圖1可知,N=6,l(i)表示第i層的損失。

為了獲得完整的主體以及分割清晰的邊緣輪廓,本文定義以下混合損失函數[11]:

BEC損失函數常用于圖像二分類問題,體現為像素級損失,其定義式[11]為

(1-G(i,j))log(1-S(i,j))],

其中,G(i,j)∈{0,1}、S(i,j)分別表示像素(i,j)的真實標簽值和預測值。

SSIM損失函數主要用于圖像結構信息的評估,體現為圖像局部區域級損失,其定義式[11]為

其中,μx、μy以及σx、σy分別表示預測圖與真實標簽的均值和標準差,σxy為其協方差,C1=0.012,C2=0.032。

IOU損失函數主要用于表示兩個集合的相似度,體現為圖像全局級損失,其定義式為[11]

其參數含義與BEC損失相同。

BF1損失函數主要是通過特殊邊緣像素擴張,獲取更多語義信息,達到精細化邊緣結構的分割目的,使邊緣更加完整清晰,其定義式為[2]

其中,pool(·)表示最大池化,θ0、θ是滑動窗口的大小,θ0=3(圖像中建筑物之間的最小縫隙的像素距離,本文隨機抽取若干張圖像,從中測得最小值為3)、θ=3(擴張像素數,取值越小有利于邊緣分割;經反復測定,本實驗最佳為3);ygt、ypd分別表示預測特征圖和真實標簽;(°)表示兩張圖像像素點對應相乘;sum(·)表示特征圖像素點總數。

混合損失函數中BEC、SSIM、IOU損失分別從像素級、區域級、全局級三個層面計算圖像損失,使目標分割更加完整,邊緣更加清晰[11]。而BF1損失函數特殊的像素擴張處理,使得精細輪廓更加準確。而密集建筑物分離的本質是邊緣分割問題,故本文所采用的混合損失函數不僅可以使分割目標邊緣更加清晰完整,而且可以在一定程度上解決密集建筑物的分離問題。

3 實驗及結果分析

3.1 數據集及實驗平臺

為驗證本文所采用BAU-Net網絡結構和混合損失函數的有效性,在IAILD航空影像數據集上開展驗證實驗。該數據集覆蓋810 km2空間分辨率為0.3 m的地表高清遙感影像,分為建筑和非建筑兩個語義類別,涵蓋不同的城市居民區,從人口稠密地區(如,舊金山的金融區)到高山城鎮(如,奧地利蒂羅爾的林地山區)。

其中訓練集包括180張覆蓋范圍405 km2,分辨率為5 000×5 000像素的芝加哥上空高清航空遙感圖像,其經過準確的真值標注[12],可用來進行網絡訓練,而測試集則為舊金山上空的遙感圖像(未公開其真值標注),可用其對網絡的泛化性和魯棒性進行評估。

為充分利用實驗平臺的計算性能,本實驗將每張原始圖像剪裁成100張500×500分辨率的樣本圖像,共計18 000張。并根據相關研究的數據集劃分比例[4, 6],結合實際情況做出適當調整,取17 900張作為訓練樣本集,100張作為測試樣本集。

實驗平臺采用容天DevTopAIX4770深度學習工作站,其詳細配置如表1所示。

表1 實驗平臺配置Tab.1 The configuration of experimental platform

3.2 實驗結果評價指標

召回率、準確率、F值以及平均絕對誤差是圖像分割領域常用的性能評價指標,本文采用其對實驗結果性能進行評估,其計算公式[4,11]為

其中,Pr表示目標被正確分割的像素點數,Pu表示目標未被識別的像素點數,Pw表示背景誤被分割為目標的像素點數,β2=0.3,H、W分別高和寬,S(i,j)、G(i,j)表示預測圖和真實標簽的像素點。

本文所采用的BAU-Net的分割性能在召回率、準確率以及F值等指標下,相比文獻[6]得到了大幅度提高。且二者提高分割性能的側重點不同,本文所采用的BAU-Net在網絡結構上具有巨大的分割優勢。更為重要的是文獻[6]主要的分割優勢取決于網絡后端處理算法,體現為后端算法優勢,利用消耗大量計算資源和訓練時間換取一定限度的準確率回報,但與此同時會降低F值,影響其魯棒性。

FCN[13]、U-Net、VGG[14]為近年來圖像分割領域的經典算法,廣泛應用于多個領域的圖像分割任務中,并表現出良好的分割性能。為更好地體現BAU-Net的網絡結構對高分辨率遙感圖像中建筑物分割提取的優越性,本文增加與經典網絡結構FCN、U-Net、VGG的對比實驗。任取50張測試樣本的性能指標和分割結果如表2和圖4所示。

由表2所測得的實驗數據可以看出,與FCN和VGG和U-Net經典的特征提取網絡相比,本文所采用的BAU-Net在準確率、召回率、F值以及平均絕對誤差項等分割性能指標上得到大幅度提高。其中準確率、召回率和F值均高于90%,平均絕對誤差為0.032 5,與真值標注圖的誤差明顯減小。

表2 性能指標對比Tab.2 Comparison of performance

由圖4的性能指標對比曲線圖可以看出,與經典分割網絡相比,BAU-Net在準確率、召回率和F值等分割評估指標上,性能穩定,魯棒性得到大幅度提升。

圖4 與經典神經網絡的分割性能指標對比Fig.4 The segmentation performance index compared with classic neural networks

為了進一步證明BAU-Net在多種情形遙感圖像中對建筑物分割提取的優越性能,本實驗將遙感圖像劃分為6類:大型簡單結構建筑物,如圖5(a)所示;小型密集建筑物,如圖6(a)所示;邊緣特征復雜建筑物,如圖7(a)所示;道路干擾,如圖8(a)所示;樹木干擾,如圖9(a)所示;建筑物陰影干擾,如圖10(a)所示。分別采用BAU-Net、FCN、U-Net和VGG作為分割網絡進行訓練測試,其分割結果如圖5~10所示。

圖5 大型簡單建筑物Fig.5 Large and simple buildings

圖6 小型密集建筑物Fig.6 Small and compact buildings

圖7 邊緣復雜建筑物Fig.7 Intricate edge buildings

圖8 道路干擾Fig.8 Distraction of roads

圖9 樹木干擾Fig.9 Distraction of trees

圖10 建筑物陰影干擾Fig.10 Distraction of building shadow

由圖5~10的實驗結果可以看出,BAU-Net分割效果優于FCN、VGG、U-Net,其可以更加完整地識別建筑物主體,清晰地分割邊緣輪廓,并且可以有效地避免車輛、樹木干擾,預測建筑物外形,達到精準分割的目的。由圖6~7不難看出,密集建筑物群分離問題也得到了進一步改善。

4 結論

針對遙感圖像中建筑物分割所存在的建筑物漏分割、誤分割以及邊緣模糊等問題,本文提出了一種基于BAU-Net的高分辨率遙感圖像中建筑物分割提取的深度學習算法。特殊的雙U型結構、多尺度特征融合以及混合損失函數的引入使得分割結果邊緣輪廓更加清晰,提高分割精度。

本文所提出的BAU-Net在IAILD航空影像公開數據集上的準確率為90.48%,召回率為91.30%,F值為90.58%,平均絕對誤差為0.032 5,均優于經典分割算法。結果預測圖表明,BAU-Net能夠有效地克服道路、車輛、樹木、建筑物陰影等影響,準確有效地分割顏色形態各異的建筑物及邊緣輪廓。

猜你喜歡
邊緣卷積建筑物
基于全卷積神經網絡的豬背膘厚快速準確測定
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
描寫建筑物的詞語
爆炸過后
Relationship between mode of sport training and general cognitive performance
一張圖看懂邊緣計算
火柴游戲
在邊緣尋找自我
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合