?

基于Transformer 的城市三角網格語義分割方法

2024-03-24 03:10資文杰賈慶仁
南京大學學報(自然科學版) 2024年1期
關鍵詞:語義網格分類

資文杰 ,賈慶仁 ,陳 浩,2* ,李 軍,2 ,景 寧

(1.國防科技大學電子科學學院,長沙,410073;2.自然資源部南方丘陵區自然資源監測監管重點實驗室,長沙,410073)

近年來,隨著計算機、傳感器、大數據、地理信息系統等的迅速發展,獲取城市真實的三維模型數據,即城市三角網格(Urban Triangle Mesh)數據,越來越容易.城市三角網格是一種帶紋理的城市場景下的三角網格數據,其可以將使用者引入符合人眼的直觀真實世界.城市三角網格語義分割是計算機視覺領域中一項重要任務,旨在識別和分類給定三維真實城市場景中的不同對象,如樹木、道路、建筑物、水體等,并將其歸為預定的類別.城市三角網格語義分割在智慧城市[1]、數字地球[2]、三維校園[3]等領域有重要的應用價值.

城市三角網格具有不規則、復雜的屬性,含有豐富的幾何信息,如圖1 所示,所以應用在傳統二維圖像上的網絡模型無法直接作用在城市三角網格上,針對該數據的研究也十分罕見[4].并且,現有方法都是針對城市三角網格數據的單一幾何信息進行特征提取,簡單地融合之后再進行語義分割,導致城市三角網格語義分割的效果不佳,阻礙了其在前文所述領域中的發展.所以,只考慮單一幾何信息的方法不再適用于城市三角網格這類大型三維空間數據.

現有的針對城市三角網格語義分割問題的解決方案都分兩步.第一步為過度分割,網格數據中具有相似紋理、顏色、方向、三角面片密度等信息的相鄰三角面片構成的區域稱為超面,分割超面的過程即為過度分割.第二步為分類,即對過度分割生成的超面進行分類.

本文采用基于平面的線性最小二乘法擬合的區域增長方法對城市三角網格數據進行過度分割,再提出一種基于自注意力機制Transformer[5]的網絡模型UMeT 對超面進行分類.UMeT 由多層感知機(Multi-Layer Perceptron,MLP)和Transformer 構成.MLP 直接將超面的幾何信息映射到高維特征;MeshiT 是基于Transformer 改進的網絡模塊,UMeT 利用MeshiT 提取超面中各類幾何信息間的全局關聯性.由于MeshiT 對超面的空間坐標進行了位置編碼,因此UMeT 也保證了空間不變性.本文的主要貢獻如下.

(1)設計了一種基于Transformer 的網絡模型UMeT,可以直接對復雜、不規則的城市三角網格進行語義分割.

(2)首次引入自注意力機制Transformer 解決城市三角網格語義分割問題.另外,MeshiT 模塊可以很好地提取超面中各類幾何信息間的全局關聯性,同時還保證了空間不變性.

(3)在城市三角網格真實數據集SUM-Helsinki[6]上的實驗結果表明,本文提出的UMeT 的分割性能優于最先進的模型.

1 相關理論

現有的對三維數據語義分割的研究大多針對點云[7]、單個對象的三角網格[8]數據等,對城市三角網格數據的研究十分罕見.單個對象三角網格數據和城市三角網格數據是幾何空間數據.

1.1 機器學習與三角網格數據單個對象網格數據指計算機圖形學中的小型網格模型,如人體模型、飛機模型、杯子模型等.利用機器學習對幾何空間數據進行分析已經成為一個熱門領域[9].而三角網格復雜、不規則,無法直接使用CNN(Convolutional Neural Networks)在三角網格上提取特征.Sinha et al[10]定義了三角網格的全局參數化,使得適用于二維圖像的網絡模型可以直接為三角網格提取特征,但預測結構的好壞完全取決于參數化的質量.同時,一些研究者獲取三角網格模型的多視圖,然后使用CNN 對多視圖捕獲特征,最終對其進行分類[11].由于全局參數方法無法避免三角網格空間幾何的失真,Masci et al[12]設計了局部參數方法,定義了測地卷積神經網絡,將三角網格數據帶曲率的表面平攤在二維平面上.和Masci et al[12]設計的模型相比,He et al[13]設計了含矢量方向性曲率的網絡Curvanet 來捕捉局部空間特征.但是,局部參數化的方法只關注三角網格數據局部信息,其性能取決于數據的分辨率.此外,三角網格是一種圖數據,利用圖神經網絡的特性可以獲取三角網格全局空間依賴關系[14],但上述方法都沒有使用網格的空間結構信息.Hanocka et al[15]設計了MeshCNN 網絡,定義了可以直接在網格數據上進行的卷積操作以及池化操作.MeshCNN 是基于網格數據的邊所提出的模型,可以保證網格的空間不變性.Hu et al[16]提出基于網格本身的卷積和池化,比MeshCNN更通用,獲取的空間幾何信息也更豐富.

1.2 城市三角網格語義分割盡管有大量針對小型三角網格模型數據的研究,但對于大型數據城市三角網格的分析十分少有.Rouhani et al[17]利用馬爾科夫隨機場(Markov Random Field,MRF)來過度分割城市三角網格得到超面,再使用隨機森林模型對超面進行分類.Gao et al[6]利用基于平面的線性最小二乘法擬合的區域增長方法對城市三角網格進行過度分割獲取超面,區域增長可以避免MRF 中附近三角面的干擾,只需考慮設定的閾值.但上述算法都沒有考慮各種幾何信息之間的隱含聯系.

1.3 自注意力機制TransformerTransformer[6]最初是一種用于自然語言處理任務的深度學習模型,如文本分類[18]和語言翻譯[19]等.由于Transformer 的強大性能,眾多計算機視覺的研究者將其擴展到自己的領 域.Dosovitskiy et al[20]設計了ViT(Vision Transformer)模型用于圖像識別,通過引 入Transformer 結構在Image-Net[21]上取得了舉世矚目的成績.Carion et al[22]設計了DERT(Detection Transformer)模型,將目標檢測任務轉化為一個序列預測問題,采用Transformer的編碼器和解碼器結構對圖像特征進行壓縮編碼以及恢復,雖然模型結構簡單,但預測性能強勁.Chu et al[23]提 出CPVT(Conditional Position Encoding Vision Transformer)模 型,去掉了Transformer 中的絕對位置編碼,使Transformer 的泛化性更強,適應性更廣.Gao et al[24]將Transformer應用到道路三維姿態估計上,證明Transformer 適用于三維空間數據.d′Ascoli et al[25]提 出ConViT(Convolution Vision Transformer)網絡模型,利用CNN 中歸納偏差的優點來改進Transformer,并且加入門控位置自注意力機制來獲取局部位置特征,其在ImageNet 數據集上的分類性能優于最先進的模型.

2 算法描述

2.1 算法框架由于城市三角網格是復雜的三維幾何數據,直接對其進行分割會導致物體邊緣的三角面片分類不準,將有相似特征的三角面片進行聚類,即過度分割,可以很好地解決邊緣分割不準的問題.本文提出的語義分割方法分兩步:其一為過度分割,即將數據分割為超面;另一為分類,即對超面分類.具體如圖2 所示.

圖2 城市三角網格語義分割流程圖Fig.2 The workflow of urban triangle mesh semantic segmentation

2.2 過度分割借鑒文獻[7],本文采用的過度分割方法是基于平面的線性最小二乘法擬合的區域增長算法.采用此算法是為了找出城市三角網格數據中的所有平面區域,為此,將距離閾值設置為0.5 m,該閾值指定了希望過分割方法識別的最小幾何特征,即基于區域生長的過分割方法將無法區分兩個距離小于此閾值的平行面.將三角面片的角度的閾值設置為90 度,這足以應對高水平的噪聲(例如,距離值很小,但三角形法向與平面法向之間的夾角很大).此外,最小面積設置為零,以允許任意大小的平面段.結果如圖3 所示.

圖3 城市三角網格(a)和超面(b)Fig.3 Urban triangle mesh (a) and superfacet (b)

2.3 超面分類本文提出的基于Transformer 的城市三角網格數據語義分割模型UMeT 由MLP和MeshiT 模塊構成,如圖4 所示.包含四個MeshiT 模塊,即圖中N=4;Q,K和V是可學習參數,分別表示注意力機制中的query,key 和value;Re-Attention 表示MeshiT 模塊采用的注意力機制;⊕表示相加,連接初始特征和高維特征,形成殘差結構.首先,將過度分割產生的超面通過MLP 提取其空間特征;然后,將超面的空間坐標與特征進行聚合,生成位置嵌入特征;第三步,將位置嵌入特征輸入MeshiT 模塊,獲取高維抽象特征;最后,通過MLP 進行分類.

圖4 UMeT 模型的整體概覽Fig.4 An overview of the UMeT model

2.3.1 MLP參考文獻[6],過度分割得到超面,經過特征計算得到基于特征根的特征、海拔、面積、顏色等特征.將上述特征聚合成一個特征向量X,輸入MLP,將其映射為抽象的空間特征Xs.MLP 的具體操作如下:

其中,Linear 表示線性變化;ReLU 是線性整流函數,是一種激活函數;Dropout 是隨機失活某些神經元.設定隨機丟棄率為0.5,即50%.MLP 共有三層,第一層隱含層有128 個神經元,第二層隱含層有256 個神經元,輸出層有509 個神經元.MeshiT 模塊中的MLP 為一層,其作用是將抽象的高維空間幾何特征分類[26].

2.3.2 MeshiTMeshiT 模塊由兩個歸一化層、六頭注意力機制Re-Attention 和MLP 構成.其中,歸一化層與Re-Attention 組成一個殘差結構,可以有效地避免過擬合;其他的歸一化層和MLP構成另一個殘差結構.

將空間特征Xs與空間位置進行聚合得到位置幾何特征Xp,對其進行歸一化得到歸一化的特征Xn.歸一化如下所示:

其中,Xmin表示特征上在值最小的數值,Xmax表示特征上在值最大的數值.Xn通過線性變化得到可學習參數Q,K和V,再通過多頭注意力機制.本文采用六頭注意力機制Re-Attention,即圖2 中h=6.六頭注意力機制表明使用六個同網絡但初始化參數不同的Re-Attention,對計算的結果進行相加融合.Re-Attention 的計算如下:

其中,M是人為定義的可學習變換矩陣,MT表示M的轉置矩陣;d是一個超參數,大小為64;Softmax 是歸一化指數函數,可以將多個神經元進行歸一化,使得神經元的輸出在(0,1).Re-Attention的優點是雙重的:首先,利用不同注意力頭之間的相互作用,收集它們的補充信息,并對注意力圖多樣性進行改進;此外,它是有效且易于實現的.

MeshiT 包含兩個殘差結構,使網絡可以加深,并且能訓練出有效的特征表示,提高了網絡的泛化能力.由于UMeT 使用了四個MeshiT 模塊,所以加入殘差結構十分必要.

2.3.3 損失函數UMeT 的損失函數采用交叉熵函數,可以很好地處理多分類問題中的類別不平衡的問題.具體計算如下:

其中,yij表示第i個樣本在第j個超面的標簽,表示第i個樣本在第j個超面的預測值,n表示樣本數,m表示類別數.

3 實驗結果與分析

3.1 數據集采用開源數據集SUM-Helsinki,其是語義城市網格的最大基準數據集,覆蓋芬蘭赫爾辛基約四平方公里,共有六種物體類別:地面、高植物、建筑物、水、車輛和船.整個數據集包含64 塊地圖,每塊覆蓋250 m×250 m 的區域.使用40 塊地圖(整個數據集的62.5%)作為訓練集,12 塊地圖(18.75%)作為測試集,另外12 塊地圖作為驗證集.

3.2 評估指標采用召回率(Recall,R)、精確度(Precision,P)、F1 分數(F1)、平均準確率(Mean Accuracy,mAcc)和 平均交并比(Mean Intersection-over-Union,mIoU)作為評價指標.如式(5)~式(9)所示:

其中,TP,FP,TN,FN分別表示正樣本判定為正、正樣本判定為負、負樣本判定為負、負樣本判定為正.

3.3 實驗設置在NVIDIA Tesla V100 GPU 32 GB RAM 32 GB VRAM 的服務器上進行實驗.學習率設置為6×10-4,每50 輪訓練學習率下降50%.

3.4 實驗結果與分析為了驗證本文的UMeT算法的有效性,引入目前最先進的算法進行對比實驗,包括MRF-RF[17],SUM-RF[6]和KPConv[27].

MRF-RF 采用馬爾可夫隨機場對城市三角網格進行過度分割,然后使用隨機森林對超面進行分類,實現語義分割.

SUM-RF 是采用基于平面的線性最小二乘法擬合的區域增長算法,再調用隨機森林算法進行分類.

KPConv 是直接將卷積應用到點云的方法.

本文的UMeT 與對比模型的實驗結果如表1所示,表中黑體字表示性能最優.由表可見,UMeT在全方位上優于其他各個模型.平均交并比mIoU,UMeT 是MRF-RF 和KPConv 的兩倍多,因為UMeT 的MeshiT 模塊可以很好地提取超面中各類幾何信息間的全局關聯性,同時,加入空間絕對坐標可以提取隱含的空間位置關系,且保證了空間不變性.SUM-RF 在各方面優于MRF-RF,說明基于平面的線性最小二乘法擬合的區域增長算法優于馬爾可夫隨機場過度分割算法,因為基于平面的線性最小二乘法擬合的區域增長算法可以很好地區分平邊與凹凸不平的三角面片.UMeT包含四個MeshiT 的串聯,這種結構很容易過擬合,但是加入的殘差結構可以將網絡層數疊得很深,且不會過擬合.MeshiT 的Re-Attention 是六頭注意力機制,即同時訓練六個相同的注意力機制,并對輸出結果相加融合,這使UMeT 有更強的魯棒性和泛化性.雖然UMeT 的平均準確率mAcc和SUM-RF 一致,但是其F1,R和mIoU優于SUM-RF,說明UMeT 的綜合性能更強,對各個類別物體的識別率都較高.這是因為UMeT 不僅可以利用MLP 提取高維特征,還可以利用MeshiT 模塊計算各種幾何信息之間的關聯性,并有效挖掘城市三角網格數據中隱含的關聯.

表1 UMeT 及對比模型的實驗結果Table 1 Experimental results of UMeT and baselines

表2 為UMeT 和對比模型在SUM-Helsinki數據集六個類別上的F1,表中黑體字表示性能最優.F1 越高,模型的性能越好.由表可知,除了高植物類別,UMeT 在其他類別上的F1 都超過了對比模型,證明UMeT的魯棒性強于各個對比模型.MRF-RF 的F1 都十分低,說明采用馬爾可夫隨機場對城市三角網格進行過度分割不合適.對車輛類別的分割,UMeT 的F1 比KPConv 提 升23.4%,比SUM-RF 提升3.1%,證明UMeT 對小物體的識別強于其他模型.對船類別的分割,MLP 的F1 為0.124,UMeT 為0.173,證 明UMeT 中的MLP 能夠很好地將城市三角網格的特征映射到抽象的空間特征向量中,并且,MeshiT 模塊能夠捕獲超面中各類幾何信息間的全局關聯性,而對比模型只是簡單地將各類特征進行特征提取與映射,最后再簡單地疊加融合,使這些模型的語義分割性能較弱.

表2 UMeT 及對比模型的F1 分數Table 2 F1 score of UMeT and baselines

圖5 展示了UMeT 和對比模型對城市三角網格進行語義分割的結果.由圖可見,MRF-RF 會大量地將地面預測成建筑物,也會將地面錯誤地預測成水體.MLP 對建筑物底端的物體常常誤判,正確率較低.和SUM-RF 相比,UMeT 對小物體(車輛)和細節的識別更準確,因為UMeT 中的MLP 能夠很好地將城市三角網格的特征映射到抽象的空間特征向量中,MeshiT 模塊能捕獲超面中各類幾何信息間的全局關聯性.

圖5 城市三角網格語義分割的結果Fig.5 The semantic segmentation result of urban triangle mesh

3.5 消融實驗本文提出的UMeT 由MLP 和MeshiT 組成.MLP 直接將超面的幾何信息映射到高維特征,該特征可以直接用于分類;MeshiT是基于Transformer 改進的網絡模塊,UMeT 利用MeshiT 提取超面中各類幾何信息間的全局關聯性,使UMeT 的分類結果更準確.為了驗證各模塊的有效性,對UMeT 進行了消融實驗,實驗結果如表3 所示,表中黑體字表示性能最優.由表可見,和MLP 相比,UMeT 的性能有大幅提升,F1提升16.5%,mIoU提升16.1%,體現了MeshiT模塊的重要性.MeshiT 模塊可以很好地提取超面中各類幾何信息間的全局關聯性,同時,加入空間絕對坐標可以提取隱含的空間位置關系,并保證空間不變性.

表3 UMeT 的消融實驗結果Table 3 Results of the ablation experiments of UMeT

4 結論

本文提出一種基于Transformer 的城市三角網格語義分割的網絡模型UMeT.UMeT 由MLP和四個MeshiT 模塊構成,MLP 能夠將城市三角網格特征映射成抽象的空間特征;MeshiT 模塊包含一個六頭的注意力機制,能夠捕獲超面中各類幾何信息間的全局關聯性.

基于此模型框架,探索更深層次的空間幾何特征和全局空間相似度是下一步的工作.

猜你喜歡
語義網格分類
用全等三角形破解網格題
分類算一算
語言與語義
反射的橢圓隨機偏微分方程的網格逼近
分類討論求坐標
數據分析中的分類討論
重疊網格裝配中的一種改進ADT搜索方法
教你一招:數的分類
基于曲面展開的自由曲面網格劃分
“上”與“下”語義的不對稱性及其認知闡釋
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合