?

顧及多尺度監督的點云語義分割

2024-03-25 06:50文陽暉楊曉文況立群薛紅新
激光與紅外 2024年2期
關鍵詞:解碼類別語義

文陽暉,楊曉文,張 元,韓 燮,況立群,薛紅新

(1.中北大學,計算機科學與技術學院,山西 太原 030051;2.山西省視覺信息處理及智能機器人工程研究中心,山西 太原 030051;3.機器視覺與虛擬現實山西省重點實驗室,山西 太原 030051)

1 引 言

近年來,隨著無人駕駛、計算機視覺、人工智能等領域的快速發展,深度傳感技術日益成熟,三維點云的語義分割在計算機視覺領域引起了越來越多的關注[1]。伴隨大型三維點云數據集的出現以及計算機硬件的更新換代,在點云語義分割領域中基于深度學習的算法逐步占據主導地位[2]。

基于深度學習的點云分割模型,大多采用編碼器-解碼器架構,網絡僅由最后一層中的點云語義標簽監督,而其他層中的隱藏單元缺乏直接監督,無法提取具有明確語義信息表示的特征,引入多尺度監督對于點云分割任務是十分必要的。在二維視覺領域中,Kirillov等[3]提出PointRend,對低分辨率圖像進行分割,迭代地對輸出結果采用上采樣并微調和再預測,直至獲取最終結果,實現對不同尺度的監督。Huang等[4]提出Unet3+,在每個解碼層后都連接了中繼監督層,將特征上采樣至原圖大小,利用真實標簽統一進行監督,增強網絡捕獲邊界細粒度結構的能力。在三維視覺領域中,Xu等[5]提出了一種場景描述符,學習表示點云場景中存在的類別,監督網絡最中間層,過濾不屬于場景中的類別,指導點級語義分割。

本文提出一種以SCF-Net為基礎融合多尺度監督的點云語義分割網絡(Multi-scale Supervision SCF-Net,MSS-SCF-Net),將點云類別預測任務分解成一系列點云感受野類別預測任務,在編碼階段利用類別信息生成模塊(Category Information Generation Module,CIG)生成類別信息,在解碼階段通過類別信息預測模塊(Category Information Prediction Module,CIP)結合淺層以及深層編碼特征對各個尺度的點云進行預測,類別信息作為標簽監督隱層特征學習,增強對點云特征的挖掘能力,提升網絡整體分割精度。

2 相關研究

近些年來,國內外研究人員提出了眾多基于深度學習的點云分割網絡,主要包括三類方法:基于投影的網絡[6-7]、基于體素化的網絡[8-9]和基于點云的網絡?;谕队昂突隗w素化的網絡由于將點云轉化為其他形式的數據,導致數據額外損失,分割效果不佳?;邳c云的網絡能夠直接對點云進行語義分割,2017年,Qi等人[10]提出的PointNet網絡是該類方法的開拓者,能夠直接在點云數據上進行特征學習,利用共享感知機捕獲逐點特征,但忽略了局部特征的學習。為了加強局部特征提取能力,Qi等人[11]在PointNet的基礎上提出了PointNet++,采用分層思想,逐步擴大感受野進而聚合局部特征。2019年Zhao等人[12]提出了PointWeb,通過自適應特征調整模塊在每個成對的3D點之間交換信息,增強局部鄰域的表示能力。2021年,Fan等人[13]提出SCF-Net,將點云以極坐標形式表示,利用雙距離注意力池化模塊,基于幾何距離與特征距離自動學習有效的局部特征,在室內場景的語義分割中取得了很好的效果。2023年,敖等人[14]提出CsegNet,利用逐點卷積和邊緣卷積提取局部特征,有效改善邊緣不平滑現象。以上網絡模型的提出,為后續基于深度學習的點云語義分割模型指引了方向,具有重要的理論研究價值。

3 本文方法

3.1 結合多尺度監督和SCF-Net的神經網絡

本文方法以SCF-Net為主干網絡,采用帶有跳層連接的編碼器-解碼器架構,為了避免隨機采樣丟棄關鍵信息,替換為最遠點采樣,能夠覆蓋整個點云,增強網絡對局部特征的提取。

網絡具體結構如圖1所示。網絡的輸入是大小為N×D的點云,其中N為點云個數,D為特征維數。首先通過全連接層將特征維數統一為8,逐步利用五個編碼層對特征進行編碼,使用最遠點采樣算法對點云進行下采樣,利用SCF模塊來學習上下文特征。同時,點云的標簽信息也被輸入至網絡中,大小為N×C,C為類別數目。輸入的標簽信息依次經過CIG模塊和最遠點采樣處理。CIG模塊用于獲取點云感受野中的類別信息,類別信息作為標簽監督指導解碼階段點云特征提取。類別信息生成與編碼階段特征提取共享下采樣,生成的目標類別信息能精確地記錄感受野的類別成分。接下來,使用五個解碼層對特征進行解碼。采用最近鄰插值進行上采樣,利用跳躍連接與編碼層生成的中間特征進行拼接,將拼接后的特征輸入到共享MLP。編碼特征通過五個解碼層逐漸恢復至原始分辨率。此外解碼器中每層點云特征將輸入到類別信息預測模塊(CIP)以獲取預測類別信息,利用編碼階段生成的目標類別信息通過分層監督來指導預測,實現點級語義標簽從全局到局部、從粗到細的預測。最后使用三個連續的全連接層預測最終標簽,輸出大小為N×C的分割預測結果。

3.2 類別信息生成模塊

在圖像領域中,多尺度監督的應用[4,15]通常是將解碼器中每一層生成的特征上采樣到原始圖片的分辨率大小,添加輔助分類器,計算特征與真實標簽產生的額外損失。然而,由于點云的無序性,無法像圖像那樣與下采樣后的數據具有固定的映射關系,直接將隱層點云上采樣至原始分辨率與真實標簽計算損失,會對隱層特征引入錯誤的監督,導致網絡性能的下降[16]。

由于無法直接將解碼器每層生成的點云特征上采樣到原始分辨率,對下采樣后的點云提供標簽是非常重要的。當點云經過下采樣后,點云的標簽僅包含自身所對應的類別是不夠的,還需要體現鄰域內其他點的類別。因此,本文提出了一種類別信息生成模塊,用于表示采樣點云感受野內的所有類別。

(1)

其中,li是輸入點云pi的標簽。編碼器第k層的類別信息向量可以通過公式(2)從k-1層推得而出。

(2)

圖2 類別信息生成模塊

將前一層的類別信息向量輸入到類別信息生成模塊,得到后一層的類別信息向量,重復該過程,直至生成編碼器最后一層點云的類別信息向量。生成的向量將用于解碼階段,作為語義標簽監督指導解碼器以提取更加具體、明確的語義信息,提升網絡分割性能。

3.3 多尺度監督

在本文的方法中,將解碼階段的點云類別預測任務分解成一系列點云感受野類別預測任務,除解碼器最后一層,剩余層都需要預測當前階段點云的感受野類別。隨著解碼層數的增加,點云感受野逐漸減小,對于解碼器的最后一層,感受野只含有自身點,感受野類別預測轉化為最終的語義類別預測。

為預測點云的感受野類別,本文設計了類別信息預測模塊。如圖3所示,解碼特征dk對應于編碼特征ek,ek-1相對于ek是鄰近的淺層編碼特征,擁有更加豐富的細粒度局部結構信息。ek+1相對于ek是鄰近的高層編碼特征,擁有更多的高層語義上下文信息。類別信息預測模塊如圖3所示,通過MLP和最遠點采樣將鄰近淺層編碼特征ek-1與解碼特征dk對齊,利用MLP和最近鄰插值將鄰近高層編碼ek+1與dk對齊。將對齊后的淺層和高層特征拼接后輸入MLP,得到融合了淺層幾何信息和高層語義信息的增強特征fk,定義如式(3)所示:

圖3 類別信息預測模塊

fk=MLP(FPS(MLP(ek-1))⊕NI(MLP(ek+1)))

(3)

(4)

利用鄰近淺層和高層編碼特征能夠進一步改善點云感受野類別的預測精度。

(5)

除了解碼器的最后一層,剩余層都通過公式(6)計算本層類別信息向量預測所產生的損失函數:

(6)

式中,N表示編碼器第k層中的采樣點云數;C表示類別數。

(7)

對于解碼器的最后一層,將輸出得到的特征d0輸入到三個連續的全連接層,并使用softmax函數來預測最終語義類別,使用常見交叉熵損失函數來監督網絡最終輸出的語義標簽。網絡的整體損失函數如式(8)所定義:

L=Ln+Lc

(8)

整體損失函數由兩部分構成,Ln表示語義分割中常見交叉熵損失,Lc表示類別信息預測損失。

4 實驗結果與分析

4.1 網絡參數設置

算法實驗環境如下:硬件為RTX3090 24GB GPU,軟件為UBUNTU16.04操作系統,CUDA11.1,TensorFlow 1.15.4。網絡訓練參數如下:使用初始學習率為0.01的Adam優化器訓練網絡,批處理大小設置為4,網絡訓練100個epoch,每個epoch后學習率下降5 %,最近鄰K大小為16。

4.2 實驗數據集及評價指標

為了驗證所提方法有效性,在兩個大規模語義分割數據集S3DIS和SemanticKITTI上進行對比驗證。

S3DIS數據集是一個大型室內點云數據集,由斯坦福大學從室內工作環境中采集得到,包含6個區域,由271個房間組成??傆嫆呙杓s2.73億個點,每個點包含XYZ坐標信息以及RGB顏色信息。

SemanticKITTI是一個大規模室外場景數據集,通過機載激光掃描系統采集,擁有復雜的室外交通場景,包含22個點云序列,總計45.49億個點,含有19個有效類別。

語義分割的性能評估指標采用總體精度(OA)、平均交并比(mIoU)、平均類精度(mAcc),可定義為:

(9)

(10)

(11)

式(9)、(10)、(11)中,N為類別數;n為真實類別;m為預測類別;pnn為類別預測正確點數;pnm表示假負例點數;pmn表示假正例點數。

4.3 實驗結果及分析

4.3.1 對比實驗

(1)S3DIS

在S3DIS數據集上采用6折交叉驗證方法,總體精度、平均交并比和平均類精度作為度量指標。表1為本文方法與其他方法的度量指標對比。由表1可知,本文方法在總體精度、平均交并比和平均類精度優于其他方法,并且在13個類別中的5類別(窗戶、椅子、沙發、木板和雜物)取得最佳性能。與RandLA-Net相比,本文方法在mIoU提高了3.1 %,與基礎網絡SCF-Net相比,mIoU提高了1.5 %,且在12個類別中的IoU均有提升。

表1 不同方法在S3DIS數據集上的分割精度對比(單位:%)

圖4為本文算法與SCF-Net網絡的可視化分割結果圖。其中圖4(a)為輸入點云,圖4(b)為SCF-Net方法的分割結果,圖4(c)為本文方法的分割結果,圖4(d)為參考標準。從上至下依次為房間1、房間2和房間3??梢钥闯?相較與SCF-Net,本文方法在物體的細節處取得了更好的分割效果。在房間1中,SCF-Net將桌腿錯誤的劃分為了雜物,圓柱與墻面連接處劃分不夠平滑,造成了圓柱的局部丟失;在房間2中,SCF-Net對于門框與墻之間的邊界劃分的不夠清晰,且書架中的局部位置出現分割錯誤;在房間3中,SCF-Net錯誤地將顏色相近的雜物劃分為了桌子。而本文方法在以上位置取得了相對較好的分割效果,說明多尺度監督的引入加強了網絡局部信息挖掘能力,提升了各類目標的輪廓分割能力,對于物體連接處的分割更加平滑。

圖4 S3DIS數據集分割結果可視化對比

(2)SemanticKITTI

在SemanticKITTI測試集上的對比實驗結果如表2所示。從表2可以看出,本文方法在點云的平均交并比上,相比基于投影的主流方法RangeNet53++提升了3.0 %,相較于基礎網絡SCF-Net提升了1.9 %。SCF-Net采用隨機采樣處理大規模點云數據,利用SCF模塊學習空間上下文特征,逐步擴大點的感受野范圍,防止丟失關鍵點信息。但對于稀疏性較大的SemanticKITTI數據集,隨機采樣無法避免丟失物體邊緣信息,導致網絡出現錯誤分割。本文方法采用最遠點采樣保留物體邊緣的完整,通過對多個尺度點云特征進行監督學習,促使隱藏層學習到的特征易區分、更具魯棒性,增強網絡對物體邊緣的分割能力。

表2 不同方法在SemanticKITTI數據集上的分割精度對比(單位:%)

將SCF-Net與本文MSS-SCF-Net在SemanticKITTI的驗證集上進行可視化結果對比,如圖5所示??梢钥闯?SCF-Net錯誤地將行人識別為騎腳踏車者,而又將騎腳踏車者辨別為行人以及騎機車者,這三者在外形上極其相似且體型較小,導致未能正確識別。并且對于形狀類似的植被和柵欄,SCF-Net也容易將其混淆。而本文方法對于上述情況均有改善,能夠正確識別行人與騎機車者這些小目標物體。這得益于多尺度監督的引入,加強網絡對隱層特征的學習,提升對小目標物體及相似物體的識別能力。

圖5 SemanticKITTI數據集分割結果可視化對比

4.3.2 消融實驗

為了定量評估多尺度監督和最遠點采樣的有效性,對這兩種方法不同組合進行了消融實驗。選取S3DIS數據集區域5為測試集,其他區域為訓練集,結果如表3所示。(1)基線方法為SCF-Net,其采用的點云采樣算法為隨機采樣,在區域5的mIoU為63.4 %。隨機采樣算法的使用可能會導致某些關鍵點特征丟失,使得網絡對物體局部描述能力下降。(2)將基線方法的隨機采樣替換為最遠點采樣后,網絡在區域5的mIoU提升為64.1 %,這是因為最遠點采樣能夠更好覆蓋整個點云,不會導致物體某一部分經過下采樣后丟失,有效保留目標幾何結構,增強網絡特征提取能力以及穩定性。(3)將多尺度監督引入基線方法,使得網絡在區域5的mIoU提升為65.2 %,原因在于多尺度監督引入了輔助分類器,能夠判斷隱藏層中點云特征圖質量的好壞,促使隱藏層學習過程更加直接透明,網絡提取到語義明確的點云特征。(4)將多尺度監督與最遠點采樣算法組合使用,網絡模型的分割性能得到了進一步改善,分割精度達到最好效果,在區域6的mIoU提升至65.8 %。

表3 S3DIS區域5的消融實驗結果

實驗進一步探究了淺層和高層編碼特征對類別信息預測模塊的影響,如表4所示,當只利用解碼特征去預測類別信息向量時,網絡在區域5的mIoU為64.9 %。同時考慮解碼特征以及對應的淺層和高層編碼特征,網絡在區域5的mIoU提升為65.8 %。淺層編碼特征擁有更為具體的空間信息,高層編碼特征擁有更為抽象的語義信息,二者的結合進一步增強類別信息的預測精度,從而提高整個網絡的分割能力。

表4 類別信息預測模塊消融實驗結果

5 結 語

針對室內以及室外大場景的語義分割,本文提出了一種結合多尺度監督和SCF-Net的神經網絡,將解碼階段的點云類別預測任務分解成一系列點云感受野類別預測任務,通過對解碼器中每一層進行額外的監督,以在分割任務中提取信息豐富語義明確的特征,進一步提升網絡對各類物體的分割效果。針對SCF-Net采用隨機采樣算法可能導致關鍵信息丟失這一問題,本文將其替換為最遠點采樣算法,能夠更好的覆蓋整個點云,增強網絡對局部特征的提取能力。實驗結果表明,多尺度監督的引入能夠有效提高網絡整體分割精度,促使網絡隱藏層學習到的特征易區分、更具魯棒性,改善網絡對物體邊緣的分割效果。當然,本文提出的網絡模型還有很多地方需要改善,如何進一步簡化模型、降低模型復雜度是下一步的工作重點。

猜你喜歡
解碼類別語義
《解碼萬噸站》
語言與語義
解碼eUCP2.0
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
“上”與“下”語義的不對稱性及其認知闡釋
服務類別
認知范疇模糊與語義模糊
論類別股東會
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合