?

基于語義信息的三維點云全景分割方法研究

2023-10-28 07:29任不凡黃小燕吳思東袁建英
成都信息工程大學學報 2023年5期
關鍵詞:全景實例類別

任不凡, 黃小燕, 吳思東, 蔣 濤, 袁建英

(成都信息工程大學自動化學院,四川 成都 610225)

0 引言

在智能機器人[1]、自動駕駛[2]等領域,利用三維激光點云數據進行目標檢測、語義分割等工作發展迅速[3],許多應用場景都需要三維激光點云處理,并進行環境感知和準確解析。 目標檢測需要識別周圍環境中相關的目標物體(如汽車、行人),并對檢測到的物體實時快速反應;語義分割即對三維點云中的每個點賦予其實際意義的標簽,是環境解析中一項非常重要的任務。 但目前利用三維激光點云數據對場景內的環境解析還不夠精細,如語義分割不能對同一類型不同的個體進行區分,而這些解析對于整個智能系統是否能做出穩健和安全決策至關重要。 如何利用點云準確對場景進行全方位解析,獲取精細化的信息,受到越來越多學者的關注。

目前,針對三維點云的大多研究仍集中在對分割的單個類別的推理或單個對象的識別,無法滿足應用場景中對整體環境進行解析的實際需求。 全景分割是圖像領域[4]引入的問題,它將場景分為不可數目標(stuff)和可數目標(things)兩種類別,并生成全局的、統一的分割場景。 其中,對如天空、道路、草地等目標分為背景stuff 類別,進行語義分割,分配語義標簽;對如汽車、自行車、行人等目標分為前景things 類別,進行實例分割并分配實例標簽和ID,以區分出他們相同類別中的不同個體。 全景分割任務以及全新評價指標的提出,使該項任務得到了廣泛的應用與關注。 因此,利用三維點云數據信息,進行更加精細的全景分割方法研究成為一個熱門的場景解析問題。

隨著深度學習技術的發展,涌現出許多用神經網絡學習算法來解決全景分割問題。 現有的全景分割方法主要分為將點云投影至二維圖像的方法、三維目標檢測與語義分割相結合的方法和一站式端到端的全景分割深度學習網絡算法等。 Zhou 等[5]提出的Panoptic-PolarNet 網絡通過將點云投影至二維圖像,利用鳥瞰圖的方法以PolarNet 為骨干網絡設計再通過投票機制來融合生成的語義信息和實例信息,得到最終的全景分割。 Gasperini 等[6]提出的Panoster 網絡通過添加一個改進學習聚類方法的實例分支解析對象來得到實例信息,為語義分割網絡帶來全景能力。 Hong 等[7]提出的DS-Net 網絡采用專門為三維點云設計的柱面卷積,通過可學習的聚類模塊動態地處理非均勻的點云的特征,來融合語義和實例兩個分支模塊。 此外,將語義分割與三維目標檢測相結合進行全景分割方法也是解決方案的一個途徑。 如語義分割網絡KPConv[8]與三維目標檢測網絡PointPillars[9]或者PV-RCNN[10]相結合,語義分割網絡RangeNet[11]與三維目標檢測網絡PointPillars 相結合,在三維點云全景分割中被證明是一種十分有效的解決方案。

以上方法大多在實現前景類分割時存在解析精度不夠、解析運行所耗費的系統資源較高和運算時間較長等問題。 且端到端的分割網絡,若網絡結構某一部分不能準確分割,不僅會導致整個網絡的性能不良,而且會影響全景分割整體精度的平衡。 為提升全景分割的性能,提高推理速度,本文提出一種基于語義信息的全景分割方法,以更快速精準地進行場景解析與感知。該方法利用語義分割網絡獲取整個場景的語義信息,再對things 類別語義信息進行整合,結合語義、空間及法向量信息,利用輕量快速的聚類算法對實例進行分割,最后結合stuff 類別語義信息獲取整個場景的全景分割結果。

本文的主要貢獻:

(1)設計了一種基于語義信息的全景分割方法。利用語義分割網絡得到語義信息,結合語義信息和空間信息對前景things 類別進行實例分割,從而實現全景分割。 該方法將全景分割進行解耦,減輕了網絡模型壓力,獲得了很好的分割效果。

(2)設計了一種結合語義信息和空間信息的聚類分割方法。 對相鄰目標提出以法向量夾角的判斷方法,準確分割出不同目標,進一步提升全景分割的效果。

(3)在大規模交通場景數據集Semantic KITTI 上進行驗證,與已有的全景分割網絡Panoptic RangeNet、Panoster、Panoptic-PolarNet、DS-Net 對比,實驗結果表明本文的全景分割方法性能達到了優異的水平:PQ 為56.5%、RQ 為67.9%、SQ 為82.3%、mIoU 為68.2%。而且,對前景things 類別的實例聚類分割部分只額外增加24 ms的處理時間。

1 方法

1.1 整體網絡模型框架

全景分割網絡框架由3 個部分組成:利用點云語義分割模型對點云進行語義分割獲取點云語義信息;根據語義信息劃分前景類別和背景類別,對前景類別利用聚類算法進行實例分割;將背景類的語義信息與前景類的實例分割結果結合,實現整個應用場景的全景分割解析。 完整的全景分割網絡結構如圖1 所示。

圖1 全景分割整體網絡結構框架

1.2 語義解析

直接利用現有的語義分割網絡對點云進行處理獲取語義信息,換句話說,任意語義分割網絡都能夠適用于本文的全景框架。 在此,選擇目前最先進的語義分割網絡Cylinder3D[12]獲取每個點的語義信息。 并根據全景分割的定義,將語義信息按照前景things 類別和背景stuff 類別將點云劃分。

1.3 前景類對象實例解析

針對前景類對象,全景分割需進一步對每個目標進行準確分割。 因此,將語義分割模型結果與點云空間信息進行結合,利用聚類算法對同類別目標點進行聚合,從而實現單個個體的分割。 直接利用語義信息可將不同類別信息進行初始劃分,隨后利用空間距離對點云聚類實現目標個體的分割。 但如果存在多個個體距離很近的情況,基于空間距離的聚類方法可能會失效,如圖2(a)所示,當兩個行人靠近時,基于空間距離的聚類方法不能準確分割單個個體。 由于同一物體表面點法向量變化緩慢,相鄰個體通常存在明顯間隔,邊界區域法向量存在明顯變化,因此本文提出一種基于法線夾角的分割策略。 該策略利用法線夾角檢測相鄰目標邊緣并保存,將邊緣點剔除加大相鄰目標間隔,從而分開相鄰目標。

圖2 多個行人距離近時分割效果

基于法線夾角的邊緣點檢測流程(圖3)如下:

圖3 基于法線夾角的邊緣點檢測流程

步驟1 采用體素下采樣以減少后續檢測流程的處理時間。

步驟2 因為點云中單個點沒有辦法計算法向量,所以只能通過擬合平面估計局部鄰域內的點云法向量,使用k近鄰算法搜索距離目標點s最近的k個近鄰點p,距離小于閾值即為近鄰點,其搜索近鄰點距離的核心公式:

式中,d為近鄰點pi與目標點s之間的距離;st為目標點s的第t個屬性;pit為第i個近鄰點的第t個屬性;m為屬性總數,取值范圍為[1,3]。

步驟3 利用目標點s連接近鄰點pi,pi-1構建向量組成平面,求出最近的k個近鄰點估計出的平均法向量n:

式中,n為平均法向量;和為目標點與近鄰點構建的向量。

步驟4 在這個局部鄰域內,對需要判定的點,計算點法向量與平均法向量之間的法向量夾角α,判斷α與夾角閾值T的大小關系,若α

式中,ni為點法向量,n為平均法向量,它們之間的夾角為α。

步驟5 判斷是否所有點均被檢測。 若未檢測完,繼續跳回步驟2 執行;若檢測完畢,則完成邊緣點的判斷,結束流程。

在獲取邊緣點之后,將邊緣點從原數據中分離出來,并對提取后剩余的原始數據利用聚類算法進行點云聚類。 隨后,還需要將已分離出集合C里的邊緣點還原,因此需將這些點根據K近鄰來判斷所靠近近鄰點多數的標簽作為該點的標簽,從而完成實例分割。圖2(b)為利用法線夾角分割策略后的聚類結果,可以看出相鄰行人被完整地分割成兩個目標。

聚類算法方面,選擇利用Scan-line Run(SLR)聚類算法[13]對前景類對象進行分割,獲得實例分割結果。 Scan-line Run(SLR)聚類針對實際應用,以快速和低復雜性的方式來解決三維點云分割問題。 該算法在提取地面后,通過分析三維點云的結構特點,利用點云的結構對剩余的非地面點進行聚類。 在激光雷達360°掃描的情況下,所掃描到的每一層被稱為按層組織的一組點云。 每個層中的點也以橢圓的方式組織,所有橢圓層的起點被認為共享相同的方向,并利用智能索引來執行有效的分割。 激光點云數據的多線結構導致的分層,很類似于二維圖像多行堆疊結構,激光發射器垂直方向排列,射線形式發出,使射線方向類似圖像的列排列,不同之處在于每層元素分布不均勻以及激光點云數據獨特的圓環結構。 本方法將點視為像素,以二進制圖像的形態學操作為基礎,并采用二值圖像的兩次連通分量標記技術[14]來完成實時點云聚類方案。 SLR 算法具體流程(圖4)如下:

圖4 SLR 聚類算法流程[13]

步驟1 第一層點初始化。 按順序遍歷點,點間距離小于一定值便判定為同一類,若存在距離或空元素突變便對接下來的點重新賦予初始類別,接收新標簽(三角形中數值)。

步驟2 新標簽的分配和兩個標簽的傳播。 8 點最近的非地面相鄰點是2,但它們的距離大于預先設置的距離閾值。 在這種情況下,為第8 點賦予新的簇類標簽。 接下來,最近的10 的非地面鄰居是3,其距離小于閾值,點10 繼承點3 的簇類標簽1。 同理,點12 和13 都接近它們各自的相鄰點5 和6,獲得與相鄰點一樣的簇類標簽。

步驟3 中間點處理。 其中點17 和19 有相鄰點10 和12,它們屬于不同的簇并且都滿足于繼承標簽的條件。 本方案設定,此類情況下,按兩個標簽中的更小標簽(即標簽1)繼承。

步驟4 簇間的合并。 當存在步驟3 中屬于不同的簇且都滿足繼承標簽的條件情況時,若兩簇連通,則將兩簇合并,賦予較小標簽。

如圖4 所示,白色點代表地面點(此時已完成地面點剔除,相當于空),而彩色點為留下來的非地面點。 非地面點以不同顏色區分簇類,藍色指還未進行類劃分的非地面點,三角形代表對當簇的標簽劃分。至此,完成分割任務。

此外,表1 將SLR 算法與歐幾里得聚類法和深度聚類算法進行比較,以驗證SLR 聚類算法的性能。 歐幾里德聚類算法中,將距離閾值(Dth)設置為中等閾值0.5 m。 因為大的距離閾值會將近距離的對象組合在一起,導致過分割;而小的距離閾值將只能檢測空間距離間隔較大的目標,對于空間距離間隔較小的多個目標極易造成目標欠分割的現象,導致欠分割。 對于深度聚類算法,角度閾值θ的選擇為10°。 對于SLR聚類,兩個距離閾值取值分別為0.5和1.0。 在3 種點云聚類方法中,SLR 聚類的分割效果最好。 同時在耗時方面,表1 評估了使用不同聚類方法在平均每一幀上的實例分割處理速度,處理速度最快的是歐幾里得聚類算法,僅18.7 ms,而深度聚類算法和SLR 聚類處理也不慢,分別為19.2 ms和29.4 ms。

表1 點云聚類方法對比

1.4 語義信息整合模塊

本文的全景分割是在語義分割結果的基礎上進一步處理的結果,若語義分割結果出錯,會導致聚類方法不可能獲得準確的聚類效果。 因此,為減少因語義分割結果錯誤導致的目標實例分割出錯的問題,本文對Cylinder3D 算法在Semantic KITTI 數據集[15]上的各類前景目標分類錯誤概率進行了統計,如表2 所示。 可以看到:騎摩托車的人[motorcyclist]錯分到其他類別的概率達到99.61%。 其中,進一步對騎摩托車的人、騎自行車的人、摩托車、自行車的具體誤分的類別進行了統計,如表3 所示。 可以看出,騎摩托車的人[motorcyclist]誤分到騎自行車的人[bicyclist]的比率占58.01%,騎自行車的人[bicyclist]誤分到騎摩托車的人[motorcyclist]的比率占0.17%,而摩托車[motorcycle]和自行車[bicycle]相互間的誤分率也很高。 其原因正是因為在行駛過程中,由于激光雷達有著近密遠疏的特性,在整個大場景下采集到的騎摩托車的人和騎自行車的人的點云數據太過稀疏,特征細節不夠豐富。 相比于相機,由于激光雷達采集到的點云數據稀疏、不具有顏色和紋理信息,并且騎自行車的人與騎摩托車的人在行為姿態特征上又太過相似,因此騎摩托車的人極其容易誤分為騎自行車的人。

表2 Semantic KITTI 數據集類別錯分概率單位:%

表3 Semantic KITTI 數據集主要類別的誤分率單位:%

有些類別間的差異很小,擁有相似的點云幾何特征,但對于自動駕駛來說他們卻是擁有相似決策邏輯的目標對象。 如圖5 所示,在激光雷達掃描到的點云數據中自行車與摩托車擁有幾乎相同的幾何特征。

圖5 類別差異圖

若是刻意去判斷這些相似類別間的差異,將會在算力和性能上付出更多的成本代價。 盡管目標對象有差異,但是在實際應用場景中[16],都會在激光雷達中掃描到具體的點云信息。 因為無論前方是一個自行車還是摩托車,自動駕駛任務會做出同樣的決策結果。以實際情況中的這些問題上來說,對這兩者的區分通過更加均衡的標簽分布反而可以獲得更加良好的分割表現。 若在這個階段錯分,則會導致實例分割精度低下。 同樣地,騎自行車的人和騎摩托車的人兩個類別之間的相似特征差異很小,也會影響分割質量。

而對于自動駕駛汽車來說,騎自行車的人和騎摩托車的人、自行車和摩托車類別間的區分對后續自動駕駛汽車決策影響不大,但由于其語義分割誤分率較大,使全景分割無法準確識別各個實例個體。 因此,將數據集中的類別進行重劃分操作,對標簽類別微調整合,得到如表4 所示的劃分結果。

表4 類別重劃分

2 實驗結果與分析

2.1 實驗環境與測試集

本文實驗的硬件平臺為搭載了Inter(R)Core(TM)i9-10850K CPU,GeForce RTX 3090 GPU 硬件配置的服務器,操作系統為Ubuntu 18.04 LTS,軟件架構具體的環境參數為Python 3.8,CUDA 11.1.0,Cudnn 8.0.4,PyTorch 1.8.0。

為體現本文方法的有效性,采用的是自動駕駛領域現有的大規模公開點云分割數據集Semantic KITTI。數據集Semantic KITTI 主要由郊區街道組成,交通密度相對較低,將激光雷達點云逐點分為了28 個類別,忽略點數極少的小類別后保留19 類用作點云分割。且用標簽對其中每個點進行注釋,并對360°全場景進行數據采集和標注,顯示了大量具有挑戰性的交通情況和環境類型。

2.2 評價指標

本文以平均交并比(mIoU)、全景分割質量(PQ)、分割質量(SQ)和識別質量(RQ)作為實驗的主要評價指標,能更加綜合地對全景分割進行性能評估。 IoU在數學中用于計算兩個集合的交集在并集上的占比,在計算機視覺中用于評估分割精度,而mIoU 是所有類別i的平均值,具體定義:

其中C表示類別數,TPi、FPi和FNi分別表示對i類的預測中,預測值和真值一致的點集,真值不是i類卻被分割為i類的點集,真值為i類卻被預測為其他類的點集。

全景分割的評估指標是全景質量、分割質量和識別質量,PQ 可以解釋為分割質量(SQ)和識別質量(RQ)的乘積,具體定義如下:

2.3 對比實驗及分析

將本文的全景分割方案與其他方案如語義與目標檢測結合的方案、端到端的全景分割方案等進行比較,可以看出本文提出的方法在綜合各類全景質量(PQ)[17]、分割質量(SQ)和識別質量(RQ)以及平均交并比(mIoU)評測指標下均有優異表現。 可以看到,將語義分割與三維目標檢測相結合進行全景分割方法也是解決方案的一個分支,但三維目標檢測需要一個龐大且復雜的網絡,并且有冗余的計算標簽的成本。如表5 所示,本文的全景分割方案性能優于語義分割與三維目標檢測結合的解決方案,與KPConv + PVRCNN 等相比,同樣分割精度明顯提升。 與基于點云投影至二維圖像的方法(如基于鳥瞰圖的Panoptic-PolarNet)相比,本文方法在mIoU 指標上有8.6% 的提升。 與一站式端到端的全景分割網絡模型Panoster 和DS-Net 相比,本文方法在mIoU 指標上分別有8.2%、6.5%的提升,在各小類別上的對比在表5 中有詳細說明,大部分類別指標均有不同程度的提升。

表5 全景分割方法對比

圖6 展示了本文所提出的方法在SemanticKITTI數據集上的分割結果,從左至右依次為原始點云、語義分割、實例分割的結果。 可以看到,本文方法的語義分割部分將每一類目標分割開,對于重要交通參與者(行人、汽車、大型車輛等)即前景類對象,能夠獲得準確清晰目標邊緣信息,并且對回歸得到準確語義信息賦予不同的顯示顏色對應不同的實例ID 標簽。 圖7展示了經過法向夾角邊緣檢測優化前后三維點云聚類的分割細節對比,圖中靠得很近的行人能夠準確地分割開來,并能夠實現在道路交通場景下的逐點語義解析工作,對于可行駛區域也能獲得可靠信息以供自動駕駛后續的規劃使用,網絡的綜合性能良好。 在實際場景里,真實道路場景解析的需求及環境相對簡單,類別的劃分不必如此精細。 而類別劃分需求的精簡,相似類的合并,可減少網絡類別的識別,增大類間的差異,減輕整個分割框架的負擔,提高網絡對類別識別的綜合性能,減少計算和內存壓力。 因此,本文也對經過標簽類別重劃分后的性能指標做了對比評估,如表6所示。 最后,本文在表7 還對比了與其他全景分割框架的耗時統計。 本文的框架利用聚類方法,對硬件要求低,能夠在耗費少量資源的條件下僅調用CPU 即可快速準確地對語義信息進行處理。 如表7 所示,其他端到端的全景分割的方法,如KPConv+PointPillars,處理每一幀點云的耗時高達500 ms,而本文方法在點云場景中能保持較快的推理速度,特別是在對前景類的實例分割速度僅耗時29.4 ms,卻也可以達到較高精度,證明了本文方法計算的高效性。

表6 類別重劃分后全景分割方法對比

表7 全景分割耗時對比

圖6 數據集Semantic KITTI 的分割效果圖

圖7 點云聚類分割優化細節

3 結束語

本研究有助于實現在人工智能領域中對復雜場景進行快速準確的理解。 具體來說,提出了一個基于語義信息的三維激光點云全景分割方法。 該方法在第一階段利用現有的語義分割網絡方法得到語義信息。 在第二階段使用輕量且快速的點云聚類算法將前面得到的前景類語義分割信息進行后續處理,并增強實例分割的推理速度。 此外,這一方法在對類別重劃分后大大減輕了種類分布不均造成的不利影響,且在實際道路場景中也能夠高效準確地進行場景解析。 這種方法也適用于其他激光雷達點云分割任務。

為了評估所提出的方法,本文選擇了帶有逐點語義和實例信息注釋的SemanticKITTI 數據集,基于不同的分割網絡模型進行了算法實驗。 同時,也對比了幾種點云聚類算法在全景分割中的性能表現。 實驗結果表明,本文提出的方法可以實現準確性和效率的有效平衡,其中PQ 為56.5%、RQ 為67.9%、SQ 為82.3%、mIoU 為68.2%。 在全景分割質量精度上,相較三維目標檢測與語義分割相結合的方法,如KPConv+PointPillars,提高了12.1%,相較全景分割網絡模型(如DSNet)提高了0.7%。 總而言之,本文研究是以激光雷達三維點云全景分割為目的對人工智能領域和自動駕駛場景感知與理解的積極探索。 未來將專注于對復雜動態環境進行快速準確的解析。

致謝:感謝成都信息工程大學科研基金(KYTZ202109, KYTZ202142)對本文的資助

猜你喜歡
全景實例類別
戴上耳機,享受全景聲 JVC EXOFIELD XP-EXT1
全景敞視主義與偵探小說中的“看”
從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
全景搜索
服務類別
論類別股東會
完形填空Ⅱ
完形填空Ⅰ
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合