?

基于多尺度特征融合和對比池化的點云補全網絡

2024-03-05 02:54馬精彬朱丹辰張亞王曉明
計算機應用研究 2024年2期
關鍵詞:特征融合池化

馬精彬 朱丹辰 張亞 王曉明

收稿日期:2023-06-20;修回日期:2023-08-09? 基金項目:四川省自然科學基金資助項目(2022NSFSC0533)

作者簡介:馬精彬(1993—),男,四川營山人,碩士研究生,主要研究方向為計算機視覺、點云補全;朱丹辰(1999—),女,四川自貢人,碩士研究生,主要研究方向為計算機視覺;張亞(1998—),男,山東棗莊人,主要研究方向為圖像處理、機器學習;王曉明(1977—),男(通信作者),四川簡陽人,副教授,碩導,博士,主要研究方向為模式識別、機器學習、圖像處理、計算機視覺(wangxmwm@163.com).

摘? 要:點云補全在點云處理任務中具有重要作用,它可以提高數據質量、輔助生成精確三維模型,為多種應用提供可靠的數據支撐。然而,現有基于深度網絡的點云補全算法采用的單層次全局特征提取方法較為簡單,沒有充分挖掘潛在語義信息,并在編碼過程中丟失部分細節信息。為解決這些問題,提出了一種多尺度特征逐級融合的點云補全網絡,并結合注意力機制提出了一種全新的池化方法。實驗結果表明,在PCN、ShapeNet34和ShapeNet55三個數據集上取得了SOTA水平,證明該網絡具有更好的特征表示能力和補全效果。

關鍵詞:點云補全; 多尺度; 池化; 特征融合

中圖分類號:TP183??? 文獻標志碼:A

文章編號:1001-3695(2024)02-048-0635-06

doi:10.19734/j.issn.1001-3695.2023.06.0254

Multi-scale feature fusion and contrastive pooling forpoint cloud completion network

Ma Jingbin, Zhu Danchen, Zhang Ya, Wang Xiaoming

(School of Computer & Software Engineering, Xihua University, Chengdu 610039, China)

Abstract:Point cloud completion plays a crucial role in point cloud processing tasks, as it enhances data quality, assists in generating accurate 3D models, and provides reliable data support for various applications. However, existing point cloud completion algorithms based on deep neural network use a simple single-level global feature extraction method, which do not fully exploit latent semantic information and lead to loss some detailed information during the encoding process. To address these issues, this paper proposed a novel point cloud completion network that employed a multi-scale feature fusion approach and introduced a new pooling method by combining an attention mechanism. Experimental results demonstrate that the proposed network achieves the state-of-the-art(SOTA) performance on three datasets,namely PCN,ShapeNet34,and ShapeNet55,indicating its superior feature representation capability and completion effectiveness.

Key words:point cloud completion; multi-scale; pooling; feature fusion

0? 引言

近年來,點云在三維計算機視覺和圖形學領域中備受關注。它結構清晰,讀寫方便,能精確表示物體形態,方便對物體進行測量和分析。然而,受傳感器限制、遮擋、表面反射等因素影響,現實世界中采集到的點云數據往往稀疏且不完整。殘缺點云數據在點云分類[1]、點云分割[2]、點云配準[3]等下游任務中受到極大限制。點云補全正是根據已有局部信息和先驗知識,通過推斷和預測來填補缺失點云區域,生成高質量的三維模型。通過點云補全可以重建缺失細節信息,還原物體完整形態,從而提高數據的可用性和準確性。點云補全可以對自動駕駛、機器人導航、增強現實等領域提供可靠數據支撐。

近幾年,研究人員提出了大量點云補全方法。這些方法基于深度學習、圖像處理、幾何推斷等技術,通過建模點云數據局部結構和全局一致性,實現了令人矚目的補全效果。然而,點云補全仍然存在許多挑戰。例如,如何處理大規模點云數據補全問題、如何處理復雜場景中遮擋和噪聲、如何提高補全結果的幾何精度和視覺一致性等。因此,點云補全的研究仍然具有重要的理論和實踐意義。

點云補全的傳統方法[4~6]依賴于物體基礎結構的先驗信息,例如對稱性信息和語義類別信息。這類方法只能處理一些結構特征明顯且缺失率低的點云,對于缺失面積大、結構特征模糊的點云數據,很難獲取準確補全結果。傳統方法通常需要手動設置參數或規則,缺乏自適應性,泛化能力差。另外,部份傳統方法對噪聲較為敏感,可能會導致補全結果錯誤。

隨著計算機視覺領域迅猛發展,研究人員將點云體素化或網格化。點云體素化后,會得到一組規則三維體素,并將每個體素看作一個特征向量。這些特征向量很容易輸入到卷積神經網絡中進行訓練和預測。但是,由于采用規則劃分,這類方法[7~9]對于不規則形狀點云數據處理效果不佳。體素化點云數據還會損失大量空間信息,特別是在空間分辨率較高的情況下,會導致計算成本激增。點云網格化則是將點云數據投影到規則網格上,利用成熟的卷積神經網絡對網格數據進行處理?;诰W格的方法能夠在空間分辨率更高的情況下處理不規則點云數據。然而,由于網格需要消耗大量存儲空間,處理較大規模點云數據時會占用較大內存空間,計算成本較高。

2017年,Qi等人[10]開創性地提出了直接處理不規則點云數據的網絡架構PointNet。它不需要格式化處理點云數據,通過對稱函數和空間變換網絡分別解決了點云無序性和旋轉性問題。PointNet++[11]通過分層的特征提取逐步擴大感受野,利用多層次提取結構獲取不同層次特征以關注點云數據局部特征。2018年,Yuan等人[12]將FoldingNet[13]和PointNet巧妙結合,提出了PCN。它將點云幾何信息總結為特征向量,通過解碼器由粗到細預測出完整點云。2019年,Tchapmi等人[14]提出了一種基于樹狀結構的補全網絡TopNet,它能夠在不需要預定義基礎點集的情況下進行點云補全。2020年,Xie等人[15]提出了一種基于網格結構的網絡GRNet,該網絡用于點云密集化自動補全。它將無序且不規則的點云數據轉換為規則的體素網格,利用成熟的三維卷積層處理網格數據并提取特征,特征向量輸入到去網格化層生成預測點云。2021年,Yu等人[16]提出PoinTr,它將點云數據轉換為一組無序點代理,將點云補全任務轉換為了set to set的翻譯任務,利用Transformer中encoder-decoder結構生成缺失點云,進一步改進點云補全方法。

綜上所述,大量點云補全方法通常僅從輸入點云中提取單一特征,并在編碼階段使用最大池化進行下采樣。然而,這種單層次的全局特征相對較簡單,未能充分挖掘點云內在的多層次結構和語義信息,導致補全結果的準確性和細節保留能力受限。常見的最大池化方法會影響補全網絡對完整形狀的恢復,尤其是在高分辨率和復雜點云結構的情況下,補全結果會丟失大量細節。針對以上問題,本文基于注意力機制提出了一個多尺度特征逐級融合的點云補全網絡(multi-feature contrastive pooling completion network,MFCP-Net)。該網絡逐級融合不同尺度特征,并利用不同池化結果之間的差異信息去提升網絡性能。本文的主要貢獻如下:

a)提出了多尺度特征逐級融合模塊,用于融合不同尺度的點云特征,以解決提取特征尺度單一問題。通過逐級融合,點云補全可以更準確地理解點云的局部細節和全局形狀,從而提高補全結果的準確性和細節保留能力。

b)提出了一種全新的對比池化方法,它通過在不同池化結果之間計算差異來獲取互補信息。這樣的池化方法可以彌補特征下采樣導致的細節丟失,從而提高補全網絡對于點云細節的恢復能力。

1? 基于多尺度特征融合和對比池化的點云補全網絡

基于編碼器-解碼器的傳統點云補全網絡通常使用編碼器直接捕獲輸入點云特征信息,并將其整合為全局特征。在整個網絡中,編碼過程的特征提取方式和特征下采樣整合的全局特征對于整個網絡的補全性能至關重要。然而,大多數傳統補全網絡僅提取輸入點云的單一尺度特征并使用最大池化進行下采樣操作,這極大地限制了點云數據的表達能力和語義理解能力,導致補全結果缺乏細節豐富性。

針對以上問題,本文基于注意力機制設計了多尺度特征融合和對比池化的補全網絡。圖1展示了具體網絡結構,本網絡分為三個階段解決點云補全任務。第一階段,網絡將不完整點云以坐標形式輸入,使用最遠點采樣算法提取出不同尺度點云,使用輕量級DGCNN[17]提取中心點周圍局部特征,并結合空間注意力將不同尺度點云特征進行逐級融合,以獲取更為豐富的多尺度特征。第二階段,特征融合后,轉換為點代理并輸入到Transformer[18]。與PoinTr一樣,本網絡通過編碼器和解碼器去學習點云之間成對交互的結構信息。Transformer中自注意力機制對編碼器中元素之間的成對交互進行建模,解碼器通過輸入點云和查詢特征之間的成對交互去解釋缺失元素。在特征下采樣階段,本網絡通過不同池化結果之間的差異獲取互補信息,以彌補通過傳統最大池下采樣后丟失的細節。第三階段,輸出特征重塑后輸入FoldingNet,由粗到細恢復缺失部分稠密點云。

具體而言,給定部分輸入融合后的點代理F={F1,F2,…,FN},將點云補全任務模擬為集合到集合的轉換問題。

V=TE(F)(1)

P=TD(Q,V)(2)

其中:TE和TD分別是Transformer的編碼器和解碼器;V={V1,V2,…,VN}是編碼器輸出的特征向量;Q={Q1,Q2,…,QM}是解碼器的動態查詢;P={P1,P2,…,PM}是缺失點云的預測點代理;M是預測點的數量。

1.1? 點代理生成

由于Transformer模型只處理序列化數據,所以需要將點云序列化,最容易的方式是直接將點云坐標(xyz)序列化。然而Transformer的計算復雜度為n2,其中n為序列長度,這種方案會帶來極大的計算負擔。雖然實際應用中可以對序列長度進行限制或者采用一些優化手段減少計算時間,但是直接序列化無法兼顧點周圍的局部信息。 此外,以往工作大多只考慮單層次特征,但是單層次特征的表示能力相對有限,無法充分挖掘點云數據中豐富的語義信息和空間結構。

為解決上述問題,本文提取不同尺度的點云特征,并將其表示為序列化數據(點代理)。具體做法如下:首先,利用最遠點采樣(farthest point sampling)對輸入點云進行下采樣,以獲取不同尺度的點云數據;然后,再次利用最遠點采樣提取不同尺度點云固定數量的中心點{g1,g2,…,gi};最后,利用輕量級DGCNN并結合中心點獲取各點周圍特征。因此,點代理是一個捕獲gi周圍局部結構特征信息的特征向量,每個尺度點代理可以計算為

Fi=F′i+φ(gi)(3)

其中:F′i是DGCNN所提取點gi的特征,代表該點局部區域語義信息;φ是用來捕獲點代理位置信息的一個MLP,此操作可以顯示編碼點代理全局位置信息。最終點代理是不同尺度局部點代理逐級融合的結果。

1.2? 多尺度特征逐級融合

不同尺度點云特征具有不同特點,其中高尺度點云特征點數多,包含豐富的細節信息;低尺度點云特征點數少,包含更強的結構特征。不同尺度特征表示不同語義信息,其中局部特征表示點云微觀細節,可以提供點云幾何信息;全局特征表示點云宏觀結構,可以提高點云整體形狀信息。然而,高低尺度特征語義差異較大,直接融合會出現沖突,產生信息的缺口。

針對以上問題,本文采用逐級(低尺度到高尺度)方式融合特征。圖2描述了具體結構。本文采用多尺度特征逐級融合的原因有三點:第一,語義層次化,不同尺度特征包含不同語義信息,逐級融合能夠實現語義層次化,將不同尺度語義信息組織成一個層次結構,可以更準確地表示點云特征;第二,信息有效傳遞,逐級融合可以將低層次特征傳遞給高層次特征,融合后的高低尺度特征之間信息差距更小,點云特征表示更加穩定可靠;第三,提高特征表示的豐富性,逐級融合可以將不同層次的信息有機結合,充分利用各尺度點云信息,提高特征表示的豐富性和魯棒性。具體而言:

Fmiddle=δ(Cat(SA(F2)SA(F3)))(4)

Fend=δ(Cat(SA(F1)Fmiddle))(5)

其中:SA [19]為空間注意力得分;Cat為拼接操作;δ是將拼接特征映射到一個固定維度的MLP;F1、F2、F3分別為不同尺度N2048、N1024、N512的點代理;Fend為最終點代理。

1.3? CGCPool

點代理經過Transformer后,會輸出一系列位置嵌入向量,每個向量表示輸出序列中對應的位置特征。特征在輸入到FoldingNet之前,通常使用最大池化對點云數據進行下采樣,降低特征維度的同時保持點云數據置換不變性。最大池化會在每個池化窗口找到最大特征值,然后將此作為該窗口的輸出。然而,最大池化僅保留點周圍鄰域最大值,這會丟失大量細節信息。對于補全任務而言,不完整全局特征會導致補全結果缺失細節信息。

針對以上問題,本文提出一種全新池化方式CGCPool。假定BatchSize為1,CGCPool整體結構如圖3所示。本文將獲取的特征向量N按照數值從大到小進行排序,取固定數量K個特征(K<N)。此操作不但減少了計算量,而且可以篩選出高激活度區域。在此基礎上進一步進行最大池化和平均池化操作。最大池化可以有效減少噪聲,保留關鍵特征,提高模型魯棒性和準確性;平均池化在保留點云基本特征的同時,將點云壓縮至更小規模,降低分辨率,使模型處理起來更為容易。Pavg和Pmax分別表示平均池化和最大池化后的輸出,兩者做差獲取對比特征,Pcont表示兩種池化結構之間的差異。Pmax和Pcont分別進行卷積操作后,其結果cont和max在通道維度進行拼接。二次卷積后與max相結合得到最終全局特征。

與最大池化相比,CGCPool不是僅考慮每個池化窗口最大值,而是考慮多個高激活度區域,盡可能多地保留細節信息。不僅如此,它還自適應聚合整個部分級特征平均池化和最大池化的結果。它利用兩種池化結果之間的差異去提取互補信息,最大化池化特征,更充分地捕捉點云數據中局部結構和全局特性。

1.4? 損失函數

點云補全的損失函數需要定量衡量重建點云和原始點云之間的差距。Fan等人[20]引入了兩個對點排列不變的度量方式,EMD(earth movers distance)和CD(Chamfer distance)。EMD基于Wasserstein[21]距離,CD基于歐氏距離。具體而言,EMD將兩個點云看作兩個分布,并尋找一種最優點匹配方法,使得匹配距離最??;CD則分別計算每個點到另一個點云中所有點的距離。相對而言,CD計算速度更快。受計算復雜度限制,本文采用Chamfer distance作為損失函數。C表示nc局部中心,P表示補全點云np。給定地面真實點云G,這兩個預測的損失函數可以寫成

J0=1nC∑c∈Cming∈G‖c-g‖+1nG∑g∈Gminc∈C‖g-c‖(6)

J1=1nP∑p∈Pming∈G‖p-g‖+1nG∑g∈Gminp∈P‖g-p‖(7)

其中:局部中心C預測整個補全模型粗略結果。通過高分辨率的地面真實點云G去監督稀疏點云C,以鼓勵它們具有相似分布。因此最終損失函數為

J=J0+J1(8)

2? 實驗

為驗證模型有效性,本文在常用數據集PCN和Shape-Net34/55上進行綜合實驗。本文還提供消融實驗和部分可視化圖像以驗證實驗的可靠性。實驗結果表明,MFCP-Net在點云補全領域取得了極佳效果。

2.1? PCN和ShapeNet34/55數據集簡介及評估標準

2.1.1? 數據集簡介

PCN數據集包含來自ShapeNet[22]數據集8個類別的點云數據。通過對三維模型進行采樣和預處理,提取到包含有缺失部分的點云數據。這些點云數據用于點云補全任務的評估和比較,也用于其他相關三維點云處理任務[23~26]的研究和開發。

ShapeNet34和ShapeNet55都是由斯坦福大學計算機科學系的ShapeNet項目組發布的數據集,主要用于3D模型相關研究。其中ShapeNet34包含了34個不同物體類別,ShapeNet55包含了55個不同物體類別。ShapeNet34/55通過自動化3D掃描和手動3D建模等方式生成,極大推動了3D物體識別[27]、分割[28,29]、檢索[30,31]、生成[32]等方面的研究。

2.1.2? 數據集訓練和評估

在本節中,MFCP-Net將與目前先進方法在相同實驗環境下進行比較,以證明算法有效性。本文采用cd-l1、cd-l2以及F-score進行度量。

對于PCN數據集中每一個實例均采樣2 048個點作為部分點云,采樣16 384個點作為完整點云。本文將獲取到的部分點云輸入到MFCP-Net,通過各個模塊處理獲取到的預測點云,再與完整點云進行比較和計算。ShapeNet34基準[16]用于檢驗和評估模型泛化能力,而ShapeNet55基準[16]使用了ShapeNet中所有55個類別的對象,以確保類別和對象的多樣性。對于ShapeNet34/55中每個對象,從曲面均勻采樣8 192個點作為真實點云。為了模擬真實場景和確保樣本多樣性,首先隨機選擇一個視點,并移除離視點最遠的n個點以獲得部分點云。在訓練期間,n被隨機選擇在2 048~6 144(即完整點云的25%~75%),以滿足訓練樣本不完整性需求。然后,剩余點云下采樣到2 048個點作為輸入。在評估過程中,本文選擇了八個視點,方便起見,n設置為2 048、4 096或6 144,即占整個點云的25%、50%或75%。在實驗中,測試樣本分為簡單、中等和困難三個難度等級,根據n的值來劃分。本文提供每種方法在不同難度級別中的性能數值,以展示每個網絡處理不同難度級別任務的能力。此外,使用三個難度級別性能的平均值來描述網絡整體性能。

2.2? 實驗環境和實施細節

本文實驗環境為Ubuntu 18.04,處理器為i9-10900X,32 GB DDR4內存,NVIDIA GeForce RTX 3090 Ti獨立顯卡,訓練環境為CUDA 10.0,Python 3.7.13,PyTorch 1.8.0。MFCP-Net是端到端可訓練的,不需要任何預訓練。本網絡使用Adamw優化器,初始學習率設置為5×10-4,權重衰減為5×10-4。與文獻[16]一樣,權衡資源和性能之后,將Transformer編碼器和解碼器的深度分別設置為6和8,均使用6個head attention,隱藏維度設置為384。KNN操作的k值設置為16和8。對于PCN數據集,批大小設置為48,進行300個epoch的訓練,每21個epoch的連續學習率衰減為0.9;對于ShapeNet34數據集,批大小設置為128,共200個epoch;對于ShapeNet55數據集,批大小設置為96,epoch為200。 在訓練過程中,通過迭代優化損失函數來更新網絡參數。在每個epoch結束時,使用驗證集來選擇最優的模型,并在測試集上進行性能評估。

2.3? 評估指標

MFCP-Net使用平均倒角距離和F-score作為度量標準。平均倒角距離可以測量預測點云和地面實況之間的距離。對于每個預測目標,預測點集P和地面實況點集G之間的倒角距離通過以下公式計算:

dcd=1|P|∑p∈Pming∈G‖p-g‖+1|G|∑g∈Gminp∈P‖g-p‖(9)

本文使用cd-l1(一范數)和cd-l2(二范數)分別計算兩點之間的距離,使用F-score衡量點云補全結果的質量。

2.4? 不同方法補全效果對比

2.4.1? PCN數據集不同方法補全結果分析

PCN作為點云補全領域使用最為頻繁的數據集,將MFCP-Net在PCN數據集上與先進方法在相同環境下進行實驗。所有評價指標都是越小越好。表1的定量結果表明,MFCP-Net相較于一些比較傳統的方法,如FoldingNet、PCN,本文方法在8個類別和整體均值結果方面均為最優。參與比較的各補全網絡中,雖然在類別指標chair上的評價略優于本網絡,但在其他類別上,本網絡的實驗結果都展現了顯著優勢;在均值上,本文方法的平均誤差相比于PoinTr提升了3.83%。這些數據均證明了本文方法在3D點云形狀補全任務中的有效性和優越性。

2.4.2? 消融研究

本節進行了全面的消融研究,以驗證多尺度注意力特征逐級融合以及CGCPool的有效性。注意,所有實驗均在PCN數據集上進行。

為了檢驗設計的有效性,本節對MFCP-Net關鍵部件進行消融研究。其中A代表基礎模型,在A的基礎上單獨使用多尺度特征逐級融合模塊后(模型B),其cd-l1相較于A減少了0.124。這表明多尺度特征逐級融合模塊對改進模型性能起到了積極作用。在A的基礎上加入CGCPool模塊(模型C),其基準提高了0.212。C模型在結果上減少了更多的CD損失,因為C模型代表了更完整的3D形狀內部的高級特征信息。在A的基準上同時引入兩個模塊(模型D),其cd-l1和F-score的具體結果如表2所示。

為進一步驗證CGCPool模塊的有效性,本節將其與最大池化(max pooling)和平均池化(averge pooling)進行比較。為消除特征融合模塊對整體網絡性能的影響,去除特征融合模塊后進行對比。實驗結果表明,使用CGCPool時,在所有性能指標(F-score、cd-l1和cd-l2)上都取得了最優的表現。

具體來說,使用平均池化時,得到的點云補全結果的F-score為0.739,cd-l1為8.282,cd-l2為0.279。使用最大池化時,性能有所提升,F-score為0.774,cd-l1為7.645,cd-l2為0.248。在采用CGCPool時,性能最優。使用CGCPool的網絡的F-score指標達到了0.784,cd-l1為7.433,cd-l2為0.234。具體結果如表3所示。

綜合實驗結果,可以得出如下結論:CGCPool是一種有效且優越的池化方法,能夠在點云補全任務中顯著提升性能,并為補全結果的準確性和完整性提供強有力的支持。

2.4.3? ShapeNet34比較結果

為測試MFCP-Net的泛化能力,本文在ShapeNet-34數據集上對MFCP-Net和其他方法進行了實驗。本節測試了34個可見類別在簡單(CD-S)、中等(CD-M)、困難(CD-H)情況下的cd-l2值。如表4所示,MFCP-Net相比其他先進方法,具有更加優異的泛化能力。

2.4.4 ?ShapeNet55比較結果

本文在ShapeNet-55上進行實驗,該數據集包含55個類別的對象。本文實現了現有方法(FoldingNet、PCN、TopNet、GRNet、PoinTr),并使用其論文中最佳超參數在相同實驗環境下進行公平比較。為報告樣本充足和不足類別的性能,本文從ShapeNet-55中選取10個類別進行實驗,其中table、chair、airplane、car、sofa、birdhouse為樣本充足的類別;bag、remote、keyboard和rocket為樣本不充足類別。表5展示在三個設置(簡單、中等、困難) 下,MFCP-Net在cd-l2方面取得了0.594、0.820、1.622的優異結果,其F-score達到了0.502。表6詳細報告了每種方法在10個類別上的詳細結果。以上數據證明,MFCP-Net可以更好地處理不同視角、不同類別、不同不完整模式、不同不完整程度的點云數據。本文方法在更多樣的環境下具備普適性和有效性。

2.5? 補全結果可視化

2.5.1? 消融研究結果可視化

圖4顯示了消融實驗可視化結果?;诙喑叨忍卣髦鸺壢诤虾虲GCPool的補全網絡取得最佳結果。在圖4(b)模型除去多尺度特征逐級融合模塊。此時,由于網絡獲取的全局特征不豐富,難以給出相對平滑的預測形狀。從圖中可以明顯看出,機頭和機翼上噪點較多,致使整個機身的外觀并不平滑。上述結果說明,多尺度特征逐級融合模塊可以加強網絡對于全局特征的學習能力,通過該模塊可獲取更為豐富的點云特征。圖4(c)刪除CGCPool模塊進行補全時,整體輪廓較為分明,預測形狀相對平滑,但是對于機尾處的細節部位難以還原。從圖中可以看出,機尾部分細節幾乎完全缺失,說明CGCPool模塊有助于補全網絡,恢復缺失點云細節特征。

2.5.2? PCN數據集補全結果可視化

本文算法與其他五種方法在PCN數據集補全性能可視化結果如圖5所示。圖中依次包括殘缺輸入點云、經過FoldingNet、TopNet、PCN、GRNet、PoinTr和本文算法獲取的補全點云,以及對應的真實點云。其中灰色代表輸入部分,藍色代表其他五種算法補全結果,紅色代表本文算法補全結果,金色則表示地面真實(參見電子版)。

圖5直觀展示了本文算法相較于其他方法而言,補全效果更佳。針對不同類別的殘缺點云,MFCP-Net獲得了更加精細、更加平滑的全局形狀,且輸出點云在空間上分布更加均勻,細節保留更為明顯。這充分說明本文算法重建能力強,補全效果好,預測點云空間分布更加均勻,可以實現精細補全。

3? 結束語

本文提出了一種基于多尺度特征的逐級融合模塊和對比池化模塊的點云補全方法。實驗結果表明,本文方法能夠有效地捕捉點云中的多尺度特征,并且能夠從不同層次進行融合,從而更好地還原缺失信息。與其他方法相比,MFCP-Net具有更好的補全效果和更高的準確率,表明該方法在點云補全任務上具有廣泛的適用性和穩定性。然而,該方法仍存在一些缺點,包括訓練時間較長、訓練模型較大以及補全細節不夠精細等。后期可以考慮對模型作輕量化處理,并使用點云平滑等方法,以進一步提高補全質量。

綜上所述,基于多尺度特征的逐級融合模塊和對比池化模塊提出的點云補全方法是一種有效的方法,具有廣泛的應用前景,可為實際應用中的點云數據處理提供有力支持。

參考文獻:

[1]張潤梅, 程婷, 尹蕾,等. 一種注意力融合的多尺度點云分類網絡[J]. 淮北師范大學學報:自然科學版, 2023,44(1): 70-75. (Zhang Runmei, Cheng Ting, Yin Lei, et al. A multi-scale point cloud classification network based on attention fusion[J]. Journal of Huaibei Normal University:Natural Science Edition, 2023,44(1): 70-75.)

[2]魯斌, 柳杰林. 基于特征增強的三維點云語義分割[J]. 計算機應用, 2023,43(6):1818-1825. (Lu Bin, Liu Jielin. 3D point cloud semantic segmentation based on feature enhancement[J]. Journal of Computer Applications, 2023,43(6): 1818-1825.)

[3]陶四杰, 白瑞林. 一種基于降采樣后關鍵點優化的點云配準方法[J]. 計算機應用研究, 2021,38(3): 904-907. (Tao Sijie, Bai Ruilin. A point cloud registration method based on key point optimization after downsampling[J]. Application Research of Compu-ters, 2021,38(3): 904-907.)

[4]Demir I, Aliaga D G, Benes B. Procedural editing of 3D building point clouds[C]//Proc of IEEE International Conference on Computer Vision. 2015: 2147-2155.

[5]Cai Zhipeng, Wang Cheng, Wen Chenglu, et al. 3D-PatchMatch: an optimization algorithm for point cloud completion[C]//Proc of the 2nd IEEE International Conference on Spatial Data Mining and Geographical Knowledge Services. 2015: 157-161.

[6]Canciani M, Falcolini C, Saccone M, et al. From point clouds to architectural models: algorithms for shape reconstruction[C]//Proc of 3D Virtual Reconstruction and Visualization of Complex Architectures. 2013:27-34.

[7]Hinks T, Carr H, Truong-Hong L, et al. Point cloud data conversion into solid models via point-based voxelization[J]. Journal of Surveying Engineering, 2013,139(2): 72-83.

[8]Vo A V, Truong-Hong L, Laefer D F, et al. Octree-based region growing for point cloud segmentation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015,104: 88-100.

[9]Kammerl J, Blodow N, Rusu R B, et al. Real-time compression of point cloud streams[C]//Proc of IEEE International Conference on Robotics and Automation. 2012: 778-785.

[10]Qi C R, Su Hao, Mo Kaichun, et al. PointNet:deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2017: 652-660.

[11]Qi Charles R,Li Yi, Su Hao, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//Advances in Neural Information Processing Systems. 2017.

[12]Yuan Wentao, Khot T, Held D, et al. PCN:point completion network[C]//Proc of International Conference on 3D Vision.2018: 728-737.

[13]Yang Yaoqing, Feng Chen, Shen Yiyu, et al. FoldingNet: point cloud autoencoder via deep grid deformation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018: 206-215.

[14]Tchapmi L P, Kosaraju V, Rezatofighi H, et al. TopNet: structural point cloud decoder[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. 2019: 383-392.

[15]Xie Haozhe, Yao Hongxun, Zhou Shangchen, et al. GRNet: gridding residual network for dense point cloud completion[C]//Proc of the 16th European Conference on Computer Vision. Berlin:Springer-Verlag, 2020: 365-381.

[16]Yu Xumin, Rao Yongming, Wang Ziyi, et al. PoinTr: diverse point cloud completion with geometry-aware transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 12498-12507.

[17]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017.

[18]Wang Yue, Sun Yongbin, Liu Ziwei, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Trans on Graphics, 2019,38(5): 1-12.

[19]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision. 2018: 3-19.

[20]Fan Haoqiang, Su Hao, Guibas L J. A point set generation network for 3D object reconstruction from a single image[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2017: 605-613.

[21]Vallender S S. Calculation of the Wasserstein distance between probability distributions on the line[J]. Theory of Probability & Its Applications, 1974,18(4): 784-786.

[22]Chang ANGEL X, Funkhouser T, Guibas L, et al. ShapeNet: an information rich 3D model repository[EB/OL]. (2015). https://arxiv.org/abs/1512. 03012.

[23]Cheng Zhiyi, Li Xiaoxiao, Loy. Pedestrian color naming via convolutional neural network[C]//Proc of the 13th Asian Conference on Computer Vision. Cham:Springer, 2017: 35-51.

[24]Singer N, Asari V K. View-agnostic point cloud generation for occlusion reduction in aerial Lidar[J]. Remote Sensing, 2022,14(13): 2955.

[25]Son H, Kim Y M. SAUM: symmetry-aware upsampling module for consistent point cloud completion[C]//Proc of Asian Conference on Computer Vision. 2020.

[26]Huang Shengyu, Hao Yu, Wang F. SPoVT: semantic-prototype variational transformer for dense point cloud semantic completion[C]//Advances in Neural Information Processing Systems. 2022: 33934-33946.

[27]Hamdi A, Giancola S, Ghanem B. MVTN: multi-view transformation network for 3D shape recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 1-11.

[28]Huang Qiangui, Wang Weiyue, Neumann U. Recurrent slice networks for 3D segmentation of point clouds[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. 2018: 2626-2635.

[29]Te Gusi, Hu Wei, Zheng Ami, et al. RGCNN: regularized graph CNN for point cloud segmentation[C]//Proc of the 26th ACM International Conference on Multimedia. 2018: 746-754.

[30]He Xinwei, Zhou Yang, Zhou Zhichao, et al. Triplet-center loss for multi-view 3D object retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1945-1954.

[31]Yavartanoo M, Kim E Y, Lee K M. SPNet: deep 3D object classification and retrieval using stereographic projection[C]//Proc of the 14th Asian Conference on Computer Vision. Cham:Springer, 2019: 691-706.

[32]Charrada T B,Tabia H,Chetouani A,et al. Learnable triangulation for deep learning-based 3D reconstruction of objects of arbitrary topology from single RGB images[EB/OL]. (2021).https://arxiv.org/abs/2109. 11844.

猜你喜歡
特征融合池化
面向神經網絡池化層的靈活高效硬件設計
基于Sobel算子的池化算法設計
基于高斯函數的池化算法
卷積神經網絡中的自適應加權池化
設施蔬菜病害識別中的CNN池化選擇
基于卷積神經網絡和池化算法的表情識別研究
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
基于SIFT特征的港口內艦船檢測方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合