?

基于PointPillars 改進的點云目標檢測算法?

2024-01-23 13:37何俊杰任明武
計算機與數字工程 2023年10期
關鍵詞:網絡結構特征提取尺度

何俊杰 任明武

(南京理工大學計算機科學與工程學院 南京 210094)

1 引言

目標檢測[2]作為一種重要的計算機視覺技術,能夠高效地分類和定位場景中的目標。隨著人工智能技術發展,基于深度學習的目標檢測[3]方法層出不窮。與此同時,傳感器[4]技術的不斷突破促使業界對三維目標檢測技術產生了需求。三維目標檢測技術作為二維目標檢測的拓展,更注重對環境中的空間結構信息進行處理,迅速成為學術界和工業界的研究熱點,被廣泛應用至自動駕駛[5]、機器人[6]等多個熱門領域。

根據點云目標檢測[7]的方法流程,可分為一階段(one-stage)的方法和兩階段(two-stage)的方法。早期的點云目標檢測方法以兩階段為主,主要包括PointRCNN[8]、PointRGCN[9]、STD[10]、VoteNet[11]等,這些方法能夠充分地結合原始點云的空間信息,因此能夠取得較高的精度,但計算成本較大,檢測效率受限。隨之出現了一階段的點云目標檢測方法,直接提取原始點云特征并回歸目標檢測結果。近年來,Vote3Deep[12]、VoxelNet[13]、SECOND[14]等一階段方法被不斷提出,僅需要單次推理即可得到點云目標檢測的結果信息,取得了較高的檢測速率。

2019 年,一種名為PointPillars[1]的一階段點云目標檢測方法被提出。該方法提出一種新型的點云特征處理方法,參數量更小,取得了比主流方法顯著提高的檢測速度,具有很高的工程應用價值。但PointPillars 在特征提取時主要關注點云的局部特征,因此在自動駕駛等領域的實際應用時,對車輛、非機動車和行人等多尺度目標的綜合檢測能力受限。

本文首先簡要介紹PointPillars 方法的整體架構,接著基于多尺度特征融合和3D注意力機制,對PointPillars 的網絡結構進行改進,并在KITTI[15]數據集上進行相關測試。改進方法在維持高效率的前提下,對多尺度目標具有更高的檢測精度。

2 基本理論

2.1 PointPillars整體網絡結構

PointPillars 的主體網絡架構如圖1 所示,主要由柱狀特征提取網絡(Pillar Feature Network)、二維特征提取網絡和一個檢測頭(Detection Head)組成。

圖1 PointPillars主體網絡架構圖

單幀待檢測的原始點云輸入網絡后,通過柱狀特征提取網絡轉換為點云數據的偽圖像。在柱狀特征提取網絡中,原始點云數據首先被劃分為若干均勻的柱狀網格(Pillar),每個柱狀網格使用一個九維的向量來表示網格中所有點云的信息。借助柱狀劃分,整個原始點云就可以使用一個張量進行表示,之后,再借助簡化版的PointNet 的思想,通過特征提取和最大池化層對張量進行降維,并轉換為類似二維圖像的點云偽圖像。接下來使用二維特征提取網絡進一步進行偽圖像的特征提取,最后使用一個類似SSD 的檢測頭部分來對偽圖像特征進行三維包圍盒的回歸。

2.2 二維卷積部分

輸入PointPillars 的原始點云經過柱狀特征提取網絡轉換為一個偽圖像后,PointPillars 使用一個二維的卷積神經網絡對其進行處理。該二維卷積部分的具體結構如圖2所示。

圖2 PointPillars二維卷積神經網絡結構圖

從圖中可以看出,該卷積神經網絡主要由兩個子網絡結構組成:第一個子網絡對輸入的偽圖像進行兩次下采樣操作,不斷減小特征圖的分辨率,同時提升其特征維度,最終可以得到三個分辨率和特征通道數都不同的特征圖;第二個子網絡對這些特征圖的特征進行融合拼接,首先將這三個特征圖進行上采樣,把它們的分辨率恢復至相同的大小,接下來對這三個相同尺寸的特征圖進行特征融合。具體的融合操作通過一個拼接(concatenation)來完成,在維持特征圖尺寸的前提下,對三個特征圖的特征通道進行拼接。如此以來,三個尺度的特征圖的語義信息能夠較好地融合在一起,以提高整個檢測方法對多類別目標的檢測性能。

3 改進的PointPillars方法

本文提出的方法主要對PointPillars 的二維卷積模塊進行改進:首先結合多尺度特征融合的思想,改進原始的一階段檢測流程和相關網絡結構,提高其對多尺度信息的提取和檢測能力;其次,結合simAM[16]的3D 注意力機制來增強不同尺度下的特征信息。

3.1 基于多尺度特征融合的二維卷積神經網絡

PointPillars 將原始點云轉換為二維的偽圖像后,進行后續的二維特征提取,并對提取后的結果回歸目標檢測的位置和類別結果。該流程基于RPN 的思想構建二維特征提取網絡和后續的檢測頭,通過one-stage 的形式直接回歸結果,雖然兼具高效性和一定的檢測精度,但還具有一些問題。首先,原圖像僅通過兩次下采樣得到低分辨率的特征圖,該特征圖的語義信息不足;其次,該結構沒有充分利用低層特征圖的空間信息,直接影響了對小尺度目標的檢測效果;另外,在上采樣還原后,原結構直接進行了通道拼接操作,沒有很好地結合高分辨率特征的空間信息和低分辨率特征的語義信息。因此,本文基于多尺度特征融合的思想,對原有的二維卷積網絡結構進行改進,改進后的結構如圖3所示。

圖3 基于多尺度特征融合和3D注意力改進的卷積神經網絡結構圖

其中,本節對于原有的二維卷積模塊進行結構化的改進。首先對原始的特征圖進行自底向上的逐級下采樣,下采樣倍數逐級均勻增加。相比原網絡結構,該部分增加了下采樣的深度,以更好地結合更小尺度的特征信息。接下來,通過自頂向下的方式進行上采樣,具體的上采樣通過最近鄰插值來進行,在減少計算成本的前提下盡可能保留原特征圖的語義信息。特征圖在自頂向下進行上采樣的同時,與下采樣流程中的上一級特征圖進行特征融合,得到同時包含語義信息和特征信息的特征圖。最后,本結構對融合后的不同尺度特征分別進行卷積核為3×3 的卷積操作,減少上采樣插值的重疊帶來的影響。如此一來,改進方法對多尺度目標能夠具有更強的綜合檢測能力。

3.2 基于SimAM的3D注意力機制

對原始檢測結構進行上述改進后,網絡模型對多尺度目標的綜合檢測能力得到了提升。對于不同尺度的特征,每個特征經過不同層次的融合后都具有較高的通道數?;诖?,本文受到SimAM 的啟發,基于一種無額外參數的3D 注意力模塊來提升對每個尺度特征的利用效率。

其中,SimAM 的3D 注意力權重如圖4 所示。相比現有的通道注意力與空間注意力來說,SimAM關注整個特征的3D注意力。為更好地實現注意力機制,該模塊評估每個神經元的重要性。在所有神經元中,激活神經元通常會抑制周圍神經元,即空間抑制作用。具有空間抑制作用的神經元需要賦予更高的權重。

圖4 SimAM的3D注意力權重示意圖

基于此,該模塊使用如式(1)的能量函數來訓練神經元之間的線性可分性。對于每個尺寸為C×H×W的多通道特征,其中的每個通道都有M=H×W個能量函數。經過推導,每個能量函數的最小值可以通過式(2)得到。能量越低,神經元的重要性越高,因此其重要性可以通過來衡量。

基于上述原理,simAM 模塊通過3D 注意力機制對多尺度的特征進行增強,如式(3)所示。其中,X為原特征,E表示了X特征中所有通道和空間維度的最小能量,sigmoid 函數用于約束可能過大的E值。對X特征中所有具有空間抑制作用的神經元賦予更高的權重,得到增強后的特征。

如圖5 所示,在上一節改進卷積網絡結構后,本節通過SimAM 模塊的優化能量函數推導每個特征的3D 注意力權重,并提升模型對多個維度特征的鑒別能力,最終提升對不同尺度目標的檢測效果。

總而言之,simAM 模塊促使網絡的后續結構更好地學習當前特征圖的三維注意力信息,并增強重要的特征,抑制不重要的特征,最終提升模型對多尺度特征的檢測精度。

4 實驗與分析

為了驗證本文方法的實際檢測性能,本文基于KITTI 數據集來對提出的改進方法進行檢驗,并與改進前的原方法進行結果對比。實驗使用Pytorch1.3.0 框架,并使用TitanV 顯卡進行模型的訓練和測試工作。本文使用PointPillars 以及提出的改進方法基于KITTI 數據集進行實驗。其中,改進方法的模型訓練時的超參數與原方法一致,以進行公平對比。使用的評價指標[17]為對應類別的平均精度(Average Precision,AP),該值越高,檢測方法對當前類別的檢測精度越高,相關計算公式如式(4)、式(5)、式(6)所示:

其中,式(4)中的NTP代表預測正確的樣本數量,NAlldetections代表所有的預測結果數量,p為檢測的準確率(precision),表示預測正確的樣本占所有樣本的比值;式(5)中的NAllgroundtruths代表所有的目標真值(ground-truth),r為檢測的召回率(Recall),表示預測正確的結果占所有目標真值的比例。為了衡量多置信度閾值下模型的整體檢測性能,引入了準確率-召回率(P-R)曲線這一指標,代表模型在取不同置信度閾值時,對準確率和召回率的取舍。式(6)中的P(R)即P-R 曲線,AP即為P-R 曲線的面積,衡量對應類別的整體檢測性能。

使用PointPillars方法和本文改進后的PointPillars 方法,分別使用KITTI 數據集中的驗證集,對汽車(Car)和行人(Pedestrian)兩種主類別目標進行檢測,并比較它們的檢測結果。其中,KITTI數據集基于等間距的40 個召回位置(Recall Position)給出對應類別的平均AP 值。實驗結果如表1 所示。其中,KITTI 的每一類目標根據遮擋和截斷程度分為Easy、Moderate、Hard三個難度級別。

表1 原PointPillars方法與本文改進后的方法在KITTI數據集上的檢測結果對比

從中可以看出,相比原方法,本文改進的方法在兩種類別的目標檢測精度上均有較明顯的提升,提升效果約為0.6%到2.8%不等。其中,相比汽車類別,本文改進的方法對行人這類小尺度目標的檢測精度提升更明顯。另外,表1 還展示了改進后的方法與原方法的測試時間對比。由此可以證明,經過本文改進后的PointPillars方法,不僅對多尺度目標具有更強的檢測能力,同時在檢測速度上也僅有較小的下降,仍能保留PointPillars方法的檢測速度優勢,具有較高的工程應用價值。

5 結語

本文結合多尺度特征融合和3D 注意力機制,改進了原方法的網絡結構,提出了一種基于Point-Pillars 改進的點云目標檢測方法,之后通過KITTI數據集驗證了改進方法的有效性。本文改進的方法對多尺度目標具有更高的檢測精度,同時仍具有較高的檢測效率。

猜你喜歡
網絡結構特征提取尺度
財產的五大尺度和五重應對
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
宇宙的尺度
基于互信息的貝葉斯網絡結構學習
知識網絡結構維對于創新績效的作用機制——遠程創新搜尋的中介作用
滬港通下A+ H股票網絡結構演化的實證分析
復雜網絡結構比對算法研究進展
基于MED和循環域解調的多故障特征提取
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合