?

基于激光雷達的3D目標檢測研究綜述

2024-02-20 11:12余杭
汽車文摘 2024年2期
關鍵詞:體素激光雷達自動

余杭

(重慶交通大學機電與車輛工程學院, 重慶 400074)

0 引言

隨著自動駕駛技術的發展,2D物體檢測方法的性能已經大幅提高,在KITTI物體檢測數據集[1]上實現了90%以上的平均精度。2D 方法用于檢測圖像平面上的對象,而3D 方法在2D 方法的基礎上,將第三維的深度信息引入到定位和回歸任務中。然而,在自動駕駛車輛的背景下,2D 目標檢測和3D 目標檢測方法之間的性能差距仍然巨大[2]。因此需要進一步研究3D目標檢測算法來提升檢測精度和效率。

近幾年來,各大自動駕駛公司開源大型自動駕駛數據集,推動了深度學習在3D 場景下的應用。深度學習模型可以通過卷積神經網絡提取學習道路目標特征,提升檢測能力。研究人員通常將點云處理方法分為將點云投影到二維平面和直接進行點云處理。投影方法是指將三維空間下的點云特征通過坐標變換將其投影到二維平面中,這種方法是當前自動駕駛車輛3D 目標檢測中最常用的方法,可運用成熟的2D目標檢測網絡進行特征提取,最后再將結果重新映射到三維空間中。投影法因其使用2D 檢測網絡,具有較高的檢測效率,但其壓縮了空間信息,在檢測精度上具有一定的局限性。直接點云處理方法是Qi 等[3]在2017 年首次提出的,直接將點云作為深度學習神經網絡的輸入,在大型三維場景下的驗證此方法具有較好的表現,因此逐漸受到了研究人員的青睞。本文根據激光雷達點云處理方式的不同將3D 目標檢測算法分為4大類別:基于體素的方法、基于點的方法、基于體素-點的方法和基于圖像與點云融合的方法。圖1依照時間順序,梳理近幾年經典的3D目標檢測算法,并將其分為單階段檢測和兩階段檢測。

基于以上分析,本文對當前已開源的自動駕駛數據集、3D目標檢測算法以及各類評價指標進行綜述總結。

1 車載感知系統傳感器

為了更加全面地理解感知系統傳感器數據采集及其處理原理,本節主要對比不同車載傳感器的優、劣勢。

自動駕駛車輛通過車載傳感器感知車輛周圍行駛環境,這些傳感器主要包括相機、激光雷達及毫米波雷達。不同傳感器的數據采集功能和優缺點如表1所示。

表1 各傳感器功能及優缺點對比

1.1 相機

相機作為自動駕駛車輛中成本低且最常見的傳感器,已經被各大自動駕駛企業部署在車輛上。相機具有較高的分辨率,能夠識別所見物體的顏色、形狀和紋理等,利用采集的信息,通過算法處理可以使自動駕駛車輛識別道路上的障礙物,旨在了解行駛環境。由于相機出色的識別性能,它能夠對道路上的紅綠燈和交通標志進行精確地識別,因此在自動駕駛車輛中應用廣泛。目前在自動駕駛車輛上使用較多的相機組合形式有以下2種。

(1)單目相機通過將三維空間下的物體轉變到二維平面,利用二維視圖展示物體的形狀和紋理等信息,研究人員利用這類信息完成目標檢測、分類等任務。但是,單目相機不能提供深度信息,測距性能較差。

(2)多目相機擁有單目相機的所有功能,在測距和三維物體檢測定位上,由于多目相機具有多個攝像頭,可以通過匹配算法對攝像頭進行融合并得到稠密的深度圖,這彌補了單目相機測距性能差的缺點,但是其計算量大,實時性較低。

1.2 雷達

雷達通過發射無線電波去檢測目標并對其進行定位。雷達可分為激光雷達、毫米波雷達等,是自動駕駛車輛主要的3D檢測傳感器。

1.2.1 激光雷達

激光雷達(LiDAR)作為自動駕駛汽車主要的傳感器之一,主要用于物體的定位感知,根據掃描形式可分為機械式激光雷達、固態激光雷達和混合式激光雷達3大類。

(1)機械式激光雷達

在垂直方向上,發射器能夠以一定頻率發射多組激光光束,這些光束在接觸到物體后,經過漫反射返回到接收器,并且通過發射器不停地旋轉可以實時掃描周圍360°的環境信息。因此,機械式激光雷達具有信息掃描快和視野范圍廣的優點。但是,其復雜的機械式旋轉結構長時間工作會導致其精度降低,并且存在價格昂貴和體積大等缺點。

(2)混合式固態激光雷達

機械式激光雷達利用發射器旋轉的方式來實現360°掃描,而混合式固態激光雷達則是利用驅動轉鏡或棱鏡進行掃描。如MEMS掃描鏡,它是由半導體器件組成,在硅基芯片上集成了體積十分微小的微振鏡,其內部主要結構是尺寸微小的懸臂梁,反射鏡懸掛在扭桿之間以一個固定的諧波頻率振蕩,通過微振器的旋轉來反射激光的光束,掃描周圍環境。硅基MEMS微振鏡可控性好,可實現快速掃描,可媲美高線束雷達。因此,在相同的點云密度下,混合式固態激光雷達與傳統機械式激光雷達相比所需激光發射器更少、體積更小、可靠性更好。

(3)固態激光雷達

與機械式激光雷達相比,固態激光雷達沒有機械式激光雷達的內部旋轉件,外形尺寸大幅減小,成本相對較低。使用壽命和可靠性較高,符合當前自動駕駛車輛對于雷達的需求。固態激光雷達主要有2種技術路線,分別為光學相控陣(Optical Parametric Amplification, OPA)和快閃(Flash)。OPA 激光雷達通過光學相控陣技術,用多個光源組成激光束的發射陣列,通過調節發射陣列中每個發射單元的相位差,來控制輸出激光束的方向以達到對不同方向的掃描,具有效率高、體積小和易控制等優點。但是,其存在制造難度高和探測距離短的缺點。Flash 固態激光雷達采用類似相機的工作原理,瞬時發射一片覆蓋整個區域的激光,通過高靈敏接收器記錄場景信息,具有集成度高、掃描速度快和生產量大等優點。但是,其探測距離短、抗干擾能力差、分辨率低。

1.2.2 毫米波雷達

毫米波雷達是指以1~10 mm為波段,30~300 GHz為工作頻率的毫米波探測雷達,通過發射和接收毫米波來采集物體距離和速度信息,常見的毫米波雷達有以下3種[32]。

(1)短距毫米波雷達,主要以24 GHz為工作頻率,感知距離小于30 m,但是其探測角度廣、成本低,可以實現車身全覆蓋,是當前使用最多的毫米波雷達。

(2)中距毫米波雷達,主要是以77 GHz 為工作頻率,感知距離1~100 m,相比于短距毫米波雷達可以實現更高的精度,探測距離更遠,但是成本也更高,視角較小。適用于自車與前車的測速和測距等功能。

(3)長距毫米波雷達,主要是以77 GHz 為工作頻率,感知距離大于200 m,針對高速行駛的車輛,長距毫米波雷達能夠很快地檢測前車信息,做到提前預警,為自動駕駛車輛或駕駛員預留足夠的時間制動或避讓。

1.3 傳感器應用分析

自動駕駛車輛作為一個復雜的系統,選擇合適的傳感器組合能夠有效提高環境感知能力。目前有以下2種主流的傳感器組合方式:基于純視覺和基于激光雷達、毫米波雷達以及視覺融合的方案。

(1)特斯拉自動駕駛采用純視覺方案,通過多相機融合的方式來實現自動駕駛車輛的定位感知功能,它在一定程度上規避了激光雷達硬件成本高、計算量大的缺點,但是其純視覺的環境感知系統,易受到環境變化的影響,在強光和昏暗條件下,會損失感知系統的魯棒性。

(2)谷歌的Waymo與百度的Apollo等公司采用激光雷達、毫米波雷達與視覺融合的方案,利用不同傳感器的優勢可以降低環境變化帶來的影響,具有較高的環境感知能力,但是其硬件成本也隨之提高,對于計算量的需求增大。

2 三維目標檢測

2.1 基于點云的檢測方法

基于點云的三維目標檢測技術可分為基于體素的方法(Voxel-base)、基于點的方法(Point-base)和基于體素-點的方法(Voxel-point base)。

2.1.1 基于體素的方法

采用體素化思想處理點云數據是常用的點云數據處理方法,是通過輸入的點云數據創建一個三維體素柵格,每個體素內用體素中所有點的重心來近似顯示體素中其他點,這樣該體素內所有點都用一個中心點最終表示,減少了原始點云的數據量。

基于體素的方法可以利用深度學習中卷積神經網絡有效進行特征提取并進行3D 檢測,具有很高的計算效率,但其離散化點云的過程使得部分數據丟失,這導致了部分情況下檢測精度降低。

Engelcke 等[4]提出了Vote3Deep 算法,首先通過構建一種有效的卷積層,采用中心對稱的投票機制去處理輸入點云中存在的稀疏問題,然后經過修正的線性單元和L1正則去解決CNN堆疊過程中的中間層特征稀疏的問題。由于其在特征提取過程中采用了手工特征的方法使得局部信息不能夠有效的提取。因此,Yin等[5]在2018 年引入了VoxelNet 改善這種情況,如圖2 所示。所提出的模型是一個通用的3D檢測網絡,它將特征提取和邊界盒預測結合到一個單級、端到端可訓練的深度網絡中,以增強高稀疏點結構的狀態。為了提取逐點特征以將數據區域劃分為相等的體素,使用了具有體素特征編碼(Voxel Feature Encoding,VFE)層的特征學習網絡,但是其使用3D卷積使得計算復雜度提高。

圖2 VoxelNet網絡結構[5]

Yan 等[6]在2018 年提出了second 目標檢測網絡,通過利用3D稀疏卷積來解決VoxelNet[5]中計算復雜度高的缺點,極大地提高了計算效率。Deng 等[7]提出了Voxel-RCNN 利用兩階段檢測思想,通過進一步提取Proposal 中的特征進行Proposal 的refinement,解決了體素化過程中信息丟失的問題,提高了檢測精度,但是其檢測速度較低。Alex等[8]提出了Pointpillar,它利用PointNet[3]來學習按垂直列柱組織的點云。然后利用2D 卷積網絡進行特征提取,具有極高的運行速度。針對于體素大小的不同會導致信息丟失的問題,Xiang等[9]提出了SAPN 網絡,從點云中提取多分辨率支柱級特征,使檢測方法更具尺度意識。其次,使用空間注意力機制來突出特征圖中的對象激活。Mao等[10-11]提出的VoTr 是一種基于體素的Transformer 網絡,利用稀疏體素模塊和子流形體素模塊,可以有效地對空體素和非空體素位置進行操作,解決了傳統體素3D檢測器無法捕獲上下文信息與感受野不足的問題。

2.1.2 基于點的方法

點云格式的數據通常是不規則的,研究人員通常將其轉換為規則的3D體素或者二維圖像。這仍然需要對數據進行分類,導致數據過于龐大,并導致部分點云信息消失。

為了直接從未處理的點云中的點特征中學習,Qi等[3]首先提出了PointNet 模型,由2 個網絡組成:一個分類網絡,通過仿射變換矩陣的輸入和特征變換來處理數據,并將該變換直接應用于點的坐標,然后通過最大池化層進行聚合,獲得全局特征。一個分割網絡,將全局特征與局部特征進行拼接,得到點分割并得到評分結果。PointNet++[12]基于PointNet 因采樣點不均勻而缺失局部特征問題,通過添加擴展結構對模型進行了改進,它結合了不同規模區域的特征,以響應輸入樣本密度的變化。Wu等[13]提出的PointConv具有與PointNet++相似的結構,但用PointConv 層取代了PointNet中的結構,它使用多層感知機(Multilayer Perception,MLP)為每個卷積濾波器近似一個權重函數,然后使用密度尺度重新加權學習的權重函數。Shi等人提出了兩階段3D目標檢測網絡PointRCNN[14](見圖3),第一階段將點云分割為前景點和背景,第二階段結合第一階段每個點的語義特征,實現了精確的預測,但是其實時性相對較差。Yang等[15]提出了3DSSD網絡,它移除了Point-base方法中必須的FP層和細化模塊,提出了一種新的基于特征距離的融合采樣策略F-FPS,用來保留各類前景實例中的內部點,以此來實現分類和回歸任務信息的豐富性,并且相比于最先進的基于點的方法快了2倍。

圖3 PointRCNN網絡結構[14]

2.1.3 基于體素-點的方法

通常,基于體素的方法在計算方面具有很高的效率,但是體素劃分過程中物體劃分不全使得局部信息丟失,導致檢測精度降低?;邳c的方法計算更為復雜,但是其能獲得更大的感受野,檢測精度相對較高。有學者結合二者的優點提出了基于體素-點的方法。

Chen等[16]提出的Fast Point R-CNN是一個兩階段檢測模型(如圖4)。第一階段通采用了體素化思想使用VFE網絡將點云進行編碼并作為輸入完成3D目標預測。第二階段,將與原始點云和上下文特征提取合并,并融入注意力機制以獲取更好的定位信息。Yang等[17]提出了STD 兩階段檢測模型,它使用原始點云作為輸入,計算每一個點并使用球形錨框來生成精確的候選框,與基于體素化思想的候選框柵格特征提取方法相比,它使用較少的計算量實現了更高的精度。在第二階段使用并行交叉IoU分支,使得定位精度提高,從而進一步提升性能。

圖4 Fast Point R-CNN網絡結構[16]

Shi 等人提出了PV-RCNN[18]網絡,利用體素到關鍵點場景編碼與點到網格RoI 特征提取,利用Voxelbased 操作進行有效的多尺度信息編碼,生成高質量的3D候選框;同時利用改進的SA模塊操作保留精確的位置信息和靈活的感受野。He等[19]提出了SA-SSD網絡,通過預處理對點云進行體素化,基于backbone學習體素特征,并在主干網絡外通過點監督網絡將各體素特征轉換為點特征,通過增加2個點級的任務讓學習來的特征能更好地感知位置信息。Miao 等[20]提出了一個基于點云、體素以及網格特征融合的單階段3D目標網絡PVGNet。該網絡使用一個網絡來對提取點云、體素和網絡特征,通過融合不同層的特征可以更好的挖掘點云信息。

2.2 基于圖像與點云融合的方法

基于圖像與點云融合的檢測方法融合了圖像檢測中豐富的紋理信息與點云檢測中的深度信息,紋理信息對于識別和分類起著至關重要的作用,而深度信息可以準確地定位物體的大小以及位置關系。通過兩者檢測信息互補,理論上可以達到更好的檢測效果?;谌诤系姆椒ㄖ饕譃轫樞蛉诤吓c并行融合2類。

2.2.1 順序融合

這種方法是以順序的方式對圖像和點云進行融合,首先提取圖像特征,然后將圖像特征投影或映射到點云上,最后通過檢測網絡輸出檢測結果,流程如圖5所示。

圖5 順序融合原理

Qi等[21]提出了F-PointNet網絡(見圖6),該網絡利用2D CNN 對象檢測器來提出2D 區域并對其內容進行分類。然后將2D 區域提升到3D,從而成為平截頭體方案。最后,框估計網絡估計對象的amodal 3D 邊界框,這在一定程度上提升了檢測精度,但3D對象檢測預測結果容易受到從2D圖像獲得的外部依賴性的影響。針對這一問題,Pei等[21]提出了混合多種特征金字塔網絡(Mutiple Feature Pyramid Network,MFPN),通過2D 目標檢測網絡識別目標在RGB 圖像中的位置,然后利用視錐圖將圖像映射到點云中,通過改變視椎體(Frustum)的建議框,將結果與BEV物體檢測進行比較,并懲罰由于條件造成的漏點以提高準確性。

圖6 F-PointNet網絡結構[23]

Anshul 等[23]基于F-PointNet 的思想提出了FPointPillars 網絡,首先將二維檢測映射到三維邊界截錐體中,并去除截錐體外的點。其次對于每個2D 檢測,使用高斯函數創建一個掩碼,表示像素屬于對象的可能性??赡苄灾当煌队暗近c云上,并將整個3D空間離散化為一個2D 網格,形成一組支柱。在每個非空支柱內使用PointNet 提取支柱特征,然后將這些特征散回到一個2D偽圖像中。使用一組卷積和反卷積提取多個分辨率下的空間特征。最后采用邊界框回歸進行檢測。Vora 等人提出了一種通用的順序融合檢測方法PointPainting[24],該網絡通過對圖像進行語義分割得到各類別障礙物分割分數,然后將點云投影到分割圖像上融合分割結果以達到語義增強的效果,該網絡對于小目標檢測有較大的提升。Sindagi 等人提出了MVX-Net[25]融合網絡,使用2D 檢測網絡提取圖像語義編碼特征,分別融入到體素點特征上和進過VFE 編碼后的體素特征上最后得出3D 檢測結果。

2.2.2 并行融合

并行融合是通過對圖像和點云分別進行特征提取,然后對圖像特征和點云特征進行融合,主要有特征融合和目標融合2種,如圖7所示。

圖7 并行融合原理

Chen 等[26]提出了MV3D 網絡(見圖8),通過點云的鳥瞰圖生成3D候選框,再將候選框投影到鳥瞰圖、點云前視圖和圖像上以獲取區域特征,再將不同的模態信息進行融合得到融合特征,最后用于分類和邊界框回歸,由于其使用了下采樣導致小目標信息丟失,使得小目標檢測精度低。針對這一問題,Ku等[28]提出了AVOD 算法,利用FPN[28]網絡對特征進行提取得到圖像和BEV 視角下全尺寸特征圖,然后利用1×1 卷積和crop&resize 操作處理并融合特征圖,這在一定程度上改善了小目標檢測的效果,但是其裁剪操作可能使得特征之間存在不對應關系。針對這一問題,Liang等[29]提出了MMF 網絡有2 個支流,一個是通過ResNet18[30]提取圖像特征并融合多尺度圖像特征,另一個支流是通過連續融合層將多尺度圖像特征融入點云鳥瞰(Bird's Eye View,BEV)特征提取網絡,實現了多尺度的傳感器融合,最終在BEV空間下生成檢測結果。Pang 等人提出了一種高效的低復雜度融合模型CLOCs[31],該模型首先利用2D 和3D 目標檢測網絡分別提出各自的候選框,然后通過編碼網絡將各自的候選框編碼為稀疏張量,最后利用2D 卷積對非空元素進行特征融合并輸出檢測結果[32]。

圖8 IoU 計算原理

圖8 MV3D網絡結構[26]

3 數據集及評估

在自動駕駛中安全性是最重要的要求,所以對環境感知算法的研究需要考慮各種各樣的道路環境,并且在深度學習中無論是模型訓練還是試驗驗證都離不開數據集,基于這一問題部分科研機構開源了大型自動駕駛數據集,常用的自動駕駛數據集如表2所示。

表2 開源數據集對比

3.1 自動駕駛數據集

(1)KITTI數據集

KITTI數據集是由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創立。它是最早開源的自動駕駛數據集,使用64線激光雷達、2個灰度相機和2個彩色相機采集道路信息,可用于2D/3D檢測。該數據集主要包括城市、鄉村和高速等場景信息。由7481幀標注圖片組成訓練集和驗證集,7518 張圖片組成測試集,共計有超過20 萬個3D 標注對象。主要標注物體為人、汽車和騎行者,然后依據遮擋、遠近等因素分為簡單、中等、困難3個不同等級供研究人員驗證自己的網絡。

該數據集是使用最廣泛的數據集,但是數據集存在局限性,其標注信息依照相機視角只標注了正向90°區域的目標,并且全是在視野良好的白天工況,其中大多數標注對象為汽車,其標注信息缺乏多樣性。

(2)Waymo數據集

Waymo 數據集[33]是谷歌自動駕駛公司公布的開源數據集,它由5個雷達和5個相機采集而成,整個數據集分為1000個訓練集和150個測試集,每個場景有20 s標注數據,總計有超過1200萬個標注信息,其中包含了行人、車輛和路標等目標,并且在每幀之間使用一致的標識符,可以為跟蹤任務提供基線。

該數據集限制激光雷達數據的范圍,并為每個激光脈沖的前2次返回提供數據。相機圖像是通過滾動快門掃描拍攝的,精確的掃描模式可能會因場景而異。所有相機圖像都被下采樣并從原始圖像中裁剪,這樣可以獲得更加精確的環境信息。

(3)NuScenes數據集

NuScenes[34]是由Motional 團隊公布的開源數據集。由6個相機、1個激光雷達采集而成,它包括了新加坡和波士頓2個城市中1000個不同的駕駛場景,整個數據集分為850 個訓練集和150 個測試集,每個場景有20 s 標注數據,包括不同天氣情況以及道路條件。該數據集的標注信息包括了汽車、行人、卡車、公交以及交通標注等23 種標注類別總計超過140 萬個標注對象。

相比于KITTI數據集,NuScenes的數據規模更大,實現了360°標注,包括不同的天氣和光照等場景,其標注信息更具多樣性,并且還提供了人類注釋語義地圖。但是其主要針對3D目標檢測任務,缺少2D包圍框的標注。

(4)ApolloScape數據集

ApolloScape 數據集[35]是由百度公司開源的大型數據集。為了刻畫高細粒度的靜態3D 世界,ApolloScape使用Reigl移動三維激光掃描儀收集點云。這種方法生成的三維點云要比Velodyne 激光雷達生成的點云更精確、更稠密。在采集車車頂上安裝有標定好的高分辨率相機,以30 幀/s的速率同步記錄采集車周圍的場景。該數據集是目前行業內環境最復雜、標注最精準、數據量最大的自動駕駛公開數據集。ApolloScape 的標注精細度超過同類型的KITTI、Cityscapes數據集。并且Apollo Scape 還使用仿真環境來標注數據集,通過模擬虛擬駕駛場景來實現對真實道路的還原,并記錄相關環境信息。

該數據集是由圖像和稠密點云組成,包含了超過14萬張高清圖像。該數據集標注了25種類別,包括汽車、行人和交通標注等,相比于傳統標注信息,該數據集標注了不同類型的車道線,做到對場景的全面分析。

(5)Lyft數據集

Lyft[36]是由美國自動駕駛車隊公布的開源數據集,由20輛搭載了7個攝像頭和5個激光雷達的自動駕駛汽車組成的車隊在加利福尼亞州帕洛阿爾托的一條固定路線上收集的。該數據集由170000個場景組成,每個場景長25 s,總計超過1000 h,捕捉自動駕駛系統的感知輸出,該系統對附近車輛、騎車者和行人隨時間變化的精確位置和運動進行編碼。除此之外,數據集還包含一張高清語義圖,其中包含15242個標記元素和該地區的高清鳥瞰圖。該數據集是可用于訓練預測和規劃解決方案的最大、最詳細的數據集。它比目前的最佳替代方案大3倍,而且更具描述性。這種差異會顯著提高軌跡預測和運動規劃任務的性能。

3.2 評估

為了對一個模型檢測性能進行判斷,常用的評估方法有模型檢測速度、目標定位精度、目標檢測精度、平均方向相似性4種。

(1)模型檢測速度,通常采用每秒檢測幀數來評估,通常每秒處理的幀數越多,模型檢測的實時性能越高。

(2)目標定位精度,當前常用的方法是通過交并比(IoU)數值的大小來評估定位精度,即通過模型檢測生成的預測框與真實框之間重合度的比值大小,如圖8所示。IoU變化范圍為[0,1],越接近1定位精度越高,計算公式如式(1)。

式中,D(r)表示在召回率r下所有預測為正樣本的集合,表示檢出物體i的預測角度與真實值的差。為

式中,A為預測框大??;B為真實框大小。

(3)目標檢測精度,通常采用查準率(precision)與查全率(recall)來評估檢測精度,計算如式(2)、式(3)。

式中,TP為被正確識別的正樣本;FP為負樣本但被識別為正樣本;FN為正樣本但被識別為負樣本。

(4)針對3D目標檢測任務KITTI數據集定義了平均方向相似性(Average Orientation Similarity,AOS)指標,用于評價目標航向角的預測結果,定義如式(4)。

式中,r代表物體檢測的召回率recall。

在因變量r下,方向相似性s∈[0,1]被定義為所有預測樣本與ground truth余弦距離的歸一化,如式(5)。了懲罰多個檢出匹配到同一個真實值,如果檢出i已經匹配到真實值(IoU≥50%)設置δi=1,否則δi=0。

3.3 小結

本節主要分析了主流的自動駕駛開源數據集。其中KITTI 數據集作為開源最早的自動駕駛數據集,為2D和3D環境感知技術的研究提供了巨大的幫助,但是存在標注信息的局限性。NuScenes 數據集作為3D目標檢測主要的數據集具有標注多樣性,場景豐富等優點,可用于復雜環境的模擬,但是2D標注信息較少,不適用于二維檢測任務。Waymo數據集是目前最大的自動駕駛開源數據集,它包含了豐富的2D 和3D標注信息,適用于多數自動駕駛場景。ApolloScape是目前為止紋理信息最為精確的數據集,并且標注了車道線信息,可以適用于全方面的檢測任務。Lyft 包含了語義級別的高清地圖,可以更好地進行軌跡跟蹤與預測。本節還分析了模型評估方法,利用檢測幀數分析模型檢測速度,利用交并比IoU分析模型定位精度,利用查準率和查全率分析模型檢測精度以及利用AOS分析模型的航向角預測結果。

4 結束語

三維物體檢測是自動駕駛汽車領域的一項重要任務,本文首先介紹了車載傳感器相關知識及應用場景,其次綜述了以雷達信息為主要輸入的三維目標識別技術和模型,包括基于點云的方法和基于圖像與點云融合的方法?;邳c云方法是一個具有最佳效果的潛在應用領域,但面臨的挑戰是最大限度地降低計算資源和實時應用的成本?;谌诤系姆椒ㄔ趯嶋H應用的實施資源和時間上都有很大的改進潛力,但對該方法的研究仍然有限。最后針對自動駕駛領域開源的大型數據集做了相應的總結分析及3D目標檢測評價指標的分析,為后續研究人員提供幫助。

近幾年來,隨著自動駕駛技術的發展,對于環境感知的能力也隨之提高,3D目標檢測作為自動駕駛技術中的關鍵任務,仍然面臨著許多難題和挑戰。結合本文綜述內容,對未來可能的研究趨勢進行了分析。

(1)2D視圖法

目前,將雷達點云處理為2D 鳥瞰圖(BEV)的方法是3D目標檢測領域研究熱點。其主要是通過壓縮空間特征,將3D 目標檢測任務轉換為2D 目標檢測,使得檢測任務更加簡單、快速。例如PointPillar[8]基于柱狀的思想將點云壓縮到二維平面,然后利用2D 卷積進行運算,從而提高處理效率。Complexer-YOLO[37]直接將原始點云壓縮成為2D鳥瞰圖,然后基于2D卷積進行運算,極大地提高了計算效率。

(2)多模態融合法

目前,多模態融合檢測是自動駕駛車輛上運用最為廣泛的方法。其主要是通過對雷達與圖像數據進行對齊投影,構建跨數據特征融合,從而獲取更好的檢測效果。例如BEVFusion[38]分別將圖像特征和雷達特征進行編碼,然后通過共享網絡進行融合,這很大程度上提高了檢測效率與精度。

在未來的一段時間內,自動駕駛技術會逐漸地趨于成熟,無論是基于視圖的3D 目標檢測還是基于多模態的3D 目標檢測算法,都能為自動駕駛技術帶來無限的可能性,促進自動駕駛行業的發展。

猜你喜歡
體素激光雷達自動
基于多級細分的彩色模型表面體素化算法
手持激光雷達應用解決方案
瘦體素決定肥瘦
法雷奧第二代SCALA?激光雷達
自動捕盜機
運用邊界狀態約束的表面體素加密細分算法
基于體素格尺度不變特征變換的快速點云配準方法
基于激光雷達通信的地面特征識別技術
基于激光雷達的多旋翼無人機室內定位與避障研究
基于STM32的自動喂養機控制系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合