?

毫米波雷達與相機兩級融合的3D目標檢測方法研究

2022-11-05 07:44侯志斌婁靜濤
智能計算機與應用 2022年10期
關鍵詞:雷達注意力圖像

侯志斌,陸 峰,婁靜濤,朱 愿

(1 陸軍軍事交通學院 學員五大隊,天津 300161;2 陸軍軍事交通學院 軍事交通運輸研究所,天津 300161)

0 引言

感知是自動駕駛系統的重要組成模塊,而3D目標檢測是自動駕駛感知模塊的重要內容。尤其是對自動駕駛下游任務,發揮著重要作用。由于采用單一傳感器均存在一些缺陷,因此多模態融合是當前研究重點。目前來看,現有傳感器融合方法大多集中在激光雷達與攝像機融合上,但在雪、雨、霧霾、沙塵暴等惡劣天氣條件以及遠距離目標下,激光雷達與相機融合方案的檢測質量會大幅下降。在當前技術水平下,開展相機與毫米波雷達融合策略方法研究是一套低成本且應對惡劣環境下目標檢測的更魯棒方案。

國內外對毫米波雷達與相機融合的目標檢測方法已經做了一定研究。如:Nabati等人提出了RRPN網絡,通過仿照圖像檢測中的RPN網絡,將毫米波雷達信息投影到圖像坐標系中,提出了基于毫米波雷達點云的預設,再進行檢測,減少了錨框數量,提升了檢測速度,但整個過程中并未解決毫米波雷達信息投影到圖像坐標系上存在噪聲及高度誤差問題。Meyer等人提出了將毫米波雷達點云轉為鳥瞰視角,點云直接輸入到CNN網絡中來進行目標檢測。而問題在于一幀毫米波雷達點云過于稀疏,且CNN直接作用于點云會產生較多噪點,影響檢測精度。高潔等人在目標跟蹤框架中,提出將上一幀圖像檢測結果與當前幀雷達建立圖像與雷達點的關聯,實現雷達預分類;再利用目標跟蹤框架來實現同一雷達點關聯,找出屬于上一時刻目標在當前時刻的量測,利用RRPN建立候選區域,從而得到當前目標檢測結果,但同樣未考慮毫米波雷達高 度 信 息 不 準 的 問 題。Nabati等 人提 出 了Centerfusion網絡,通過毫米波雷達與相機融合進行3D目標檢測。首先由單目檢測結果建立3D ROI,然后在特征層運用截錐體的毫米波雷達點云與單目初級檢測結果建立關聯,進行二次回歸,補充圖像特征,提升檢測水平。而問題是,僅在特征層融合毫米波雷達點云信息,會使整體網絡框架比較依賴單目3D目標檢測結果,而單目進行目標檢測存在固有缺陷,從而影響最終檢測質量。

為此,本文在Centerfusion網絡的基礎上進行改進,提出了毫米波雷達相機兩級融合的3D目標檢測網絡,將毫米波雷達信息和圖像分別在數據級、特征級兩級進行融合,以彌補毫米波雷達投影到圖像坐標中高度信息不準以及單模態目標檢測存在的不足,提升3D目標檢測精度以及在復雜天氣條件下或對遠距離小目標檢測的魯棒性。

1 兩級融合的3D目標檢測網絡框架

本節將主要介紹雷達和相機傳感器二級融合的3D目標檢測框架。首先,在輸入端將毫米波點云信息進行預處理后與相機建立數據層融合,生成三通道圖像附加雷達信息;采用加入注意力機制的CenterNet網絡作為基于中心的目標檢測網絡,進行初級檢測,回歸出目標的屬性、三維位置、方向和尺寸等初級三維檢測結果,克服了相機單模態目標檢測存在的固有缺陷,提升了小目標、模糊目標、以及不利氣候條件下的檢測精度;然后參照文獻[5]中方法再進行特征層融合,使用截錐體機制將雷達檢測與其對應對象的中心點相關聯,并利用雷達和圖像特征,進一步估計深度、速度、旋轉和屬性來提升初步檢測精度,網絡結構如圖1所示。

圖1 兩級融合的3D目標檢測網絡結構圖Fig.1 Structure diagram of 3D object detection network with two-level fusion

1.1 毫米波雷達與相機信息數據層融合

毫米波雷達和相機對目標的檢測是相互獨立的,各自的測量數據也基于不同坐標系。因此,在進行信息融合前,需將雷達和相機測量的目標數據轉換到相同的坐標系中,需對不同傳感器的目標數據進行空間配準。毫米波雷達與相機涉及到5個不同坐標系之間的轉換,坐標系之間的關系如圖2所示。 本文基于數據集開展研究,因此可通過數據集中相機內外參數,將毫米波雷達信息投影到圖像坐標系上。為解決毫米波雷達投影到圖像坐標系下高度信息不準的問題,改進使用文獻[7]中方法,將毫米波雷達信息進行條碼化改進處理。將其擴展為2.5 m紅色線段,以確保在圖像坐標系下,將檢測物體(汽車、卡車、摩托車、自行車和行人等)進行覆蓋。雷達數據以像素寬度2映射到圖像平面,使相機像素與毫米波雷達信息建立基本。雷達回波的特征作為像素值投影到三通道圖像中,在不存在雷達回波的圖像像素位置,將投影雷達通道值設置為0。輸入圖像轉為附加有毫米波雷達信息的三通道圖像,如圖3所示。同時為解決毫米波雷達稀疏的問題,本文將6個雷達周期共同融合到本文的數據格式中,來增加雷達數據的密度。

圖2 坐標系關系示意圖Fig.2 Diagram of coordinate system relationship

圖3 毫米波雷達點云條碼化處理示意圖Fig.3 Schematic diagram of barcode processing of millimeter wave radar point cloud

1.2 初級檢測網絡

1.2.1 加入空間通道注意力機制的關鍵點檢測網絡

初級檢測使用CenterNet框架作為基礎網絡,DLA-34網絡作為骨干網絡。為提取三通道雷達圖像信息中雷達投影信息,本文在骨干網絡末端加入空間通道注意力模塊CBM和SAM,對卷積特征的通道和空間建立注意力機制。其中,通道注意力模塊CBM結構如圖4所示。

圖4 CBM通道注意力模塊Fig.4 CBM channel attention module

上述方法的數學推導見式(1):

其中,為輸入特征,經過并行的平均池化層和最大池化層后,得到2個多通道1×1維度特征圖后,再將其分別送入一個2層MLP網絡中。將MLP輸出的特征進行張量內對應元素(element-wise)相加,再經過激活操作,生成通道特征M,最后將M和輸入特征做張量內對應元素相乘,作為通道注意力模塊。

之后,將CBM注意力模塊輸出作為SAM注意力模塊輸入,建立空間注意力機制??臻g注意力模塊SAM結構如圖5所示。

圖5 SAM通道注意力模塊Fig.5 SAM channel attention module

上述方法的數學推導見式(2):

其中,為輸入特征圖。首先做一個基于通道的全局最大池化和全局平均池化,得到2個1的特征圖,將這2個特征圖基于通道做通道拼接,并經過一個7×7卷積操作,降維為1個通道,即1;再經過激活函數生成空間注意力特征,最后將該特征與模塊輸入做乘法,得到最終生成特征。

將附加有關聯條碼化雷達信息的三通道圖像IR作為輸入。為防止雷達投影到三通道圖像導致完全覆蓋三通道信息,影響網絡泛化水平,建立投影權重系數。 經過實驗,當=0.6時檢測結果最佳。作為超參,則三通道圖像為:

關鍵點熱力圖輸出為:

圖6 輸出熱力圖Fig.6 Output heat map

故熱力圖生成總的損失函數為:

1.2.2 通過關鍵點進行3D目標檢測

其中,d是標注信息(g)的絕對深度,以m為單位。

其中,γ是標注物體的高、寬、長,以m為單位。

訓練時建立損失函數為:

1.3 毫米波雷達與相機信息特征層融合

經過初級檢測網絡,生成了目標的熱力圖、2D目標尺寸、3D目標尺寸、深度、方向、偏差等。為進一步提升精度,需在特征層進行二次融合。

1.3.1 雷達關聯

參照文獻[4]中截錐體關聯方法,在特征層將毫米波雷達點云擴展為垂直柱體,為解決高度不準確問題,使用初級檢測中生成的邊界框(bboxing)及其回歸的深度和目標尺寸來創建一個3D興趣區域(3D RoI)截錐體,并忽略截錐體之外的任何點。為消除多檢測關聯問題,在此RoI內有多個毫米波雷達點云,本文將最近的點作為對應于這個對象的雷達檢測,如圖7所示。其中,圖7(a)為基于對象的3D邊界框生成截錐體的興趣區域,圖7(b)為鳥瞰視角下的截錐體關聯機制示意圖。

圖7 截錐體關聯方法示意圖Fig.7 Schematic diagram of frustum correlation method

1.3.2 雷達特征提取

在雷達信號與其對應目標關聯后,使用雷達信號中的深度和速度為圖像,創建互補特征。其中,對于每一個與物體相關的雷達信號,都會生成(,v,v)三個以物體的2D邊界框為中心的熱力圖通道。熱力圖的寬度和高度與對象的二維邊界框成比例,熱圖值是標準化的物體深度,也是在自車坐標系中徑向速度(VV)的和分量:

如果2個對象具有重疊的熱圖區域,則深度值較小的對象占主導地位,因為只有最近的對象在圖像中才完全可見。

生成的熱力圖作為額外通道連接到圖像特征,這些特征作為二次回歸輸入,重新估算對象的三維信息、以及速度和類別。與初級檢測相比,經過特征融合后,有助于從雷達特征中學習更高層次的特征,最后將生成值解碼為3D邊界框。3D邊界框從初級檢測器獲得3D尺寸,并從二次回歸中得到估計的深度、速度、轉角和類別。

2 實驗分析與對比驗證

2.1 數據集

本文使用nuScenes數據集進行模型訓練及測試。該數據集是第一個攜帶毫米波雷達信息的自動駕駛場景數據集,其中涵蓋了在波士頓和新加坡采集的1000個場景的數據,是目前最大的具有三維目標標注信息的自動駕駛汽車多傳感器數據集。其傳感器配置上含有6個攝像頭、5個雷達和1個激光雷達,所有這些都具有全360°視野。傳感器參數見表1。

表1 nuScenes數據集傳感器參數表Tab.1 Sensor parameters of nuScenes dataset

2.2 實驗設置

本文采取網絡骨干為DLA-34的CenterNet網絡進行訓練。訓練時采取Centerfusion提供的預訓練模型進行訓練,同時在不同位置加入注意力機制進行性能對比實驗。實驗平臺的操作系統為ubuntu16.04,并帶有型號為GeForce GTX 1050的GPU。

訓練階段共迭代60個,訓練批次大小設置為2,初始學習率為2.4e-4,同時采用學習率衰減策略,訓練50個后學習率下降10%。三通道圖像輸入到網絡前進行隨機左右翻轉、隨機移位等數據加強。測試階段,采用60個的訓練權重,來對本文方法進行測試。

以下實驗均使用單個GPU完成。由于完整數據集較大,本文仿真主要通過nuScenes的v1.0-mini數據集進行訓練,重點測試改進的網絡檢測精度。v1.0-mini數據集是由整個數據集中抽取出的10個場景組成,其中訓練樣本為14065個,測試樣本為6019個,訓練收斂曲線如圖8所示。

圖8 訓練過程收斂曲線Fig.8 Convergence curve of training process

2.3 3D目標檢測數據對比

以Centerfusion作為基準網絡,為確保訓練及測試 數 據 相 一 致,用nuScenes v1.0-mini對Centerfusion重新進行訓練及測試,測試集選用數據集中的“scene-0103”、“scene-0916”兩個場景作為mini-test集,并與本文方法進行比較。表2中列出了對Centernet(3d)、Centerfusion和本文方法進行3D目標檢測性能的比較結果??梢钥闯?,在mini集進行訓練、在mini-test集進行測試后,檢測分數()上升了近1.21%。圖9展示了Centerfusion和本文方法的收斂過程。

表2 3D檢測性能對比表Tab.23D detection performance comparison table

圖9 NDS收斂曲線圖Fig.9 NDS convergence curve

由圖9中可見,隨著訓練迭代次數的增多,本文方法與Centerfusion均呈現抖動上升趨勢,在訓練60個迭代周期后,本文網絡指標明顯高出約0.03。

nuScenes v1.0-mini數據集中7類物體檢測的平均精度結果見表3。由表3可見,在測試集中,本文方法在巴士、行人、摩托車、自行車等的檢測精度均高于Centerfusion檢測結果。尤其是對于自行車的檢測精度上,相比提升了近40%。

表3 3D目標檢測對象精度對比表Tab.3 Object accuracy comparison table of 3D target detection

2.4 通道空間注意力機制對比實驗

本文采取2種注意力機制CBM、SAM的對比實驗,主要對比CBM、SAM加入位置及初始網絡權重等在網絡中發揮的作用。實驗中,分別在骨干網絡中的基本模塊和骨干網絡末端加入空間通道注意力機制。如圖10所示,在骨干網絡中加入空間通道注意力機制,使用預訓練模型,新增注意力機制模塊默認使用kaiming初始化網絡權重,在訓練180個迭代周期后,實驗結果檢測精度()僅為0.2094,效果并不理想。

圖10 骨干網絡中加入注意力機制示意圖Fig.10 Schematic diagram of adding attention mechanism to the backbone network

將空間通道注意力機制加入骨干網絡末端,如圖11所示。首先,在凍結改進的DLA-34、DLAUP上采樣層、IDAUP融合網絡層后,訓練60個迭代周期,然后再聯合訓練60個周期,即上升至0.5274。實驗得出結論是:注意力機制在遷移學習方法下,加入到骨干網絡末端和檢測頭相比于骨干網絡中效果更優。

圖11 骨干網絡末加入注意力機制示意圖Fig.11 Schematic diagram of adding attention mechanism at the end of backbone network

2.5 實驗結果可視化分析

本文對基礎網絡模型和毫米波雷達與相機兩級融合的網絡模型的檢測效果的可視化比較結果如圖12、圖13所示。從可視化效果可以看出:2種方法均能實現較好的3D目標檢測效果,但本文的方法對遠距離小目標漏檢率低,且具有更強的魯棒性;相比來看,本文方法的3D邊界框更加準確,在一些特定場景中,誤檢率明顯降低。

圖12 Centerfusion可視化效果圖Fig.12 Centerfusion visualization

圖13 兩級融合網絡可視化效果圖Fig.13 Visual renderings of two-level fused network

3 結束語

本文在毫米波雷達和相機特征層融合網絡Centerfusion的基礎上進行改進,針對原算法在一階段未考慮單目檢測固有缺陷的問題,提出了一種毫米波雷達與相機兩級融合的3D目標檢測算法,將雷達點云信息進行處理后,在數據層和特征層均進行融合;同時在一階段中心點檢測網絡中加入了注意力機制。實驗證明,本文方法相比原算法在復雜惡劣天氣條件下以及對遠距離小目標的檢測效果上均有提升,在大型自動駕駛數據集nuScenes3D檢測基準上,評估了本文提出的方法,相比Centerfusion檢測分數()有了一定提升。

猜你喜歡
雷達注意力圖像
讓注意力“飛”回來
隱形飛機哪里躲
A、B兩點漂流記
班上的“小雷達”
A Beautiful Way Of Looking At Things
能分身的雷達
名人語錄的極簡圖像表達
一次函數圖像與性質的重難點講析
趣味數獨等4則
蒙住雷達的眼睛
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合