?

基于Faster RCNN的交通目標檢測方法

2019-11-20 05:27丁新濤王萬軍
皖西學院學報 2019年5期
關鍵詞:錨點先驗邊界

張 琦,丁新濤,王萬軍,周 文

(1.安徽師范大學 計算機與信息學院,安徽 蕪湖 241002;2.網絡與信息安全安徽省重點實驗室,安徽 蕪湖 241002)

交通目標檢測是汽車自動駕駛系統和駕駛員輔助系統等領域的關鍵挑戰之一。傳統交通目標檢測方法包括:1)基于傳感器的方法,如Sang等通過車輛檢測雷達以對多車道的車輛進行分類[1];2)基于先驗知識的方法,如Andriluka等使用分層高斯過程潛變量模型對行人在步行周期內可能的關節和時間一致性的先驗知識進行建模以跟蹤和檢測行人[2]。3)基于機器學習的方法,采用的目標特征主要包括目標的Haar-like特征、目標的局部二值模式( Local Binary Patterns,LBP)特征及目標的方向梯度直方圖( Histogram of Oriented Gradient,HOG)特征。如朱彬等將不同區域的Haar-like特征和多塊局部二值模式特征分別與Adaboost分類器相結合用于側向車輛檢測[3]。但這些算法通常難以充分利用圖像的信息,并且計算復雜,使得傳統的道路目標檢測方法不易達到較高的檢測精度。

隨著深度學習的快速發展,基于神經網絡的方法廣泛應用于交通目標檢測。目前,基于深度學習的交通目標檢測方法可分為二階段檢測法和一階段檢測法。二階段檢測法如Faster RCNN[4],首先提取區域建議,然后將區域建議輸出至檢測器中并對該區域中的目標位置和類別進行預測,如陳飛等將Faster RCNN中多個尺度的特征相融合用于交通目標檢測[5]。一階段檢測法如YOLOv2[6],不需要提取區域建議,直接從圖像中提取目標的候選區域并在該區域中對目標位置和類別進行預測,如宋建國等改進YOLOv2中的錨點生成方法并用于交通目標檢測[7]。

Faster RCNN作為二階段檢測器,首先由卷積神經網絡提取圖像的邊緣特征,得到目標的特征圖;其次,由區域建議網絡(Region Proposal Network,RPN)在特征圖的每個位置上生成anchors,由分類器確定每個anchors中是否包含目標,并進行邊界框回歸,生成含有目標候選框的特征圖;再次,由感興趣區域池化(Region of Interest, RoI)將候選框坐標映射到特征圖上,得到相同大小的矩形候選框;最后,由分類器確定候選框內目標的所屬類別,并輸出檢測圖像。盡管Faster RCNN等深度模型對一般目標的檢測具有良好的適用性,但其未考慮目標屬性等先驗知識,使得它們在特定場景的應用中仍存在檢測精度不理想的問題。

對于道路交通中的某一類目標,將目標的先驗知識與模型提取的特征相結合,有助于提高目標的檢測精度。如陸星家等[8]基于行人Haar先驗知識與HOG特征相結合的行人追蹤方法?;谙闰炛R的目標檢測方法有效提高了交通目標的檢測精度,但這種方法通常只獲取某一類目標的先驗知識,缺少對道路中多類目標先驗知識的獲取。由于道路場景應用的特定性,場景中的目標,如行人與車輛,它們在寬高比、大小中具有一定的幾何區分度,因此對于道路場景中的多類目標,通過獲取這些目標的幾何屬性并將其用于指導目標檢測,可能有助于提高道路多目標的檢測精度。

在Faster RCNN的RPN訓練期間,輸入到RPN網絡的錨點用于生成建議,在這些錨點中,負樣本數遠多于正樣本,容易使得正負樣本的訓練不平衡。焦點損失(Focal loss)針對一階段檢測器中錨點的正負樣本失衡問題,改進分類損失函數以調節正負樣本的損失權重[9]。而對于二階段檢測器如Faster RCNN,在訓練時保留所有數量的錨點及調節正負樣本所占的損失權重,可能有助于模型檢測精度的提高。

交并比(Intersection over Union, IoU)常作為評估邊界框相似性的距離度量,在Faster RCNN中通過計算兩個邊界框面積的交并比來預測相鄰邊界框之間的相似性,在非極大值抑制(Non-Maximum Suppression,NMS)中通常將IoU大于一定閾值的得分非最大的邊界框剔除以提高邊界框回歸的準確性。本文通過兩個邊界框所構成的最小矩形閉包誘導一種強化IoU(SIoU),用于NMS。

本文以Faster RCNN為框架,提出基于錨點聚類、全錨點訓練策略及SIoU的交通目標檢測方法(T-Faster RCNN),用于道路場景中的目標檢測。

1 T-Faster RCNN方法

T-Faster RCNN方法主要包含三個模塊,如圖1所示。首先,通過聚類獲取交通道路目標寬高比、大小的先驗幾何屬性,對數據集中圖像的所有目標的大小進行聚類,再通過對寬高比聚類,生成大小和比例兩種幾何屬性,將其用于Faster RCNN候選區域的生成(圖1a);其次,在RPN訓練時保留所有的錨點用于生成建議,并將Focal loss與RPN的分類損失相結合(圖1b);最后,在兩個邊界框所構成的最小矩形閉包區域中,將兩個邊界框之外的空白區域面積和閉包區域面積的比值添加到IoU中(圖1c),以產生RoIs。

圖1 T-Faster RCNN框架

1.1 基于幾何先驗知識的錨點生成方法

基于幾何先驗知識的錨點生成方法如圖2所示,它主要通過聚類得到“知識”。為進行聚類,先將數據集中所有圖像的寬和高歸一化,并將歸一化圖像中的邊界框(圖2a)的左下角歸置到原點(圖2b);再將數據集中所有邊界框聚集在一起;令Bi=(wi,hi),(i=1,2…n)表示歸一化后第i個標注邊界框的寬和高;ri=wi/hi,(i=1,2…n)表示第i個標注邊界框的寬高比。

對邊界框寬高比{ri}進行K-means聚類,生成K個寬高比{RK},如圖2c所示,其中黑色的柱子顯示了聚類樣本數量,柱子下端的區間顯示了每一類中ri的范圍。

(1)

其中

(2)

圖2 基于先驗知識的錨點生成方法

1.2 基于Focal loss的全錨點訓練策略

在Faster RCNN中,通過對正負樣本進行1∶1采樣以解決錨點中正負樣本失衡的問題,本文采用基于Focal loss的全錨點訓練策略,探討錨點的多樣性對模型檢測精度的影響。首先,在RPN訓練時保留所有數量的錨點,以提高錨點中正負樣本的利用率;其次,將Focal loss與RPN的分類損失相結合,以調節正負樣本的損失權重。

1.3 用于非最大值抑制的SIoU

在Faster RCNN中,NMS用于解決RPN生成建議的冗余問題。本文提出一種基于最小閉包的SIoU用于NMS的距離度量,記作SIoU,圖3顯示了SIoU的構造方法。它主要在邊界框A與B所構成的最小矩形閉包區域C中,將除邊界框A與B之外的陰影區域面積和閉包區域面積SC的比值添加到IoU中。SIoU關注于兩個邊界框所構成的整體閉包區域的變化,它的計算公式如(3)所示。

(3)

其中SC為A與B構成的最小矩形閉包的面積,M為陰影面積與矩形閉包面積的比值。

圖3 SIoU圖示

2 實驗

本文實驗使用的操作系統為Ubuntu16.04,深度學習框架為TensorFlow 1.2,軟件配置為CUDA Toolkit8.0、CUDNN 5.1、Python 2.7;硬件配置為六核AMD R5 1600 CPU、12 GB內存、NVIDIA GeForce GTX 1050TI顯卡。

本文采用KITTI數據集進行訓練和檢測,KITTI數據集包含7481張帶標注圖像,共分為9類:汽車(Car)、面包車(Van)、卡車(Truck)、行人(Pedestrian),坐著的人(Person_sitting)、騎行者(Cyclist)、電車(Tram)、忽略(DontCare)、雜項(Misc)?;谧钚∵吔缈虺叽缗c最大遮擋程度KITTI數據集的檢測難度被分為3個等級:簡單(Easy)、中等(Moderate)、困難(Hard),其中簡單對應的目標尺寸為40像素、無遮擋;中等對應的目標尺寸為25像素、部分遮擋;困難對應的目標尺寸為25像素、嚴重遮擋。

本文使用在ImageNet上預訓練的ResNet101進行參數的初始化,設置學習率為0.001,動量為0.9,共訓練110k次,權重衰減為0.0001。為了與KITTI數據集公開檢測結果進行對比,本文以KITTI基準評估工具包為框架,對汽車(Car)、騎行者(Cyclist)、行人(Pedestrian)三類進行檢測,通過三個類別的平均精度均值(mAP)來評估模型的性能。對比方法包括Faster RCNN[4]、YOLOv2[6]、RetinaNet[9]、MSCNN[10],這些方法所示的結果均為在KITTI基準平臺上公布的結果①。

表1 聚類實驗參數設置

由1.1節中邊界框寬高比聚類得到的 10個錨點的Ratios (RK)為:0.61、0.8、1.03、1.13、1.22、1.32、1.43、1.54、1.65、1.78,由邊界框尺寸聚類得到的10個錨點的Scales(SK)為:0.7、1.0、1.3、1.4、1.9、2.7、3.0、3.9、5.6、7.6。

實驗結果如表2所示。由實驗結果可知,首先,T-Faster RCNN在三類上的mAP比YOLOv2、Faster RCNN、RetinaNet、MSCNN分別提高了22.5%、14.4%、9.5%、3.1%,這表明本文方法具有更好的適用性。其中,RetinaNet采用了多特征融合的方法,MSCNN采用多尺度特征檢測目標的方法,這兩種方法均有助于小目標的檢測。由表2可知,T-Faster RCNN在騎行者(Cyclist)和行人(Pedestrian)兩類上,在中等和困難情況下的檢測精度均優于RetinaNet及MSCNN,即表明采用Focal loss并且保留所有錨點的數量能夠提高困難負樣本的損失權重,有助于提高小目標的檢測精度。其次,T-Faster RCNN方法在三類目標上的mAP均優于YOLOv2及Faster RCNN,即表明采用k-means聚類生成錨點的方式能夠提高邊界框的回歸精度,并且采用SIoU能夠為NMS提供準確的邊界框距離度量。將三者相結合對提高目標的檢測精度具有促進作用。

表2 本文方法和其他方法在KITTI數據集上的mAP對比結果

圖4顯示了Faster RCNN與T-Faster RCNN兩種方法的召回(Recall)對精度(Precision)曲線(PR曲線),其中Precision為正確被檢測到的目標數占實際檢測到目標數的比例,Recall為正確被檢測到的目標數占所有應該被檢測到目標數的比例。汽車、行人、騎行者三類曲線的閾值分別設置為0.7、0.5、0.5。a、b、c分別表示Faster RCNN在汽車、行人、騎行者三類中的PR曲線;d、e、f分別表示T-Faster RCNN在上述三類中的PR曲線。每一類的PR曲線包含三種顏色,紫色代表簡單,綠色代表中等,藍色代表困難。

圖4 Faster RCNN和T-Faster RCNN的PR曲線

由圖4可知,圖4d、e、f三類PR曲線均在圖4a、b、c三類PR曲線的上方,因此T-Faster RCNN比Faster RCNN具有更好的檢測精度。雖然Recall和Precision一般呈負相關,但圖4a中的三條PR曲線在Recall≤0.5時就開始顯著下降,而圖4d中三條PR曲線在Recall>0.7后才開始顯著下降,這表明T-Faster RCNN在汽車類上的Recall較高,即T-Faster RCNN相對于Faster RCNN能夠正確地檢測出更多的汽車;圖4b中的三條PR曲線均低于圖4e的三條PR曲線,并且隨著Recall的增加,圖4b的Precision快速下降,而圖4e仍能保持較高的Precision;同樣圖4c中的三條PR曲線也低于圖4f的三條PR曲線。在行人和騎行者兩類上的PR曲線表明,隨著迭代次數的增加,T-Faster RCNN能夠有效提取目標的特征,因此在這兩類上具有較好的檢測精度??傊?,T-Faster RCNN比Faster RCNN具有更好的Recall和Precision。

圖5顯示了T-Faster RCNN對部分樣本的檢測結果,檢測結果顯示本文方法不僅可以檢測到圖中的多個目標,并且對于圖中尺寸較小的目標也能夠有效地進行檢測。

圖5 T-Faster RCNN在部分樣本上的檢測結果

3 討論

本文首先采用K-means對訓練樣本中的標注邊界框的比例和尺度進行聚類,通過先驗幾何知識生成T-Faster RCNN的錨點,以提高目標邊界框的召回率;其次,本文將Focal Loss與RPN的分類損失相結合,并保留所有數量的錨點,以調節錨點中正負樣本的損失權重;再次,本文基于兩個邊界框所構成的最小閉包提出了一種SIoU,以提高NMS的準確率。實驗結果表明,本文方法不僅有效提高了交通目標的檢測精度,并且對于道路中的小物體與被遮擋嚴重的物體也有較好的檢測效果。本文方法對提高自動駕駛汽車與駕駛員輔助系統中的交通目標檢測精度具有一定的實踐意義。

4 結語

本文以Faster RCNN為框架,旨在通過錨點聚類、全錨點訓練策略及SIoU的方法提高道路目標的檢測精度。在以后的工作中,將探討目標的先驗知識對提高模型檢測精度的作用,以及同一目標在不同數據集之間的關聯性對提高模型魯棒性的影響,以提升模型的泛化能力。

注釋:

① http://www.cvlibs.net/datasets/kitti/eval_object.php。

猜你喜歡
錨點先驗邊界
拓展閱讀的邊界
探索太陽系的邊界
基于NR覆蓋的NSA錨點優選策略研究
5G手機無法在室分NSA站點駐留案例分析
5G NSA錨點的選擇策略
5G NSA組網下錨點站的選擇策略優化
意大利邊界穿越之家
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
論中立的幫助行為之可罰邊界
基于自適應塊組割先驗的噪聲圖像超分辨率重建
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合