?

深度學習與圖像融合的行人檢測算法研究

2024-03-25 06:39姜柏軍鐘明霞林昊昀
激光與紅外 2024年2期
關鍵詞:特征提取行人紅外

姜柏軍,鐘明霞,林昊昀

(1.浙江商業職業技術學院,浙江 杭州 310053;2.首都師范大學數學科學學院,北京 100089)

1 引 言

隨著中國經濟迅速發展,人口眾多和城市交通規劃的不合理性逐步顯現,我國的交通狀況日益嚴重。這導致道路資源日益緊張,交通事故頻發。根據資料數據[1],我國交通事故的致死率高達27.3 %,居全球之首。同時的調查結果[2]顯示,在致死事故中,美國和歐洲國家的死亡人數主要集中在乘車人員,而在中國,超過60 %的死亡人數是行人、自行車等交通弱勢群體。因為在中國的道路權益分配中,行人和自行車的權益受到機動車嚴重擠壓,人車混合出行的模式導致行人的安全面臨嚴峻挑戰。除了各汽車制造商需要逐步建立行人保護安全開發體系外,利用車輛的智能輔助駕駛功能可以有效降低交通事故中的死亡人數[3]。當前,國內外學者主要關注基于兩類圖像進行行人檢測與跟蹤的研究:可見光圖像和紅外圖像。然而,可見光攝像頭難以應對惡劣天氣條件下(如黑夜、弱光、煙霧、霧和蒸汽等)的交通環境。為彌補可見光攝像頭的不足,本文提出在汽車傳感器套件中加入紅外熱像儀,把可見光圖像和紅外圖像進行融合,圖像融合技術目前也廣泛應用于行人目標識別中。將圖像融合技術應用于自動駕駛中,可以提升行人的安全性,填補視覺盲區,提供更多決策信息,預防事故和碰撞,同時改善駕駛體驗。通過將紅外圖像的熱能分布與可見光圖像的視覺特征相結合,可以在夜間和低光條件下更精準地檢測和跟蹤道路上的障礙物,如行人、車輛等。紅外圖像與可見光圖像的融合提供了更全面的感知能力,從而提升了自動駕駛系統的安全性和魯棒性。

近年來,為了提升行人檢測效果,伴隨著新算法的涌現以及硬件的升級,利用深度學習從圖像中提取特征并進行行人目標判斷的技術逐漸增多,其中包括 R-CNN[4]、YOLO[5]、SSD[6]等幾類主流框架。研究文獻表明,可見光圖像下的行人檢測方法已經相對成熟,但目前涉及可見光和紅外圖像的行人檢測方法尚處于初級階段,需要克服諸多難題。這些難題主要集中在以下兩個方面:(1)受白天和夜間光照變化的影響,可見光和紅外圖像融合特征在不同光照條件下表現出差異性。(2)目前,基于深度卷積神經網絡的行人檢測模型常常表現出較高的檢測率,但其效率相對較低,未能同時保障實時性和準確性,難以滿足輔助駕駛實時檢測的需求。當前行人目標檢測算法在特定情況下面臨著挑戰,例如夜間、低能見度和復雜背景等,這些環境條件的影響可能導致行人目標檢測的準確性下降,因此需要更為強大的方法來應對上述問題。

2 雙模態特征提取與融合

為了克服熱成像的局限性,并提高道路目標識別的準確性和可靠性,可以采用圖像融合技術。圖像融合通過將熱圖像與可見光圖像進行融合,結合它們的優勢,從而產生一個融合圖像,使得圖像中既包含了熱能信息,又保留了可見光的顏色和紋理信息。因為單一可見光或紅外圖像分類器在全天候駕駛環境中無法有效識別在白天和夜間光照環境下存在差異性的行人特征而導致出現漏檢情況,本文在基于區域生成網絡的可見光與紅外圖像行人目標檢測器的基礎上,進行可見光與紅外圖像雙模態特征融合,以優化深度卷積神經網絡分類性能,提高行人檢測準確率。首先采用雙模態區域生成網絡即雙路深度卷積神經網絡分別對可見光圖像和紅外圖像進行特征提取,提取得到的可見光特征與紅外特征通過級聯融合后輸入區域生成網絡進行特征分類和回歸。雙路深度卷積神經網絡,均由5個卷積層(Conv)和4個池化層(Pool)交替堆棧組成。如圖1所示,可見光圖像特征提取模塊的卷積層從Convl-V到Conv5-V,池化層從Pooll-V到Pool4-V;紅外圖像特征提取模塊的卷積層從Convl-I到Conv5-I,池化層從Pooll-I到Pool4-I;雙模態區域生成網絡特征融合模塊采用級聯融合層(Concat)將可見光特征與紅外特征級聯在一起,進過融合卷積層(Conv-F)進行融合特征學習后,輸出可見光與紅外融合特征。

圖1 雙模態區域生成網絡特征提取與融合模塊網絡結構圖

雙模態區域生成網絡特征提取網絡結構采用VGGl6深度卷積神經網絡架構,所有的卷積層采用3×3卷積核,所有的池化層采用2×2池化核,具體的參數設計如表1所示。采用W和H分別表示可見光圖像和長波紅外圖像的長寬像素值。此處,可見光和紅外圖像輸入尺寸均W×H×3,特征融合模塊輸出的可見光與紅外融合特征圖尺寸為W/16×H/16×512。

表1 不同算法對比結果

3 改進的Faster RCNN算法

本文在Faster RCNN基礎上,針對紅外熱成像技術[7]通過四種措施來提升Faster RCNN在汽車駕駛場景下的行人目標檢測性能:①設計特征融合網絡,并構建了一種感興趣候選區域空間金字塔池化網絡,以提高算法在汽車駕駛場景的行人目標檢測性能;②通過聚類算法對訓練數據集中真值框的寬高信息進行聚類,利用聚類結果優化錨設置,挖掘汽車駕駛場景下的先驗知識來提升檢測算法的檢測效率;③采用在線案例挖掘技術優化模型訓練;④對網絡卷積層中的函數進行改進,并調整訓練參數來提高系統分類性能。

3.1 改進網絡結構

Faster RCNN算法中需要先設計特征提取網絡,用于特征提取。針對基本算法中存在的問題主要是:①候選框選擇機器耗時長;②候選框覆蓋面廣,重疊區域特征重復計算;③步驟多,過程復雜。原始RCNN重復使用深層卷積網絡在2k個窗口上提取特征,特征提取非常耗時。我們在這里改進了RCNN的不足,采用空間金字塔池化網絡(圖2)中SPPNet將比較耗時的卷積計算對整幅圖像只進行一次,之后使用SPP將窗口特征圖池化為一個固定長度的特征表示。

圖2 空間金字塔池化網絡

對于上圖中的網絡,Image是輸入圖像就是候選區域,Crop/warp就是對候選區域進行提取,然后將圖像resize到固定的大小。由于網絡中加入這兩個操作,使得候選區域會出現扭曲的情況。因此把固定大小的圖像輸入到卷積神經網中,盡可能特征提取,最后在FC層得到輸出的特征向量。我們采用同一個卷積神經網,需要保證輸入圖像大小必須統一。這里把候選區域的提取安排在圖像輸入的下一個環節,根據不同的候選區域會都采用相同卷積來完成特征提取的過程,導致重復計算,也是RCNN網絡存在的問題。重新優化在上圖底部,加入spp層,對于不同尺寸提取不同維度的特征,它會將每一個卷積層的輸出固定的通過SPP層得到一個21維特征,這個21維是對應每個feature map的,即對每一個通道數(channel),具體維數值21×c,就是通過SPP層產生固定的輸出,再通過FC層計算。

3.2 模型訓練

Faster RCNN是兩個階段的檢測器,模型訓練要分兩個部分:一是訓練RPN網絡,二是訓練后面的分類網絡。為了能夠說明模型訓練過程,需要明確提及的兩個網絡。分別是:RPN網絡(共享conv層+RPN特有層);Faster RCNN網絡(共享conv層+Faster RCNN特有層)。訓練的步驟過程如下:

①先用ImageNet的預訓練權重初始化RPN網絡的共享conv層,再訓練RPN網絡。訓練完成,即更新了共享conv層和RPN特有層的權重;

②根據訓練好的RPN網絡獲取proposals;

③再使用ImageNet的預訓練權重初始化Faster RCNN網絡的貢獻conv層,然后訓練Faster RCNN網絡。隨著訓練完成,再次更新共享conv層和Faster RCNN特有層的權重;

④利用步驟③訓練好的共享conv層和步驟①訓練好的RPN特有層來初始化RPN網絡,進行第二次訓練RPN網絡。這里固定共享conv層的權重,保持權重不變,只訓練RPN特有層的權重;

⑤根據訓練好的RPN網絡獲取proposals;

⑥繼續使用步驟③訓練好的共享conv層和步驟③訓練好的Faster RCNN特有層來初始化Faster RCNN網絡,再次訓練Faster RCNN網絡。在這里,固定conv層,只保留fine tune特有部分。模型訓練過程如圖3所示。

圖3 模型訓練步驟過程

3.3 改進函數

在卷積層候選框訓練提取網絡的時,把錨分為兩類,選中目標的錨標記是正樣本(positive),未選中目標的錨標記是負樣本(negative)。正樣本就是通過錨和真值相交的情況來定義,通過兩種方式實現。對于每個真值,存在兩種情況,所有錨與這個真值要么相交,要么不相交。相交方式中:和這個真值有最大交并比的那個錯誤標記為正樣本;與這個真值的交并比在大于0.7時,那些錨也標記為正樣本。負樣本就是與所有真值的交并比在小于0.3時的錨。除了以上,其余的錨無需標記,在整個模型訓練過程中不使用。

根據正負樣本的定義,給出RPN損失函數的公式(1)所示:

(1)

對于以上公式,實際由兩部分組成。第一部分計算分類誤差,第二部分計算回歸誤差。計算分類誤差時,pi是一個anchor box值為正值的概率,p*i是anchor box的真實數據,取值為0或1,這里研究采用二分類log loss,∑對所有anchor box的log loss累加求和;計算回歸誤差時,ti表示預測的anchor box位置,t*i表示與anchor box相關的真實數據的位置,Lreg實際上是計算ti和t*i的位置差,也被稱為平滑L1,在對所有的anchor box計算結果的誤差累加求和時,僅僅計算正值類anchor box的累加和。關于系數部分,Ncls的取值為最小批次中anchor box的數量,即Ncls=256;Nreg為一張圖對應的anchor的數量,數值約等于2400;為了確保函數兩部分loss前的系數最大程度相同,設置λ=10。

4 實驗結果與分析

為了驗證實驗效果,本文測試數據庫采用2019年8月FLIR公司推出的免費用于算法訓練的FLIR Thermal Starter 數據集V1.3。數據是由安裝在車上的RGB相機和熱成像相機獲取的。數據集總共包含14452張紅外圖像,其中10228張來自多個短視頻;4224張來自一個長為144 s的視頻;數據集圖像包括5種目標分類:行人、狗、機動車、自行車及其他車輛。該數據集使用MSCOCO labelvector進行標注,提供了帶注釋的熱成像數據集和對應的無注釋RGB圖像(圖4),數據集文件格式包括五種:(1)14位TIFF熱圖像(無AGC);(2)8位JPEG熱圖像(應用AGC),圖像中未嵌入邊界框;(3)8位JPEG熱圖像(應用AGC),圖像中嵌入邊界框便于查看;(4)RGB-8位JPEG圖像;(5)注釋:JSON(MSCOCO格式)。

圖4 道路三種圖像效果圖

本文在改進的空間金字塔網絡結構中,設計了6個anchor來覆蓋整個輸入的圖片,anchor的長寬比例設置為[1∶1,1∶2]。通過大量的實驗數據得出,采用這個參數設置算法效果相對最好。實驗中,我們先對紅外圖像做了預處理,即紅外圖像和可見光圖像做的融合處理,如圖4所示。本文采用的算法實現道路行人目標識別的效果圖,如圖5所示。

圖5 行人識別效果圖

通過算法的設計在python程序中的實現,經過模型訓練。我們做出如下分析:①比較2分類和3分類道路識別:3分類是背景,行人,騎自行車和騎摩托車的人,通過誤差分析,行人和騎車的人經?;煜?然后說明了可以把行人和騎車的人合并在一起的理由,進行了2分類測試,效果顯然比三分類好。②卷積通道調整:在測試識別過程中發現了一些頑固的反例,這些樣本是由燈光反射或車輛燈光系統造成的。在訓練和測試中為了減輕這些反例的影響,應用均值減去法對樣本數據進行預處理。此外,為防止梯度爆炸,在訓練過程中當測試損失率連續3代不再提高的時候將學習率減半。對比了卷積層濾波器個數為30~18,25~15,20~12時的2分類結果。得到個數為25~15時2分類結果最佳,測試準確率93.22 %,訓練損失率為1.07 %。③使用自學習softmax分類器微調:準確率由93.22 %上升到94.49 %,平均識別時間為0.07 ms。

本文從FLIR Thermal Starter數據集中選擇用于測試的實驗紅外熱圖像600張,其中包含行人、機動車、自行車等交通目標2101個,對數據集采用不同算法進行實驗比較,模型檢測精度和速度對比如下表1所示,實驗證明,經過圖像融合和改進后的模型分類精度更高,檢測速度更快。

5 結 論

本文在研究典型的深度卷積神經網絡算法用于行人目標檢測時,以Faster RCNN算法為基礎,采用空間金字塔池化網絡、特征融合方式改進了網絡中的函數,有效提高了汽車駕駛場景中應對環境條件差、目標距離汽車遠近的尺度問題帶來的目標檢測的準確率、提高了錨點選擇框在神經網絡中的算法效率。理論分析和計算機程序實驗數據可以說明,在道路中借助于紅外圖像,改進后的深度神經網絡在行人檢測中提高了有效性。因此,在汽車駕駛場景應用中,利用本算法可以更有效地檢測行人目標。

猜你喜歡
特征提取行人紅外
網紅外賣
閃亮的中國紅外『芯』
毒舌出沒,行人避讓
TS系列紅外傳感器在嵌入式控制系統中的應用
路不為尋找者而設
基于Daubechies(dbN)的飛行器音頻特征提取
我是行人
Bagging RCSP腦電特征提取算法
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合