基于視頻與圖像的駕駛員姿態識別方法比較分析研究*

2020-07-27 06:45吳冠鶴周博見

武漢理工大學學報（交通科學與工程版） 2020年3期

張軍何杰吳冠鶴湯慧魏琳周博見

(河南交通職業技術學院交通運輸發展戰略研究中心1) 鄭州 450015) (東南大學交通學院2) 南京 210018)

0 引言

交通事故約80%是由駕駛員錯誤駕駛行為所導致，這些錯誤行為中又以疲勞駕駛、超速、錯誤駕駛姿態居多[1-3].不良的駕駛姿態會嚴重影響駕駛員的感知、判斷，以及對突發狀況的應急反應能力.

近年來，基于視頻的駕駛人姿態檢測的研究主要集中在駕駛人的眼部[4]、凝視方向[5]、面部朝向和頭部姿態[6]，利用頭部信息去判斷駕駛員的狀態，多用來監測駕駛員的疲勞或分神狀況[7-9].為了從駕駛員狀態檢測拓展到駕駛員行為檢測，部分學者將研究區域擴展到由頭部、雙手臂、身體軀干組成的上半身，通常使用膚色檢測方法提取駕駛員頭部、手部區域，并以此作為特征圖像識別駕駛員姿態[10-11].

文中結合項目組已有成果及具體實驗案例，將駕駛員姿態識別流程分為數據采集、圖像處理、特征提取和姿態分類四個階段，對每個階段使用的方法進行比較研究，具體分析包括圖像數據集、視頻數據集及兩者的特征，歸一化RGB模型和YCrCb模型二種膚色檢測模型及其優劣性，全圖像像素、連通域質心距離、雙手(臂)質心坐標三種應用特征提取方法的區別，KNN、決策樹和神經網絡等姿態分類方法的適用場景.比較分析的流程和具體內容見圖1.

圖1 比較分析的流程和具體內容

1 圖像和視頻數據的采集

將駕駛員姿態識別數據集分為圖像數據集I與視頻數據集V，所拍攝的駕駛員姿態包括雙手緊握方向盤、操縱檔位和異常駕駛姿態(包括雙手離開轉向盤、單手駕駛、吃東西和打電話).其中，通過直接拍攝獲得圖像數據集I共m張圖片；通過采集n段時長t(s)，駕駛員駕駛視頻h(幀/s)，對n段視頻依次處理，構成視頻數據集V=(V1,V2,…,Vn)，每段視頻每隔h幀截取一張圖像，其中第i段視頻對應數據集Vi=(Vi1,Vi2,…,Vit)，處理后視頻數據集V共有n×t張圖片.將數據集的80%用于訓練，20%用于測試，比較分析駕駛員姿態識別方法.

圖片數據集I由于每次訓練只輸入一張圖片，輸入數據維度較小，模型訓練速度較快，但也存在單張照片可能無法檢測到駕駛員頭部、雙手三個膚色區域，導致識別精度較低的問題.而視頻數據集V每個樣本訓練都會輸入t張圖片，均描述一種駕駛姿態，圖片間可產生特征互補，當有x張圖片不能檢測到三個膚色區域時，仍然能有t-x張圖片完成訓練過程.因此，識別精度較高，但輸入數據維度較大，訓練時間較長.圖像數據集與視頻數據集的優缺點比較分析見表1.

表1 圖像數據集I與視頻數據集V比較分析

2 四種圖像處理方法比較分析

駕駛員圖像處理主要是為了消除圖片中由于外界環境變化導致的光照、噪音、振動以及圖像模糊等問題，提高圖像的檢測精度.較有代表性的圖像處理方法有參考白、同態濾波、均值濾波、中值濾波、數學形態學方法、直方圖均衡化、圖像平滑和銳化等.論文分別對上述方法進行了實驗，依據處理結果最終選用參考白、拉普拉斯算子圖像銳化、彩色直方圖均衡以及數學形態學方法作為駕駛員姿態識別的圖像處理方法.對這四種方法的原理、功能與運用場景的比較分析見表2.

表2 圖像處理方法比較分析

結合模擬駕駛器圖像數據集I1和真實駕駛場景圖像數據集I2，得到參考白、拉普拉斯算子、彩色直方圖均衡、數學形態學4種圖像處理方法效果圖.

3 特征提取方法比較研究

3.1 膚色檢測方法

由于侵入式檢測方法將對駕駛員產生侵擾，而可變形部件模型需要大量圖像數據制作標簽，故論文運用膚色檢測模型提取出駕駛員人體特征.常見的膚色檢測模型有RGB模型、歸一化RGB模型、YCrCb模型、HSV模型.綜合考慮實驗結果，選取歸一化RGB模型和YCrCb模型作為膚色檢測模型.

歸一化RGB膚色檢測模型是通過計算RGB通道像素關系范圍而得到，對駕駛人姿態的特征區域描述效果較好，不會出現較多的干擾點，但對細部描繪效果一般；而YCrCb膚色檢測將色度與光度分離，通過色度檢測膚色，雖然現實中改變光照，色度也會相應地產生改變，但仍在一定程度上可降低光度的影響[12].YCrCb模型方法對駕駛人姿態的細部描繪較好，能準確檢測出駕駛人眼睛、耳朵、手指等微觀區域，但是對類皮膚區域的去干擾能力較差，圖像中的干擾成分較多.歸一化RGB膚色檢測和YCrCb膚色檢測模型具體比較分析見表3.

表3 歸一化RGB模型和YCrCb模型比較分析

結合模擬駕駛器圖像數據集I1和真實駕駛場景圖像數據集I2，分別運用歸一化RGB模型和YCrCb模型進行膚色檢測.

3.2 應用特征提取方法

通過膚色檢測模型提取到駕駛員膚色圖像后，對圖像進行應用特征再提取，再將該應用特征輸入至分類器中進行訓練.應用特征提取的方法包括全圖像像素特征、連通域質心距離特征和雙手(臂)質心坐標特征，意義在于簡化駕駛員膚色特征，減少特征數據種類，降低特征數據維度，從而加快分類器的訓練和識別速度.

全圖像像素特征指將整張圖片所有像素值作為輸入特征進行訓練，為了強化駕駛員姿態特征一般會進行簡單的圖像處理，包括圖像二值化和邊緣檢測.圖像處理的作用是將RGB三通道圖像矩陣轉換為單通道稀疏矩陣.

連通域質心距離特征指提取駕駛員頭部、雙手連通域質心的距離作為輸入特征.該方法使特征數據從全圖像像素轉變為三個距離值，極大降低了特征數據的維度，加快了訓練進程.然而，該應用特征提取方法分類精度較低，其原因是容易產生駕駛員不同身體部位連通域的重合，該情況下，算法只能提取到一個或二個連通域，無法提取三個質心距離特征，這極大影響了圖像數據識別的準確度.應用視頻數據集則可部分解決該問題.

雙手(臂)質心坐標特征指僅提取雙手(臂)質心坐標作為輸入特征.在固定攝像機位置的情況下，駕駛員頭部位置基本不變，雙手(臂)位置有較大改變.由于相似特征對分類結果的影響很小，而差異化特征對分類結果的影響很大，因此利用雙手(臂)的部件連通域質心坐標即可完成駕駛員姿態識別.為了解決身體部位連通域重合問題，可考慮駕駛員頭部相對位置及各部位連通域面積，確定頭部與雙手的質心坐標.該方法極大降低了特征數據的維度，并能保證駕駛員姿態識別的精度.三種應用特征提取方法的處理步驟和優劣勢比較分析見表4.

表4 三種應用特征提取方法比較分析

結合模擬駕駛器圖像數據集I1、真實駕駛場景圖像數據集I2以及視頻數據集V，分別運用全圖像像素、連通域質心距離和雙手(臂)質心坐標三種應用特征提取方法.

4 姿態分類方法比較分析

通過比選SVM、KNN、決策樹、樸素貝葉斯、隨機森林、BP神經網絡和MLP神經網絡7中不同的分類器，確定適用于不同情況下的分類器，并結合圖像數據集I和視頻數據集V，對各種分類方法進行比較，見表5.

由表5可知，SVM分類方法在模擬駕駛器I1數據集上正確率達97%，應用效果較好.KNN分類器運用于真實駕駛場景I2數據集，提取雙手臂坐標應用特征，準確率為88.27%，與BP神經網絡相似，而訓練耗時僅為1 ms，遠遠小于BP神經網絡，是一種性能更好的分類器.在視頻數據集V中，綜合準確度和訓練耗時情況，決策樹分類器表現效果更優.

表5 不同分類器分類效果、應用及訓練耗時比較分析

5 結束語

結合項目組已有成果及具體實驗案例，將駕駛員姿態識別流程分為數據采集、圖像處理、特征提取和姿態分類四個階段，對每個階段使用的方法進行了比較研究.基于分析可知，目前的駕駛員姿態識別仍處于理論研究階段，距離形成成熟的產品還有一定的距離.主要問題是在于膚色模型還不能很好的適應各種真實駕駛場景下外界干擾帶來的光線變化，識別精度不高以及系統識別駕駛員姿態的實時性還未達到實際應用的要求.未來，駕駛員姿態識別會著重向精度化、實時化、智能化方向展開研究.