步態識別技術綜述

2022-12-09 04:53段成閣劉康康李福全

中國人民公安大學學報（自然科學版） 2022年4期

段成閣, 劉康康, 李福全

(1.蘇州市公安局工業園區分局,江蘇蘇州 215000;2.安徽省公安教育研究院,安徽合肥 230031)

0 引言

步態識別技術利用行走姿態進行個人身份識別,與指紋、人臉、虹膜等生物特征識別技術相比,具有非接觸性、非侵犯性、易于感知、難于隱藏和偽裝等優勢[1],特別是在遠距離進行身份識別時,步態識別是目前唯一可行的技術。近年來,我國公安機關逐步將步態識別技術應用于實際工作,隨著視頻監控的普及,步態識別技術在嫌疑人追蹤和比對等方面發揮著重要的作用。作為個體動力定型特征,步態受到多種因素影響,如人的肌肉力量、骨骼大小、協調能力等都會對行走姿態產生不同程度的影響,在上述因素作用下,每個人表現出來的行走姿態是不同的,這是步態識別的科學基礎。

步態識別主要包括步態分割、特征提取、步態比對3項關鍵技術。步態識別的主要數據來源為監控視頻,通過特定的算法將行人與背景圖像分割后獲取人的輪廓是視頻數據處理的第一項關鍵技術,其次提取目標人物的特征信息,最后是與樣本數據進行比對,根據相似度輸出比對結果。在深度學習技術快速發展和應用之前,步態識別中最為重要的是特征確定和分類器的選取,優化特征選取和確定合適的分類器,能夠使比對結果更加精確。隨著深度學習技術的發展,出現了一類基于生成模型的無監督特征提取方法,這類方法利用數據的降維、生成和重構等方法實現特征的學習和壓縮,并且不依賴于特征工程,更適合處理大量無標簽的監控視頻。

1 步態分割

視頻中不僅有人的運動信息,還有背景信息及其他干擾因素,步態識別的首要環節就是步態分割,將運動的人從背景和干擾信息中剝離出來,為后面特征提取和比對奠定基礎。針對不同的視頻場景和人的行走姿態,選取合適的步態分割方法有助于工作開展。目前常用的步態分割方法有幀間差分法[2]、背景減除法[3]、光流法[4]等。實踐中,為獲得較高的圖像分割效果,研究人員經常將幾種分割方法融合使用[5-6]。

1.1 幀間差分法

幀間差分法是通過視頻中前后2幀圖像或多幀圖像進行差分,獲取目標輪廓信息的一種方法,這種方法能夠在存在多個運動目標的視頻中獲取較好效果。王智文等人[7]提出關聯幀差分法用于運動目標檢測,算法計算出相鄰圖像顏色特征的巴氏距離,進而計算出相鄰的3幀圖像相似度,當相似度超過設定的閾值條件時,計算出該相鄰幀圖像的差分圖像,在對改差分圖像進行操作后,進行輪廓填充進而獲取目標。Zheng等人[2]采用改進的三幀差分算法,選取間隔為一幀的3幀圖像序列進行兩兩差分計算,使用邏輯“OR”操作用于實現快速運動檢測,并修正了傳統幀差法造成的空洞和中斷,使運動檢測的大小和輪廓更加準確。最后,對三幀差分法提取的圖像進行邏輯求和,得到最終結果。文獻[8]將四幀間差分法與光流法結合對目標進行檢測追蹤,在復雜環境的多個目標中能夠進行快速的追蹤檢測。唐云祁等人[9]提出一種基于步態時空特征的幀差運算方法,將步態運動的空間和時間信息同時表達出來,進而反映出步態運行周期內各種狀態,在此基礎上還提出一種連續輪廓差異圖(CSD-maps)的步態檢測新方法,可以從單個二維視覺攝像機采集到的不同視角下的視頻數據中準確地檢測出步態事件,大大有利于步態識別和步態分析[10]。

1.2 背景減除法

背景減除法的工作原理是建立起背景模型,通過將視頻中待檢圖像與背景圖像做減法運算,在室內等背景靜止場景中,分割效果較好。背景減除法的核心工作是背景模型的構建。在靜止背景情況下,背景建模較為簡單,但面對變化背景時,需要不斷更新背景建模。目前,較為常用的背景建模方法有單高斯模型、混合高斯模型、碼本模型、W4模型、均值濾波模型、隱馬爾可夫模型等[11-12,3]。近年來,深度學習技術基于其強大的數據表征能力,在背景減除中的應用也逐漸增多,Avola等人[13]提出了一種基于自組織神經網絡(Self-Organized Neural Network,SONN)的關鍵點聚類和神經背景減除相結合的方法,用于PTZ攝像機獲取的視頻序列中運動目標的實時檢測。文獻[14]采用局部強化層恢復基于卷積神經網絡的背景減除算法中丟失原圖的細節,同時,文章提出一種新穎的端對端的多尺度時空傳播網絡(STPNet)的背景減除算法,有效提高了檢測效果。祝軒[15]等建立了基于時間連續性約束的背景更新模型,在消除陰影和噪聲影響方面有積極影響。

1.3 光流法

光流法目標檢測最早是由Horn和Schunck在1981提出的[16],該方法是將視頻圖像中的各個像素點速度矢量求出來,形成圖像的運動場。視頻中的運動目標的光流矢量會使其與背景產生差異,進而反映出運動物體的位置?；诠饬骱虶abor特征的目標跟蹤識別的算法在某些場景下也有一定的優勢[4]。這種方法根據光流分布特征計算流場,進行目標運動檢測,使用基于期望最大化的有效高斯混合模型(EMEGMM)算法進行背景減法得到前景像素,估計了完整的運動形狀和Gabor特征,并利用Adaboost分類器對提取的特征進行分類,有效地處理感興趣區域,然后利用前一幀建立的對象模型定位每一幀內的目標區域,實現基于輪廓的目標跟蹤。吳進[17]等人設計了一種區域卷積網絡和光流法相結合的目標跟蹤算法,在T-1幀跟蹤結果的基礎上使用光流法計算跟蹤目標的運動矢量,計算出跟蹤目標在T幀上的初選框,再將初選框區域作為區域卷積網絡的輸入,計算目標的精確跟蹤結果,提高了在線目標跟蹤算法的速度。

2 特征提取

步態特征提取,即步態表征,利用某種算法將視頻圖像中檢測到的步態或數據庫中存儲的步態進行表示,通過建立的模型,進行步態識別比對。步態特征提取可以分為3種類型,分別是基于非結構表征、基于結構表征和融合表征。

2.1 非結構表征

基于非結構表征的步態特征提取,也可稱為基于形狀信息的表征方法,它主要是通過對視頻圖像中人體的邊緣輪廓信息、形狀、面積等因素構建出各種時空模型?；谌梭w輪廓信息的特征表示是非結構表征中較為常用的方法。王燕[18]針對運動中的人衣著不同導致的步態識別不準確的問題,提出了一種基于輪廓特征的步態識別算法。這種方法以步態輪廓線作為基礎,提出了一種分割加權策略,以穿過人體質心的水平和垂直線及以膝蓋為基準的水平線,將人體輪廓分為6個區域,對每個區域進行價值評估、加權處理,構造特征向量后組成特征矩陣,表示步態特征。將步態輪廊線構造成特征向量,組成特征矩陣的方式表示步態特征的算法。羅堅等人[19]提出了一種基于深度攝像機的3D步態建模和識別方法,利用深度攝像機采集步態點云數據,進一步構建出步態點云輪廓和三維參數人體輪廓之間的映射函數,實現了對人體步態的結構化表示。在連續運動的步態識別中,為降低噪聲干擾,獲取更加豐富的信息,還出現了步態能量圖(gait energy image,GEI)[20-21]、步態歷史圖(gait history image,GHI)[22]等方法。

2.2 結構表征

基于結構表征的步態特征提取,主要是指利用動力學等相關特性,對人體進行模型構建,通過建立起二維或三維人體運動結構模型進行步態識別比對的方法。李言等人[23]提出的基于對抗學習網絡框架的人體運動姿勢估計,能夠獲取高質量三維運動姿態,減少環境對特征提取的影響。韓丹[24]提出改進ZS細化算法提取人體骨架,進而對多視角下步態進行分析識別。張學志[25]針對人體異常步態,提出了一種針對下肢運動異常表現的鐘擺模型,定量研究了異常步態的時間、空間和時空參數估計。

2.3 融合表征

為提高步態識別精準度,科研人員探索出融合表征的特征提取方法,尤其是融合其他生物特征進行的多模態生物識別近年來成為研究熱點。早在2001年,Shakhnarovich等人[26]就提出了利用人臉特征和步態特征融合的識別技術,隨后,人臉、指紋等方面[27-29]的應用逐漸增多。文獻[30]將骨架、步態能量圖和Hu矩這3種不同的步態特征在特征層進行融合,再利用SVM進行步態識別,進一步提高了步態識別準確率。邵虹等人[31]針對傳統的Gabor特征提取后存在特征維數較高的缺點,提出了一種基于集成Gabor特征的步態識別方法,實驗結果表明,基于集成Gabor特征的步態識別方法,能夠對步態特征進行有效分離和表達,同時降低維數并緊湊表征數據,對步態信息進行正確歸類。

基于多模態生物識別的融合表征方法,在提高識別可靠性上展現出較強的優越性,它的關鍵技術在于選擇合適的融合模型和算法,降低冗余數據量?？梢灶A測的是多模態生物識別的融合表征方法是一項極具發展潛力的研究方向,在未來會在掌紋、足跡、聲紋等多方面融合,并廣泛應用。

3 步態比對

步態比對主要是選定視頻圖像中步態特征數據和數據庫中的步態數據,通過合適的分類器進行比對分析后,得出相似度結論。目前,步態識別中較為常用的分類器算法有支持向量機(SVM)、隱馬爾可夫模型(HMM)、K近鄰方法(KNN)、動態時間規整算法(DTW)等,也有采用多分類器進行步態識別的應用[32]。

在樣本量小的案例中,基于支持向量機的算法在識別準確率和速度上有較好表現。牟麗莎等人[33]提出一種結合信息集理論和支持向量機的識別方法,利用SVM分類器對步態周期上所有幀中的步態信息圖進行識別,獲得較好的魯棒性。隱馬爾可夫模型是一種基于時序變換的識別算法,可以有效融合隱含在步態序列中姿態之間的聯接關系,在步態動態變化過程中具有較好的識別效果,劉暢等人[34]利用的隱馬爾可夫模型,有效提高了步態識別算法的可靠性。K-近鄰算法的優點是分類方法簡單直觀,如果某樣本附近的K個鄰近樣本(特征空間中)屬于某一分類,則這個樣本也屬于這一分類,但此類算法的計算量較大,當樣本量大時計算時間較長。Sudha等人[35]使用K近鄰分類器,在待檢視頻圖像和樣本庫圖像比對識別中也有良好的效果。張愛軍等人[36]針對室內行人導航系統中對步行姿態識別精度不高,從而會影響后續位置解算的問題,提出了可應用于室內場景的基于K-means聚類算法的行人步態識別方法。動態時間規整算法是一種非線性匹配算法,在模式識別,尤其是步態識別中經常使用,它是基于距離度量的算法,具有魯棒性強的特點,但缺點之一是計算復雜度較高。何書芹等人[37]利用動態時間規整算法匹配分類數據,有效提高了識別的準確率。為解決DTW計算復雜的劣勢,Sharabiani等人[38]提出了Blocked Dynamic Time Warping(BDTW),利用時間序列中的任何重復值(零和非零)來減少DTW的計算時間,并在AMPds等數據集上進行測試,取得較好結果。王浩等人[39]為解決人體建模中關節點準確定位的問題,提出一種基于堆疊深度卷積沙漏網絡的步態識別方法,并采用基于深度卷積的沙漏網絡來提取步態圖上的關節點坐標,計算肘關節與膝關節的角度作為運動特征,該方法在公共CASIA-B數據集與TUM-GAID數據集上進行了驗證并與其他方法進行比較,證明具有較高的識別率。陳玲等人[40]為減少步態特征參數維數,降低算法復雜度,提出了一種基于人體的質心和輪廓關鍵點的步態表示方法,用三幀差分法對運動目標進行檢測,選取一個周期的步態特征用自動規整算法進行識別與計算,可以保證步態識別的實時性,具有較高的工程實施性。

4 深度神經網絡模型在步態識別中的應用

深度學習在近年來發展十分迅速,在各個領域都有較為廣泛的應用,以深度神經網絡為代表的應用模型,在步態識別領域中也逐漸引起研究人員的重視,并逐漸成為主流方法。相比較傳統的淺層機器學習方法,深度神經網絡模型能依據更多的網絡拓撲結構,挖掘出更多隱含的特征,在步態識別中意義重大。常見的深度神經網絡模型主要有卷積神經網絡(Convolutional Neural Networks,CNN)、遞歸神經網絡(Recursive Neural Network,RNN)、深度信念網絡(Deep Belief Network,DBN)和生成對抗網絡(Generative Adversarial Networks,GAN)等。

ALOTAIBI等人[41]提出將深度卷積神經網絡應用于步態識別研究中,并取得不錯的識別效果。盧來等人[42]提出了改進的深度卷積神經網絡的方法,利用分層處理機制,將步態數據中的步態特征提取出來,有效解決傳統步態識別算法中服飾更換、視角變化等造成的識別率下降問題。何正義等人[43]將卷積神經網絡和深度信念網絡方法集成,提出了步態識別和模擬的新算法,用于解決多類步態難以識別和預測的難題,對步態識別的有效率有一定提升作用。Xia等人[44]提出了一種基于生成對抗網絡的步態識別算法,針對步態識別過程中小面積物品遮擋情況,利用算法生成上下一致的補全圖像,有效減小了噪聲干擾。張紅穎等人[45]針對步態識別中由于衣著與背包的遮擋造成不能提取有鑒別性的步態特征,導致識別準確率不高的問題,提出一種結合殘差網絡和多級分塊結構的步態識別方法。朱小鵬等人[46]對基于深度學習的紅外圖像步態識別方法進行研究,利用卷積神經網絡相關技術搭建深度學習模型,以此對紅外圖像中人體步態輪廓特征進行學習,對紅外圖像中人體步態身份做出識別。戚艷軍等人[47]對行人運動過程中拍攝視角、外觀變化等因素對步態識別的影響,提出一種長短時記憶網絡與卷積神經網絡相結合的步態識別方法。

5 步態識別技術發展趨勢

步態識別作為現階段研究熱點問題,在人物刻畫、身份認定、犯罪嫌疑人追蹤等方面具有重要的意義。如在我國公共安防領域,以銀河水滴公司為代表的步態識別人工智能企業,為智慧公安和平安城市建設提供了巨大技術支持,步態識別已成為公安機關打擊違法犯罪、維護社會公共秩序的一項重要手段。未來,步態識別技術會在3D模型構建、多模態融合等方面有更加深入的研究與應用。

目前,步態識別的應用主要是基于二維圖像下的特征,但當出現受遮擋情況和視角受限情況時,二維步態識別就有一定的局限性。因此,三維步態識別技術的研究及應用是未來發展的方向。一方面,能解決二維識別遮擋情況出現時的不足;另一方面,能提供所需要的深度信息和立體特征信息,大大增加識別的準確度。但需要注意的是數據量的增加會導致計算速度減緩,如何在保證三維識別效果的同時提升識別速率也是研究的重點。此外,在實際應用過程中,受到某些條件限制,步態、指紋、足跡、聲紋、虹膜、人臉等單個識別特征可能不足以進行身份識別認定,基于多模態融合的特征識別在提升識別準確度和可靠性上有巨大優勢,在未來一定會成為發展趨勢。如何確定合適的融合規則,減少冗余數據,提升識別速度是研究的重點。