?

基于深度信息的人體姿態識別研究綜述

2020-02-18 15:16李方迪
計算機工程與應用 2020年4期
關鍵詞:空洞姿態人體

田 元,李方迪

華中師范大學 教育信息技術學院,武漢430079

1 引言

隨著人工智能技術飛速發展以及許多新興智能科技在人們日常生活中大量普及,在人工智能領域,計算機視覺和人機交互技術具有重要的地位,人體姿態識別在人機交互領域具有重要作用,并且在道路行為監控、人體運動分析、醫療康復訓練、舞蹈教育培訓等方面都有重要應用前景。根據輸入圖像的類型,姿態識別又分為基于RGB圖像和基于深度圖像的方法。彩色圖像在復雜環境和光照變化下魯棒性較差,而用于采集深度圖像信息的設備,如Microsoft推出的Kinect設備和ASUS公司的Xtion,性價比高,可以捕捉彩色和深度信息,能夠在光線不好的條件下工作,并且可以提供骨骼信息,簡化人體檢測任務[1]。Li等人[2]綜合利用了Kinect提供的深度數據、骨架數據,通過人體測量學知識和反向傳播神經網絡,有效提高了姿態識別的實時性和魯棒性。朱大勇等人[3]則利用Kinect攝像機采集人體的骨骼信息以及關節點對應的3D數據來進行動作識別。Reddy等人[4]同樣是采用Kinect設備獲取深度信息,設計了專門針對坐姿和站姿的人體姿態識別系統。因此,基于深度信息的人體姿態識別技術已成為目前的熱門研究課題。

如圖1所示,基于深度信息的人體姿態識別的主要步驟分為三部分:首先對深度信息傳感設備采集到的圖像數據進行預處理,然后提取出相應的人體姿態圖像特征,最后采用合適的分類算法進行姿態分類識別?;谏疃刃畔⒌娜梭w姿態識別技術應用領域十分廣泛[5]。例如在游戲領域,通過體感技術來獲取玩家的姿態動作進行人機交互操作,能夠使游戲玩家擺脫傳統游戲交互設備的約束,從而大大提升玩家的游戲體驗。在醫療領域,通過深度信息進行自然肢體運動檢測,可以使醫護工作人員的工作量得到有效減少,并且患者康復訓練的效果也得到了有效提高。在教育領域,通過把基于深度信息的人機交互技術融合進課堂教學中,為師生提供了更為自然的人機交互方式。

圖1 基于深度信息的人體姿態識別流程圖

本文對近幾年基于深度信息的人體姿態識別研究相關文獻進行了歸納梳理,從深度圖像預處理、特征提取和人體姿態識別算法三方面進行了研究概述,重點闡述了不同算法在人體姿態識別過程中的主要應用和改進思路。首先,介紹了在深度圖像預處理中的空洞填充和圖像平滑的研究進展和解決方法;然后,介紹了特征提取的方法以及圖像特征的幾大類型;接下來,介紹了卷積神經網絡、支持向量機、隨機森林等算法在人體姿態識別中的應用發展;最后,總結歸納出目前的主流研究方法,根據存在的不足,為未來研究方向提供思路。

2 深度圖像預處理

使用RGB-D獲取的深度圖像信息可以很好地反映目標的三維信息,但是由于測量時受到一些外在不確定因素的影響,在一定程度上會導致采集到的深度信息不穩定,因此深度圖像的修復在進行人體姿態識別過程中占有重要地位。為了使數據更加精確,在進行圖像特征提取之前,需要對原始的深度圖像數據進行空洞修復、圖像平滑等預處理操作。

2.1 空洞修復

由于受物體表面的材質、相互遮擋以及陰影輪廓等諸多因素的影響而造成數據缺失或者匹配失敗,從而導致了深度圖中部分區域的深度測量值為0的情況,也稱為黑洞噪聲。關于深度圖像的空洞修復問題,最簡單的處理辦法就是利用空洞區域邊緣的有效像素點來對空洞部分進行填充。

針對Microsoft公司的Kinect傳感器所獲取的深度圖像,Yang等人[6]提出了一種基于8通道的空洞填充方法。該算法首先將具有8個連通度的空洞聚類,通過分析相鄰像素的深度分布,為每個聚類分配一個深度值。該方法在深度顏色信息不相關的情況下,通過賦予適當的深度值,有效地進行了空洞修復。該算法使整個連通域中的像素成為一個整體,并沒有考慮每個像素的差異,因而具有一定的局限性。

不同于Yang等人只采用深度信息進行空洞填充的方法,趙旭[7]結合了彩色圖像信息,提出了一個能進行自適應處理的迭代聯合三邊濾波器。即在單幀的情況下,把彩色圖像的邊緣和深度圖像的邊緣沒有對齊的深度像素點坐標都重置為0,通過該濾波器進行黑洞填充。但是在深度圖中如果存在范圍較大的空洞,該算法修復的效果并不理想。

對于空洞較大的情況,王福偉等人[8]通過與彩色圖像信息結合來引導填充深度圖像存在的空洞。首先對深度圖中空洞點的具體位置坐標進行定位,然后根據彩色圖像的顏色特性具有相似性,來判斷空洞點的位置是在前景還是在背景,有效地進行了像素級別的填充。不過該算法對環境背景有一定要求,如果是在復雜背景或者較暗的環境中,算法的處理效果不太理想,導致修復的深度數據可能具有較大的誤差。

鄭歡[9]對于空洞產生原因進行了詳細了解,并提出了一種基于區域大小的黑洞填充方法。首先對深度圖像的黑洞進行連通域分析,對由被投射物體表面材質的吸收、折射和反射所產生的黑洞,利用黑洞周圍的鄰域中值信息來進行填充;對由遮擋產生的黑洞,利用基于區域大小的黑洞填充方法進行修復,其中利用鄰域信息對較小的黑洞區域進行修復。

依據空洞區域大小來進行空洞填充的思路,胡天佑[10]根據分割區域里的空洞大小將區域分為沒有空洞的區域、空洞較小的區域、空洞較大的區域和全部都是空洞的區域。針對不同的區域分別采用合適的空洞修復策略,空洞較大的區域使用中值填補算法,空洞較小的區域采用快速行進算法進行填補,對于出現的大面積空洞,則通過非局部均值處理,利用鄰近相似區域對空洞進行填充。

與之前的空洞填充方法不同,錢銳[11]則把RGB-D攝像機同步采集到的彩色圖像利用C-means聚類算法進行區域分割,從而使物體的結構信息在目標場景中更加明顯,通過鄰域內的同類像素來不斷對邊緣空洞點進行填充,使有效像素值不斷向空洞內部擴散,最后完成全部空洞區域的修復。

目前的空洞填充方法大多數都是基于空間相關性的思想,也就是利用深度圖周圍像素的深度值來估計空洞部分的深度信息,從而達到空洞修復的目的。然而空洞區域由于大小和背景環境存在差別,同一算法對不同的空洞區域修復效果也存在區別,同時對于處理大量深度圖像信息的情況,空洞填充算法的性能也至關重要,耗時太長也會對后續識別效率有所影響。因此,空洞填充方法的普遍性和魯棒性有待進一步提高。

2.2 圖像平滑

深度攝像機獲取深度圖像時會存在一些常見的噪聲,例如椒鹽噪聲、高斯噪聲等,通過抑制噪聲對圖像的影響使圖像亮度得到改善的方法就是圖像平滑。圖像平滑常用的方法就是對其進行濾波操作,圖像處理領域常用的濾波有中值濾波、高斯濾波、雙邊濾波等。中值濾波(Median Filter,MF)處理椒鹽噪聲的效果比較好,但是對深度圖像中高斯噪聲濾波效果不好;高斯濾波(Gaussian Filter,GF)雖然能夠有效地平滑深度圖像,但會丟失深度圖像的邊緣信息;雙邊濾波(Bilateral Filter,BF)可以在濾波的同時保留原始圖像的一些邊緣信息,但是往往會帶來偽邊緣效應,同時不能夠有效地去除外點,并且計算量相對較大。

針對雙邊濾波存在的權值不穩定性問題,聯合雙邊濾波(Joint Bilateral Filter,JBF)在雙邊濾波器的思想上進行了拓展,將指導圖像替換為另一個特征比原圖像清晰的圖像,用來獲取圖像像素值之間的權重系數。Feng等人[12]將空域距離原則和彩色圖相似原則進行了結合,提出了一種能夠自適應噪聲平滑的聯合雙邊濾波。

為了改善聯合雙邊濾波在原始場景中深度信息的精確度,余亞玲等人[13]提出一種新的預處理算法。通過構建深度圖的測量和采樣模型,從而得到深度圖的蒙特卡羅不確定度評價模型,然后利用計算的深度值估計區間來判定和濾除深度圖像中的噪聲點和非噪聲點,從而達到修復噪聲點的作用。

深度相機和彩色相機之間的立體匹配誤差使得其成像結果之間存在一些偏差,這就使得深度圖像的物體邊緣信息和彩色圖像中的物體邊緣信息并不相同。因此Jung[14]使用了自適應的聯合三邊濾波器來對深度圖像和彩色圖像進行增強,并且提出了一種基于二值模式的塊匹配方法,對深度圖像和彩色圖像進行塊匹配,然后根據塊之間的相似度,依次對彩色圖像和深度圖像進行聯合三邊濾波。

不同于以上算法,基于全局的圖像增強方法通??梢员A舾嗾w結構信息。Diebel等人[15]最先提出了一種基于馬爾可夫隨機場的深度升采樣方法。Park等人[16]通過改進原始馬爾可夫隨機場模型中的平滑約束項,并使用彩色圖像的分割信息以及彩色圖像的梯度信息作為新的約束項,解決了之前方法處理結果中的深度圖像邊緣過平滑的問題。Kim與Yoon[17]使用雙向圖像梯度作為權重項對馬爾可夫隨機場模型的平滑項進行修改,消除了深度圖像中由物體邊界區域的噪聲造成的影響。

圖像平滑是深度圖像預處理的關鍵環節,針對深度圖像存在不同的噪聲類型,采取合適的濾波器進行圖像平滑處理具有重要的意義。不過圖像平滑處理也應適度保留特征信息,不能過度平滑,否則會對最后的圖像識別結果造成一定的影響。

3 特征提取

從圖像序列中將描述人體姿勢的有效特征提取出來是保證準確識別動作的重要前提[18],不同特征的效果會與目標跟環境的特性具有很大的關聯。同一特征對于不同類別動作的描述能力會有些差異,不同特征對于同一類別動作的描述能力也參差不齊,特征描述根據不同特點可以分類為全局特征描述和局部特征描述[19],因此如何根據已有的數據信息和識別目標來選擇合適的特征描述符是人體姿勢識別的關鍵。

3.1 基于全局的特征描述

全局特征描述就是采用一種自上而下的描述方式,把識別目標當作一個整體[19]。全局特征涵蓋了全面的人體信息,由于容易受到識別目標定位的準確性以及背景剔除等圖像預處理的影響,全局特征描述也具有一定的局限性,例如對噪聲、遮擋以及攝像機視角變化等因素十分敏感。

輪廓和形狀特征是兩種比較常見的全局特征描述。Bobick等人[20]以兩種方式把監測視頻里運動目標的輪廓變化信息聚合成二維圖像,采用運動歷史圖(Motion History Image,MHI)來反映不同姿勢在運動過程中存在的先后順序。Ni等人[21]在MHI的基礎上提出了三維運動歷史圖(3D-MHI),也就是在原來運動歷史圖的基礎上增加了兩個附加的通道,分別是前進的運動歷史圖和后退的運動歷史圖。Liang等人[22]把運動歷史圖擴展到三維圖像,并提出了三維運動軌跡模型(3D Motion Trail Model,3DMTM)。

除此之外,也可以采用光流軌跡來代替形狀信息,光流特征能夠利用圖像序列中像素在時間維度上的變化和相鄰圖像幀之間的相關性來描述目標的運動特征,且不依賴于環境背景的減除。也就是說,光流特征表示的是時變圖像中識別目標的運動速度,但是光流特征會受到動態環境背景的噪聲影響[19]。

3.2 基于局部的特征描述

局部特征描述是一種由下到上的描述方式,就是只提取運動目標中有用的部位,將觀察目標視為一個局部描述子或者局部圖像塊的集合[19]。與全局特征對比,局部特征不會隨著環境背景噪聲、物體遮擋或者人體運動的變化而改變,對尺度、平移和旋轉等動作也具有較好的穩定性。局部特征的提取一般分為局部特征區域的檢測和對局部特征區域描述兩部分。

3.2.1 時空興趣點

局部特征區域檢測中比較常用的方法就是檢測局部的時空興趣點。時空興趣點一般是由運動突變引起的,在運動幅度較大的地方含有豐富的信息。3DHarris、Dollar、Hessian3D是三種比較常見的時空興趣點檢測器。

其中3Dharris是Laptev[23]提出的,它是為了檢測在局部的時空維度里運動目標同時產生較大變化的點,將二維Harris角點檢測擴展到了時空域。為了改善3DHarris檢測到的穩定興趣點特征分辨力較低、不利于識別的問題,Dollar等人[24]通過將輸入的視頻序列進行高斯平滑和一維Gabor濾波,從而提出了一種新的檢測算法。Shotton等人[25]保留了Harris檢測子尺度不變的優點,把二維的Hessian算法擴展到三維圖像當中,提出的Hessian3D檢測算法也可以和Dollar檢測子一樣獲得稠密的興趣點。

3.2.2 局部描述子

梯度分布的描述子是局部特征區域描述中最常用的方法,它的基本思想是不用知道梯度或者邊緣精確的位置信息,而是通過局部強度梯度的分布或者目標邊緣方向來對局部目標的外觀和形狀進行特征描述。

Lowe[26]首先提出了尺度不變特征變換(Scale-Invariant Feature Transform,SIFT),利用階梯式的濾波方法來確定不同空間中尺度變化都比較突出的關鍵信息點。Scovanner等人[27]在SIFT的基礎上提出了能夠很好地描述三維數據的時空信息,并且具有良好性能的3DSIFT描述子。

為了實現人體檢測,Dalal等人[28]提出了基于統計圖像密集局部單元格中梯度方向的直方圖特征(Histogram of Oriented Gradient,HOG)。HOG特征能夠對運動目標的局部形狀信息進行很好的描述,魯棒性較好。Kl?ser等人[29]在HOG的基礎上提出了計算三維梯度并且對時間與空間方向上的梯度進行量化的HOG3D描述子,HOG3D能夠很好地描述運動特征信息。

針對SIFT和HOG只能描述局部圖像的零階統計量這一問題,Li等人[30]提出了一種利用多變量高斯函數將每個像素點與其鄰域相關聯來表示局部圖像一階和二階統計量的L2EMG(Local Log-Euclidean Multivariate Gaussian)描述子。L2EMG既可以表示局部圖像的低階統計量,也可以表示局部圖像的高階統計量。Shi等人[31]根據L2EMG描述子可以表征圖像的高階統計量的優點進行特征提取,并且使用寬度學習算法進行學生學習姿態識別,取得了很好的效果。

Ojala等人[32]提出了一種可以描述圖像的局部空間結構的局部二值模式(Local Binary Patterns,LBP)。LBP描述子在紋理特征的分類中有很好的區分能力,運算簡單,計算效率高,并且不受旋轉和灰度的變化影響。為了在每個關節節點附近的局部區域提取深度外觀信息,Wang等人[33]提出了能夠提取交互物體的尺寸、形狀等信息的局部占有模型(Local Occupancy Patterns,LOP)。LOP是針對每幀圖片中每個骨骼關節節點周圍的局部三維空間進行特征提取工作。

4 姿態分類識別算法

分類器是姿態識別過程中最后也是最關鍵的一步,根據表征人體動作的特征向量進行訓練,從而給每一個被測對象進行不同類別的標記。根據選取的特征描述來選擇合適的姿態識別算法具有重要意義。在姿態分類識別中,主流的分類算法有動態時間規劃、隱馬爾可夫模型、支持向量機以及卷積神經網絡等方法。

4.1 動態時間規劃法

動態時間規劃(Dynamic Time Warping,DTW)最早應用于語音識別中,主要用于孤立詞的識別,在姿態識別中可以解決不同目標完成動作的時間長度不一的問題。DTW屬于模板匹配算法,通過給定距離矩陣,找到一條從左上角到右下角的路徑,以便路徑傳遞的元素值之和最小。

針對DTW算法在每次運行時都要規劃路徑,存在巨大的計算量和占用大量空間等問題,何劍彬等人[34]對DTW算法進行了改進,提出了一種新的全局路徑窗口,減少運算量且不降低正確率,但對于肢體遮擋問題具有局限性。針對動態時間規整在動作識別中存在時間結構突變、光照變化敏感等不足,方云錄等人[35]提出了一種改進的動作識別算法。該算法利用DTW對圖像序列抽樣形成的隨機時間規整反復進行隨機抽樣,提取序列數據的時間彈性TE特征,然后采用主成分分析(Principal Component Analysis,PCA)降維生成序列子空間,最后利用線性判別分析完成姿勢識別,不過對于運動姿態識別率不高。針對DTW算法在人體動作識別中的時效性問題,桑海峰等人[36]提出了一種快速動態時間彎曲距離算法,有效地解決了動作序列在時間軸上扭曲問題,并為了加快識別速度提出了下界函數和提前終止技術。但由于動作庫局限性,該算法只能識別自定義動作,在人機交互中存在一定局限性。

4.2 生成模型

隱馬爾可夫模型(Hidden Markov Model,HMM)是一種關于時序的概率模型,有兩個獨立的假設:一個是隨機過程假設,即每個隱含狀態序列發生與否只與前一個狀態有關聯;另一個是觀察狀態獨立假設,即觀察狀態的序列之間相互獨立,每個觀察狀態只與當前對應的隱含狀態有關系,與其他隱含狀態無關。針對傳統的基于混合高斯的隱馬爾可夫模型(GMM-HMM)的動作識別,楊世強等人[37]提出了基于深度置信網絡的隱馬爾可夫模型(DBN-HMM),由訓練好的深度置信網絡(Deep Belief Networks,DBN)模型結合GMM-HMM模型獲得的狀態轉移概率矩陣求出更準確的觀察概率,從而對動作序列進行識別,不過該方法對于不同動作魯棒性較差。

在假設選取的特征之間存在強獨立關系的情況下,樸素貝葉斯分類器(Naive Bayesian Classifier,NBC)是一種基于貝葉斯定理的簡單概率分類器。對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。陳平平等人[38]對傳統樸素貝葉斯算法進行了改進,通過數據分析方法對康復訓練動作進行分析,從而針對不同人群進行閾值計算,處理掉在閾值誤差范圍外的動作關節點信息,由此提高人體姿態的識別率,但是識別對象局限于中風患者,缺乏普遍性。

4.3 判別模型

與生成模型相比,判別模型不僅需要的樣本數量較少,且準確率也較高,大大節約了計算資源。由于不需要求解不同類別的條件概率,簡化了學習問題,但是當樣本數量較多時,收斂速度沒有生成模型快。

4.3.1 傳統分類器

隨機森林(Random Forest)是由一組相互獨立的決策樹所組成的組合分類器,預測結果是由每棵決策樹對預測值進行投票而決定的。隨機森林學習框架主要包括四部分:隨機選擇樣本,隨機選擇特征,構建決策樹,根據決策樹的投票情況進行分類。在原有基礎上,許多學者進行了創新改進,例如蔡軼珩等人[39]提出了一種多級隨機森林整合算法,其算法流程首先是采用排列組合思想對各分類結果進行兩兩求與運算,同時保留相同的分類點,去掉不同的分類點;然后考慮不同分類結果之間的差異性,針對第一階段的整合結果依次進行求或運算,最終可以得到更加準確的動作識別結果。該方法魯棒性好,但是對于遮擋情況的處理效果不好,實時性有待證明。

支持向量機(Support Vector Machine,SVM)是機器學習領域最常用的一種分類方法,它的目標是找到一個最大限度分離兩個類別的二分類超平面。因其在圖像分類方面具有良好的性能,支持向量機也是常用的姿態識別分類器。使用SVM進行姿態識別的文獻很多,例如Manzi等人[1]利用X-means算法提取關鍵位姿特征,經過自組織特征映射網絡優化訓練后采用多類SVM進行分類識別。該方法識別準確率高,但是不能識別數據集以外的未知動作。

4.3.2 卷積神經網絡

由于隨機森林和支持向量機等傳統分類算法對輸入的深度圖像有一定要求,無法對原始的圖像進行處理運算,因此卷積神經網絡(Convolutional Neural Networks,CNN)具有很明顯的優勢。卷積神經網絡是一種前饋型神經網絡,由于該網絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而在姿態識別領域也獲得到了廣泛應用。Mohamed等人[40]利用RGB-D相機提供的不同類型的視覺數據,分別采用SVM和CNN兩種方法進行了對比。SVM使用的是RGB-D相機提供的3D基礎骨骼特征,CNN使用的是2D深度圖像。最后在FLIC數據集和LSP數據集上的實驗結果表明,這兩種方法具有相當的性能和較高的精度,在深度圖像上應用時,基于CNN的方法略勝一籌。

針對提取圖像特征時不同圖像區域和提取出的不同抽象特征被平等對待的問題,趙勇等人[41]在CNN基礎上,根據圖像的全局特征和局部特征來計算關節的最終定位概率,從而進行動作識別。實驗結果表明,此算法收斂速度更快,在FLIC數據集和LSP數據集上測試的平均估計準確度也有所提升,但是此算法在人體各關節位置變化較快的情況下識別率并不高,具有一定的局限性。在趙勇研究的基礎上,韓貴金[42]提出了一種基于改進CNN和加權SVDD(Support Vector Data Description)算法的關節外觀模型,并將其用于人體姿態估計。該算法對各個部位的估計準確度都具有一定的提升,但是當人體關節存在遮擋時,識別率不高。

Eleni等人[43]將卷積神經網絡與長短期記憶網絡(Long Short-Term Memory,LSTM)相結合用于手勢識別,取得了不錯的效果。與之類似,張儒鵬等人[44]將Inception卷積神經網絡進行了優化,設計了用多個小卷積核替換一個大卷積核的O-Inception結構,并且與LSTM進行了結合,提出了一種基于OI-LSTM神經網絡的姿態識別模型。該模型在WISDM數據集和UCI數據集上都具有較高的識別率和魯棒性,但是由于測試數據集的差異性,該模型性能的普遍性有待進一步研究。

4.4 主流算法優缺點分析

對于姿態識別主流算法,不同的算法由于自身算法結構的差異性,以及特征提取的不同,所使用的范圍也具有一定的差異,不存在絕對完美的算法,使其能夠適用所有的分類問題,因此要使人體姿態識別效果達到相對較高的水平,根據不同的特征條件和適用范圍選取合適的算法具有重要意義。表1對本文提到的不同改進算法進行了總結。

表1 基于深度信息的人體姿態識別常用算法

5 存在的問題及展望

本文通過廣泛調研基于深度數據的人體姿態識別相關文獻,從深度圖像預處理、特征提取以及姿態分類識別算法三方面進行了總結概述。對于RGB-D攝像機采集到的深度圖存在空洞、噪點等問題,介紹了聯合雙邊濾波器、自適應迭代聯合三邊濾波器、基于馬爾可夫隨機場的深度升采樣等方法來進行空洞填充和圖像平滑;對描述人體姿態的不同特征進行了分類介紹,例如光流特征、MHI、3DHarris以及SIFT、HOG等特征并進行姿勢特征提??;從動態時間規劃法、隱馬爾可夫模型、支持向量機以及卷積神經網絡等方法介紹了目前主流的姿態識別分類算法。

基于深度信息的人體姿態識別具有很大的發展前景,但要使人體姿態識別方法走向實用化,還有以下問題亟需解決。

(1)多人姿態識別

目前大部分文獻研究的重點都是單人姿態識別,多人姿態識別要比單人姿態識別的難度大,在許多應用環境中,多人姿態識別也有較高的重要性。例如在課堂上對不同學生個體進行姿態識別和學習分析時,需要多人姿態識別技術,實時監測學生的學習情況。同時,多人姿態識別在道路交通安全方面也有很大的應用價值,通過多人姿態識別技術可以在道路監控中對行人動作進行檢測,及時反饋危險行為信息。因此,多人姿態識別方面需要進行更多的創新和提升,如何提高識別準確率使其能夠達到應用的標準將是未來研究的熱點。

(2)肢體遮擋問題

由于目前姿態識別算法對靜止物體的識別相對簡單,但是對于運動的人體就存在肢體遮擋問題。在人機交互領域,運動姿態的識別具有很大的應用前景。由于人體運動存在著復雜和不規范的問題,在使用RGB-D攝像機采集數據時,如果出現肢體遮擋情況,很容易影響識別結果的準確性,因此對肢體遮擋修復算法的研究具有重要作用。例如李昕迪等人[45]將人體運動結構簡化為骨架運動,通過計算骨骼長度范圍對人體關節點運動范圍進行約束分析,最后通過幾何原理修復了被遮擋關節點的位置信息。不過鄧益儂等人[46]提到人體動作具有時間連續性,姿態連續性信息可以對遮擋修復問題提供另一種解決思路。

對于復雜的人體姿態識別,肢體遮擋是一個常見的問題。目前對于骨骼信息的遮擋修復研究取得了很大的進步,但是由于不同的人在同一個姿態上的表現也會存在一定的差異性,需要研究更具有魯棒性的算法,從而提高人體姿態的識別率。

(3)頭部姿態和手部姿態識別

人體姿態包含頭部姿態和手部姿態,但是在識別過程中并沒有重點關注頭部和手部具體的動作。陳甜甜等人[47]對目前基于深度信息的手勢識別方法進行了總結,提出在特征選擇和復雜手勢方面都存在一些熱點問題有待研究。對于頭部姿態,梁令羽等人[48]將頭部姿態識別問題視為分類問題,提出了一種基于Bagging-SVM集成分類器來估計頭部姿態的算法,具有良好的識別效果。

如果姿態識別能夠細化到手勢識別和頭部姿態識別,將會對被識別者進行更詳細的信息分類,但是增加更多特征點會使算法識別速度變慢,識別準確率也會有所影響。因此如何將人體姿態識別與手勢識別進行融合,也是今后有待思考的問題。

(4)構建更精確的包含深度信息的人體姿態數據集

姿態識別算法的訓練精度跟所訓練的數據集息息相關,同一算法在不同數據集中表現情況不盡相同。目前網絡公布的人體姿態數據集各有千秋,常見的單人數據集有FLIC圖像集[49]、LSP圖像集[50]等,但是包含更詳細精確信息的數據集卻很少。由于缺少深度信息姿態數據集,基于深度信息的人體姿態識別算法模型的訓練效果和識別效果也有待驗證。因此,構建一個權威的更精確的人體姿態數據集對今后算法的比較研究具有重要意義。

(5)提高人體姿態識別的準確性、魯棒性和實時性

人體姿態識別技術如果要在日常生活中發揮作用,必須保證其準確性、魯棒性和實時性都達到較高的水平。目前存在的人體姿態識別方法具有多樣性,各具特色,而且對于單個算法的優化已經接近飽和狀態,很難實現更大的突破。在目前的研究中,往往根據不同算法的優缺點將算法進行融合,使得融合結果在姿態識別數據集中的表現均優于單個算法。因此,通過算法結合的方式來提高姿態識別的準確性、魯棒性和實時性將會成為今后研究的熱點。

猜你喜歡
空洞姿態人體
人體“修補匠”
人體冷知識(一)
鍛造過程中大截面塑料模具鋼中空洞缺陷的閉合行為
如何避免想象作文空洞無“精神”
攀爬的姿態
人體可笑堂
全新一代宋的新姿態
跑與走的姿態
奇妙的人體止咳點
空洞的眼神
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合