?

融合時序特征約束與聯合優化的點云3維人體姿態序列估計

2022-12-21 03:23廖聯軍鐘重陽張智恒胡磊張子豪夏時洪
中國圖象圖形學報 2022年12期
關鍵詞:深度圖姿態人體

廖聯軍,鐘重陽,張智恒,胡磊,張子豪,夏時洪*

1. 中國科學院計算技術研究所, 北京 100190; 2. 中國科學院大學,計算機科學與技術學院, 北京 100049;3. 北方工業大學信息學院, 北京 100144

0 引 言

3維人體姿態估計是計算機視覺中的一個基本問題和重要任務之一,有著非常廣泛的應用。在游戲互動領域,人體姿態估計進一步提升了人機交互的可能,為體感游戲等提供了技術基礎;在數字娛樂領域,人體姿態估計通過賦能電商行業,在虛擬試衣、數字主播等新興領域發揮著不可或缺的作用。

一般方法采用RGB圖像作為3維人體姿態估計的輸入。與RGB圖像相比,深度圖或點云作為3維人體姿態估計的輸入具有以下優勢:1)深度圖作為一種2D數據,能夠有效地表示3D的空間信息,從而使人體姿態估計結果具有尺度正確性;2)點云質量一般不隨環境光照的變化而變化,使點云具有更廣泛的應用前景,例如在不同光照條件下的室內增強現實;3)點云不包含人體紋理信息,可以在有效捕獲人體運動的同時保護個人隱私。

雖然3維人體姿態估計已經取得很大進展,但仍然存在一些挑戰。由于遮擋和自遮擋引起的模糊性,以及深度相機生成的點云帶有噪聲,使得3維人體姿態估計任務比較困難?,F有的基于深度圖像的方法主要集中在單幅圖像的姿態估計。由于缺乏時域平滑度的強制約束,現有方法在連續點云序列上可能會產生抖動偽影。

為解決上述問題,觀察到使用點云序列作為輸入有助于增強人體姿態預測的時間一致性,本文利用了點云序列的時序先驗知識可以得到更好的人體姿態估計結果。針對遮擋和自遮擋引起的模糊性造成的困難,考慮到遮擋及自遮擋在實際情況中一般不會一直存在,本文方法利用輸入點云序列提取供時序上的約束,可以使生成的結果更加合理。

時序的約束主要體現在兩方面。1)使用長短期記憶網絡(long short-term memory,LSTM),在特征層面上構建當前幀的特征與前序特征的關聯;2)引入一致性損失函數,約束各關節的速度變化,以緩解遮擋及自遮擋造成的估計困難。

人體姿態估計與運動預測密切相關,然而關于3維人體姿態估計與運動預測是否能相互促進,目前還鮮有研究。本文提出一種從點云序列估計3維人體姿態的方法,如圖1所示。該方法以深度圖序列中的點云作為輸入,估計3維人體姿態和預測后續人體運動。受基于單幀深度圖的算法框架(Zhang等,2020)的啟發,本文設計了一個以點云序列為輸入的兩階段人體姿態估計算法。首先,從深度圖中提取2維姿態信息,從而剔除背景和抽取姿態相關點云。然后,通過層次化網絡PointNet++(Qi 等,2017b)和長短期記憶(LSTM)層對姿態相關點云序列的時空特征進行編碼,并采用多任務網絡聯合求解人體姿態估計和運動預測問題。為了利用大量的更容易獲取的帶2D人體姿態標注的數據集,本文采用弱監督學習的方法,以點云序列作為輸入,由2維關節監督以減少模糊性。實驗結果表明,本文方法是有效的,在ITOP(invariant-top view dataset)和NTU-RGBD數據集上都能有效地達到先進的性能。

圖1 本文方法示意圖Fig.1 An illustration of our method

本文工作的主要貢獻如下:1)提出一種從序列點云估計3維人體姿態的方法。這是首次利用時間信息構建卷積神經網絡(convolutional neural networks,CNN)求解基于深度信息的3維人體姿態估計問題。與現有的先進方法相比,該方法能獲得更好、更平滑的人體姿態估計結果。2)對人體姿態估計任務和運動預測任務采用聯合訓練策略,并驗證了兩個任務之間可以相互促進。3)本文方法在ITOP和NTU-RGBD數據集上取得了先進的3維人體姿態估計性能,實驗從定性和定量兩方面驗證了這一點。

1 相關工作

1.1 3維人體姿態估計

當前方法主要采用生成式方法,先估計2維人體姿態,然后利用它估計3維人體姿態。具有代表性的工作(Martinez等,2017)使用高效的堆疊沙漏模型(Newell等,2016)估計2維人體姿態,然后用一組線性層將2維姿態提升到3維人體姿態。然而,該方法的性能依賴于2維姿態估計的魯棒性?;谏疃葓D的3維人體姿態估計,最新的方法大多基于深度圖的表示方式(Chang等,2018;Zhang等,2020)。Chang等人(2018)將深度圖視為點云,并將其轉換為3維體素網格,然后使用3維CNN估計3維人體姿態。然而,這種方法需要事先剔除背景點云。Zhang等人(2020)提出使用一種混合的2D/3D深度圖表示方法,并采用類生成式方法。首先估計2維人體姿態,利用它進行點云采樣,然后用神經網絡PointNet提取姿態內嵌特征,進而估計3維人體姿態。該方法對背景的變化具有很強的魯棒性,但其基于連續幀生成的結果可能會有抖動現象。Wang等人(2021)提出一個生成式深度學習網絡,工作重點在于通過循環神經網絡(recurrent neural network,RNN)生成不同的人體運動,同時可以對生成運動的軌跡、速度等進行控制。Li等人(2019)也采用兩階段方法進行3D人體姿態求解,與本文工作不同,該工作主要解決從彩色圖像估計3D人體姿態問題,其兩階段方法重點在于預估計和估計優化。Zhou等人(2020)提出一種用于3維姿態估計的深度人體姿態網絡,以單個深度圖的點云數據作為輸入,主要通過閾值的方式,從場景點云中獲取人體相關的點云,該方法存在的問題是適用的場景較為固定,一旦場景發生改變,設定的閾值往往不再有用。與本文方法相比,該方法在相同數據集上的平均準確率和均關節誤差等關鍵指標上的結果明顯較低。

基于視頻的3維人體姿態估計方法可以分為兩類。第1類(Dabral等,2017;Lee等,2018;Lin等,2017;Hossain和Little,2018)利用后續若干幀的時序信息使估計結果更加平滑。Lin等人(2017)提出一種多階段序列細化網絡估計3維人體姿態序列,先逐幀估計3維姿態,然后使用多級遞歸網絡對結果進行細化。Dabral等人(2017)使用全連接網絡優化粗略的輸入姿態。Hossain和Little(2018)使用時序一致的2D姿態估計3D姿態序列,網絡由帶有LSTM單元的序列到序列網絡(sequence-to-sequence network)組成,在訓練過程中利用時間約束對訓練結果進行平滑處理。Lee等人(2018)也使用LSTM單元,在第1個LSTM單元中創建3D人體姿態的種子關節,在其余LSTM單元中重建3D人體姿態。第2類(Dabral等,2017;Kanazawa等,2019;Pavllo等,2019;Hossain和Little,2018)是向前查看若干幀的方式使用時序信息,并從序列中提取時間相關特征。Kanazawa等人(2019)設計了一個半監督算法流程,從視頻中學習3D人體運動,利用2維人體姿態估計方法提取每幀特征,并將其與時間編碼器相結合,預測3維人體姿態和體形參數,但這種方法難于處理遮擋和多人交互問題。Pavllo等人(2019)提出一種有效的全卷積結構,利用時間卷積估計視頻中的3維人體姿態。

1.2 3維人體姿態預測

早期的研究使用傳統的機器學習方法如高斯混合模型(Min等,2009)和雙線性時空基模型(Akhter等,2012)來建模人體運動序列中當前時刻的前序運動和后序運動之間的關系。隨著深度神經網絡的發展,利用循環神經網絡(RNN)和LSTM等神經網絡的研究取得了進展(Bütepage等,2017;Fragkiadaki等,2015;Zhou等,2018)。Zhou等人(2018)提出一種稱為自動調節RNN的訓練機制,使用網絡輸出的結果和真值序列作為下一階段的輸入。Bütepage等人(2017)利用一個具有瓶頸的全連接網絡,基于給定的幀窗口預測未來姿態。

Zhang等人(2019)提出一種直接使用人體運動視頻作為輸入并預測人體未來運動的方法,逐幀提取姿態相關特征,并使用與Kanazawa等人(2019)的工作類似的時序編碼器。為了預測未來運動,在中間的隱空間上使用了自回歸模型。與Kanazawa等人(2019)的工作相比,本文在隱空間中也使用LSTM單元,不同的是本文方法使用深度圖序列代替彩色圖像序列進行姿態估計。

1.3 3維深度學習

近年來,對點云、網格模型等3維物體處理的3維深度學習的研究取得了很大進展,尤其是點云表示出了較高的效率和卓越性能。

基于點云的3維深度學習方法主要以點云作為輸入,可以從輸入點云坐標和其他如表面法向等信息中提取特征。這些方法最初是為點云分割或分類任務設計的(Li等,2018;Qi等,2017a,b),另有一些工作使用點云學習方法來完成目標檢測任務(Qi 等,2019;Zhou和Tuzel,2018)。Qi等人(2017b)提出一種端到端網絡PointNet,使用點坐標和曲面法向作為輸入,并使用多層感知機將其映射到更高維空間。但是,PointNet不能捕獲局部結構。其后續工作PointNet++(Qi等,2017b)中,進一步使用分區采樣模塊,并遞歸地將輸出反饋給該模塊。另外,Qi等人(2018)提出利用2維信息加速基于混合相機的3維檢測,通過減少網絡處理的點云量,獲得了較好的時間效率。

本文方法與現有方法的主要區別體現在兩方面。1)提出一個新的從點云序列估計3維人體姿態的方法,并提出姿態一致性損失函數來約束姿態估計結果更平滑;2)本文網絡遵循多任務框架,并使用聯合訓練策略來估計當前人體姿態和預測未來人體運動。

2 算法框架

本文提出一種兩階段的算法,求解從深度圖像或點云序列估計3維人體姿態的問題,如圖2所示。第1階段為點云提取階段,目的是從輸入的深度圖序列中提取姿態相關點云序列,通過2D關節獲得下采樣的姿態相關點云;第2階段為姿態編碼階段,進一步對時空信息進行編碼,提取姿態相關點云序列的時空特征,聯合學習3維人體姿態估計和運動預測任務,估計3維人體姿態序列。

圖2 3維人體姿態估計網絡Fig.2 Our 3D human pose estimation network

2.1 點云提取階段

點云提取階段主要目的是對網絡關注的點云進行重采樣。眾所周知,原始深度圖中含有大量的冗余點,這可能會增加計算量、降低估計精度。點云提取階段大致可分為兩部分,即2維姿態檢測和姿態相關點云抽取及其歸一化。

1)2維姿態估計。本文采用Zhang等人(2020)的方法獲得2維人體姿態。在訓練過程中,使用堆疊沙漏模型(Newell等,2016)作為2維姿態估計的網絡結構。損失函數定義為預測熱力圖與2維姿態生成的真值熱力圖之間的L2距離。

2)姿態相關點云提取及其規范化。估計的2維姿態可以用來指導姿態相關采樣點云的提取以恢復3維人體姿態。為了確保規范化后的序列點云尺度相同,所有點云必須基于固定邊界框執行點云規范化。逐幀處理深度圖檢測2維關節,裁剪檢測到的2維關節的邊界框,以2維根關節為中心提取N個局部塊。通過在2維邊界框內簡單地乘以深度相機的內參矩陣,獲得點云。然后,本文使用平均3維邊界框來規范點云序列。此過程具體為

(1)

2.2 姿態編碼階段

姿態編碼階段的目標是對姿態相關點云序列進行編碼,學習3維人體姿態。圖3顯示了姿態編碼階段的網絡結構,主要由姿態相關特征提取和時間信息編碼的LSTM單元兩部分組成。首先,將每一幀的采樣點云送入層次化網絡PointNet++提取姿態相關特征。然后,利用長短期記憶(LSTM)網絡對姿態相關特征進行時間特征建模、3維人體姿態估計和3維運動預測。圖3中展示了不同任務的損失函數,L3D、L2D、Lc和Lp分別表示3維關節損失、2維關節損失、一致性損失和運動預測損失。

圖3 姿態編碼階段的網絡架構Fig.3 The network architecture of our pose encode stage

2.2.1 網絡結構

2)時序信息處理。本文使用長短期記憶網絡(LSTM)在特征層面上構建當前幀的特征與前序特征的關聯。得到姿態相關特征后,在相鄰幀的特征之間加入遞歸連接,訓練LSTM模塊Fe:(φt-r,…,φt,…,φt+r)→qt學習高階時間依賴,其中,r是時間感受野的長度。由于本文的研究重點是姿態估計和姿態預測,所以使用t幀之前的序列數據來保證一致性。如圖3所示,提取連續幀的特征并將其反饋送入LSTM模塊。對于第1級LSTM,本文使用隨機生成的向量作為輸入狀態,對于后續LSTM模塊,傳遞當前特征作為下一級的隱藏狀態。為了預測最終的3維姿態,首先利用深度圖像對應的內參矩陣將所估計的2維關節q2d反投影到3維空間,計算出初始的3維姿態。然后在LSTM模塊的輸出端使用一個全連接層來學習初始姿態的偏移量,將其與初始3維姿態相加,得到最終的3維姿態。

具體的時序處理如圖4所示,采用LSTM模塊,利用短時隱變量和長時隱變量,在特征層面上構建當前幀的特征與前序特征的關聯。對于輸入的深度圖像序列,首先利用上文姿態相關特征提取階段所用的PointNet++網絡對深度圖像逐一進行特征提取,得到姿態相關的點云特征ft后,將其輸入到時序處理網絡LSTM中,LSTM可以看做是循環神經網絡RNN的改進版本,不僅可以提取序列的短時間關系,還能綜合序列的長時間依賴對輸出進行預測。以往的工作表明,LSTM網絡能夠處理網絡訓練時梯度消失的問題,從而更加便于模型的收斂。因此,對于基于深度圖的人體姿態序列估計及運動預測問題,LSTM網絡十分適合。如圖4所示,LSTM網絡模塊具有兩個隱變量ht和ct,其中,ht用來傳遞短時間的依賴,而ct則刻畫長時間的時序聯系。針對時刻t,通過PointNet++提取姿態相關點云特征將會穿越幾個“門”來計算出當前時刻的隱變量ht和ct,圖4中LSTM內部(綠色圓角矩形)帶有符號δ的3個操作從左至右分別表示輸入門、遺忘門和輸出門,各門的輸出分別用符號it、jt和ot表示,其計算為

(2)

式中,W表示網絡中待學習的參數矩陣,δ表示sigmoid激活函數??梢园l現,輸入門、遺忘門和輸出門的值都是結合了當前的點云特征ft以及前一幀的短時隱變量ht-1生成的。除了3個門值以外,還有一個用tanh函數來激活的記憶細胞gt,其計算方式類似,具體為

gt=tanh(Wigft+Whght-1)

(3)

有了這4個變量便可以計算出當前幀的隱狀態ht和ct。首先,長時特征ct計算為

ct=jt⊙ct-1+it⊙gt

(4)

式中,⊙表示哈達瑪積,即矩陣對應元素相乘。式(4)表示當前的長時隱變量是通過遺忘門值jt來遺忘一部分的過去特征ct-1,然后加上當前輸入的部分特征it得到的,同時輸入特征通過gt來選擇記憶。

得到當前時刻長時隱變量ct之后,便可計算當前的短時特征,同時也是輸出特征ht,具體為

ht=ot⊙tanh(ct)

(5)

當前時刻的LSTM隱變量ht和ct會傳遞給下一幀來維持時序上的關聯,以此保證所估計的姿態具有時序性,從而提升估計和預測的精度,而ht同時也作為當前幀的LSTM輸出特征來回歸當前的姿態,如圖4頂部所示。

圖4 時序處理模塊的網絡結構Fig.4 The network structure of timing processing module

2.2.2 損失函數

本文使用完全標記數據(ITOP數據集中的有效數據)和弱標記數據(ITOP數據集中的無效數據)訓練網絡模型。對于完全標記的數據,即具有3維姿態標簽的數據,使用3維關節損失L3D約束網絡生成的姿態與真值姿態保持一致,使用2D關節損失L2D約束生成的3D姿態的投影2D姿態逼近真值2D姿態。對于弱標記數據,僅使用2D關節損失L2D約束生成的3D姿態的投影2D姿態與真值2D姿態一致。除了這些單幀姿態約束外,使用了一致性損失Lc,使生成的運動序列連續、平滑。一致性損失項作用于完全標記數據和弱標記數據??偟木W絡損失函數為

L=Iλ3DL3D+λ2DL2D+λcLc

(6)

式中,I是激活3D關節損失項L3D的指示函數,常數λ3D、λ2D和λc為權值。

1)3D關節損失。3維關節損失L3D根據估計的關節位置與真值關節位置之間的歐氏距離來計算,具體為

(7)

式中,q*是真值3維人體姿態,q0是預測的初始姿態,Δq是初始姿態與當前姿態之間的預測偏移量。

2)2D關節損失。利用預測關節位置的2維投影位置與真值2維關節位置之間的歐氏距離計算2維關節損失L2D,定義為

(8)

3)一致性損失。一致性損失的核心思想是變化速度和加速度在短時間內有保持不變的傾向。因此,可以對一階和二階導數施加約束。一致性損失Lc由預測姿態與真值姿態的一階和二階導數之差計算,具體為

(9)

式中,第1項表示速度損失,第2項表示加速度。

2.3 運動預測

本文利用估計的人體姿態序列,通過學習預測模型來生成將來運動??梢詫⑦@個問題描述為一個序列建模問題,利用先前的姿態序列{qt-m,…,qt}估計將來人體運動{qt+1,…,qt+n}。

在實踐中,本文構建了從現有的時間感受野提取的特征{φt-m,…,φt}與隱藏空間中未來運動的特征Φt之間的映射,Φt是采用LSTM模塊Fp:(φt-m,…,φt)→Φt。然后,將特征向量Φt映射到運動偏移量ΔQt,n={δqt+1,…,δqt+n},ΔQ1,n是n個未來幀相對于初始姿態qt,0的運動偏移量,初始姿態qt,0是最近的具有全連接層的可用幀的姿態。預測的未來運動可通過疊加偏移量ΔQt,n到初始姿態qt,0獲得。

運動預測損失Lp可以通過預測關節位置和未來幀的真值關節位置之間的歐氏距離來計算,具體為

(10)

2.4 實現細節

本文采用兩階段訓練策略。第1階段只訓練2維姿態估計模型;第2階段聯合訓練姿態估計模型和運動預測模型。在第2階段,凍結預先訓練好的2維姿態估計模型的參數,只更新姿態估計模型和運動預測模型的網絡參數。為了保證當前估計姿態與未來人體運動之間的相關性和一致性,姿態估計模型和運動預測模型的LSTM模塊共享相同的參數。

觀察到本文使用的數據集中,人體姿態序列在相鄰幀中可以連續5幀以上保持穩定?;谶@一觀察,根據每個數據集的姿態穩定情況選擇時間感受野。在實驗中,將ITOP數據集中的時間感受野設置為13,并在5幀內預測未來運動。對于NTU-RGBD數據集,將時間感受野設置為13,并在25幀內預測未來運動。

3 實 驗

3.1 數據集和評估指標

實驗在ITOP數據集(Haque等,2016)和NTU-RGBD數據集(Liu等,2020;Shahroudy等,2016)上進行,本文工作在訓練中只使用了這兩種數據集。ITOP數據集構建目的就是用于基于深度圖的3維人體姿態估計問題,有超過40 000個訓練樣本和10 000個測試樣本,涵蓋15個日常動作。NTU-RGBD數據集主要用于動作識別問題,但包含基于深度圖和關節坐標的真值數據。NTU-RGBD數據集由800多萬幅深度圖組成,涵蓋120多種日?;顒?。然而,其3維姿態真值數據是由微軟的Kinect軟件開發工具包(Kinect software development kit)生成的,存在許多誤標記的人體關節。因此,本文手動選擇64 529個樣本進行訓練,17 383個樣本進行測試。與ITOP數據集相比,NTU-RGBD數據集多6個關節(包含幾個手部關節),并且由于骨骼的復雜性和動作的多樣性,在姿態估計和運動預測任務中帶來更大的挑戰性。

為了評估人體姿態估計方法的性能,實驗同時采用定性和定量的評價方法。定量評價主要參考Zhang等人(2020)的工作,采用兩類評價指標。第1類是姿態估計方法的總體精度,包括關鍵點正確率(percentage of correct keypoints, PCK)和平均精度均值(mean average precision, mAP)。PCK值是指在給定閾值條件下檢測到的關鍵點的百分比。mAP是所有關節PCK的平均值。第2類是平均關節誤差,即估計結果與真值之間的平均誤差。定性評價采用用戶調研的方法。具體來說,要求受試者比較本文預測的未來姿態和其他方法估計的連續姿態的質量。受試者根據預測姿態的質量,按1-5的等級打分,然后比較這些分數的平均值和標準差。

3.2 消融實驗與自我比較

為了研究網絡不同組成部分的影響,在ITOP數據集上對模型進行消融實驗,結果如圖5和表1所示。

圖5 消融實驗結果Fig.5 The results of ablation study((a) PCK by removing different terms in our method; (b) PCK result over different sequential length)

表1 消融實驗結果Table 1 The results of ablation study

1)弱監督學習的影響。為了評估弱監督學習對模型的影響,比較了用全標記數據訓練的模型(全監督學習)以及用全標記和弱標記數據訓練的模型(弱監督學習)的結果。結果如圖5(a)所示,全監督學習訓練的模型PCK值為87.55%,而弱監督學習訓練的模型PCK值為90.58%。弱監督學習方法將模型的性能提高了約3.03%。

此外,使用不同數量的完全標記數據和固定數量的弱標記數據訓練模型。如表2所示,用1/3全標記數據(約6 000個)和所有弱標記數據訓練的模型mAP值為90.04%,用一半全標記數據和所有弱標記數據訓練的模型mAP值為90.16%。實驗表明,弱監督學習方法利用少量的全標記數據也能取得很好的效果。

2)2D關節檢測的效果。為了評估2D關節檢測步驟的效果,移除網絡中2D檢測步驟,并在整個人體的粗略邊界盒上而不是各個關節的邊界盒上進行點云采樣和規范化。如圖5(a)所示,無2D關節檢測的PCK值比帶2D關節檢測的PCK值低4.24%。這些結果可以解釋為這樣一個事實,即估計的2D姿態可以引導網絡關注姿態信息更多的點云(Yao和Li,2010)。

表2 不同數量的完全標記數據和弱標記數據下的mAPTable 2 The mAP of our method with different amount of the fully labeled data and weakly labeled data

3)輸入3維點云序列的作用。為了驗證輸入點云序列的作用,設計了不同時間感受野大小的輸入點云序列實驗。如果將感受野設為1,就可得非序列點云的估計結果。如圖5(b)所示,當感受野設置為1時,PCK結果下降到88.57%的最低值,隨著感受野從1增加到5,PCK值增加,感受野大于13時,PCK值逐漸穩定。因此,實驗中感受野選為13,以在模型質量與模型大小之間取得平衡。

4)一致性損失的影響。為了評估一致性損失的影響,比較了去除一致性損失后的實驗結果。從實驗結果可以觀察到一致性損失提高了預測的人體姿態序列的平滑度。

5)未來運動預測的結果。進行實驗驗證本文預測方法的魯棒性。如表1所示,在10 cm閾值下,平均精度均值mAP為76.69%,達到了高質量的運動預測性能。定性實驗結果如圖6所示。

6)人體姿態估計和運動預測的多任務訓練。

圖6 運動預測的定性結果Fig.6 The qualitative results of our motion prediction((a) ground truth human pose sequences;(b) our predicted motion sequences)

為了驗證聯合訓練方法的有效性,針對姿態估計和運動預測進行單任務模型訓練實驗。如表1所示,聯合訓練法的平均精度均值mAP值高于單任務訓練方法。因此,聯合訓練策略有助于提高整體性能。

3.3 與現有方法的比較

在ITOP和NTU-RGBD數據集上,將本文方法與其他最新方法如V2V-PoseNet(voxel-to-voxel prediction network)(Chang等,2018)、視點不變方法(viewpoint invariant method,VI)(Haque等,2016)、推理嵌入(inference embedded)方法(Wang等,2016)和弱監督對抗學習方法(weakly supervised adversarial learning methods,WSM)(Zhang等,2020)進行比較,結果如表3、表4和圖7所示。

表3 不同方法在ITOP數據集上的mAP值比較Table 3 Comparison of joint mAP of different methods on ITOP dataset /%

表4 不同方法在NTU-RGBD數據集上的mAP值比較Table 4 Comparison of joint mAP of different methods on NTU-RGBD dataset /%

在ITOP數據集上,設閾值為10 cm,本文方法的mAP值比WSM、VI和推理嵌入方法分別高0.99%、13.18%和17.96%,平均關節誤差比VI、推斷嵌入方法、V2VPoseNet和WSM分別低3.33 cm、5.17 cm、1.67 cm和0.67 cm。實驗結果表明,本文方法優于其他最新方法。性能提高可能是由于序列數據作為輸入和運動參數(如速度和加速度)的約束。首先,通過LSTM單元對序列數據進行編碼,使模型預測也能有效對序列數據進行建模,得到更平滑的預測,提高估計性能。其次,運動參數可以消除隨機采樣引起的抖動,對關節坐標進行直接監督。

在NTU-RGBD數據集上,閾值設為10 cm,本文方法的mAP值比Zhang等人(2020)的WSM高7.03%。

圖7為實驗結果的定量比較。從圖7(a)可以看出,本文方法的PCK值高于其他方法。圖7(b)為不同方法的關節誤差對比,顯然,本文方法各關節誤差明顯低于其他方法。圖8為關節軌跡的定性比較,給出了關節軌跡真值、本文方法和WSM方法的實驗結果??梢钥闯?,本文方法可以獲得更穩定的關節軌跡,比WSM方法更接近真值。圖9為本文方法在ITOP和NTU-RGBD數據集上的定性評估結果。

圖7 不同方法實驗結果的定量比較Fig.7 Comparison of quantitative results of different methods((a) PCK value of different methods; (b) joint error of different methods)

圖8 運動序列中左肘關節軌跡的比較Fig.8 Comparison of trajectories of the left elbow joint in a motion sequence

圖9 本文方法在ITOP和NTU-RGBD數據集上的定性評估結果Fig.9 Qualitative evaluation results of our method on ITOP dataset and NTU-RGBD dataset((a) ITOP dataset;(b) NTU-RGBD dataset)

3.4 用戶調研

為了評估3維人體姿態估計結果和預測結果的質量,特別是結果的逼真度和平滑度,采用用戶調研方法。邀請40名不同背景、職業和性別的用戶,對本文方法的估計姿態和預測運動結果分別與真值姿態和WSM(Zhang等,2020)生成的結果進行比較。對于每一個用戶,隨機抽取5個運動序列,對于每個運動序列,以隨機順序顯示真值姿態、本文方法的結果和WSM的結果。要求用戶提供運動逼真程度的分值。分值從1(表示“最不逼真”)到5(表示“最逼真”)。然后計算各運動序列的平均得分和標準差。用戶調研結果如圖10所示。用戶調研表明,本文方法生成的運動比WSM更逼真。即使真值有偽影,本文方法也可以產生合理的結果。用戶調研也驗證了序列信息的約束可以提高模型的整體性能。實驗要求用戶對運動預測結果的逼真度進行評分,如圖10所示,本文預測方法能夠在給定先前運動序列的情況下產生合理的結果。

圖10 用戶調研結果Fig.10 Comparison with user study

4 結 論

本文提出了一種從序列點云獲得高保真3維人體姿態的有效方法。采用弱監督學習方法,能夠使用更易于獲得的訓練數據,并且該模型對訓練數據的不同層級標注具有魯棒性。實驗表明,本文提出的基于人體姿態估計的3維人體運動預測方法在兩個真值數據集上都能達到先進的性能。本文方法可以應用于需要高質量人體姿態的場景,如運動重定向和虛擬試衣。本文工作將促進對以序列數據作為輸入的相關研究。

本文重點探索了針對相同流形空間上的特征向量,同時進行人體姿態估計與人體運動預測兩個任務的可能性。實驗表明,兩個任務經過聯合優化求解,有互相促進的作用。該方法不僅驗證了本文的推測,還給后續的人體姿態估計任務,提供了提高模型精度的新思路。

本文工作雖然取得了令人鼓舞的成果,但還有待進一步完善。由于使用數據集的局限性,本文運動預測模塊主要集中在站立時的人體運動。所以當預測像跑步這樣的快速運動時,性能變化并不是那么明顯。如何有效處理各種類型的運動預測是今后的工作。

猜你喜歡
深度圖姿態人體
人體“修補匠”
人體冷知識(一)
一種基于WMF-ACA的深度圖像修復算法
攀爬的姿態
人體可笑堂
基于深度圖的3D-HEVC魯棒視頻水印算法
全新一代宋的新姿態
跑與走的姿態
奇妙的人體止咳點
一種基于局部直方圖匹配的深度編碼濾波算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合