?

基于深度學習的人體運動生成方法綜述

2023-11-29 11:26北方工業大學信息學院童立靖徐光亞
數字技術與應用 2023年11期
關鍵詞:卷積人體神經網絡

北方工業大學信息學院 童立靖 徐光亞

在計算機圖形學與計算機視覺的眾多研究方向中,人體運動生成技術在電影特效與游戲制作、物理仿真與醫療運動、虛擬現實與增強現實等領域都得到了廣泛應用。在人體運動生成技術中,所研究的對象分為二維模型和三維模型。二維模型在數據層面表現為通過“單視角-正視圖”所觀察到的數據,而三維模型則需要通過多視角去獲取觀察到的數據,通過推理計算出不同視角下的圖像,最后將多個視角的圖像結合為三維立體模型[1]。本文針對人體運動生成技術,選取三維人體模型作為研究對象,結合深度學習的方法展開綜述,從技術路線出發,整理了近些年應用于人體運動生成技術的深度學習網絡,將人體運動生成技術分為以下五類:基于卷積神經網絡(CNN)生成、基于循環網絡(RNN)生成、基于生成型網絡生成、基于深度強化學習(DRL)生成以及基于多技術混合方法生成[2]。

本綜述的主要貢獻總結為以下三點:(1)詳細介紹了五類人體運動生成技術的原理以及目前所面臨的挑戰;(2)從五類方法中選取有代表性的算法,對其利弊進行分析;(3)針對現有的技術,總結并展望該技術未來的發展方向。

1 深度學習相關模型介紹

人工神經網絡(Artificial Neural Network,ANN)由大量的人工神經元以網絡的形式相互連接組成,通常包含輸入層、隱藏層和輸出層。ANN 通過對大量樣本進行學習和訓練來調整權重和模型參數,從而實現對輸入數據的分類、預測、識別等任務。深度神經網絡(Deep Neural Network,DNN)是人工神經網絡模型中的一種,具有多個隱藏層,與淺層神經網絡相比,深度神經網絡能夠處理更加復雜的任務和數據,并具有更高的準確度。深度神經網絡包括以下幾種主流網絡:卷積神經網絡(CNN)、循環神經網絡(RNN)、生成型網絡、深度強化學習網絡(DRL)。

(1)卷積神經網絡(CNN)。當使用DNN 模型處理輸入較大的數據時,經過幾輪迭代會導致參數量激增,產生的特征維度會遠超輸入的樣本維度,此時會出現“維度災難”的問題。卷積神經網絡的出現,引入了卷積、池化等操作,實現了局部連接、權值共享,很好地解決了參數膨脹的情況。CNN 相比DNN 減少了參數量,大大降低了訓練難度,因此更適合于復雜數據的計算。在人體運動生成研究領域,基于卷積神經網絡的運動生成方法可以更有效地提取骨骼數據的特征,實現對三維運動模型的重構。CNN 也有自身的不足之處,雖然它在運算能力以及特征檢測能力上相比DNN 有所增加,但在特征理解上卻缺乏連貫性的認知,缺少對運動特征的“記憶”功能。為了突出神經網絡“記憶”的特點,RNN 由此誕生。

(2)循環神經網絡(RNN)。該網絡中隱藏層的輸入不僅包括來自輸入層的數據,還包括來自上一個隱藏層的數據,通過隱藏層的自回歸連接實現歷史信息在網絡中的傳遞和學習,使網絡具有“記憶”功能,這使得RNN 在處理時序相關的問題時具有很好的效果。因此,使用RNN 網絡進行人體運動生成任務時,該網絡可以很好地挖掘數據與時間以及數據之間的關聯,減少了網絡中的參數量,提高模型的訓練效率。但相應的,RNN在處理一些較長序列時,會因為難以捕捉序列間長期的依賴關系,導致出現梯度消失或者梯度爆炸問題。

(3)生成型網絡。生成型網絡是一種可用于生成新數據的網絡,這些數據與訓練集中的數據相似。本文選取生成型網絡中較常見的變分自編碼器(VAE)和生成對抗網絡(GAN)進行介紹。其中VAE 是神經網絡與概率模型相結合的一種生成模型,GAN 一般是由兩個神經網絡模型訓練而成的一種生成模型。該模型用于人體運動生成,其優點在于可以提高模型的泛化能力,缺點在于模型有時可能無法學習到運動數據的分布,并且生成的運動質量不會很高。

(4)深度強化學習網絡(DRL)。深度強化學習是深度學習與強化學習的結合。強化學習是一種機器學習技術,旨在通過讓智能體與環境進行交互,學習如何在復雜的動態環境中采取最優行動來達到某個目標。在基于DRL 的人體運動生成技術中,生成的虛擬人模型通過觀察環境的狀態并采取行動來與環境進行交互,從而接收到相應的獎勵或懲罰,這些獎勵或懲罰將反饋給深度學習網絡,通過深度學習網絡幫助虛擬人模型學習如何在環境中進行操作。雖然該技術可以很好地使模型實現與環境的交互,但是訓練過程需要耗費大量的時間,且訓練易出現不穩定情況。

2 深度學習在運動生成中的應用

運動生成包括特征提取、運動重構、運動合成、運動修復以及運動交互控制等任務。本章將對上述深度學習模型在不同人體運動生成任務中解決的相關問題進行展開描述和介紹。

2.1 基于CNN 的運動生成

CNN 是眾多深度學習網絡中應用范圍最廣,適用性最強的一種網絡,可應用的場景有:虛擬人模型與環境交互、障礙規避和運動約束等。近些年,有關基于CNN人體運動生成技術的成果有:Holden 等人[3]較早地提出了使用卷積神經網絡學習運動流形,以便更好地從動作捕捉數據中獲取運動特征。本文中論述了使用三層卷積神經網絡結構可以較好完成修復填補運動數據、運動插值等操作,但該方法在處理虛擬人模型關節約束以及交互控制方面還需進一步完善;之后,Holden 團隊[4]在原有的基礎上,優化提出了基于CNN 的運動合成與編輯方法,通過卷積層和反卷積層構造的自編碼器獲取運動流形,在通過運動流形生成運動時,引入運動參數約束運動風格,實現了對虛擬人模型的交互控制功能。此外,該方法還實現了通過編輯運動流形轉換虛擬人模型運動風格的功能。近幾年有關運動預測研究也較為熱門,其中Tang 等人[5]提出一種分層靜態-動態編碼器-解碼器結構,該結構結合了殘差CNN 技術,其中動態模型用于預測人體的動態變化,靜態模型記錄最新運動幀信息,兩分支共同作用于虛擬人模型運動的生成和預測。

2.2 基于RNN 的運動生成

RNN 的優勢在于對序列數據的自然理解以及記憶。有關基于RNN 的運動生成技術,較為經典的研究有:

Holden 等人[6]提出的一種PFNN 方法,用于對虛擬人模型進行建模生成以及運動的實時控制。該方法使用相位函數記錄運動狀態,使用RNN 網絡處理運動信息、更新運動數據,最終將運動數據處理后生成自然可控制的虛擬人運動。Emre 等人[7]提出一種時空轉換網絡用于進行運動預測,引入雙重自注意力機制,將數據處理模塊RNN 模塊分為時間注意力模塊以及空間注意力模塊,前者通過查看同一關節的過去實例來更新關節信息,后者關注當前時間步長中的所有關節,如此可允許模型直接訪問當前和過去信息,捕獲空間結構與時間的依賴關系,最終通過輸入到輸出的殘差連接來估計下一個運動姿態。Zhou等人[8]研究出一種用于三維運動合成的層次學習循環神經網絡(HL-RNN)模型。該模型旨在通過對運動序列的建模來生成自然流暢的三維運動。模型包括兩個層次:高層次和低層次。高層次模型用于學習動作的整體結構,低層次模型用于學習動作的微調細節。通過組合這兩個模型,HL-RNN 可以生成更加逼真的三維運動序列。

2.3 基于生成型網絡的運動生成

常見的生成模型包括:VAE(變分自動編碼器)以及GAN(生成對抗網絡)。結合VAE 的運動生成技術,近些年的相關成果如下:Ling 等人[9]提出的一種使用 Motion VAEs 的角色控制方法,采用了變分自編碼器的思想,網絡的輸入為相鄰的兩幀運動數據Pt和Pt+1,用Pt生成的潛在空間重構Pt+1,該過程用來訓練網絡。從訓練好的網絡隱空間層采樣,再通過解碼器進行連續自回歸預測,即可生成逼真的人類奔跑動作。Bie 等人[10]提出一種HiT-DVAE 方法,將人體骨架數據表示為一個多層次的結構,通過層級Transformer 對其進行建模,以捕捉不同層次的語義信息。同時,作者還提出了一種動態變分自編碼器(DVAE)來對運動序列進行建模,使得模型能夠對噪聲和隨機性更加具有魯棒性。

GAN 網絡近些年憑借著迅速的發展趨勢,在運動生成技術方面也得到了學者們的廣泛關注。有關GAN 的相關研究成果如下:Ruben 等人[11]提出了一種基于GAN 的層次式預測方法,可以生成逼真的長期運動軌跡。該方法通過學習輸入序列中不同的運動階段,并將它們作為生成器網絡的輸入,生成具有時序一致性的未來運動。Chopin等人[12]提出了一種Manifold-Aware GAN 的雙流生成器模型,用于三維骨架的預測。其中一個流模型用于生成動作序列,另一個流模型用于生成對應的姿勢序列。這種雙流生成器網絡的設計有助于學習到更加豐富和準確的人體骨骼動作表示,從而生成更加自然和連貫的動作序列。

2.4 基于DRL 的運動生成

自從深度強化學習這個概念被提出之后,研究學者們便開始研究,并試圖將該技術應用到實際工作中。DeepMind 公司于2013 年開創性地提出了深度Q 網絡算法(Deep Q-network,DQN),將卷積網絡同Q-Learning 算法相結合,通過CNN 強大的計算能力,將視頻幀作為輸入,計算出每幀的動作值函數,智能體通過值選擇相應動作,最終掌握從圖像中學習信息,自主玩游戲的能力。之后的三年內,DeepMind 公司在視頻游戲以及機器博弈領域再次獲取了成果。再之后,深度強化學習進入了迅速發展的階段,眾多學者在前人的基礎上創新迭代,獲取了眾多成果。目前,深度強化學習在算法上可分為三類:基于值函數、基于策略梯度、基于搜索與監督。如表1 所示整合了有關深度強化學習的經典算法。

表1 深度強化學習相關方法Tab.1 Deep reinforcement learning related methods

2.5 基于多技術混合的運動生成方法

在當今的學術研究中,學者們在選擇研究對象時,往往會使用多模型融合的方式。將深度學習模型與其他模型進行融合,可以發揮各自的優勢,從而更好地實現對虛擬人模型的運動生成。將基于RNN 和基于GAN 網絡的方法相結合,可以使用GAN 在學習關鍵幀的動作同時捕捉關鍵幀之間的關聯,提高運動模型的學習能力。引用[13]提出了一種使RNN 和對抗訓練相結合的方法來模擬、生成和控制人類運動的新技術。該模型的基本思路是將運動軌跡分解成基于關節的軌跡和全局運動軌跡,再分別使用RNN 進行建模,最終生成連續的模型運動。將基于動力學和基于深度強化學習的方法相結合,既可以借助物理仿真提高運動生成的真實性,又可以實現對模型的實時控制。學者TAE 等人[14]提出一種基于強化學習的質心動力學控制方法,能夠快速、靈活地控制多足機器人的運動。該方法通過使用強化學習算法,學習機器人在不同的運動狀態下的質心動力學模型,然后利用學習到的質心動力學模型,結合控制策略,實現虛擬人模型的運動控制。

2.6 現有方法的比較和分析

本章列舉了五類基于深度學習模型的運動生成技術應用于不同任務的具體方案,本節總結整理出上述運動生成方法針對不同場景的啟發式分析,如表2 所示。不同方法在網絡結構上存在差異,所適用場景也不相同。從場景功能上看,DNN 分化出的網絡在運動過渡上大部分可以實現可控,這表明一般的深度學習模型在進行運動生成時可以保證運動間的平滑性。從深度學習種類來看,卷積神經網絡憑借著優秀的計算和數據處理能力,可以靈活適用于各個場景,因此卷積網絡常作為數據處理模塊,應用于復雜神經網絡結構中;深度強化學習相比其他種類網絡所適用場景相對較少,但在交互控制方面,深度強化學習具備很好的優勢;基于多技術混合的運動生成方法可以很好地綜合其他模型的優點,因此可以適應更多的場景和任務。如圖1 所示以時間軸的形式對基于深度學習的運動生成技術的發展歷程進行展示。

圖1 基于深度學習的運動生成技術的發展歷程Fig. 1 Development of deep learning-based motion generation techniques

表2 不同運動生成方法適用場景分析Tab.2 Analysis of applicable scenarios of different motion generation methods

3 總結與展望

本文針對五類常見的結合深度學習的運動生成技術,分別進行了論述。其中前四類選取了深度學習中較為經典的模型進行展開,分析了各模型的特點及優勢,最后一類選取了深度學習的多技術混合模型,通過模型組合實現了各技術間的優勢互補。同時,針對五類方法分別列舉了研究成果進行佐證。綜合近年來的相關文獻,針對目前的技術而言,對未來的展望可概括為以下幾點:

(1)從數據源出發,在保證現有數據質量的情況下,從單位數據蘊含數據量以及數據數量兩方面擴充數據規模。增加單體數據蘊含數據量需要將原有的數據特征進行細化,捕捉更加細微的人體變化,使單個數據所包含的數據量更加豐富;增加數據量意味著數據的充裕,因此對模型處理數據的效率有了更高的要求。

(2)從模型出發,提高模型對場景的適應能力以及泛化能力。當前大部分運動生成技術仍是基于圖像或者運動信息文件展開的,雖然學者們在基于視頻序列的技術上也產出了一些研究成果,但在對視頻序列或一些自然場景下的圖片進行數據處理時,仍需考慮復雜環境以及光照明暗程度等因素對數據采集以及數據訓練的影響。因此,優化模型的泛化能力,提升模型的兼容性,可為未來運動生成技術的發展引入新的可能性。

(3)從適用性出發,在保證模型功能正常和性能穩定的前提下,將模型進行恰當的融合,保留合并各個分模型的優勢到總模型上,嘗試創新出結構更高級以及性能更優秀的新型深度學習模型。

(4)從發展趨勢出發,人們更希望將有關基于深度學習的運動生成技術運用到實際應用中去。技術會帶動產業發展,同時產業發展也會使技術得到更好的迭代,對相關產業進行優化更新,提高產業技術水平,相信基于深度學習模型的運動生成技術會有更好的明天。

猜你喜歡
卷積人體神經網絡
人體“修補匠”
人體冷知識(一)
基于3D-Winograd的快速卷積算法設計及FPGA實現
排便順暢,人體無毒一身輕
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
奇妙的人體止咳點
基于傅里葉域卷積表示的目標跟蹤算法
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合