?

基于沙漏注意力高分辨率網絡的人體姿態評估實驗

2024-04-18 03:50張曉光程小舟
實驗室研究與探索 2024年1期
關鍵詞:沙漏高分辨率姿態

云 霄, 褚 菲, 張曉光, 程小舟

(中國礦業大學信息與控制工程學院,江蘇徐州 221116)

0 引 言

人體姿態評估旨在對視頻中或者圖片中的人體行為進行檢測并識別,可以作為“數字信號處理”“數字圖像處理”“嵌入式系統原理及應用”課程中的典型案例進行實踐教學,對提高學生學習興趣和專業熱情的培養至關重要。人體姿態評估的傳統方法需要人工選擇特征進行提取,在大規模姿態評估任務中需耗費人力資源,識別準確率也不高。目前,基于深度學習的人體姿態評估算法被相繼提出,常用的方法有雙流網絡和3D卷積神經網絡。

雙流網絡結構概念由Simonyan等[1]首次提出,該方法首先利用光流幀將視頻分解為時空分量,以學習場景對象的外觀和運動的空間、時間信息。Lin 等[2]提出時序移位模塊實現了視頻序列的時序關系捕捉。Zhang等[3]引入卷積注意力模塊,著重關注視頻圖像中的局部細節信息和空間的時序特征表征能力。但雙流網絡計算成本高、速度慢,且不能對長時間視頻建模;3D 卷積神經網絡法運算速度快,在2D 卷積網絡基礎上增加了捕獲相鄰幀信息的時間維度關聯,并進一步開發模型正則化和組合方案提高模型性能[4]。針對卷積神經網絡產生過擬合問題,通過引入Dropout方法[5]抑制部分深度神經網絡提取的特征參數,以避免巨大參數量使模型過度擬合訓練。為了進一步解決過擬合導致部分有效特征失活問題,Zunino 等[6]提出了一種偏向于選擇的方案,使得不該失活的有效特征得以保留。Peng等[7]提出一種3D最大殘余特征圖卷積網絡,解決了卷積計算導致的網格退化和梯度消失問題。在普通的卷積操作基礎上,圖卷積神經網絡關注到人體骨骼非歐式特性數據之間的拓撲結構,根據相鄰關節點以及非相鄰關節點之間的關系,捕獲人體姿態特征作為圖數據,實現人體姿態評估。Yan 等[8]提出時空圖卷積(Spatial Temporal GCN,ST-GCN)模型將骨骼數據點從時間和空間兩個維度上構建了完整的圖結構。Liu等[9]在ST-GCN 的基礎上提出雙流網絡框架,將人體骨骼轉換為時空圖和骨架姿態圖像卷積后的特征進行融合,從動作的振幅和方向兩個方面對動作中的時間信息進行建模,解決了ST-GCN 中孤立時間信息的缺點。Zhang 等[10]用端到端語義引導神經網絡用于基于骨骼的姿態評估,顯式地引入了高級語義,將卷積神經網絡與圖卷積神經網絡結合,在模型規模和識別精度上達到了平衡。黃瀚[11]提取圖像中的多層時空語義特征,使用三胞胎注意力機制,提高復雜動作關鍵信息的提取能力和判斷準確性。Sun等[12]建立兩個獨立的跨多分辨率視覺表示子網絡,反復融合由高分辨率到低分辨率子網絡生成的表示,從而生成可靠的高分辨率表示。

然而,在由低分辨率至高分辨率的特征提取過程中,盡管在高分辨率網絡的不同分支間添加了豐富的信息交互單元,但是作為各自分支上的主流信息并沒有經過由高到低的信息聚合過程。本實驗設計了基于沙漏注意力高分辨率網絡的人體姿態評估方法,對高分辨率特征補充由高到低的特征聚合過程。然后設計了特征回傳模塊,將任務層輸出的熱力圖重新映射到和該階段輸出相同尺寸的特征圖,上階段網絡所學習到的骨架點相互關系回傳至下階段網絡進行相互監督學習。最后設計了多階段監督算法,用融合中繼監督和自蒸餾的方式實現高分辨率網絡的監督訓練。與經典方法在標準數據集上完成人體姿態評估對比實驗,并在硬件設備上進行了真實場景現場實驗。

1 人體姿態評估實驗

1.1 整體設計框架

本實驗設計算法框架如圖1 所示,首先,圖像輸入STEM模塊將尺寸轉換為能夠輸入主網絡的特征圖尺寸,然后經過4 層批量歸一化(Batch Normalization,BN)層對圖像進行歸一化處理,以將網絡輸出控制在一定范圍,避免在學習過程中梯度過小或權值更新值太大,防止梯度消失和梯度爆炸問題,最后通過基于沙漏特征提取的骨干網絡、特征回傳模塊以及多階段監督算法三部分模塊,完成人體姿態評估算法的實驗過程。

1.2 沙漏注意力特征提取

在姿態評估網絡框架中,由低分辨率至高分辨率是常用的特征提取手段。在高分辨率網絡之前,人們往往將全部特征都進行先下采樣后上采樣的過程。在高分辨率網絡中,盡管在不同分支間添加了豐富的信息交互單元,但是作為各自分支上的主流信息并沒有經過由高到低的信息聚合過程。因此,本文設計了沙漏注意力特征提取算法對高分辨率特征補充由高到低的特征聚合過程。由圖1 可見,每一個小階段包含4個基本特征提取單元模塊(Basicblock,BB),其中本設計所提的沙漏注意力特征模塊(Attention Hourglass Module,AHM)連接在4 個BB 模塊的中間,在不同尺寸的分支上分別使用不同規格的沙漏模塊,即最高層分支使用的沙漏模塊對特征圖尺寸的下降倍數最多,每一個分支的沙漏都會將特征圖尺寸下降至第4 個分支的尺寸然后再進行恢復。

本設計所提的沙漏注意力特征模塊是在沙漏特征提取模型[13]的基礎上針對1/4、1/8、1/16 三個分辨率分支設計的3 種沙漏模塊,可以分別對分辨率進行8倍、4 倍、2 倍的壓縮過程,使得各分辨率所有特征均完全經歷上下采樣過程。3 種沙漏模塊的具體參數如表1 所示。沙漏特征提取模型[13]包含降維、下采樣、上采樣、歸一化四部分構成,如圖2 所示。在下采樣部分,使用步長為2 的3 ×3 卷積同時減少特征維度與特征圖尺寸;在上采樣部分,使用反卷積增大特征圖尺寸,但是繼續縮減特征維度。此外,在上下采樣相同尺寸特征圖之間添加了跳躍連接進行空間特征補充。最終,在沙漏末端使用1 ×1 卷積將特征維度降至1,采用sigmoid 激活函數將特征圖轉化成注意力掩碼。此時如果將注意力掩碼加權至輸入特征圖,則類似全局注意力機制,同時,特征維度與特征尺寸的下降也必將帶來信息的大量損失。為了緩解這種狀況,對加權方式進行了放縮操作,輸入定義為fin,輸出fout表示為

表1 沙漏模塊參數

圖2 沙漏特征提取模塊

式中:μ表示放縮比例;h(·)表示沙漏特征提取模塊;θ表示網絡可學習參數。

1.3 自蒸餾特征回傳

在多階段人體姿態評估網絡中,每個階段經任務層輸出的熱力圖在經過監督后會重新映射到和該階段輸出相同尺寸的特征圖,兩者逐元素相加后作為下階段輸入。于是,上階段網絡所學習到的骨架點相互關系被下階段網絡利用?;谏鲜霾僮?,本實驗設計了監督后的特征回傳模塊(Feature Back Module,FBM)如圖3 所示。

圖3 監督后的特征回傳模塊

則第i+1 個模塊的輸入

1.4 多階段監督算法

高分辨率網絡根據網絡分支數量的不同定義網絡所處的階段。假如此時網絡處于3 分支深度,則認為網絡處于stage3。本實驗將并行分支和信息融合單元合稱為一個模塊,則4 個階段分別包含1,1,4,3 個模塊,以stagei_j表示第i個stage的第j個模塊。盡管高分辨率網絡使用端到端訓練達到了不錯的效果,但是在如此深的網絡中,難免存在梯度下降的問題。此外,面對噪聲數據,傳統的監督方式不僅抗噪能力弱,網絡收斂效果也差強人意。因此本實驗設計了多階段監督(Multi-stage Supervision,MSS)算法,用融合中繼監督和自蒸餾的方式實現高分辨率網絡的監督訓練。中繼監督損失和自蒸餾損失都采用均方損失函數計算為

式中:K表示第k類骨架點;S表示監督標簽;P表示推理結果。

本實驗所提多階段監督算法框架如圖4 所示,將stage4_1 和stage4_2 兩個模塊的輸出特征通過相同的任務層輸出骨架點熱力圖,與訓練數據的真實標簽計算損失,中間輸出和網絡末端stage4_3 模塊的輸出使用相同的真實熱力圖GT作為監督。紅線表示中繼監督;綠線表示自蒸餾監督。定義stage4 的3 個階段的預測熱力圖P=(P1,P2,P3),訓練數據的真實熱力圖定義為G,則此時中繼監督的損失

圖4 多階段監督算法框架

自蒸餾是知識蒸餾的一種特殊方式,將淺層網絡定義為學生網絡,整體網絡定義為教師網絡,學生網絡將接受教師網絡的軟標簽監督。本實驗將stage4_1 和stage4_2 定義為學生網絡1 和2,整體網絡定義為教師網絡。則此時自蒸餾損失

真實標簽作為網絡的學習目標,具有無可替代的作用;而軟標簽作為額外的監督信號,可以為學生模型輸出提供真實標簽所不包含的負樣本信息。為平衡兩種損失,本實驗采用參數α使網絡能夠更好地利用這兩種監督信號,網絡總體損失Ltotal為

2 實驗結果與分析

2.1 數據集與實驗指標

本實驗選擇在MPII數據集進行驗證。MPII數據集由Max Planck 發布于2014 年,所有數據均截取自YouTube。其中,訓練集包含14 679 張圖片,驗證集包含2 729 張圖片,測試集包含6 619 張圖片,數據對每個人體實例標注了16 個骨架點信息。

MPII 數據集使用關鍵點正確概率(Percentage of Correct Keypoints,PCK)指標計算正確估計出的骨架點比例,其中第i類骨架點被正確估計的比例為

所有骨架點的平均正確估計比例為

式中:i表示第i類骨架點;p表示第p個人體實例;dpi表示第p個人體實例的第i類骨架點預測坐標與真實坐標的歐氏距離;表示第p個人體實例的尺度因子。式中Tk表示一個歸一化參考閾值,在MPII 中通常使用頭部長度作為PCK 計算的閾值,PCK@0.5 即表示當閾值為0.5 時,即閾值為頭部長度的一半時,計算PCK所得到的值。

2.2 主流算法對比實驗與評估

為驗證算法整體性能,在MPII數據集上與經典主流算法進行了對比。標準數據集對比實驗在Linux 環境的服務器上進行,操作系統選擇Ubuntu18.04,CPU環境為Intel(R)Xeon(R)Silver 4210R CPU,訓練時使用4 張顯存為11GB 的Geforce 2080Ti 顯卡。使用的程序語言為Python,深度框架為Pytorch。

對比實驗結果如表2 所示,表中本章算法在測試中使用不同的模型類型,在網絡訓練中包含Best model(模型尋優的最佳結果)和Final model(訓練所有批次后得到的模型)。與其他主流網絡對比實驗可以看出,本實驗所設計算法在各骨架點定位精度上,均較之前方法有所提升,表現出了更好的檢測能力。通過不同算法、算法不同方式的對比結果,培養學生對實驗結果的評估和分析能力。

2.3 現場硬件實驗

本實驗所設計網絡在英偉達嵌入式人工智能邊緣計算開發板Jetson TX2(見圖5)上進行了現場硬件實驗,實驗數據由實驗室室內和走廊樓梯口真實監控攝像頭拍攝得到?,F場實驗結果如圖6 所示,根據本實驗所設計方法進行關鍵點檢測,檢測結果對照人體姿態標準進行評估,得到姿態評估結果。本次現場實驗對走(walk)、坐(sit)、摔倒(fall down)3 個動作進行識別和評估,姿態評估識別精度高達88%。當摔倒動作評估分數大于0.7 時(最高為1)進行報警,實現為行人危險動作的評估、報警功能。

圖5 現場硬件實驗設置

圖6 現場硬件姿態評估實驗結果示例

3 結 語

本設計將教師科研成果轉化為學生綜合研究型現場硬件實驗,設計基于沙漏注意力高分辨率網絡的人體姿態評估方法,實現校園、礦井等場景下的行人姿態評估和危險行為報警。本實驗設計首先在深度高分辨率表示學習的基礎上構建沙漏注意力特征提取模塊,對高分辨率特征補充由高到低的特征聚合過程,然后設計了特征回傳模塊,將任務層輸出的熱力圖重新映射到和該階段輸出相同尺寸的特征圖,上階段網絡所學習到的骨架點相互關系回傳至下階段網絡進行相互監督學習,最后設計了多階段監督算法,用融合中繼監督和自蒸餾的方式實現高分辨率網絡的監督訓練。與標準數據集和現場硬件設備上都實現了較好的人體姿態評估效果。將本研究引入現場硬件教學實驗更能促進研究型實驗教學與理論教學的結合,在加強學生理解理論知識的同時,提高其獨立思考能力和科研創新意識。

猜你喜歡
沙漏高分辨率姿態
攀爬的姿態
高分辨率合成孔徑雷達圖像解譯系統
全新一代宋的新姿態
跑與走的姿態
有趣的沙漏
DIY裝飾沙漏
DIY裝飾沙漏
回憶的沙漏
高分辨率對地觀測系統
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合