?

基于高分辨率網絡的地鐵人體姿態估計研究

2023-09-08 00:49劉珊珊馮賽楠田青錢付余豆飛牛志斌
鐵路技術創新 2023年3期
關鍵詞:高分辨率關鍵點注意力

劉珊珊,馮賽楠,田青,錢付余,豆飛,牛志斌

(1.北方工業大學 信息學院,北京 100144;2.交控科技股份有限公司,北京 100070;3.北京市地鐵運營有限公司,北京 100044)

1 概述

隨著交通行業的快速發展,我國鐵路發生了翻天覆地的變化,見證了從無到有、從弱到強,從蹣跚起步、艱難延伸到鐵路密布、高鐵飛馳的發展歷程[1],面對新時代,為了滿足人民群眾高質量出行的需要,堅持和發展鐵路技術創新尤為重要。目前來說,地鐵成為人們工作生活中主要的出行方式,也正因為其過大的人流量,導致地鐵車站及車廂的人流量密集,傳統的行人檢測在密集場景下容易出現誤檢、漏檢的情況。人體姿態估計的任務是確定圖像中人體某一身體部位出現的位置,估計人關節點的坐標,廣泛應用于地鐵等密集場所下行人的動作識別,保證出行安全。研究依靠改進的人體姿態估計算法能夠更好地避免背景遮擋、光照變化等影響行人檢測,通過在地鐵等實際場景中利用人體姿態估計的方法來追蹤某段時間內人體姿勢的變化完成動作識別[2-4],得到對人體姿態的實時監測與估計。

人體姿態估計方法可以分為自頂向下和自底向上2類[5]。其中自底向上的方法雖然在檢測效率上具有一些優點,但檢測精度并不高,而自頂向下的方法可以先檢測出所有人體目標,再分別對每個目標的關鍵點進行檢測,因此檢測精度較高[6-8],所以本研究采取了自頂向下的方式進行人體姿態估計。

對于基于深度學習的人體姿態估計主要分為基于回歸的方式和基于熱圖的方式[9-10],前者直接預測每個關鍵點的位置坐標,后者針對每個關鍵點預測一張熱力圖。熱圖是關鍵點的概率分布圖,通常建模成圍繞每個關鍵點的高斯分布的疊加,每個像素都給1 個值,這個值對應像素屬于某個關鍵點可能性的值。當前基于熱圖的方式檢測效果更好,因此,本研究高分辨率網絡采用基于熱圖的方式進行關鍵點檢測[11]。

在人體姿態估計的網絡中,高分辨率網絡(High-Resolution Net,HRNet)在整個檢測過程中都保持著高分辨率的表征[12],將多分辨率子網通過并行的方式進行連接,同時進行多次多尺度融合[13],使該網絡能夠更加準確地預測熱圖。因此,采用了高分辨率網絡作為主干網絡,并在其基礎上做了如下改進:首先添加了注意力機制模塊,從空間維度和通道維度獲取關鍵特征信息,增強特征的提取能力;其次為了更加精確地定位關鍵點,對損失函數進行了改進,使網絡能夠容忍背景像素上的微小誤差,獲得更好的收斂速度。

2 網絡結構

2.1 HRNet整體結構

HRNet 主要是針對2D 人體姿態估計任務提出的。不同于其他網絡通過下采樣得到強語義信息,然后通過上采樣恢復高分辨率,在不斷地上下采樣過程中丟失大量的有效信息,HRNet 可以在整個過程中保持高分辨率表征,因此較其他網絡來說會明顯提升人體姿勢識別的效果。首先將高分辨率子網絡作為第1 階段的開始,逐步增加高分辨率到低分辨率的子網形成更多的階段,并將多分辨率子網并行連接,通過在并行的多分辨率子網絡上反復交換信息,進行多次多尺度融合,使每個高分辨率到低分辨率的表征都從其他并行表示中反復接收信息,從而得到豐富的高分辨率表征,多次融合之后的結果會更加精確[12,14],之后通過網絡輸出的高分辨率表示來估計關鍵點,提升預測的關鍵點熱圖的準確性(見圖1)。

圖1 HRNet結構

將HRNet 結構分為4 個部分,每個部分均存在1 個藍色框和1個橙色框,其中藍色框代表基本結構,橙色框代表過渡結構。HRNet 中第1 部分藍色框使用的是BottleNeck,其他部分藍色框使用的是BasicBlock。第1 部分橙色框是1 個TransitionLayer,第2 和第3 部分橙色框是1 個FuseLayer 和1 個TransitionLayer 的疊加,第4部分橙色框是1個FuseLayer。

(1)BottleNeck 結構能夠降低參數量,首先它利用PW(Pointwise Convolution)對數據進行降維,再進行常規卷積核的卷積,最后PW對數據進行升維,它的核心思想是利用多個小卷積核替代1 個大卷積核,利用1×1 卷積核替代大的卷積核的一部分工作。BottleNeck搭建模塊見圖2。

圖2 BottleNeck搭建模塊

(2)BasicBlock 結構包含1 個殘差支路和short-cut支路,它比傳統的卷積結構多了1個short-cut支路,用于傳遞低層的信息使得網絡能夠訓練地很深。Basic-Block搭建模塊見圖3。

圖3 BasicBlock搭建模塊

(3) FuseLayer 用來進行不同分支的信息交互,TransitionLayer 用來生成1 個下采樣2 倍分支的輸入feature map。

HRNet是高分辨率的網絡模型,面對頻繁的下采樣會導致空間方向特征丟失的問題,在進行特征提取和特征融合時,從輸入到輸出一直保持高分辨率表征[14],為了增強對輸入圖片的特征提取能力,因此在HRNet 中引入注意力機制模塊,突出圖像中尺度較小和遮擋人體關鍵點的特征,從而極大地提高HRNet 的性能。改進后的HRNet結構見圖4。

圖4 改進后的HRNet結構

2.2 注意力機制模塊

在計算機視覺中把聚焦圖像的重要特征、抑制不必要的區域響應方法稱作注意力機制(Attention Mechanisms),它在分類、目標檢測、人臉識別、動作識別、姿態估計、3D 視覺等任務中發揮著重要作用,極大地提升了計算機網絡的性能。

一般來說,注意力機制通常被分為通道注意力機制、空間注意力機制、時間注意力機制、分支注意力機制,把通道維度和空間維度組合[15],提出Convolutional Block Attention Module (CBAM),用于前饋卷積神經網絡的簡單而有效的注意力模塊。相較于其他注意力機制模塊,CBAM模塊不僅保留了通道注意力,還添加了空間注意力,這使得網絡模型能夠注重關鍵信息的重要程度和關聯程度、提升對關鍵區域的特征表達;空間注意力使神經網絡更加關注圖像中對分類起關鍵性作用的像素區域而忽略不重要的區域,通道注意力用于處理特征圖通道的分配關系,同時使用2個維度上的注意力機制使模型性能得到更加明顯的提升;CBAM內部使用輕量級卷積來獲取通道和空間的注意力權重,因此它是1種可以嵌入到任何主干網絡中以提高性能的輕量級模塊,具有通用性;引入CBAM 可以提高目標檢測和物體分類的精度,用到的計算量和參數都比較少,因此本研究引入CBAM 模塊提高網絡的檢測性能。給定1 張特征圖,CBAM 模塊能夠序列化地在通道和空間2 個維度上產生注意力特征圖信息,然后2種特征圖信息再與之前原輸入特征圖進行相乘進行自適應特征修正,產生最后的特征圖。

CBAM模塊主要由通道注意力模塊和空間注意力模塊組成,2個注意力模塊采用串聯的方式,首先在空間和通道上進行注意力機制處理,沿著通道和空間2個維度推斷出注意力權重系數,然后再與feature map 相乘,CBAM結構見圖5。

圖5 CBAM結構

2.2.1 CBAM總體流程

首先輸入網絡主干生成的特征圖F∈RC×H×W,經過通道注意力模塊處理后,獲得通道注意力圖MC∈R1×1×C,通過跳躍連接的方式乘以輸入特征圖F中的相應元素,將結果F′送入空間注意力模塊中,之后利用空間注意力模塊生成帶有空間注意力權重的特征圖MS∈RH×W×1,最后乘以特征圖F′得到最終的輸出特征圖F′′。CBAM 模塊整體運行過程可以描述為以下公式:

式中:×表示元素級相乘。

2.2.2 通道注意力機制模塊

通道注意力機制通過特征內部之間的關系來產生注意力機制特征圖(見圖6),特征圖的每個通道可以當作一個特征檢測器。

圖6 通道注意力機制模塊

壓縮特征圖的空間維度能夠更高效地計算通道注意力特征,平均池化方法和最大池化方法都能夠學習到物體的判別特征,同時使用這2種方法得到的效果更好,經過池化之后產生了2 種不同的空間上下文信息:代表平均池化特征的和代表最大池化特征的,然后再將該特征送入到一個共享的多層感知機(MLP)網絡中,產生最終的通道注意力特征圖Mc∈RC×1×1,為了降低計算參數,在MLP 中采用了一個降維系數r,Mc∈RC/r×1×1。

通道注意力計算公式為:

2.2.3 空間注意力機制模塊

空間注意力機制通過特征圖空間內部的關系,來產生空間注意力特征圖(見圖7)。

圖7 空間注意力機制模塊

為了計算空間注意力,首先在通道維度通過平均池化和最大池化產生2D 特征圖:,然后拼接起來它們產生的特征圖,在拼接后的特征圖上,使用卷積操作產生最終的空間注意力特征圖:Ms(F)∈RH,W。

空間注意力計算方式為:

2.3 損失函數的改進

2.3.1 均方誤差損失(MSE)

均方誤差損失(MSE)存在2 個問題:(1)MSE 損失的梯度是線性的,對微小誤差不敏感,這影響了正確定位高斯分布mode 的能力;(2)在訓練過程中,所有的像素具有同樣的損失函數和權重[16],但是,在熱力圖中背景像素相對于前景像素是占有絕對主導地位的。這2 個問題導致由MSE 訓練的模型預測出結果的前景像素是模糊和膨脹的,這樣的低質量熱力圖可能會導致關鍵點的錯誤估計,因此將原本的MSE 損失函數改為Adaptive wing loss。

2.3.2 Adaptive wing loss

對于熱圖回歸的理想損失函數,當誤差很大時,損失函數具有恒定的影響,因此它將對不準確的注釋和遮擋具有魯棒性。經過不斷地訓練后誤差減小,會出現以下情況[16]:

(1)對于前景像素(y=1),影響和梯度應開始增加,訓練能夠更專注于減少他們的錯誤,當誤差接近于0時,影響會快速減少,此時這些已經“足夠好”的像素不再被關注,正確估計的影響能夠幫助網絡保持收斂。

(2)對于背景像素(y=0),梯度應隨著訓練誤差的減小,梯度會減小到0,因此,當誤差較小時影響也會相對較小,訓練時對背景像素的關注減少,對背景像素微小誤差的敏感程度降低,能夠穩定訓練過程。

由于ground truth 熱圖的像素值范圍是(0,1),這個損失函數應能夠根據不同的像素值進行平滑的轉換,且對于強度接近于1的ground truth像素,應增加小誤差的影響,對于強度接近于0 的ground truth 像素,損失函數應該像MSE loss 一樣,故而可以使用Adaptive Wing (AWing) loss[16],定義如下:

式中:y和分別為真實熱力圖和預測熱力圖的像素值;ω,θ,ε和α是正值;A=ω(1/(1+(θ/?)(α-y)))(α-y)((θ/?)(α-y-1))(1/?),C=(θA-ωln(1+(θ/?)α-y))是為了使損失函數在|y-|=θ時保持連續和平滑,變量θ作為閾值實現線性和非線性部分的轉換。

3 實驗

3.1 數據集

為了對提出的方法進行驗證,在大型公開COCO數據集上進行訓練和測試。COCO 數據集由微軟團隊發布,目前COCO keypoint track 是人體關鍵點檢測的權威公開數據集之一,包含超過20 萬張圖像和25 萬個標記有17 個關鍵點的實例。COCO 數據集中把人體關鍵點表示為17 個關節,分別是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右腳踝[17-18]。

3.2 評價準則

在關鍵點檢測任務中一般用OKS(Object Keypoint Similarity)來表示預測關鍵點與真實關鍵點的相似程度,其值域在0~1,越靠近1 表示相似度越高,OKS 越大,表示檢測關鍵點的空間位置越準確[17]。

評價指標:

式中:i為第i個關鍵點;vi為第i個關鍵點的可見性,vi=0為在圖像外無法標注的點,vi=1為標注了但是被遮擋的點,vi=2 為標注了并且可見的點;對于δ(x),當x為True 時值為1,x為False 時值為0,di為檢測的關鍵點與數據集中標注的關鍵點之間的歐氏距離;s為目標的尺度因子,值為目標面積的平方根,這里的面積指的是分割面積;ki為用來控制關鍵點類別i的衰減常數。

一般用平均精度(Average Precision,AP)來評價實驗結果的準確性,在COCO數據集的實驗結果中,主要關注AP 這個指標,AP 的數據結果通過OKS 計算得出,對于單人姿態估計中的AP,計算方式為:

對于多人姿態估計而言,由于1張圖片中有M個目標,假設總共預測出N個個體,那么ground truth 和預測值之間能構成一個M×N的矩陣,然后將每一行的最大值作為該目標的OKS,則:

式中:AP 為所有圖片的OKS 大于閾值T的百分比,T由人為給定,在本實驗中AP 是指OKS=0.50,0.55,…,0.90,0.95時10個閾值之間所有檢測關鍵點準確率的平均值,AP50是在OKS=0.50時的檢測關鍵點的準確率,AP75 是在OKS=0.75 時的檢測關鍵點的準確率;APM 為中尺寸物體檢測關鍵點的準確率,APL 為大尺寸物體檢測關鍵點的準確率。

3.3 實驗結果

普通場景下的人體姿態估計效果見圖8。

圖8 普通場景效果圖

真實地鐵場景下的人體姿態估計見圖9。

圖9 地鐵場景效果圖

在真實的地鐵場景行人檢測實驗中,在遮擋嚴重情況下,依然能夠得到較好的檢測效果,因此該網絡適用于在地鐵等人流量密集、遮擋嚴重的場景下進行行人檢測任務。不同網絡模型在COCO數據集上的結果對比見表1。

表1 不同網絡模型在COCO數據集上的結果對比

由實驗結果可知,本次研究提出的方法精度比原HRNet網絡提升了0.7%,達到了74.1%,與當下流行的人體姿態估計網絡相比,如Hourglass、CPN、CPN+OHKM、Simple Baseline、Lite-HRNet、HRNet-W32,研究所使用的網絡在預測關鍵點的平均精度上分別提升了7.2、5.5、4.7、3.7、9.3、0.7個百分點,且對比表中所示的所有指標,網絡模型平均精度均高于其他網絡模型的平均精度。因此,改進后的網絡模型在人體姿態估計過程中,精確度更高、具有更好的魯棒性,證明本研究提出方法的有效性。

4 結束語

基于高分辨率網絡HRNet 對人體姿勢識別進行研究,在網絡中添加了注意力機制模塊CBAM,該模塊將空間和通道2 個維度進行結合,極大提高了網絡的性能,提升了重要特征的權重。使用Adaptive wing loss 作為損失函數,當誤差很大時,損失函數具有恒定的影響,但當誤差較小時,會減少在訓練時對背景像素的關注,穩定訓練過程。實驗結果證明,改進后的網絡模型能夠準確的檢測出尺度較小和遮擋的關鍵點,具有較好的檢測能力和魯棒性,因此,在地鐵實際情況中能夠更好應對人群密集、遮擋嚴重的問題。

猜你喜歡
高分辨率關鍵點注意力
讓注意力“飛”回來
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
高分辨率合成孔徑雷達圖像解譯系統
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
高分辨率對地觀測系統
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
醫聯體要把握三個關鍵點
高分辨率遙感相機CCD器件精密熱控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合