?

基于毫米波雷達稀疏點云的人體行為識別方法

2024-02-29 04:21李育臣張之江
計算機測量與控制 2024年2期
關鍵詞:集上全局雷達

李育臣,張之江,曾 丹,李 佳

(上海大學 通信與信息工程學院,上海 200444)

0 引言

隨著人口老齡化程度的加深以及護理服務需求的增多,老人跌倒監測以及其他人體行為感知逐漸成為輔助生活的關鍵技術[1-3]。目前,攝像頭、WIFI、雷達等設備均可以用于非接觸式行為感知。利用攝像頭監控人體行為已經成為非常成熟的技術[4-6],但是也存在一些問題阻礙了其發展。在家庭環境下,人們越來越關注的隱私問題限制了攝像監控的應用;同時,攝像頭對環境的干擾比較敏感,易受到光線條件和周圍物體遮擋的影響。此外,利用WIFI[7]也可用于探測人體的行為,但它們精度較低。相比于其他的無線設備,毫米波雷達具有精度高和探測距離較遠的優點,并且不會涉及隱私問題,也不易受到光照影響,在黑暗環境下也可正常工作,具有一定的穿透性,因此毫米波雷達在行為感知方面具有很大的優勢[8-10]。

目前較為主流的手段是利用多普勒雷達收發毫米波,然后使用時頻分析法將原始信號映射到時頻圖上,并觀察不同行為的微多普勒效應[2,9,11]。但是這種基于微多普勒圖的行為識別有一定的局限性,即需要對雷達回波信號進行運算量比較大的時頻分析,同時特征的定義和分類器的設計也比較復雜,并且只通過速度信息來判斷跌倒在某些場合的準確度并不高。Singh等人[12]在2019年證明了稀疏點云的時間窗口體素表示可以用于人類行為識別。通過將點云體素化,利用基于深度學習的分類器進行了測試,可以達到甚至超過基于微多普勒圖特征分類的效果。但該方法計算量較大,實時處理能力較弱,并且復雜環境中的噪聲對點云體素化的效果有較大影響。Gong等人[13]嘗試用圖的方式來表示點云,雖然取得了不錯的分類效果,但是由于毫米波雷達的特殊性,對于人體行為識別系統的抗干擾能力、實時性以及魯棒性有著很大的要求,在滿足實時性的同時也要具備很強的抗干擾能力和模型泛化能力,該方法并不能滿足要求。因此,如何在復雜的環境中準確地、快速地識別人類行為仍然存在著巨大挑戰。

現有方法無法在復雜環境下有效地提取稀疏點云的空間特征和時序特征,同時模型的抗干擾能力和泛化能力較差。綜上,提出了一種通用的基于毫米波雷達稀疏點云的人體行為識別方法,該方法根據毫米波雷達所產生點云的特性,既保留了點云的原始特征,提高了網絡計算的效率,同時使用基于注意力特征融合的點云活動分類網絡(MM-PCANet,MMwave radar point cloud activity network)進行稀疏點云的特征提取和識別。在MMActivity數據集[12]和MMGesture數據集[14]上評估了所提的方法,分別取得97.50%和94.10%的準確率,均優于所有其它基線。從而證明了所提方法具有很好的魯棒性,也適用于解決毫米波雷達點云相關的其它問題。

1 相關工作

1.1 毫米波雷達點云生成

在過去幾年中,單片毫米波雷達有著快速的發展和應用,美國德克薩斯儀器公司的毫米波雷達就是其中一個具有代表性的設備,可以利用這些毫米波雷達來捕獲人體活動相關的點云。點云指的是一系列包含空間坐標、速度以及其它信息的離散點集合,以此來表示人體在空間上的形狀以及姿態等信息。毫米波雷達點云生成的整體流程如圖1所示。

圖1 毫米波雷達點云生成過程

這些毫米波雷達采用調頻連續波(FMCW),其在一個調頻周期內發射信號[15]可以表示為:

(1)

式中,AT為發射信號的幅值,fc為載波中心頻率,B為帶寬,Tc為信號調頻周期,φ(t)為相位噪聲。經過目標和環境反射后,接收天線得到回波信號,回波信號可以表示為:

SR(t)=

(2)

式中,AR為發射信號的幅值,td表示從雷達發射至接收到人體反射信號的時間,td=R/c,其中R表示目標距離,c為光速。

發射信號與回波信號混頻處理并低通濾波得到中頻信號,對中頻信號執行距離快速傅里葉變換(FFT,fast fourier transform)運算以分離不同的頻率分量,從而獲得每個目標與雷達之間的距離。對中頻信號執行多普勒FFT操作以測量中頻信號的相位變化,來獲取目標的速度信息。

除此之外為了得到目標的空間坐標x、y和z,還需進行角度估計,利用天線之間的相位差計算出目標的方位角和俯仰角。在經過角度估計之后,獲取了目標的距離R、方位角θ以及俯仰角φ。假設笛卡爾坐標系中的點坐標為(x,y,z),其中x表示橫軸,y表示縱軸,z表示高度,則雷達坐標系轉換為笛卡爾坐標系的計算如式(3)所示:

x=R*cos(φ)* sin(θ)

y=R*cos(φ)*cos(θ)

z=R*sin(φ)

(3)

以上是毫米波雷達生成點云的大致流程,至此就可以獲取到目標的三維坐標、距離以及速度等信息,供后續數據集構建、數據處理以及數據可視化使用。連續多幀的點云信息就是后續方法的輸入,每一幀包含n個離散的點,每個點都包含空間位置x、y和z以及速度等信息。

1.2 點云分類網絡PointNet++

在上述所提到的MM-PCANet當中,采用PointNet++[16]作為主干網絡,從3D點云中提取空間分層特征。PointNet[17]是使用深度學習的方法提取點云特征的先驅工作,之后出現了類似于PointNet++等許多新穎的基于深度學習的點云網絡,但大多數都是以PointNet為基礎。在PointNet當中使用多層感知機(MLP,multilayer perceptron)來進行點云的高級特征表示,并選擇用最大池化來進行特征的聚合,PointNet提取特征的方式是對所有點云數據提取一個全局特征,這會帶來很大的局限性,即無法提取到點云的空間局部特征,使得它很難對復雜場景進行分析。PointNet++采用了分層抽取特征的思想,把每一次特征提取操作稱為Set Abstraction。Set Abstraction又分為三部分,分別是采樣層、分組層、特征提取層,它能夠在不同尺度提取局部特征,通過多層網絡結構得到更深層次的特征,同時兼顧全局特征以及空間局部特征。因此,在點云稀疏或其它復雜的場景下,PointNet++有著更好的特征提取能力。

2 方法

2.1 點云采樣策略

在實際的人體行為數據采集過程中,不同幀的點云數量是不相同的,在一些復雜的動作當中,生成的點云數量可能會比簡單動作的要多,為了使每幀點云數量保持一致,作為后續分類網絡的輸入,同時方便比較每幀固定不同點云數量時分類方法的整體性能差異,采用基于K-means++聚類算法進行點云的采樣,如果當前幀的點云個數小于設定的閾值,則通過重復一些原有點和聚類中心點,完成點云的擴充。如果大于設定的閾值,則只保留聚類中心點,剔除中心點以外的其它點。整體流程如圖2所示。

圖2 點云采樣整體流程

2.1.1 方法介紹

K-means聚類是最常用的聚類算法。它的基本思想是通過迭代尋找K個簇的一種劃分方案,使得聚類結果對的損失函數最小。它的優點是計算復雜度較低,收斂速度較快,但是容易受初始值的影響,為了減少初始值帶來的影響,選擇利用K-means++中選擇初始聚類中心的方法初始化聚類中心。通過給定具體的K值,將點云數據聚類成K個簇,通過保留或重復聚類中心點,完成點云的采樣。具體步驟如下:

1)先從數據當中隨機選擇一個點作為聚類中心。

2)對于其它每個點,都計算其和最近的一個聚類中心的歐式距離。

3)用加權的方式選取聚類中心點,離已確定的中心點距離越遠,越有可能被選擇為下一個中心點。

4)重復步驟2)和3),直到K個聚類中心選擇完成。

5)針對每個點計算其到所有聚類中心的歐式距離,并將其歸屬到距離最小的聚類中心所對應的類別。

6)針對每個簇類,重新計算該簇的聚類中心并對聚類中心進行更新。

7)重新迭代5)、6)兩步,直到簇的聚類中心不發生改變或達到迭代上限。

8)迭代完成后,保留每個簇的聚類中心作為最終的結果。

2.1.2 參數分析

隨機選取一幀點云個數為109的數據,將聚類中心分別設置為16、32、64、128和256,代表著將點云個數采樣至對應的數值,迭代次數設置為300次,選擇用歐式距離作為距離的衡量標準,采樣的效果如圖3所示,分別對應不同采樣值的采樣效果,可以看出利用所提出的K-means++聚類算法可以很好地保留關鍵的特征點以及原始的點云空間特征,在進行采樣的同時,不會造成點云空間結構的變化。

圖3 點云采樣效果圖

2.2 分類網絡結構

基于毫米波雷達的特殊性,人體行為識別需要面臨如下兩個挑戰:第一是所采集到人體行為點云較為稀疏;第二是人體的行為并不是單幀的三維點云,而是多幀三維點云的聚合,因此如何從這些連續且無序的三維點云中高效地提取特征是主要問題。如圖4所示,是所提出的MM-PCANet分類網絡的整體結構圖,其中主要包含基礎模塊、全局幀模塊、全局點模塊以及注意力特征融合模塊等。

圖4 MM-PCANet分類網絡

2.2.1 基礎模塊

該模塊的輸入維度是T×N×D,其中T代表著時間序列幀的個數,N代表每幀當中點云的數量,D代表每個點的特征個數,在所提出的方法中,每個點有4個特征,分別是空間位置x、y、z以及速度。該模塊的作用是利用MLP提取出每一幀點云的高級表示,同時為了提取到幀間的局部特征以及減少計算量,采用了幀間分組與采樣模塊[18],其包含兩個部分,即幀間分組模塊和采樣模塊。幀間分組模塊可以通過在短周期內找到k個相鄰點來構造局部點云集,從而能夠在更密集的點云中學習出更精細的行為特征,當人體快速移動時,也可以學習更多的全局運動信息。采樣模塊旨在通過在每個時刻采樣點云特征來收集局部時空信息,以降低計算成本并識別不同尺度的人體行為。

2.2.2 全局幀模塊

因為人體的行為是連續幀所疊加而成的,所以幀與幀之間的時序信息是很重要的,全局幀模塊旨在利用長短時記憶網絡[19](LSTM,long short-term memory)來提取連續幀之間的時序信息。LSTM是循環神經網絡的一種特殊自回歸模型,通過加入長期記憶單元和改變門結構,緩解了循環神經網絡中的梯度彌散和梯度爆炸問題,已廣泛應用在序列數據處理中。該模塊具體的步驟是首先經過了幀間分組與采樣模塊以及MLP多層感知機,進一步將每一幀的點云特征進行更高級的表示,然后送入LSTM層提取連續幀之間的時序信息,最后送入注意力特征融合模塊和后續全局點模塊所輸出的特征相融合。具體計算方法如公式(4)所示:

ft=σ(Wf[ht-1,yt]+bf)

it=σ(Wi·[ht-1,yt]+bi)

ot=σ(Wo[ht-1,yt]+bo)

ht=ot*tanh(Ct)

(4)

2.2.3 全局點模塊

上述的全局幀模塊是以每一幀的點云信息作為整體,提取幀與幀之間的時序信息,但是由于點云的特殊性,不僅要關注幀與幀之間的時序信息,還要關注每一幀點云當中每個點在整個時間序列當中的時序信息,這樣有助于模型獲取每個點在整個行為過程中的一個特征變化,從而進一步的提取到更有用的點特征。受PointLSTM[20]的啟發,通過共享的LSTM層對每個點云的時序特征進行提取。

h(t),c(t)=LSTM(y(t),h(t-1),c(t-1))

(5)

(6)

(7)

2.2.4 注意力特征融合模塊

上述通過全局幀模塊和全局點模塊之后,分別提取到了幀與幀之間的時序信息以及每一幀點云當中點的空間和時序特征,最后利用基于注意力的特征融合模塊[21]將這兩部分的特征融合。如圖5所示,其中MS-CAM模塊是當中提到的多尺度通道注意力模塊[21],該模塊是為了更好地融合語義和尺度不一致的特征,解決了融合不同尺度給出的特征時出現的問題。同時針對初始特征集成對于注意力特征融合影響比較大的問題,使用額外一層注意力特征融合模塊生成更好的初始特征,故稱之為迭代注意力特征融合模塊。具體的計算方法如下:

(8)

圖5 迭代注意力特征融合模塊

式中,M是MS-CAM多尺度通道注意力模塊[21],X和Y是兩個維度T×N×D的輸入特征,Z是維度T×N×D的融合特征。

2.2.5 損失函數

多分類交叉熵(Multiclass Cross-entropy)是一種常用的損失函數,用于衡量多分類問題中模型輸出的概率分布與真實標簽的差距,具體計算方法如下:

(9)

式中,N代表樣本數,K代表類別數,yic代表真實標簽中第i個樣本屬于類別c的概率,pic代表模型預測的第i個樣本屬于類別c的概率。

3 實驗

3.1 數據集

在MMActivity數據集[12]和MMGesture數據集[14]兩個毫米波雷達人體數據集上進行了驗證,從而來證明所提方法的魯棒性和通用性。

1)MMActivity數據集:該數據集是第一個使用毫米波雷達收集人體行為點云信息的數據集,使用IWR 1 443毫米波雷達采集來自兩個不同實驗者的5種人體行為數據,5種行為分別是跳躍、拳擊、行走、蹲起和開合跳躍,每個行為在兩秒內完成,采樣頻率是每秒30幀,一共收集了93 min的數據。

2)MMGesture數據集:該數據集是第一個使用毫米波雷達收集手勢點云信息的數據集,使用的是IWR 1 443毫米波雷達,將在其遠程方案的數據當中進行實驗,一共有79個不同性別的參與者執行4種手勢,包含左滑動,右滑動,敲擊和旋轉,其中不僅直接感應了手勢動作,而且在有某些堵塞物的情況下進行了感測,收集的點云包含空間坐標x、y和z、速度以及反射強度5個特征信息。

3.2 訓練和推理

該工作在單塊的3090TI顯卡上完成模型的訓練和推理,其余工作是在具有Inteli7-10750H的處理器以及16GB運行內存的筆記本電腦上完成,使用了PyTorch深度學習框架實現所有模型。設置初始學習率為0.000 1,并采用衰減率為0.005的階梯式學習率衰減的Adam優化器[22]來訓練模型,訓練集和測試集的比例為8:2,采用的是多分類交叉熵損失函數。其中上述基礎模塊里兩個MLP層輸出的特征維度分別為64和128,全局幀模塊和全局點模塊里MLP層輸出的特征維度分別為256和1 024,LSTM的層數為2且單向,輸入輸出的特征維度分別為256和1 024,PointLSTM輸入輸出的特征維度分別為132和256。在3個幀間分組與采樣模塊中,分別選擇相鄰的4、8、4個點進行分組,并且點云采樣率為0.5。

3.3 基線

本小節將所提出的MM-PCANet劃分為3個主要部分作為基線,以此來驗證網絡每一部分的特征提取能力以及所做出的改進。

1)基礎模塊+全局幀模塊(Baseline A):在該基線中選擇保留了基礎模塊和全局幀模塊,并且將注意力特征融合模塊刪除,其余保持不變。該基線可以作為參照以此來證明全局幀模塊的作用。

2)基礎模塊+全局點模塊(Baseline B):在該基線中選擇保留了基礎模塊和全局點模塊,并將注意力特征融合層去掉,其余保持不變。該基線可以作為參照以此來證明全局點的作用。

3)基礎模塊+全局幀模塊+全局點模塊+特征拼接(Baseline C):在該基線中選擇保留了基礎模塊、全局幀模塊以及全局點模塊,并選擇直接用特征拼接的方法代替注意力特征融合層,其余保持不變,以此來證明全局幀模塊和全局點模塊的互補作用以及注意力特征融合層的作用。

3.4 指標

通過以下4個指標來評判所提出模型的可行性。

準確率:準確率是最常見的評價指標,指的是被分對的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好。

(10)

精確率:又稱為查準率,指的是在模型預測結果為正樣本中,真正樣本所占的百分比。

(11)

混淆矩陣:主要用于比較分類結果和實際測得值,可以把分類結果的精度顯示在一個混淆矩陣里面,并直觀地表明所提出模型在哪一類樣本里面表現得不是很好。

推理速度:神經網絡執行一次前向傳播所需要的時間是推理時間。通常用一秒鐘內模型能夠執行的推理次數來表示模型的推理速度,單位用fps表示。

4 結果

4.1 消融實驗

為了驗證MM-PCANet網絡每個模塊的有效性以及所作出的改進,利用K-means++方法將點云采樣至64個點,分別在MMActivity和MMGesture兩個數據集上進行了實驗。如圖6和圖7所示,分別按照3.3所提出的3個基線進行了測試,其中Baseline A在兩個數據集的準確率分別達到了93.6%和77.6%,說明所提出的基礎模塊和全局幀模塊是具備一定的序列點云特征提取能力。Baseline B在兩個數據集的準確率分別達到了95.3%和85.3%,證明了全局點模塊的特征提取效果要略微強于全局幀模塊,能夠更準確地完成人體行為的識別。Baseline C在兩個數據集的準確率分別達到了96.5%和89.5%,該基線將全局幀模塊和全局點模塊同時利用起來,并通過直接拼接的方式進行特征融合,效果要強于Baseline A和Baseline B,證明全局幀模塊和全局點模塊具有互補作用,不僅提取了幀與幀之間的序列信息同時也很好地提取到了幀中點云的時序的信息。用注意力特征融合模塊代替了特征的直接拼接,形成了所提出的MM-PCANet模型,在兩個數據集的準確率分別達到了97.50%和94.10%,直接說明了注意力特征融合模塊的有效性,能夠更好地融合全局幀模塊和全局點模塊所輸出的特征信息。

圖6 在MMActivity數據集上的表現

圖7 在MMGesture數據集上的表現

4.2 點云采樣實驗

為了驗證K-means++采樣方法的有效性,在兩個數據集上分別利用K-means++采樣和隨機采樣在不同采樣值的情況下進行了實驗,如圖8所示,上方的兩條線分別代表MM-PCANet在MMActivity數據集上兩種采樣方法的表現,下方的兩條線分別代表在MMGesture數據集上兩種采樣方法的表現,可以得出,在不同采樣值下K-means++采樣方法比隨機采樣方法準確率平均提升了0.4個百分點,證實了所提出的K-means++采樣方法的有效性。

圖8 不同點云采樣值在兩個數據集上的表現

4.3 方法對比實驗

從表1中可以看出8種不同方法在MMActivity數據集上的表現,其中不同的模型點云的表示方式不同,將點云體素化表示的RadHAR[12]準確率表現不是很好,隨著體素分辨率的增加,該方法的空間成本和計算復雜性呈立方增長,同時點云的密度不均勻也會造成體素分布的不均勻,導致空間特征的丟失,在稀疏點云的數據集上這種問題會更加嚴重。除此之外是傳統的直接對點云處理網絡PointNet[17]、PointLSTM[20]以及Pantomime[23]和用圖表示點云的MMPointGNN[13]分類網絡,分類準確率均不如所提出的MM-PCANet,該準確率達到了97.50%,是表1所有方法當中表現最好的,造成這種現象更多的是因為上述4個基線網絡無法兼顧幀序列的時序特征和具體點云的時序特征,而MM-PCANet可以很好地解決這個問題。如圖9所示MM-PCANet在MMActivity數據集的混淆矩陣可以看出整體的分類效果是非常好的,盡管由于跳躍和行走之間的相似性,兩者有點混淆,但并不影響MM-PCANet的整體優良表現。

表1 不同方法在MMActivity數據集上的表現

圖9 MM-PCANet在MMActivity數據集的混淆矩陣

從圖10中可以看出,由于獨特的運動軌跡,旋轉手勢具有最高的準確性,不容易被誤判。其他3個手勢的準確度不夠高,因為這3種手勢的運動模型相似。表2是不同方法在MMGesture數據集上的表現,其中PointNet+LSTM的準確率僅為70.41%,這是因為受限于PointNet的空間特征提取能力,在較為稀疏的手勢數據集上表現較差。PointLSTM和MMPointGNN的準確率分別為90.35%和92.67%,而MM-PCANet有著更高的準確率94.10%,表明所提出的MM-PCANet在基于毫米波雷達稀疏點云的手勢識別場景有著更好的特征提取能力。

表2 不同方法在MMGesture數據集上的表現

圖10 MM-PCANet在MMGesture數據集的混淆矩陣

4.4 推理速度

如表3所示,分別在兩個數據集上測試了MM-PCANet的平均推理速度,可以看出Batch Size越大,網絡的平均推理速度也越快,在Batch Size為1時,在這兩個數據集上的平均推理速度分別達到了每秒19.40次和每秒50.02次,也完全滿足使用毫米波雷達進行人體感知的實時性。

表3 不同Batch Size下MM-PCANet的平均推理速度 fps

5 結束語

本文提出了一種通用的基于毫米波雷達稀疏點云的人體行為識別方法,該方法直接對人體原始點云進行處理,無需將點云進行體素化或者其它方式的表示,利用K-means++算法進行點云采樣,在不破壞點云空間結構的同時有效地提高了模型的計算效率。此外,使用MM-PCANet進行人體行為特征的提取和識別,兼顧點云的空間特征以及時序特征,對稀疏點云的運動有著靈敏的感知能力,同時也具有較強的抗干擾能力。實驗結果表明該方法在兩個毫米波雷達人體點云數據集(MMActivity和MMGesture)上的表現均優于所有其它基線,證明所提出方法的魯棒性和通用性。但由于要融合多方面的特征,導致網絡結構略顯復雜,因此未來會嘗試將網絡變得更輕量化。

猜你喜歡
集上全局雷達
有雷達
Cahn-Hilliard-Brinkman系統的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
雷達
落子山東,意在全局
復扇形指標集上的分布混沌
基于空時二維隨機輻射場的彈載雷達前視成像
現代“千里眼”——雷達
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合