?

基于連續圖像深度學習的Wi-Fi 人體行為識別方法

2020-09-08 11:56周啟臻邢建春楊啟亮韓德帥
通信學報 2020年8期
關鍵詞:特征提取卷積矩陣

周啟臻,邢建春,楊啟亮,韓德帥

(1.陸軍工程大學國防工程學院,江蘇 南京 210007;2.火箭軍工程大學作戰保障學院,陜西 西安 710025)

1 引言

人體行為識別是利用計算機技術實現肢體運動自動檢測、分析和理解的技術,廣泛應用于智能家居、安防監控、醫療康復、人機交互等新興領域[1-2]。人體行為識別通??梢苑譃閮深怺3]:接觸式和非接觸式??纱┐髟O備[4-5]是接觸式行為識別系統的關鍵載體,但是存在設備昂貴、用戶穿戴不便、注意力侵擾等諸多限制。非接觸式的行為識別能提供無設備的感知服務和友好的用戶交互,因此得到了研究人員的廣泛關注。目前非接觸式的行為識別主要依靠深度攝像頭[6]和無線電信號[7]。然而,前者的普及受限于光照條件、視距路徑干擾、監控死角和隱私問題;后者通常需要部署專用的實驗設備,難以大規模推廣。

作為城市基礎設施,商用Wi-Fi 設備[8]所提供的無線信號具有普適、易用、高性價比、傳輸距離遠等優勢,近年來在人體行為識別領域被廣泛關注[9],早期工作基于Wi-Fi 接收信號強度(RSS,received signal strength)實現簡單的室內人員運動檢測[10]。為了進一步提升感知粒度和識別精度,研究人員開始從Wi-Fi 商業網卡中提取物理層的信道狀態信息(CSI,channel state information)[11]。CSI 能夠刻畫感知目標所引發多徑鏈路變化,從而利用子載波層次的幅值和相位信息實現更復雜精細的行為識別,如室內活動監測[12]、摔倒檢測[13]、步態認證[14]和手勢識別[15]。然而大多數方法在建立Wi-Fi 信號擾動與人體行為之間的映射關系時,需要豐富的專業知識和領域經驗來指導模型設計[16]、信號挖掘[17]和特征選取[18],這使系統的穩定性、實用性和整體精度不高。如何利用最少的人為干預,實現穩健、普適、高精度的人體行為識別成為亟需解決的問題[19]。

近年來,受圖像深度學習[20]的啟發,研究人員嘗試將信號矩陣轉化為灰度圖像并利用卷積神經網絡(CNN,convolutional neural network)自動學習尺度不變、位移不變的局部空間特征[21-22]。然而,相比于專業相機拍攝的主體清晰、固定尺寸的連續圖像,直接利用CNN 處理Wi-Fi 信號序列無疑更具挑戰性。不同動作的初始時間?振幅曲線如圖1 所示,其面臨的技術挑戰可概括如下。

1) 噪聲干擾嚴重。盡管CSI 能宏觀地反映人體運動狀態的變化,但是商用Wi-Fi 設備所提供信號粒度有限,使感知目標所產生的信號振幅容易混雜于背景噪聲和多徑干擾中[9,16]?,F有工作往往難以提取運動關鍵信息,導致深度網絡無法從混雜擾動中學到目標信號的本質特征。

2) 信號尺寸不兼容。人體活動的發生具有隨機性,因此每一次活動發生時刻均不一致,所產生的信號樣本在時間尺度上并不統一,因此導致其與CNN 模型所要求的固定尺寸輸入存在矛盾[22]?,F有工作通常截取固定長度的信號片段以適配模型輸入,但是這可能遺漏有效信息(過短)或是增加運算成本(過長),從而影響系統部署的靈活性和時間效率。

3) 特征提取不充分,用戶執行復合動作時通常存在上下文的邏輯關系,如完成深蹲動作需要依次執行站立等待、快速蹲下、快速起身、站立等待的動作,因此會出現先平穩、后快速震蕩、最終平穩的波形變化。然而,單一的CNN 模型無法對這種時間尺度上的依賴關系進行有效建模,導致復雜環境下的系統精度受限。

針對上述問題,本文將Wi-Fi 信號處理問題轉化成圖像領域的連續目標識別問題[23-24],提出一種基于連續圖像深度學習的Wi-Fi 人體行為識別方法——SIL-Fi(sequential image learning with Wi-Fi)。本文的主要創新點如下。

1) 連續幀低秩分解。通過重構固定尺寸的三維信號圖像,將時變的Wi-Fi CSI 信號序列轉化為數量不一、尺寸固定的連續圖像幀,同時設計不需要復雜調參的低秩矩陣分解算法,提取穩健的低秩信號主成分,提高噪聲環境下運動信號的顯著性,進而提高模型訓練樣本的可靠性。

2) 深度模型融合。通過深度融合CNN 和長短時記憶(LSTM,long short-term memory)模型,實現變長圖像序列空間域和時間域特征的充分萃取,進而克服模型輸入限制和特征提取不充分的缺點。

3) 真實場景驗證。本文通過多組真實場景實驗對模型可行性進行驗證,并考慮了不同動作、模型組合、測試人員和環境等諸多因素的影響。與其他基于深度神經網絡的模型相比,本文方法在不同實驗環境均取得較高的識別精度,因此具備普適場景下的高精度和穩健性。

圖1 不同動作的初始時間?振幅曲線

2 SIL-Fi 方法框架

本文提出的SIL-Fi 的總體框架如圖2 所示。本文的活動數據來源于公開數據集WiAR[25]和自主采集的真實數據集。在動作信號預處理模塊,首先對所獲取的CSI 原始幅值序列I進行分割,即重構成N個縱坐標為子載波個數S′、橫坐標為數據分組長度、通道數為天線數A的三維信號矩陣所組成的序列I′,以確保每個輸入片段的尺寸都保持一致。然后設計穩健主成分分析法(RPCA,robust principal component analysis),將分割后的三維信號矩陣視作低秩活動信息、背景信息和測量偏差的疊加,通過約束各個通道低秩矩陣的秩和背景矩陣的稀疏度,提取低秩的關鍵運動信息,避免運動無關的信號擾動。在時空域特征提取與分類模塊,設計了一種融合空間域特征和時間域特征的深度模型,主要包含3 個卷積層、2 個LSTM 層和一個全連接層。其中,多層卷積運算通過逐層表征信號矩陣,將低秩矩陣中具有顯著識別力的局部空間特征進行抽象并映射到特征圖中;LSTM 層通過控制內部門狀態,依次實現特征圖序列上下文信息的提取和更新,從而對其在時間尺度的全局依賴關系進行建模;全連接層將動作特征映射至樣本標記空間,且防止特征過擬合。最后,由Softmax 層輸出預測動作的標簽類別。

3 動作信號預處理

為了探究Wi-Fi CSI 的信號特性,首先介紹CSI的背景知識。CSI 信息來源于當前正交頻分復用技術中對子載波信道狀態信息的估計,反映了信號傳輸過程中所產生的時延、能量衰減和相位偏移。令x為發射端信號,y為接收端信號,Noise 為測量噪聲,H為CSI 信道估計矩陣,則有

設Wi-Fi 設備持續采集樣本,A根天線接收到的每個數據分組共包含S個子載波的信道響應,即

當A根接收天線以固定采樣頻率Q連續采集T個數據分組時,時間長度為。為方便描述,以數據分組長度T為時間計量單位。則在T范圍內,所有S個子載波的CSI 原始幅值序列I可以表示為

由于持續工作的Wi-Fi 設備所采集的CSI 幅值序列I在時間尺度上不一致,且運動信號往往隨機存在于采集樣本中,無法通過截短或是填充的方式固定信號尺寸。因此,為方便后續的CNN 運算,本文首先將完整的CSI 幅值序列IS×T重構為I′S′×T′×A×N,即每個序列I′包括N個大小為S′×T′×A的三維信號矩陣D。具體而言,由于本文采用的無線網卡類型為Intel 5300,接收天線數量A為3,每根接收天線提供子載波個數S′為30,每次截取的數據分組個數T′為30,截取重疊部分為15。當采樣頻率Q為30 Hz 時,每個輸入大小為30×30×3 的三維信號矩陣D包含了1 s 內每個通道(天線)30 個子載波的全部幅值信息,如式(15)所示。

圖2 SIL-Fi 的總體框架

因此,由N個三維矩陣D所組成的重構幅值序列I′可以表示為

其中,n∈[1,N],數量N由數據分組長度、每次截取的數據分組個數T′和滑窗重疊片段共同決定,表示為,其中表示數值向下取整。

為了消除無關因素對有效信息的干擾,大多數相關研究采用主成分分析法進行關聯信號的提取。本文受圖像前景提取相關工作的啟發,提出利用RPCA 提取目標動作信息[23]。假設任意時刻輸入RPCA 的三維信號矩陣D在每個通道的幅值強度矩陣都包含了低秩運動信息、稀疏背景信息以及少量測量噪聲。令第n個三維信號矩陣在通道v處的投影為二維矩陣,通過約束其低秩矩陣的秩r和背景矩陣的稀疏度b,實現如式(7)所示目標函數的最小化。

從而將N個三維信號矩陣中的低秩部分視為前景信息進行提取,稀疏的干擾信息視為背景信息進行剔除。RPCA 的穩健性在于:1) 不需要人為假設噪聲類型和強弱,因此可以有效應對突發噪聲和嚴重的離群數據,而傳統的PCA 只能處理密集分布的高斯噪聲[24];2) 不需要人工挑選信號主成分,只需要提取低秩矩陣就可以表征高度相關的CSI 活動信號。這是因為CSI 信號相鄰子載波之間的運動前景信息具有較強的關聯性,近似位于同一低秩的子空間中。然而傳統的PCA 很難在運動信息豐富的第一主成分[26]和噪聲干擾式微的第二主成分[16]之間做出選擇。利用RPCA 提取低秩主成分的流程如圖3 所示,具體步驟如下。

圖3 RPCA 提取低秩信息的流程

步驟1參數初始化。需要初始化的參數包括低秩矩陣約束r、背景矩陣稀疏度b、迭代次數t、重構誤差ε和能量冪值q。令初始低秩矩陣L0為二維矩陣,背景矩陣B0為零矩陣。

步驟2比較重構矩陣誤差。通過增廣拉格朗日交替方向乘子法,依次計算第t步迭代時,第n個片段在通道v處的計算誤差,并與ε比較。若各通道計算誤差同時小于ε,則執行步驟6;否則,執行步驟3。

步驟3雙邊隨機投影。采取雙邊隨機投影,對每個通道的低秩矩陣進行逼近。

步驟4比較重構矩陣秩。若各個通道矩陣秩均小于預設值r,則令其等于矩陣GT2Y1的秩,執行步驟2;否則,執行步驟5。

步驟5更新各個通道的低秩矩陣。

本文方法通過計算矩陣的F 范數來近似矩陣低秩的約束。秩越低,信號矩陣的線性相關度越高,表明越多的天線子載波表現出相同的變化規律。本文設置最終輸出的低秩矩陣約束r=1,目的是希望從噪聲湮沒的CSI 信號中恢復每根天線30 個子載波的統一變化規律。同時,由于背景干擾隨機影響每根天線的每個子載波,符合誤差稀疏性的約束,因此設置背景矩陣稀疏度b=100,誤差ε=10?6,以控制計算復雜度。因此,最終分離出的低秩矩陣L包含了最豐富的運動信息和最少的噪聲干擾。圖4為經過RPCA 處理后不同動作的連續信號低秩圖,縱軸從上到下分別表示第1、2 和3 根天線,橫軸從左到右分別表示第1、3、5、7 和9 幀。通過觀察圖4(a)的第7、9 幀和圖4(b)的第5、7 幀的實驗結果可以發現,RPCA 提取的信號低秩成分能夠從不同的空間維度上清晰地揭露運動信號的變化特征,具有顯著的辨別力;通過觀察圖4(a)的第1、3、5 幀和圖4(b)的第1、3 幀可以發現,RPCA 有效抑制了背景因素和測量噪聲的干擾,一定程度上提升了信號幀的分辨能力。

4 連續信號圖像時空域特征提取與分類

4.1 空間特征提取

經過預處理后的連續信號序列I′′需要按照從1到N的順序,依次將其中的三維低秩矩陣輸入CNN 進行空間特征提取。CNN 優勢在于:1) CNN可以通過多層的卷積運算逐層自動提取抽象特征,而人體活動天然具有分層結構[9];2) CNN 的局部感知特性有利于局部空間域信息的獲取,而人體活動往往發生在特定的時間片段內;3) CNN 不需要復雜經驗來指導參數設置,就可以提供位移、尺度和旋轉不變的空間特征,提高數據處理的容錯率。對于一個j層的CNN 模型,第m層的卷積運算式可以表示為

其中,Y(m)和X(m)分別為第m個卷積層的輸出和輸入,第m個卷積層輸出即為第m+1 個卷積層的輸入,即X(m)=Y(m?1)。g(m)、M(m)和δ(m)分別表示第m個卷積層的激活函數、權重矩陣和偏置矩陣。特別地,對于第一個卷積層來說,輸入為經RPCA 處理后的第n個低秩矩陣,即;對于最后一個卷積層,輸出Y(j)=Y。如圖5 所示,本文搭建了一種適用于低分辨率信號幀的空間特征提取模型。借鑒文獻[27]的設計思路,僅采用3 層卷積運算以提取場景無關且具有辨別力的空間特征,防止模型過深所導致的特征過擬合。每個卷積層(Conv)后都做批歸一化和ReLu 激活處理,以提高模型的穩健性和訓練速度。每次運算均采用較小的3×3 卷積核壓縮模型的參數量,并在池化操作后翻倍特征通道數,從而保證特征提取的完整性。最大池化層負責對前一輪的卷積特征圖進行二次采樣,以縮減模型大??;最后一個全局平均層負責提取每個通道全局信息,并輸出維度為3×3×64 的張量至后續的LSTM 層中。第三個卷積層輸出的特征圖序列F為

圖4 經過RPCA 處理后不同動作的連續信號低秩圖

圖5 空間特征提取模型結構

當模型設置默認參數值的情況下,以WiAR 數據集中走路樣本的第7 幀為例,可以看出所構建的空間特征提取模型可以從多個維度逐層表征具有辨別力的空間特征。

4.2 時域特征提取

由于動作執行存在前后邏輯關系,單一的CNN模型無法建模時間尺度上的依賴關系。本文添加LSTM 層,可以建立連續卷積特征圖F中的時域關聯,提升識別系統的可靠性。原因在于,LSTM 可以通過控制內部門的狀態,實現記憶單元的存儲和更新。具體而言,每個LSTM 內部主要包括輸入門in、輸出門on和遺忘門fn。輸入門in決定新信息流入當前記憶單元狀態cn的數量(式(15)),輸出門on負責控制前一幀記憶單元cn?1的信息輸出(式(16)),遺忘門fn負責判斷cn?1中何種信息應當被保留至當前時刻,以防止梯度消失或者梯度爆炸(式(17))。LSTM 結構如圖6 所示,根據第n個信號幀獲得輸入卷積特征圖、前一幀的記憶單元狀態cn?1,以及上一時刻的信息輸出hn?1,得到當前時刻的記憶單元狀態cn(式(18)、式(19))和輸出hn(式(20))。

其中,Wi、Wo、Wf、Wc和bi、bo、bf、bc分別為相應的權重和偏置矩陣,σ表示激活函數sigmoid,?表示2 個矩陣的逐元素相乘運算。

圖6 LSTM 結構

在實際操作中,需要預先在CNN-LSTM 中分別添加“序列折疊層”和“序列展開層”,以便實現圖像序列批次和圖像批次之間的轉換。當最后一個卷積層輸出特征圖為3×3×64 的張量時,需要經過flatten 層的處理,轉換成576×1 的向量后再輸入兩層LSTM 單元中。LSTM 的單元數為128,兩層LSTM 單元之間dropout 概率設置為0.5,以應對過擬合問題。將最后一次迭代的LSTM 輸出信息送入一個全連接層(fc),隱單元數量對應動作的種類。最后,由Softmax 層輸出動作的最大概率,并預測對應的標簽。本文采用的模型訓練優化器為動量梯度下降法(SGDM,stochastic gradient descent with momentum),每次隨機選擇小批量進行梯度下降,從而實現權值的快速迭代更新和損失函數的最小化。選擇L2 正則化作為損失函數的懲罰項,目的是控制模型復雜度,防止模型過擬合。相應的動量超參數默認為0.9,輪次上限設置為50,每次更新所需的小批量大小為28。初始學習率設為0.01,當迭代至25 輪以后,再將學習率調整為0.001,以期用更小的步長尋找最優值。本文采用5 折交叉運算法來驗證算法的有效性,實驗訓練和測試均部署在Intel i7-5700HQ 2.70 GHz CPU 的臺式機,并利用MATLAB 2019a 進行模型實現,訓練過程如圖7所示。

5 實驗性能分析

5.1 實驗數據集及實驗設置

本文所采用的公開數據集WiAR[25]是Wi-Fi 動作識別領域最新的數據集,包含三類室內場景、16個動作類別,涵蓋了4 800 個采集數據。該數據集的動作類別包括10 個上肢運動、2 個下肢運動和4個全身運動。每個動作均由10 名測試人員(5 名男性、5 名女性)按照指令執行30 次,持續時間超過7 s,包括動作準備時間、執行時間和完成后等待時間。配置Intel 5300 網卡的商用Wi-Fi 設備以30 Hz的采樣率持續接收CSI 數據分組,接收端的天線數量為3 根。由于該數據集來源于真實場景,包含場景噪聲、習慣差異、人員多樣性等諸多不利因素,故具有一定的挑戰性。

本文還使用了自主采集的真實場景數據進行測試。參考WiAR[25]的實驗設置,實驗安排在如圖8所示的6 m×6 m 相對空曠的會議室和6 m×12 m 噪聲復雜的辦公室環境中進行。選擇5 名無相關專業背景的研究生作為測試人員全程參與實驗,其中,2 名為女性,3 名為男性。為了增加動作識別的難度,挑選4 個相似的全身動作和4 個上肢運動,全身動作包括原地踏步、深蹲、跳躍和摔倒,上肢動作包括喝水、接聽電話、揮手和敬禮。在一周內每人每天在不同場景分2 次完成共計20 組動作,以避免勞累所導致的動作變形。數據采集階段,提前為兩臺ThinkPad 筆記本電腦配置Intel 5300 網卡和CSITool[11],其中一臺裝配一根外置天線,作為發射端(AP);另一臺裝備3 根外置天線,作為接收端(MP)。兩臺筆記本放置距離為4 m,放置高度為1.5 m,分別工作在監控模式下,以30 Hz 的采樣率持續發送和接收數據分組。

圖7 MATLAB 平臺模型訓練過程

圖8 本文設置的實驗環境

5.2 基于CNN-LSTM 的同類工作對比實驗

為了準確評估SIL-Fi 的模型優勢,本文選取2種基于CNN-LSTM 模型的同類工作進行對比實驗。

如表1 所示,文獻[28]采用了低通濾波、PCA去噪和有效區域的組合去噪方式,以0.96 的精度對8 種活動進行識別;文獻[29]前期利用盲源信號分解法(BSS,blind signal separation)對原始的幅值和相位信息進行分解,并利用隱馬爾可夫模型(HMM,hidden Markov model)對識別結果進行修正,最終以0.85 的精度識別4 種門窗開關的方式。本文方法在模型主體結構基本類似的情況下,在信號預處理階段僅利用RPCA 對運動信號主成分進行提取,避免引入煩瑣的信號表征步驟(文獻[28])或是額外信號參數及糾正手段(文獻[29]),并在公開數據集WiAR 和自主采集數據集上均取得理想的識別精度。為了進一步闡述本文方法的優勢,復現了表1中同類工作的方法,采用5 折交叉驗證法分別對WiAR 和自主采集數據集的各類活動數據進行比較。其中,表2 為WiAR 數據集上16 類活動的識別正確率,表3 所示為自主采集數據集上8 類相似活動的識別正確率。綜合表2 和表3 的實驗結果,文獻[29]方法在識別彎腰、坐下、深蹲等全身動作時效果較好,識別喝水、打電話等相似動作時效果較差,這可能來源于BSS 算法的局限性,即來自人體軀干和門窗等表面積較大的反射信號更有利于分離。文獻[28]在2 個數據集上的平均識別精度最低,分別約為0.91 和0.94,這可能是因為該方法要求天線遠距離擺放以獲取空間多樣性,而在本文實驗場景中,煩瑣的信號預處理方法在處理噪聲干擾的同時,也更容易丟棄有益的運動信息。本文方法在面對不同動作時均能取得較好的識別效果,平均精度分別為0.94 和0.96,說明本文模型在僅需要RPCA 和原始幅值連續幀的情況下,依然能夠有效提取運動信號主成分;在不進行深度模型參數復雜調優的情況下,依然能夠提取顯著性特征。

表1 本文方法與基于CNN-LSTM 的同類工作的比較

表2 WiAR 數據集上識別正確率比較

表3 自主采集數據集上識別正確率比較

5.3 不同動作對系統識別準確率的影響

為了進一步探究不同動作對本文方法識別準確率的影響,以混淆矩陣的形式對本文方法在2 個數據集的驗證結果進行呈現,如圖9 所示,縱坐標為真實標簽,橫坐標為預測標簽,每個混淆矩陣的像素(i,j)表示第i個預測動作被估計成第j個真實動作的個數。圖9(a)中動作編號1~16 所代表的動作如表2 注所示,圖9(b)中動作編號1~8 所代表的動作如表3 注所示。如圖9(a)所示,在WiAR 數據集上的主要誤差來源于手臂畫勾和前向踢腿等肢體動作。其中,手臂畫勾動作最容易被識別成手臂畫叉和搖晃紙張等具有相似邏輯關系的動作,分別有15 例和18 例;前向踢腿動作最容易被識別成相似的側向踢腿和走路,分別有12 例和24 例。在圖9(b)中,由于全身運動和肢體運動具有顯著差異,因此對應的全身(肢體)動作全部被識別成類似的全身(肢體動作)。在全身動作中,深蹲動作是最容易被誤識別的,僅有0.949 的識別正確率;在肢體動作中,喝水和敬禮動作的識別精度最低,分別為0.939 和0.933。通過總結實驗結果觀察到,連續且具有較大擺動幅度的全身動作最容易被識別,而孤立的、具有相似邏輯關系且擺動幅度較小的肢體動作最難被正確分類。

5.4 不同深度模型組合方式的影響

本節實驗分析了不同卷積(Conv)層和LSTM層組合方式對訓練時間和平均精度的影響,以WiAR 數據集為例,實驗結果如表4 所示。其中,設置每個Conv 層后緊跟最大池化層、批歸一化層和激活層ReLu,其一層、2 層和3 層Conv 的隱神經元個數分別是(64)、(32,64)和(16,32,64),LSTM的單元數統一設置為128,全連接層的單元數為16,其余設置與前文所述一致。觀察到,當以序號1 的方式組合時,耗時最長,平均精度最低。這是由于缺乏Conv 層的抽象特征提取和最大池化層的降采樣操作,導致LSTM 需要處理多達14 400 個信號批次。隨著Conv 層數和最大池化層數的增加,訓練時間逐漸減小,平均精度也得到了顯著的提升,說明網絡開始逐層學習具有判別性語義的特征。當固定Conv 層數,進一步增加LSTM 層數時,觀察到從序號2 到序號3,由于模型過度擬合,盡管訓練時間增加了299 s,但是精度卻反而下滑。相比序號4,當采用序號5 的組合方式時,僅需要多訓練1 464 s,即每個訓練樣本訓練1.75 s,就可以得到超過序號4 組合方式0.12 的精度提升。

5.5 不同特征提取方式對識別穩健性的影響

為了直觀凸顯SIL-Fi 在特征提取方面的優勢,本文分別選取基于手動特征提取[14,18]、基于CNN[22]和基于LSTM[30]的相關工作進行復現并進行對比實驗?;谑謩犹卣魈崛〉墓ぷ饕话惴譃閮深悾阂活愡\用專家經驗,試圖枚舉時頻域顯著性特征,從而構建完備的特征集合,如文獻[14];另一類是在前者的基礎上,對特征集合的有效性和冗余性進行計算,從而篩選出代表性特征,如文獻[18]。為確保對比實驗的公平性,在復現文獻[18]的方法時,所采用的特征均來源于文獻[14],二者僅在特征篩選環節有所不同。對比文獻[22,30]是為了說明單一的空間/時域特征對于系統穩健性的影響。文獻[22]利用改進的CNN網絡提取變尺寸的幅值?相位圖像的空間特征,文獻[30]則首次將LSTM 應用于Wi-Fi活動信號的時域關系建模。

圖9 2 個數據集上不同動作的混淆矩陣

由于WiAR 數據集缺乏樣本采集時的環境描述,因此在自主采集數據集上對不同特征提取方式的穩健性進行探究。自主采集數據集上不同特征提取方法對系統穩健性的影響如表5 所示??梢缘贸鲆韵陆Y論。1) 文獻[14]的枚舉特征集合無法在自主采集數據集上使用,該特征集合僅能片面地刻畫自主采集數據集活動的特征,因此平均精度最低,僅為0.77。2) 采用有監督式的特征篩選方法[18]通過剔除冗余的、無益的時頻特征,可以將系統識別精度提高至0.85,這說明在理想情況下,若能針對領域特點設計出一個考慮足夠全面、精煉和顯著的特征集合,則可以確保系統識別的穩健性。然而這種方法極大地依賴設計者的背景知識、調參經驗和總結規律能力。3) 即使是單一的CNN 或者LSTM 方法,在面對場景遷移和個體差異時,都能通過自動提取空間域/時間域上的顯著特征,取得理想的識別精度,分別為0.935 和0.934。4) SIL-Fi通過深度融合CNN 和LSTM 模型,在不同的實驗室環境、不同的受試個體中均取得了最高的實驗精度,驗證了本文方法的穩健性。注意到測試人員的個體差異對識別精度的影響,SIL-Fi 在經過適當修改后還適用于用戶認證、手勢密碼和智能推薦等個性化服務。

6 結束語

針對現有基于深度學習的Wi-Fi 行為識別方法存在的抗噪聲能力差、信號輸入不兼容以及特征提取不充分的問題,本文提出一種基于連續圖像深度學習的Wi-Fi 人體行為識別方法——SIL-Fi。首先將采集到的CSI 原始幅值序列分割成若干個固定尺寸幀圖,克服模型輸入限制;進而設計低秩分解算法法提取關鍵的運動主成分信息;并將每一幀低秩矩陣分別輸入空間特征模塊和時間特征提取模塊中。其中,空間特征模塊通過逐層表征信號矩陣,將低秩矩陣中具有顯著識別力的空間尺度特征抽象并映射到特征圖中;時間特征模塊接納變長的特征圖序列,并借助其記憶特性對其在時間尺度的上下文依賴關系進行建模。通過整合模型,既能實現低分辨率圖像空間域和時間域特征的深度萃取,又可以有效解決CNN 模型輸入和特征提取不足的問題。本文方法分別在WiAR 公開數據集和自主采集數據集上進行測試,并考慮了不同動作、模型組合、測試人員、特征提取方式等諸多因素的影響。實驗結果表明,本文方法相較于同類工作具有良好的性能,具備普適場景下的高精度和穩健性。

表4 WiAR 數據集上不同深度模型組合方式對實驗結果的影響

表5 自主采集數據集上不同特征提取方法對系統穩健性的影響

為進一步提高方法的實用性,下一步工作還需要解決以下問題:1) 如何在少樣本或者零樣本的情況下,實現場景獨立的人體行為識別;2) 如何在多人或多變量并發的情況,實現目標人體活動信號的分離和提??;3) 如何通過合理修改模型結構,在計算資源有限的情況下進一步提高工作效率。

猜你喜歡
特征提取卷積矩陣
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設計方案
從濾波器理解卷積
基于Daubechies(dbN)的飛行器音頻特征提取
基于傅里葉域卷積表示的目標跟蹤算法
多項式理論在矩陣求逆中的應用
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合