?

基于多模態特征及卷積神經網絡的智慧教室人物行為識別方法

2023-12-21 05:18李梅琴
黑龍江工程學院學報 2023年6期
關鍵詞:特征提取類別時空

李梅琴

(閩西職業技術學院 實訓實驗管理中心,福建 龍巖 364021)

對智慧教室進行多類別人物識別時,識別是否準確至關重要。人物行為識別是將靜態或動態圖像中的人物信息與數據庫中信息進行對比,達到身份識別的目的[1]。人物行為識別過程中,受視頻背景、角度、光照、人物動作等因素影響,人物行為識別難度較高,導致準確率降低。

為提升智慧教室人物行為識別效果,覃俊等[2]通過超列注意力機制的卷積神經網絡,對關鍵區域定位,將超列集根據像素點形式串聯主干網絡達到多層疊加特征效果,提高人物行為識別準確率。但該方法對復雜背景中人物動作分類易混淆,無法準確識別。趙靜等[3]提出深度學習的多類別目標識別方法,輸入目標圖像數據集至神經網絡,實現目標圖像的分類和識別,識別準確率達96%。此方法降低了計算難度,但在實際應用中受各種因素影響,導致識別效果降低。江鵬飛等[4]為了識別低分辨率遠紅外監護視頻中的人物身份,通過人物運動軌跡與跨模態多攝像頭接力跟蹤結果,引入人臉識別算法,利用可見光攝像頭識別低分辨率遠紅外監護視頻中的人物身份,并完成身份一致性認定。朱容辰等[5]針對流量收集與處理工作量較大的問題,構建融合顯性、隱性、動態標識符的攝像頭身份標識體系,基于自信息量與信息熵,通過替換或篡改監控攝像頭這一重要的前端設備,提取攝像頭靜態信息與動態流量信息,構建了標識符貢獻度評估方法,但是尚未分析方法獨特性與針對性,不適用于多個場景。

多模態即多種異構模態數據協同推理,而多模態特征可以從視頻圖像不同特征角度出發,衡量人物的動作行為,因此,文中研究基于多模態特征及卷積神經網絡的智慧教室人物行為識別方法,提升智慧教室人物行為識別效率,實現校園信息化建設,為師生提供更智能的服務。

1 智慧教室人物行為識別

1.1 基于多模態特征融合的多類別人物行為識別框架

基于多模態特征的智慧教室人物行為識別流程如圖1所示。以智慧教室多類別人物視頻為對象,通過均勻稀疏采樣,得到智慧教室多類別人物的RGB圖像及人物行為圖像[6]。為了判斷視頻與圖像是否屬于多模態,需要利用卷積神經網絡對其特性進行提取并訓練提取后的特征圖像,根據圖像特征,判斷其是否屬于多模態。但由于所得RGB圖像尺寸大小不等,為簡化處理RGB圖像尺寸,通過C3DP-LA網絡完成智慧教室多類別人物RGB圖像時空特征的提取。C3DP-LA網絡由兩部分構成,分別為改進的3D卷積網絡(Convolutional Neural Network,CNN)和引入時空注意力機制的長短期記憶神經網絡(Long Short-Term Memory,LSTM)。利用改進3D CNN可以快速卷積的特點,獲得初始階段時空特征。同時,為提取智慧教室多類別人物RGB圖像不同時刻的信息,令其能夠應用在后續信息中,可利用LSTM的記憶功能和時空注意力機制自行選擇局部重要信息的特點[7],獲取RGB圖像的深層次時空特征,并提取人物行為圖像的人物行為組合特征,該組合特征包括人物光流特征、人物重心特征以及人物三維SIFT特征。在完成智慧教室多類別人物時空特征和人物行為組合特征的提取后,確認特征圖像屬于多模態。應用卷積神經網絡訓練人物行為的時空特征模型,將教室人物音頻轉化結果(即教室人物行為特征圖像)輸入到訓練好的模型中,對其進行多模態特征融合。選用softmax分類器對最后結果數據進行預估測算,并利用多模態的人物行為特征圖像完成智慧教室人物行為識別。

圖1 智慧教室多類別人物多模態行為識別流程

1.2 基于C3DP-LA網絡的人物RGB圖像時空特征提取

1.2.1 改進3D CNN初始階段時空特征獲取

3D CNN可在獲得智慧教室多類別人物RGB圖像運動信息的同時獲得其外觀信息,通過將包含多種通道信息的關鍵幀卷積整合為立方體,結合各通道的3D卷積行為,從多個圖像幀中獲取特征圖[8-10],同時獲取空間信息和時間信息以及多種類特征。

3D CNN由硬線層、卷積層、下采樣層、全連接層共同組成。將獲得的通道信息通過多種卷積層操作后,能夠得到智慧教室多類別人物特征圖數量。最后在全連接層實現智慧教室多類別人物特征初步提取。

3D CNN視頻長度限制為7幀,輸入7幀尺寸為60×40的智慧教室多類別人物RGB圖像,通過硬線層獲取灰度、光流x、光流y、橫坐標梯度x、縱坐標梯度y共5種通道信息,得出33個特征圖。

3D CNN網絡在應用時需提前決定圖像輸入的尺寸以及視頻幀的比例、大小和長度,若隨意輸入智慧教室多類別人物RGB圖像,3D CNN網絡的縮小、放大或者裁剪操作會導致圖像信息丟失或變形,影響特征提取效果。為此,可將3D CNN中最后位置的池化層更改為金字塔池化層,通過智慧教室多類別人物特征向量的變換,令其長度大小一致。

通過在3D CNN卷積層中輸入不同大小的智慧教室多類別人物RGB圖像,獲取與之對應的輸出結果。設X表示池化立方體的時間,B,D分別表示幀的高度、寬度,得到映射特征為X×D×B的卷積層。時空金字塔池化(Spatio-Temporal Point Process,STPP)能夠在特征數量固定的情況下,動態調整滑動窗口尺寸。

通過轉化處理3D CNN中不同尺寸大小、比例的視頻幀,能夠對其進行縮放處理[11]。利用STPP改進3D CNN,映射特征為X×D×B,分別設fx,fy為時間、空間池化級,時空池化級為F(fx,fy),可以得到單一池化立方體的大小V,計算結果為

V=[X/fx]×[D/fy]×[B/fy].

(1)

當所有時空池化立方體的響應值達到最大池化時,可以得到維度不變的時空特征向量,最后將此時空特征向量輸入全連接層實現智慧教室多類別人物時空特征提取。

1.2.2 引入時空注意力機制的LSTM模型

由于各智慧教室多類別人物視頻的長度和動作時間長度存在差異,以時間為出發點,完整的人物行為活動或步趨過程無法用簡單的一幀圖像說明,而3D CNN僅可輸入長度為7幀的視頻,在智慧教室多類別人物行為識別過程中,持續的幾幀圖像所組合的個體也無法清楚完成智慧教室多類別人物行為識別,且輸入其他長度視頻會導致結果準確性降低。采用LSTM模型與改進3D CNN相結合的方式對智慧教室人物行為RGB圖像時空特征進行深度提取[12-13]。

LSTM連接改進3D CNN后能夠更準確地提取智慧教室多類別人物時空特征,有效避免3D CNN的短板問題。其不僅能夠解決視頻長度大小限制的問題,還能夠對智慧教室多類別人物視頻數據進行選擇提取或刷新。此外,通過LSTM與時空注意力(Spatial-Temporal Attention, ST-Att)結合,能夠獲取人物特征的空間、動態時間相關性,有效完成動態智慧教室多類別人物時空特征提取。其具體結構如圖2所示。其中,lt,et,kt表示基本LSTM單元的輸入門、遺忘門和輸出門。

圖2 3D CNN-LSTM連接時空注意力機制的特征提取

(2)

1.3 智慧教室多類別人物行為圖像組合特征提取

1.3.1 人物光流特征提取

光流特征是根據智慧教室多類別人物行為圖像中所有像素點的灰度變化,確定其運動快慢和方向。t時刻的像素點L(x,y)的行動趨勢為

L(x+qx,y+qy,t+qt)=

(3)

式中:q為趨勢變化。

L(x,y)運動趨勢為向量Q(ω,ο),x方向上的運動分量用ω表示,y方向則用ο表示。因記憶部分區域內Q亮度恒定[14],可得

(4)

式中:a,b,c為輸入門、遺忘門和輸出門的調節系數,通過光流計算獲取最小‖EQ-F‖2,得到

EQ=F?ETEQ=ETF?Q=(ETE)-1ETF.

(5)

式中:Q為運動趨勢向量;E和F為圖像像素點;T為像素點運動時刻。

由此可知,光流場特征所呈現智慧教室多類別人物較為顯著,不受焦距變化影響。

1.3.2 人物重心特征提取

智慧教室多類別人物行為圖像中重心位置受人物行為動作影響處于不斷變化狀態,因此,重心特征的計算包括:

1)人物行為輪廓提取。采取Canny算法檢測智慧教室多類別人物行為圖像目標邊緣,得到人物行為輪廓。

2)人物行為重心計算。設G為智慧教室多類別人物行為圖像中像素總數,k為圖像幀數,智慧教室多類別人物行為第k幀圖像中人物重心位置(Ak,Bk)即肩線中點,人物重心的二維特征向量,通過對M(k∈M)幀圖像的人物重心位置進行串聯獲取,表達式為

(6)

1.3.3 人物三維SIFT特征提取

已知3D SIFT特征可較好地應用在各種人物行為中,通過其表示人物行為特征及動作信息,描述人物行為變化特點。

在計算3D SIFT特征前,需先選擇興趣點位置。將興趣點分為幾個立方體(胞)。通過3D SIFT特征將關鍵點每個立方體(胞)轉換為時空梯度直方圖,并將全部立方體(胞)重新組合。如3D SIFT特征為22維多面體,將大小為10×10×10的立方體拆分為6個子立方體,可計算出總體為132維特征,如圖3所示。

圖3 3D SIFT特征的興趣點位置選擇

1.3.4 人物行為組合特征向量

為確保參變量計算結果達到最好,并使人物行為特征向量的維度相同,需將所有的特征歸一最小化,則所有特征權重設成1。詳細步驟如下:

1)圖像大小設置為72×72;

2)將3×3個大小為4×4的子立方體(胞)組成立方體,單個立方體大小則為12×12,因此,計算出4 083維人物行為特征向量。

3)將所有特征結合在一起組成一個人物行為組合特征向量。

1.4 智慧教室多類別人物多模態特征融合

使用浮點乘加融合時,多模態特征在融合過程中會出現語義信息不穩定、模型塑造不準確的問題,特征向量也會包含一定的語義異常。為避免出現此類結果,根據全連接層的多模態特征融合網絡結構[15],利用其能夠使網絡并行訓練特征參數以及自適應調整的特點,一個算子產生4 096個結果,輸出到下一個算子參與計算,將智慧教室多類別人物時空特征和人物行為組合特征映射到4 096維特征融合空間,獲取最佳智慧教室多類別人物多模態特征融合結果。

1.5 智慧教室多類別人物行為識別

選取softmax分類器進行智慧教室多類別人物行為識別,避免人物行為的多變性對識別結果的影響。softmax分類器是以智慧教室多類別人物圖像多模態融合特征為輸入,通過將其轉換成概率序列,充分保留智慧教室多類別人物圖像多模態融合特征的原始信息,實現智慧教室多類別人物行為最佳識別結果的輸出。

式(7)為按照softmax方法得到的輸出類別數據zt的過程。

(7)

式中:αt表示多模態特征融合結果數值;m表示類別數;X表示zt隸屬于類別m的概率;X(z(t)=m)為智慧教室多類別人物行為識別結果。

2 實驗分析

本實驗以某智慧教室課堂的視頻信息為實驗對象,利用文中方法對多類別人物進行自動識別,驗證該方法的應用效果。

在The MNISTDatabase( http://yann.lecun.com/exdb/mnist/ )數據庫中選取實驗樣本,對課堂上不同場景情況下智慧教室多類別人物的動作信息數據進行分析。此次數據涵蓋S1、S2和S3場景中智慧教室多類別人物舉手、睡覺和寫字3種行為。將學生信息提前輸入數據庫中,然后輸入實驗所需的待識別行為。選取3種不同場景下智慧教室多類別人物相同行為圖片,由簡單至復雜的智慧教室多類別人物場景情況如表1所示。

表1 智慧教室不同場景視頻數據

將不同場景下的樣本數據進行混合,通過數據提取,將尺寸為60×40的智慧教室多類別人物RGB圖像輸入3D CNN中,所得特征圖在卷積層中通過3種卷積核卷積。對所得特征圖繼續下采樣操作,以特征圖的數量以及空間分辨率減少為目的,進行2×2及3×3尺寸的滑動窗口運作。在卷積層中,選擇尺寸大小為7×4的2D核,對所有特征圖運作得到128個特征向量,對混合總樣本反復訓練,獲取空間、時間維度共存的智慧教室多類別人物特征。進行人物行為識別結果分析,如表2~4所示。

表2 S1+S2智慧教室場景下人物行為識別結果

表3 S2+S3智慧教室場景下人物行為識別結果

表2~4為各場景分別混合后的智慧教室多類別人物行為識別結果。在進行場景混合后,人物行為識別的準確度相比于簡單背景略有降低,但不同人物行為的動作分析結果一致。說明文中方法能夠識別智慧教室不同環境中的動作,對人物行為識別結果準確,對不同場景中智慧教室多類別人物行為識別準確。

為了驗證該方法在人物行為識別中的優越性,在表4數據的基礎上,引入文獻[4]方法與文中方法進行對比,S1+S2+S3場景融合下人物行為識別對比結果如圖4所示。

表4 S1+S2+S3智慧教室場景下人物行為識別結果

圖4 S1+S2+S3場景融合下人物行為識別對比結果

由圖3可知,文中方法在 S1+S2+S3場景融合下可以有效識別課堂任務行為,其中,人物舉手行為識別率為93%、人物睡覺行為識別率為97%、人物寫字行為識別率為83%,行為識別效果均高于80%。而在文獻[4]方法的識別結果中,僅對睡覺行為的識別率超過80%,對寫字行為的識別率未超過50%。據此,與文獻[4]方法相比較,文中方法的行為識別效果較好,可以有效識別智慧課堂中人物的行為,預測人物動作。

為驗證3D CNN的特征提取效果,設置其參數并選取數據對3D CNN進行反復循環訓練實驗。本實驗所設置的3D CNN配置參數如表5所示。

表5 3D CNN配置參數

圖5記錄了125×103個epoch過程中的3D CNN網絡的損失函數變化情況。

圖5 損失函數曲線

由圖4可以看出,隨著循環訓練次數不斷增加,3D CNN特征提取損失值不斷降低,損失函數值逐漸趨于穩定。說明文中方法應用3D CNN進行特征智慧教室多類別人物特征提取的效果較好,網絡損失較低。

根據上述分析可以得出,文中方法對于智慧教室多類別人物行為識別的精確性較高,在復雜的背景環境中能對學生多種行為進行有效識別,可以有效判斷學生的課堂出勤率和課堂狀態。

3 結束語

多模態特征的智慧教室多類別人物行為識別對校園信息化建設具有重要意義。多模態特征的智慧教室多類別人物行為識別方法能夠準確分析目標人物課堂行為,提高不同場景中人物動作分類精度。實驗表明,本方法能準確識別智慧教室多類別人物,提高了識別效率。通過智慧教室多類別人物行為識別的方法可實現智能考勤、課堂人物信息采集、教學可視化管理,為師生提供高效智能的服務。

猜你喜歡
特征提取類別時空
跨越時空的相遇
鏡中的時空穿梭
玩一次時空大“穿越”
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
時空之門
服務類別
基于MED和循環域解調的多故障特征提取
論類別股東會
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合