?

基于S-LRCN的微表情識別算法

2022-01-14 06:45李學翰胡四泉石志國
工程科學學報 2022年1期
關鍵詞:特征提取人臉準確率

李學翰,胡四泉,石志國,張 明

1) 北京科技大學計算機與通信工程學院,北京 100083 2) 北京科技大學順德研究生院,佛山 528399 3) 北京市大數據中心,北京 100101 4) 電子科技大學通信與信息工程學院,成都 611731

人臉表情反映了人類的真實情緒,心理學家Albert Mehrabian指出“情感表達=7%語言+38%聲音+55%面部表情”[1].面部表情作為情感和心理的研究載體,在人類情感判斷中具有重要的地位.根據Ekman的基本情緒理論,表情包含了大量的情感語義,一般分為高興、厭惡、憤怒、悲傷、恐懼、和驚訝6種[2].但是,情感通常是連續的、時序上下文相關的,具有不同的強弱表達關系,基本的情緒理論仍然具有一定的局限性.與普通表情不同,微表情是在主觀情緒影響下產生的一種自發式表情[3].微表情具有持續時間短 (1/25~1/3 s)、動作幅度小等特點[4],給微表情識別帶來了很大的難度.

在以往的微表情識別中通過特征提取的方法對微表情進行分析,但是由于底層特征由人工提取等原因造成特征提取不足,導致微表情識別準確率低[5].近年來,深度學習算法表現出強大的優勢,尤其是在圖像特征提取方面表現突出,準確率遠超于傳統的特征提取方法[6].因此采用深度學習算法來對微表情進行更有效的特征提取以提高識別效果.此外,傳統方法受限于計算能力和表情視頻數據的規模,通常使用靜態表情或者單表情進行分析,忽略了表情周期性的問題.表情的產生是一個隨時間變化的過程,動態表情更自然地表達了表情變化,而單幀的表情并不能反映表情的整體信息,所以基于動態表情序列進行分析更有助于微表情的識別.

本文基于動態多表情序列,將空間特征和空間時間相結合,提出一種分離式長期循環卷積網絡(Separate long-term recurrent convolutional networks,S-LRCN)模型,首先將卷積神經網絡用于深層特征視覺提取器來提取圖像中的微表情靜態特征[7],并將從視頻序列中提取的特征提供給由長短期記憶網絡 (Long short-team memory, LSTM)單元組成的雙向循環神經網絡,得到時序的輸出,來提高微表情識別的準確率.并且研究表情序列的實際使用場景,將教學評價與表情分析結合,通過采集學生面部表情來分析其學習狀態,本文采用分心(Distraction)、專注 (Focus)、疲勞 (Tired) 3 種分類方式建立小型數據庫,最后通過改進的S-LRCN方法對3種狀態分類.

1 相關工作

1.1 表情識別

Ekman等[8]于1976年提出了面部表情編碼系統 (Facial action coding system,FACS).FACS 將人臉區域劃分成 44 個運動單元 (Action unit,AU),并將不同的AU進行組合形成FACS碼,每一種FACS碼對應著一種面部表情.并在此基礎上,經過對大量表情圖片的分析,開發出了面部情感編碼系統(Emotion FACS)[9].MIT實驗室訓練稀疏碼本進行微表情的情感分析,通過利用微小時間運動模式的稀疏性,短時間段內在面部和身體區域上提取局部時空特征[10],從數據中學習微表情碼本,并以稀疏方式對特征進行編碼,在AVEC 2012數據集上的實驗表明,這種方式具有很好的性能.

1.2 表情特征提取

表情特征的提取方法分為基于靜態圖像與基于動態圖像兩類.其中基于動態特征的提取主要集中在人臉的形變和面部區域的肌肉運動上,基于動態特征提取的代表方法有光流法[11]、運動模型、幾何法和特征點跟蹤方法等.

Polikovsky等[12]通過3D直方圖的方法,通過關聯幀之間的梯度關系進行微表情檢測識別.Shreve等[13]通過光流法使用應變模式處理長視頻,通過在人臉部劃分幾個特定子區域(如嘴部,眼睛)分割面部表情,進而識別微表情.Pfister等[14]使用三維正交平面局部二值法(Local binary patterns from three orthogonal planes, LBP-TOP)算法提取微表情圖像序列的特征,該方法通過二維到三維的擴展提取時域和空域方向上的動態局部紋理特征進行識別.梁靜等[15]建立CASME數據庫,應用Gabor濾波提取微表情序列的特征值,并使用平滑式自適應增強算法結合支持向量機的方法(Support vector machines based on gentle adaptive boosting, GentleSVM)建立分類器進行分類識別.Wang等[16]提出利用6交點局部二值方法(Local binary patterns with six intersection points, LBP-SIP)對微表情進行識別,該方法減少了LBP-TOP方法中特征的維度,提高了微表情特征提取的效率.

在基于時空域運動信息描述的微表情識別方面,Liong等[17]通過利用面部光學應變構造光學應變特征和光學應變加權特征來檢測和識別微表情.Le Ngo等[18]采用歐拉影像放大分析圖像頻域中的相位以及時域中的幅值,放大微表情的運動信息,消除無關的微表情面部動態,并利用LBPTOP算法進行特征提取.Xu等[19]提出了一種面部動態映射 (Facial dynamics map, FDM)的方法來表征微表情序列,該方法通過計算微表情序列的光流信息然后進行在光流域上的精準對齊.

1.3 深度學習與微表情識別

區別于傳統的機器學習算法,深度學習突出了特征學習的重要性,通過逐層的特征映射,將原數據空間的特征映射到一個新的特征空間中,使得分類和預測更加容易.深度學習可以利用數據提取符合要求的特征,克服了人工特征不可擴展的缺陷.Patel等[20]在微表情識別中引入深度學習的方法,通過特征選擇提取微表情特征,但由于數據集樣本量過小,訓練中容易產生過擬合現象,影響網絡的識別準確率.Kim等[21]使用卷積神經網絡對處于不同表情狀態的微表情的空間特征進行編碼,將具有表達狀態約束的空間特征轉移到微表情的時間特征,使用LSTM網絡對微表達式不同狀態的時間特征進行編碼.Khor等[22]提出一種豐富的長期遞歸卷積網絡,對數據集提取光流特征以豐富每個時間步或給定時間長度的輸入,該網絡通過包括提取空間深層特征和表征時間變化的動態時序模型.Verburg與Menkovski[23]通過在微表情圖像序列的光流特征上使用遞歸神經網絡,提取定向光流直方圖 (Histogram of oriented optical flow, HOOF)特征來編碼所選面部區域的時間變化,然后將其傳遞給由LSTM模塊以進行檢測任務.

2 微表情識別方法

微表情識別通過人臉檢測算法從復雜場景下獲取人臉位置,檢測并分割出人臉輪廓以對其進行微表情的特征提取,并建立識別分類模型,其基本步驟包括:(1)人臉表情圖像、表情序列的獲取與處理;(2)從人臉表情序列中提取微表情特征,去除特征之間的冗余以降低特征維度;(3)基于長期遞歸網絡,微表情特征作為時序模型的輸入,用于學習時變輸出序列的動態過程;(4)建立動態預測模型,對人臉微表情分類識別.如圖1所示.

圖1 動態表情識別流程Fig.1 Dynamic expression-recognition process

本文方法基于長期循環卷積網絡(Long-term recurrent convolutional networks, LRCN)[7]架構,并對該模型進行改進使其更適應微表情視頻片段的識別,面對微表情數據集通常存在數據量小的問題,采用遷移學習的方式避免網絡過擬合,將卷積神經網絡(Convolutional neural networks, CNN)和LSTM的部分微調,提出S-LRCN的方法,結合卷積神經網絡和長期遞歸網絡,通過兩個獨立的模塊獲取空間域特征,并對時間域特征分類,首先使用預訓練的CNN模型提取每一張微表情圖片幀的特征向量組成特征序列,然后將具備時序關聯的特征序列輸入到LSTM網絡中,并得到時序的輸出.通過這種方法,可以對CNN網絡的結構及輸出微調,使其分類的準確率更高,并且有利于在小規模數據集上的學習.

2.1 LRCN 網絡

LRCN是一種結合傳統CNN網絡和LSTM的循環卷積結構[7],該網絡同時具備處理時序視頻輸入或單幀圖片的能力,同時也具備輸出單值預測或序列預測的能力,同時適用于大規模的可視學習,LRCN模型將長期遞歸網絡與卷積神經網絡直接連接,以同時進行卷積感知和時間動態學習.

該模型結合深度分層視覺特征提取模型可以學習識別和序列化時空動態任務,包括序列數據(輸入、輸出)視頻,描述等,如圖2所示.t時刻,通過參數化的特征變換將傳遞給每一個視覺輸入vt(單一圖像或視頻幀)來產生一個固定長度的矢量lt∈Rd表示,其中,Rd表示d維的實數集,建立視頻輸入序列的特征空間表示 [l1,l2,···,l3],然后輸入到序列模型中.

圖2 LRCN 結構Fig.2 LRCN structure

在通常形式下,由序列模型將輸入xt和前一個時間步的隱藏狀態ht?1映射到輸出zt和更新后的隱藏狀態ht,依次計算h1=fW(x1,h0),h2=fW(x2,h1),最后得到ht,其中W為權值參數.在時間步t預測分布P(yt)的最后一步是在順序模型的輸出zt上取一個 softmax邏輯回歸函數,將一個向量映射為一個概率分布,產生一個可能的每步時間空間C的分布,表示有C種結果,yt=c表示第c類結果的概率,Wc為第c類權重向量:

其中,LRCN針對3種主要的視覺問題(行為識別、圖像描述和視頻描述),實例化的學習任務如下:

1.順序輸入,固定輸出:[x1,x2,···,xT]→y.面向視覺的行為活動預測,以任意長度T的視頻作為輸入,預測行為對應標簽.

2.固定輸入,順序輸出:x→[y1,y2,···,yT].面向圖像描述問題,以固定圖像作為輸入,輸出任意長度的描述標簽.

3.順序輸入和輸出:[x1,x2,···,xT]→[y1,y2,···,yT].面向視頻描述,輸入和輸出都是順序的.

通過實驗結果,LRCN是一種結合空間和時間深度的模型,可以應用于涉及不同維度輸入和輸出的各種視覺任務,在視頻序列分析中具有很好的效果.

2.2 S-LRCN 網絡

由于微表情是關于視頻的幀序列,實現微表情空間域與時間域的特征提取顯得尤為重要,所以基于LRCN“雙重深度”序列模型在行為識別中的優勢,將LRCN用于微表情序列分類,提出一種S-LRCN模型.該方法包含3個部分:預處理,微表情特征提取和特征序列分類,其中預處理包括面部裁剪對齊,提取面部關鍵區域[24];特征提取包括圖片幀預訓練面向人臉的CNN模型,建立特征集;序列分類將視頻序列的特征集提供給由LSTM網絡,然后分類給定序列是否包含相關的微變化.該方法具有以下優點:

1.基于LRCN,結構簡單,需要較少的輸入預處理和手工特性設計,減少中間環節;

2.適合用于微表情數據集數據量不足的情況,通過遷移學習提取面部微觀特征,避免訓練過程中過擬合;

3.訓練過程可視化,便于修改模型,對參數及特征調優.

S-LRCN在訓練過程中包括兩個環節,其中CNN用作特征提取器提取表情幀的圖像特征,LSTM用作時序分類器分析特征在時間維度上的關聯性.

2.2.1 CNN 作為特征提取器

CNN作為一種深度學習模型,更適用于提取圖像的基礎特征并降低模型復雜度,因此采用CNN來提取微表情序列的特征向量,在不同環境下的適應性更強,特征表現力更好.對于微表情識別而言,數據集樣本量很小,在網絡訓練中會出現過擬合的現象,直接從微表情數據訓練CNN模型是不可行的,為了減少在微表情數據集上訓練深度學習網絡時的過度擬合,使用基于對象和人臉的CNN模型進行遷移學習,使用特征選擇來提取與任務相關的深層特征.

Wang等[25]在微表情識別中基于遷移學習使用ImageNet數據庫初始化殘差網絡,并在幾種宏觀表情數據庫上進行進一步的預訓練,最后使用微表情數據集對殘差網絡和微表情單元進行微調.但是通常情況下,宏觀表情數據庫中的表情變化較大,具有很明顯的表情特征,而微表情變化幅度小,更接近沒有變化的人臉圖像.因此使用面向人臉識別的VGGFace模型[26]作為微表情幀的特征提取器,可以從不同環境、人群中提取細微特征,本文采用的VGGFace模型基于通道模型依賴網絡 (Squeeze-and-excitation networks, SENet)架構[27],并在VGGFace2人臉數據庫上訓練[28].SENet通過在殘差網絡(Residual network, ResNet)[29]中 嵌入SENet結構增強了網絡的自適應性,利用全局信息增強有益特征通道并抑制無用特征通道,通過特征通道之間的關系提升網絡性能.如圖3所示.

圖3 SENet模塊Fig.3 SENet

如圖3,Ftr:X→U,U=[u1,u2,···,uk,···,uC]T的實現過程為:

特征激發過程得到的特征S=[s1,s2,···,sC]的維度是1 ×1×C,主要用來刻畫特征U中C個特征圖的權重,即:

特征提取通過在全局平均池化層(Global average pooling, GAP)微調進行特征壓縮,利用兩個全連接層去建模通道間的相關性,并通過減少模型中的參數量和計算量來最小化過度擬合.

2.2.2 LSTM 構建序列分類器

由于微表情變化是在連續時間內發生的,如果沒有利用微表情在時間上的信息的話,很難對微表情變化準確識別.因此為了利用表情序列在時間上的變化信息,使用循環神經網絡來處理任意時序的輸入序列,可以更容易地處理時間維度信息,采用LSTM節點雙向循環神經網絡模型處理時序數據,構建長期遞歸卷積網絡,對給定序列是否包含相關的微表情判斷分類.

定義雙向LSTM模型的表情特征輸入序列MicroE_Features=(x1,···,xT),前項傳播隱變量序列,反向傳播隱變量序列和輸出序列y=(y1,···,yT),則輸出序列y的更新方式為:

式中,W為雙向LSTM模型權重,b為偏置項,偏置項,H(x)表示激活函數,使用長短時記憶神經元進行計算,雙向LSTM和記憶神經元如圖4和5所示.其中圖5中的ft,it和ot分別表示遺忘門、輸入門和輸出門,Ct表示記憶單元(Cell)在t時刻的狀態.

圖4 雙向循環網絡Fig.4 Bidirectional LSTM

圖5 LSTM 神經元Fig.5 LSTM neurons

LSTM的輸入是使用預訓練模型從所有序列幀中提取的空間特征,本文采用單層的雙向LSTM結構,其中包含一個512個節點的隱藏層,在LSTM隱藏層和全連接層之間使用Dropout層以一定概率隨機屏蔽神經元,減少神經元間的共適關系,增強網絡節點的魯棒性.

2.3 S-LRCN 用于微表情識別

基于以上改進的方法,對于給定的微表情序列,本文實現微表情識別的步驟如下:

(2)載入微表情視頻文件,首先對序列長度歸一化,即輸入LSTM網絡的時間步長設定一個固定值T,得到.依次對序列歸一化的視頻序列圖片進行人臉檢測提取人臉部分,將截取的有效圖片尺寸歸一化,進而得到處理后的數據集,此步驟使輸入視頻序列適合于輸入到CNN網絡.

由于采集的微表情序列含有大量噪聲和冗余信息,因此需要去除圖像中的無關區域并消除數據噪聲,對數據集中的微表情序列進行人臉對齊和人臉剪裁.使用Haar人臉檢測器[30]檢測人臉,利用主動外觀模型 (Active appearance model, AAM)算法[31]將每個微表情采樣序列的中性表情狀態下人臉的特征點提取出來,根據特征點坐標裁剪出人臉輪廓,將圖像歸一化為 224×224×3,避免尺寸差異影響結果.

(3)利用遷移學習和VGGFace模型的預訓練權重提取面部特征,并對VGGFace的預訓練權重進行微調,以使模型更有效地適應微表情表達加快收斂,網絡輸入為大小 224×224×3的人臉表情圖像,輸出為全局平均池化層之后的全連接層得到的2048長度特征向量x:

式(9)中,mi∈Rn,將提取器最后輸出的特征向量x進行L2歸一化得到:

(4)由于微表情圖像序列具有的動態時域特征,各幀之間包含時域相關性,在完成對微表情單幀圖片的空間特征提取之后,利用雙向LSTM網絡前項序列和反向序列傳播過程進行訓練,獲得表情時序特征空間,表情視頻序列的每幀人臉圖像的表情特征為xt∈Rn,設定表情變化時序t∈T,T為表情幀長度,則表情特征時序矩陣為:

建立順序輸入,固定輸出的預測時間分布[x1,x2,···,xT]→y:

式中,F為激活函數,W為雙向LSTM的判決參數模型,y是多分類的預測結果.

實現步驟如圖6所示.

圖6 實現方法Fig.6 Implementation method

3 實驗結果

為了驗證本文提出的微表情識別方法的性能和準確率,采用CASME-Ⅱ數據集進行訓練.首先按照本文的方法訓練網絡模型,驗證該方法的有效性,并研究時間序列長度即LSTM步長(Timestep)以及LSTM的深度對模型效果的影響.

3.1 數據集選擇

采用CASME-Ⅱ數據集進行實驗[32].CASME-Ⅱ是由中科院心理傅小蘭團隊所建立的自然誘發的微表情數據庫,包含來自26個平均年齡為22歲的亞洲參與者的255個微表情采樣,視頻片段幀數不等.該數據集在適當的照明條件以及嚴格的實驗環境下采集得到,圖像的分辨率為640像素×480像素.該數據庫樣本標有起始幀和結束幀和與之對應的微表情標簽,提供了高興、厭惡、壓抑、驚訝、害怕、傷心及其他情緒分類(Happiness,surprise,disgust,fear,sadness,repression,others),數據庫中捕捉到的微觀表情相對純粹而清晰,沒有諸如頭部動作和不相關的面部動作的噪音.本文數據集劃分為5類,如表1所示.

表1 劃分情況Table 1 Dataset classification

3.2 數據集預處理

為了減小不同個體和不同微表情之間的差異,首先要對數據集中的微表情序列預處理以進行面部對齊,裁剪得到面部表情區域,并將圖像幀的分辨率統一調整為224像素×224像素,以便輸入空間維度與VGGFace網絡模型的匹配.由于數據集中的微表情序列幀數不統一,針對微表情序列通過時間插值模型插值(Temporal interpolation model,TIM)[33]的方法,將數據集樣本每一個圖像序列插值為20幀,得到固定長度為20的幀序列,并將20幀的序列拆分為兩個10幀的時間序列,隨后把10幀的樣本拼接并保存為訓練數據,通過對一段視頻的處理獲取到兩組數據.

由于微表情數據樣本數據量較小,因此對數據集進行擴充,本文采取鏡像模式對數據集進行擴充,將數據集中的樣本逐一進行圖片水平鏡像,擴充數據集樣本.

3.3 實驗結果

實驗利用5折交叉驗證的策略,將數據集隨機分為5等份,每一次將其中4份作為實驗的訓練集,輸入到模型中,另1份作為測試集,用來驗證分類的準確率.網絡訓練使用早期停止法,其中將訓練集按照4∶1的比例隨機劃分為訓練集和驗證集.使用自適應矩估計(Adam)優化器,其中學習率設置為為 10?3,衰減為 10?5,網絡訓練為40個周期,批尺寸為16

選取其中一組訓練結果,當訓練趨于穩定時,自動停止當前訓練,最后得到訓練過程中訓練集與驗證集準確率變化情況,如圖7所示.

圖7 訓練曲線Fig.7 Training curve

5組訓練結果如表2所示,得到5折交叉驗證平均準確率為65.7%.最后的分類結果如圖8所示,從圖中可知,預測結果在“其他”附近分布比較多,這是由于CASME-Ⅱ中將一些無法確定的表情歸類到“其他”,并且此部分數據量相比其他類別較大,同時實驗中將“悲傷”和“害怕”劃分到該類表情中,所以錯誤的預測結果大多集中在“其他”部分.如果不考慮“其他”類,對其他4類表情分類會具有更高的準確率.

圖8 5 種表情分類結果Fig.8 Classification results of five expressions

表2 訓練結果Table 2 Training results %

3.4 數據分析

幾種微表情識別算法LBP-TOP[34]、時空完全局部量化模型 (Spatiotemporal completed local quantization patterns,STCLQP)[35]、CNN+LSTM[21]、HOOF+LSTM[23]及本文研究的S-LRCN,采用五折交叉驗證的識別準確率對比如表3所示,其中微表情識別算法的數據集采用本文在CASME-Ⅱ下的分類方法.通過對比可知,本文改進的算法對比以往算法識別精度更高,表示本文算法的可行性.與傳統的機器視覺算法LBP-TOP、STCLQP相比,本文采用深度學習模型在準確率方面提高明顯,并且引入LSTM神經元考慮表情變化在時序上的關聯特性具有更高的精度;與CNN、HOOF結合LSTM的算法相比,本文通過預訓練的卷積神經網絡模型提取特征,采用遷移學習避免網絡訓練中過擬合的問題,準確率也有了一定的提高.

表3 不同算法識別準確率Table 3 Recognition accuracy of different algorithms

基于本文改進的算法,分別從序列長度、不同LSTM模型兩個方面來判斷這些參數對于LSTM模型識別率的影響:

(1)不同長度的微表情序列對識別率的影響,針對數據集分布采用長度為 6,10, 15,30 的 TIM插值算法,選擇將不同序列的數據輸入到單層的雙向LSTM網絡,實驗結果如表4所示.

表4 不同序列長度實驗效果Table 4 Experimental results of different sequence lengths

由表4可知,當序列長度較小時,訓練的模型具有更高的準確率,序列長度為10時,準確率最高為65.7%,序列長度為6和15時,準確率分別為62%和63.1%.序列長度為30幀時準確率降低到56.5%,這是由于微表情通常持續時間很短,使用短序列可以更快捕捉面部表情的變化情況.

(2)固定序列長度為10,分別建立雙向LSTM(512節點的隱藏層),2層雙向LSTM模型(2個512節點的隱藏層),單層LSTM,多層感知器(Multi-layer perceptron, MLP),研究不同 LSTM 模型對識別率的影響如圖9所示.

圖9 不同 LSTM 模型實驗結果Fig.9 Experimental results of different LSTM models

由圖9可知,使用單層的LSTM網絡時,具有更高的精度,雙向LSTM為65.7%,單向LSTM為64%,雙向LSTM識別率更高;增加隱藏層層數時準確率降低為62.7%,這是由于數據量過小,加深網絡深度會導致時間相關性降低;使用MLP網絡時訓練速度較快,但是會丟失一些時序特性,準確率為63.5%.

實驗結果表明,微表情識別準確率受到序列長度和LSTM網絡結構的影響,只有充分考慮網絡模型空間特性和時間特性之間的相互關系才能取得更好的效果.

3.5 實驗擴展

表情分析用途廣泛,將表情識別技術用于教育領域,通過觀察學習者面部表情變化,分析學習者的心理狀態,從而進一步分析學習者對知識點的理解度及興趣度等信息,便于提高教學質量.

基于本文的方法對學習者學習狀態進行評價,采用CASME-Ⅱ對微表情分類識別,CASME-Ⅱ使用具有情感價值的視頻短片來誘發情感表達,參與者要求在屏幕前觀看視頻短片,過程中避免身體運動,并且在觀看短片時保持中立的面部表情試圖抑制自己的表情.由于該數據集在實驗室環境下采集,不易受外界因素干擾,且視頻序列變化微小并不適用于實際的教學場景,所以建立面向教學評價的小型數據集用于對學習者學習狀態的初步評判.

建立模擬教學場景采集人員表情變化,具體方法如下:

1)選擇30~45 min的課程視頻片段誘發學習者表情狀態,參與者須觀看完整課程視頻,并錄制采集視頻;

2)參與者觀看過程中按一般的上課狀態,頭部、肢體動作不做要求;

3)取得的原始數據由參與者去除不相關內容,篩選表情樣本并分類,表情持續片段為“平靜?高峰?平靜”的變化區間;

4)篩選的樣本由其他參與者對分類結果二次驗證,建立標簽.

數據集通過模擬教學場景對參與人員表情變化采集,參與人員共6位,包含215個視頻序列,序列長度為60~90幀,面部表情標簽包括分心、專注和疲憊 (Distraction、focus、tired),如圖10 所示.

圖10 數據分類Fig.10 Data classification

針對建立的教學評價數據集,采用本文微表中微表情識別方法對學習者學習狀態分析,通過相同的方法建立網絡模型,處理圖片序列并劃分數據集,采用五折交叉驗證的方法,驗證分類結果的有效性,取平均值后識別結果如圖11所示.

圖11 實驗結果Fig.11 Experimental result

4 結論

針對目前微表情識別研究中普遍存在的問題展開研究,通過深度學習來實現對微表情序列的識別分類.基于LRCN在行為識別中優異的性能,對該方法改進提出一種S-LRCN的方法,該方法更適合用于微表情這種小規模數據集中.采用遷移學習的方法,通過預訓練的VGGFace模型提取表情幀的特征集合以減少數據量過小在訓練深度網絡中過擬合的風險;將特征集合輸入雙向LSTM網絡以考慮微表情變化持續時間短,具有時間相關性的特點.實現表明,該方法具有較高的準確性.但是已標記微表情數據量不夠,各類數據分配不均勻以及微表情表現強度普遍較弱仍然是導致識別率低的主要原因,在以后的研究中還需要進一步完善數據集,以促進微表情識別的進展.

此外,將表情識別用于學習場景是構建新型課堂的一種趨勢,基于信息學、心理學和教育學的相關研究基礎,可以通過表情分析研究學習者學習狀態.本文建立了一個包含3個類別的小型數據庫,來對教學場景下的表情分類.今后的工作還要進一步豐富數據,基于動態表情序列分析學習者情感,建立心理特征模型,研究學習過程中學習狀態與情感變化的對應關系.

猜你喜歡
特征提取人臉準確率
有特點的人臉
一起學畫人臉
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設計方案
基于Daubechies(dbN)的飛行器音頻特征提取
三國漫——人臉解鎖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合