?

博物館場景下基于時空注意力機制的人臉表情識別方法

2024-03-27 16:21董宇軒
現代計算機 2024年1期
關鍵詞:人臉特征提取注意力

張 鵬,董宇軒

(1. 煙臺科技學院數據智能學院,煙臺 265600;2.煙臺科技學院藝術設計學院,煙臺 265600)

0 引言

博物館數字化[1]展示是近年來伴隨著數字技術的發展及其在博物館文物展覽與研究領域的拓展應用而產生的新的展示形式。它利用交互藝術[2]對觀眾的感官(視覺、聽覺、觸覺)進行信息采集,并識別用戶情感信息,做出相應的反饋,使得觀眾可以達到身臨其境的感受,通過互動等方式,在達到博物館展品展示的教育功能的同時,還可以增強展品的趣味性。

人臉表情是在人際交往中判斷對方真實情感狀態的一個重要信息。隨著人工智能技術的發展,人臉表情識別技術正融入到人機交互中,促進人機交互技術的發展,使機器更加能夠讀懂人的真實情感狀態。智慧醫療、聊天機器人、學生專注度測量等一系列的應用場景應運而生。

人臉表情的相關研究由來已久,Ekman等[3]定義了六種基本表情,包括高興、恐懼、悲傷、生氣、驚訝和厭惡。人臉表情識別分為圖片采集和預處理、表情特征提取、表情分類三個步驟。其中特征提取是決定人臉表情識別的關鍵。特征提取一般分為傳統特征提取方法和基于深度學習的特征提取方法。傳統的面部表情識別方法采用人工設計的特征提取器,然后使用分類器來實現整個識別過程,其性能主要取決于特征表達的有效性。例如,局部二進制模型LBP、HOG、SIFT、SURF、Haar 等。研究人員可以通過Gabor 濾波器[4]等傳統的特征提取方法獲取人臉的紋理信息,將這些信息作為SVM(支持向量機)模型的輸入,實現對表情的識別。但是傳統的特征提取方法存在魯棒性較弱和準確率較低等問題,無法很好地適應復雜的人臉表情識別任務。

隨著深度學習技術的發展,提出了一系列可用于提取人臉表情特征的深度神經網絡,基于深度學習的人臉表情識別方法逐漸成為主流。代表性的有卷積神經網絡(CNN)[5]和長短時記憶網絡(LSTM)[6],CNN 用于提取每幀圖像的空間特征,LSTM 用于學習視頻圖像幀之間的時間維度信息表示。

為了進一步提高網絡模型對表情特征的提取能力,研究人員在卷積神經網絡的基礎上引入了注意力機制,包括通道注意力機制[7]、混合注意力機制[8]等。這些注意力機制能夠對CNN 提取出的多通道特征向量在空間和通道維度上賦予不同的權重,進而提高卷積網絡模型對人臉表情重要特征的提取能力。倪錦園等[9]通過構建深度殘差模型,并在網絡中引入通道注意力機制,讓網絡模型能夠正確分類被擦除部分人臉的表情圖片,提高了網絡的魯棒性與識別準確率。周江等[10]提出CNN-LSTM 網絡集成結構的視頻表情識別方法。雖然該方法在時間和空間維度都有良好的表達。但是,對于人臉表情重要特征提取上能力欠缺。

本文算法應用場景為博物館中,整體光線比較暗,所以對于人臉表情識別難度增加,需要對人臉特征進行增強,提高識別成功率。本文提出使用CNN 和LSTM 作為框架基礎,CNN用于提取每幀圖像的空間特征;LSTM 用于學習視頻圖像幀之間的時間維度信息表示。同時,對表情特征施加空間注意力,增強人臉表情重要特征在空間上的提取能力和表達能力。利用增加了空間注意力機制的特征,與LSTM 模型中的時間信息相運算,使得導入LSTM 模型中的特征既具備空間注意力,又具備時間特征增強。

1 本文方法

本文提出了適用于博物館場景,基于注意力機制的人臉表情識別算法。整體流程如圖1所示,需要識別的人臉特征首先通過CNN 提取面部外觀特征,即面部的空間特征。如果僅僅依靠空間特征進行表情識別,特征分辨性和表達能力不足以獲得準確的結果。所以,將空間特征導入到LSTM 中,利用LSTM 網絡對時序特征的處理能力,使得人臉特征結合空間和時間雙特征。為了能夠讓導入的空間特征效果更好,在導入前,通過注意力機制為空間特征施加一個空間注意力機制,加強空間特征的權重。同時,利用增加了空間注意力機制的特征,與LSTM 模型中的時間信息相運算,使得導入LSTM 模型中的特征既具備空間注意力,又具備時間特征增強。

圖1 基于空間注意力機制的時空雙特征人臉表情識別方法算法流程

1.1 空間注意力結構設計

本文通過使用3個卷積層學習重要性掩膜的方式生成空間注意力。為了實現空間注意力的施加,對每一次輸入的人臉特征,通過點積運算進行融合,其目的是根據特征的重要性,加強所需區域的特征表達能力。計算公式如式(1)所示:

式中,Xi為第i個獲取的人臉特征,Mi為該人臉的注意力,Zi是施加空間注意力后的人臉特征。

1.2 增強型LSTM結構設計

CNN 提取的人臉特征經過空間注意力模塊后,進入本文所提出的增強型LSTM 網絡模塊,對時間特征進行提取、處理。

LSTM 網絡是利用各種門實現對特征的時序處理。主要有遺忘門、輸入門和輸出門。增強型LSTM 網絡模塊比起傳統的LSTM 網絡來說,對于輸入的目標特征施加了空間注意力,使得特征在時空表達能力上有了進一步提高。以下為本算法設計的LSTM處理公式。

為了讓施加空間注意力的人臉特征Zi在輸入LSTM 網絡時具備時間特征,使用前饋網絡,將其與ht-1進行計算,計算公式如式(2)所示:

其中,ft,it,Ot分別表示遺忘門、輸入門、輸出門。

圖2 增強型LSTM結構

LSTM 網絡主要包括遺忘門、輸入門、輸出門,本算法結合空間注意力機制,分別對遺忘門、輸入門、輸出門進行了重新設計。

在遺忘門的設計中,Yit表示在t 時間第i 個經過空間注意力輸入的人臉特征,ht-1表示上個時刻的隱藏狀態。σ表示Sigmoid 激活函數,bf和Wf表示可學習的權重參數。遺忘門的作用是根據權值分配,將對于當前時刻不重要的信息遺忘,只保留當前重要的信息。計算公式如式(3)所示:

在輸出門設計中,Ct表示當前時刻的輸出,其中包含了通過遺忘門與上一時刻輸入相乘,保留與當前時刻相關的信息;輸入門與當前時刻所學習到的重要信息相乘,提純當前時刻的信息。計算公式如式(6)、式(7)、式(8)所示:

輸入門和遺忘門的信息相加之后,直接輸出到下一層。輸出門還有個分支,Yit通過激活之后和tanh 的輸出相乘,然后作為隱藏狀態傳給下一層。該分支的作用是將當前時刻提純后的有用信息傳遞給下一時刻繼續使用,由此循環往復,直到結束。

2 實驗

本次實驗使用RML(ryerson multimedia lab)人臉表情數據庫,該庫采集了來自六個不同國家、不同文化背景的人在自然狀態下的愉悅、困惑(害怕)、驚訝、疲倦(悲傷)和中性等人臉基本表情樣本,共計450 張人臉表情圖片和500句左右的語音信息。

在消融實驗中,本文對比了三種不同的模型:①CNN;②CNN 加上本文所提的空間注意力機制;③CNN、LSTM 加上本文所提出的空間注意力機制。

消融實驗結果見表1,實驗數據表明,單純使用CNN 模型的準確率為60.20%,而如果將本文所提出的空間注意力機制加入CNN 模型中,準確率可提升到63.58%。因為注意力機制中,CNN 提取的人臉特征又重新通過多層卷積網絡學習其重要特征,該重要特征與人臉特征進行卷積運算得到帶有空間注意力的人臉特征,使得特征更加具有分辨性。但是該特征只考慮了空間特征,缺少時間維度的特征支持。本文所提算法是將CNN 與LSTM 融合,并加上本文所提出的空間注意力機制,LSTM 模型主要是在時間維度上提供支持,與以往導入LSTM 的特征不同,本文導入LSTM 模型的特征是帶有空間注意力的人臉特征,其特征在時間維度、空間維度都具有一定的識別能力,準確率可以達到64.63%。

表1 消融實驗對比結果

圖3是本文所提出的表情識別算法的混淆矩陣圖。圖中將愉悅、困惑、驚訝、中性、疲倦這五種表情的真實標簽與預測標簽做了對比,測試實際表情的準確率。

圖3 表情識別結果的混淆矩陣圖

從圖3可以看出,愉悅和疲倦這兩種表情的準確率最高,正確識別率分別是78%和75%,而困惑的正確識別率最低,只有43%。因為困惑很容易被判斷為疲倦,困惑與疲倦在表情識別上具有很大的相似性,容易使得網絡模型產生誤判。驚訝與中性兩種表情表現較好,正確識別率分別為68%和66%。

3 結語

本文提出了一種在博物館場景下,基于空間注意力機制的時空雙特征人臉表情識別方法??臻g特征采用CNN 處理、時間特征采用LSTM處理。同時,通過3個卷積層神經網絡學習人臉特征的重要性掩膜,并與人臉特征做點積運算獲得空間注意力機制。在RML 情感數據集上進行實驗,結果表明本文所提算法整體表現良好,對于愉悅和疲倦兩種表情處理結果最好。

猜你喜歡
人臉特征提取注意力
讓注意力“飛”回來
有特點的人臉
基于Daubechies(dbN)的飛行器音頻特征提取
三國漫——人臉解鎖
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
馬面部與人臉相似度驚人
基于MED和循環域解調的多故障特征提取
長得象人臉的十種動物
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合