?

基于圖像融合與深度學習的人臉表情識別

2024-03-23 07:31焦陽陽黃潤才萬文桐
傳感器與微系統 2024年3期
關鍵詞:特征提取注意力像素

焦陽陽,黃潤才,萬文桐,張 雨

(上海工程技術大學電子電氣工程學院,上海 201600)

0 引 言

在面對面交流中,面部表情的變化往往反映了一個人內心情感變化情況。隨著計算機技術的發展,人臉表情識別被廣泛運用在智慧課堂、智能駕駛[1]、醫療保障等領域。

人臉表情識別可分為3個步驟:圖像預處理、特征提取與表情識別。特征提取是其中最關鍵的環節,分為傳統特征提取和深度學習特征提取方法,傳統方法通過特征描述符來提取表情特征,深度學習特征提取方法是指使用卷積神經網絡進行特征提取。最近幾年大量研究人員投入了對表情識別的研究中,Chen J 等人[2]使用方向梯度直方圖(histogram of oriented gradient,HOG)提取人臉表情特征,然后使用支持向量機(support vector machine,SVM)進行表情識別。Boughida A等人[3]使用Gabor濾波器進行表情特征的提取。但傳統方法提取的信息單一,并且缺乏高級語義信息,不能很好地滿足人臉表情識別任務。

因此眾多研究人員開始嘗試使用深度學習方法來提取特征。馮楊等人[4]采用小尺度卷積核提取面部表情特征,提高了表情識別的準確率。Zhang S等人[5]設計了一種混合深度分離殘差網絡用于表情特征提取。但深度學習無法利用圖像的局部特征信息,并且無法區分表情圖像中重要的部分。因此,張翔等人[6]通過在神經網絡中加入注意力模塊來提高表情識別準確率。Wang H等人[7]使用MO-HOG與深度學習特征進行融合。

針對上文中提到的單一特征描述符提取信息有限,而深度學習無法關注有效圖像信息等問題,本文提出了一種基于圖像融合與深度學習的表情識別方法,對不同紋理特征圖像進行融合,隨后構建改進后的神經網絡模型,將融合后的圖像輸入模型中進行高級特征提取,最后使用SoftMax進行表情分類。

1 人臉表情識別模型

本文提出的人臉表情識別模型流程:首先對圖像進行預處理,隨后使用局部二值與差分激勵算子分別提取局部二值模式(local binary pattern,LBP)與韋伯局部描述符(Weber local descriptor,WLD)圖像,差分激勵描述了圖像的局部強度信息,但忽略了邊緣的方向信息,而局部二值描述了圖像的邊緣方向信息,卻忽略了強度信息。將兩種圖像進行融合得到新的圖像作為神經網絡的輸入圖像。下一步構建改進后的殘差神經網絡(residual neural network,Res-Net),加入改進后的注意力機制與空洞卷積,使模型在擴大感受野的同時關注到有用的信息,減少對無用特征的關注,最后對表情進行識別。

2 表情識別模型具體設計

2.1 圖像預處理

在原始圖像中存在著許多對表情特征提取無關的信息,因此需要對表情圖像進行預處理,包括人臉檢測、灰度及尺寸歸一化等。首先檢測并裁剪出人臉部位,然后將三通道三原色(RGB)圖像轉換為灰度圖,統一縮放成相同規格的尺寸大小,得到模型所需要的輸入圖像。

2.2 圖像融合

2.2.1 LBP特征

LBP算子由Ojala 等人在1994 年提出,被廣泛運用于人臉識別等領域。原始的LBP 算子計算中心像素與周圍8個像素之間的關系,從中心像素的左上角位置開始,依次將鄰域像素與中心像素進行比較,小于取0,大于取1。最后得到8個二進制數,將其按照順時針的順序排列,轉換為一個十進制數,就得到了該中心像素的LBP值

其中,(xc,yc)為中心像素,p為鄰域點的個數,ip為相鄰像素灰度值,ic為中心像素灰度值,s為符號函數

2.2.2 WLD特征

WLD 特征是根據韋伯定律所提出的一種紋理特征描述符[8]。韋伯定律是反映心理量和物理量之間關系的定律,它表明能夠引起感覺差異的差別閾值與原始刺激的強度之比是一個常量,即

式中k為常量,ΔI為差別閾值,I為原始刺激的強度。WLD包含2 個算子:差分激勵算子和方向算子,方向算子通過計算中心像素垂直與水平像素差之比得到方向信息,本文僅使用差分激勵算子。差分激勵描述了窗口內圖像像素的強度變化,通過計算中心像素與周圍8 個點的像素差值和,將和與中心像素點灰度值進行比值計算,再利用反正切變換將比值映射到(π/2,-π/2)之間,其計算公式為

式中xc為中心像素值,xi為鄰域像素值,P為鄰域像素點個數。

2.2.3 圖像融合

WLD中的差分激勵算子描述了圖像的局部強度信息變化,但其原始方向算子計算比較簡單,故使用局部二值算子計算圖像的方向信息。通過設置加權融合系數α,根據式(5)得到融合后的圖像

式中XL為LBP圖像,Xw為WLD圖像,X為融合后圖像。

2.3 改進ResNet

本文以ResNet18 為骨干網絡進行神經網絡模型的搭建,通過將前2個Block的卷積核替換為空洞卷積,擴大感受野范圍。并在殘差結構中加入改進后的注意力機制,有效提高特征的表征能力。

2.3.1 Dil-Block模塊

原始的ResNet18是以殘差塊構成的神經網絡,殘差塊的原理為輸入特征圖通過兩個卷積層進行特征提取,最后與輸入特征進行相加,得到輸出。其中的卷積核大小均為3 ×3,但由于前后特征圖尺寸均不同,因此需要對前面殘差塊擴大卷積核的采樣范圍,使模型獲得更大的感受野。本文將前2個殘差塊的卷積核替換為空洞卷積??斩淳矸e在與傳統卷積一樣的計算量情況下,可以擴大感受野的范圍。圖1為Dil-Block的示意,輸入特征圖首先經過2 個空洞卷積層進行特征提取,然后經過注意力層提取注意力,再與輸入特征圖進行相加,最后通過ReLU 激活函數得到輸出特征。

圖1 Dil-Block示意

2.3.2 改進注意力模塊

在Dil-Block中添加注意力模塊,旨在加強重要特征的權重。Wang Q等人[9]提出了ECA-Net注意力模塊,使用一維卷積進行注意力權重的提取。ECA-Net 在進行通道注意力的提取時,僅使用全局平均池化,本文使用2 種不同池化方式來計算通道注意力。ECA-Net 僅計算了通道注意力,本文則在通道注意力后添加空間注意力的計算,得到完整的注意力權重,圖2為改進注意力示意。

圖2 改進注意力示意

圖2 中的通道注意力部分將輸入按照空間方向進行全局平均與最大池化,然后分別使用卷積核大小為k的一維卷積來計算相鄰通道之間的相關性。k決定了通道之間交互的范圍,本文采用以下公式計算k的大小

式中c為通道數量,Odd 為選擇最近的奇數,γ和b分別設置為2和1。將2個注意力矩陣相加并通過Sigmoid函數得到注意力權重,與輸入圖像進行相乘,得到通道注意力特征圖,接著按照通道方向進行全局平均和最大池化,得到一個二維特征圖,使用7 ×7的二維卷積進行空間注意力的提取,最后通過Sigmoid 函數與特征圖相乘得到最終的特征圖。

2.4 表情分類

將上文中進行融合后的圖像輸入到改進后的神經網絡中,經過一系列殘差塊的特征提取后得到最終的特征向量,再經過全連接層后通過SoftMax 進行表情分類。在本文模型訓練過程中,使用了交叉熵損失函數作為優化函數

式中為真實值,為預測值,N為樣本數。通過反向傳播不斷降低損失值來更新神經網絡的權重參數,提高模型預測的準確率。

3 實驗與結果分析

模型由Pytorch框架搭建,操作系統為Ubuntu 18.04,硬件配置如下:CPU 為Xeon?E5-2678,GPU 為NVIDIA Tesla K80,內存為8 GB。Python 版本為3.8,其中神經網絡參數設置如下:優化器使用Adam,batch_size 為64,epoch 設置為20。

3.1 實驗數據集

實驗使用JAFFE和CK +數據集。由于2 個數據集中樣本數據均較少,采用仿射變換的方式來進行數據增強。JAFFE數據集經過擴充后為4 540 張樣本,CK +數據集為6 564張樣本,并將兩者按照9∶1 的比例劃分出訓練集和測試集。

3.2 融合系數α實驗

在進行圖像融合時,使用系數α進行融合比例的控制,分別選用不同的融合系數進行實驗。圖3為實驗結果。

圖3 融合系數α結果

從圖3中可以看出,當融合系數取0.5 時,識別準確率最高,證明此時的融合圖像既包含局部強度信息也包含方向信息。因此,本文后續實驗均將融合系數設置為0.5。

3.3 消融實驗

為了驗證本文提出的表情識別模型的有效性,進行了模型消融實驗,共設置了4 組對照實驗。實驗一的輸入圖像為LBP圖像;實驗二的輸入圖像為WLD圖像;實驗三的輸入圖像為融合圖像,但將模型的前2個Block換為原始卷積核;實驗四則將注意力機制去除。分別在JAFFE與CK +數據集上進行實驗,與本文模型進行對比。消融實驗結果如表1所示。

表1 消融實驗結果%

從表1中的實驗一與實驗二的結果可以看出,2個數據集的準確率均不高,證明單個紋理特征所包含的信息有限。實驗三的結果表示,對ResNet18 中的前2 個Block 進行卷積核的替換,有效增加了感受野的范圍,使得模型能夠在前期關注到更多的信息。在實驗四中,添加注意力后,2 個數據集的準確率有了3%的提升,證明了注意力機制能有效提高模型對于重要特征的關注。

3.4 注意力對比實驗

本文對ECA注意力機制進行了改進。為了驗證改進注意力機制的有效性,與其他注意力算法進行對比,分別設置3組對照實驗,第一組使用SE-Net,第二組使用CBAM注意力,第三組使用ECA-Net,最后為本文模型。實驗結果如表2所示。

表2 注意力對比實驗結果%

從表2中可知,本文模型取得了最高的識別準確率,分別為97.0%與99.3%。SE-Net使用全連接層來提取注意力權重,ECA-Net通過一維卷積進行通道注意力的提取,CBAM則對通道與空間注意力均進行了計算,通道注意力采用了與SE-Net相似的結構,空間注意力使用二維卷積進行計算。本文提出的改進注意力算法對上述算法的缺點進行了改進,使模型能夠將注意力放到對表情識別有用的特征上。

3.5 與其他算法對比

表3為本文提出的方法與其他主流表情識別算法的識別率對比。通過表3 可知,無論傳統方法還是深度學習方法,本文均取得了最高的識別準確率,證明了本文方法的有效性。

表3 本文算法與其他算法識別率對比%

4 結束語

本文提出了一種基于紋理圖像融合與改進ResNet的人臉表情識別算法。通過WLD與LBP圖像融合的方式進行局部紋理特征的融合,彌補了單一紋理特征無法有效表達圖像信息的不足。同時對ResNet 進行改進,通過空洞卷積解決了感受野較小的問題,改進后的注意力模塊則有利于模型關注重要特征。將融合后的圖像輸入到改進后的神經網絡中進行表情識別,在JAFFE 與CK +數據集上進行驗證,取得了不錯的識別率。但模型對某些表情的識別率較低,后續將繼續研究如何改進部分表情的識別率。

猜你喜歡
特征提取注意力像素
趙運哲作品
像素前線之“幻影”2000
讓注意力“飛”回來
“像素”仙人掌
基于Daubechies(dbN)的飛行器音頻特征提取
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
高像素不是全部
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合