?

結合改進卷積神經網絡與通道加權的輕量級表情識別

2022-12-21 03:23梁華剛薄穎雷毅雄喻子鑫劉麗華
中國圖象圖形學報 2022年12期
關鍵詞:壓縮率卷積神經網絡

梁華剛,薄穎,雷毅雄,喻子鑫,劉麗華

長安大學電子與控制工程學院,西安 710064

0 引 言

表情是情感的重要載體,是人機交互過程中一種重要的信息傳遞方式。表情作為一種典型的非言語交際形式,在情感分析中起著重要作用(Ben等,2021)。研究表明,情感表達中55%的信息是通過面部表情傳遞的(Pantic和Rothkrantz, 2000)。隨著人工智能的興起與廣泛應用,表情識別在人機交互、安全駕駛、醫療和通信等領域具有廣闊的應用前景。表情識別研究得到了廣泛關注,成為學術界和工業界的熱門研究方向。

由于年齡、性別和種族等個體差異以及外界光照、姿態等環境因素的影響,表情識別一直是一項復雜的工作。傳統的表情識別方法大多采取手工設計特征或淺層學習,如提取圖像紋理特征的Gabor小波特征方法(Xu等,2015)、提取表情幾何特征的ASM(active shape model)方法(Sun等,2016)和提取表情邊緣特征的HOG(histogram of oriented gradient)方法(任福繼 等,2018)等,再用分類器進行表情分類。卷積神經網絡能夠提取到人臉表情的高維特征,增強了傳統的手動提取特征方法的魯棒性。由于卷積神經網絡需要大量數據進行訓練,當訓練數據較少時,可以采用dropout機制隨機丟棄神經元(Yu和Zhang,2015)或數據擴充增加訓練數據(Yang等,2018)等減少模型過擬合的風險。隨著深度卷積神經網絡的應用與發展,深度卷積神經網絡可以提取到更深更具有判別能力的圖像特征,解決了卷積神經網絡不能有效提取關鍵特征的問題,可以達到更高的準確率。深度置信網絡(deep belief net,DBN)是一種典型的深度學習方法(Hinton等,2006),能夠更好地學習復雜的數據結構和特征分布;增強型深度信念網絡(boosted deep belief network, BDBN)通過在循環框架中不斷執行特征表示、特征選擇和分類器構造(Liu等,2014),增強了表情識別的判別能力;將改進深度自編碼器(deep autoencoder,DAE)應用到表情識別中(Huang和Ying,2015),通過網絡訓練和測試特征的最小誤差對圖像進行分類,有效地提高了表情識別的準確率;生成對抗網絡(generative adversarial networks,GAN)具有合成圖像能力,能夠修復局部遮擋圖像,進而生成高質量目標樣本(姚乃明 等,2018),解決了遮擋圖像表情識別的識別率低、魯棒性差的問題;在神經網絡結構中引入殘差學習模塊(杜進 等,2018),解決了隨著網絡深度的增加神經網絡出現性能退化和梯度爆炸等問題;為進一步提升網絡的實時性,將輕量級網絡用于人臉表情的識別(呂誨 等,2020),此網絡僅有66 000個參數;輕量級表情識別模型(lightweight expression recognition, LER) (Zhao等,2020)用于處理人機交互應用中的延遲問題;輕量級注意力表情識別網絡(lightweight attention DCNN, LA-Net)引入了網絡瘦身策略,便于部署在資源受限的設備上(Ma等,2021)。這些國內外研究方法雖然在網絡精度、抗干擾性等方面取得了一定進步,但是由于表情識別的復雜性,仍存在一些問題,如:表情識別網絡結構越復雜,計算代價越大,速度難以達到實時性要求;降低網絡參數后,識別精度會隨之降低等。

表情識別的關鍵技術在于表情特征的提取方法,有效的表情特征提取工作將大大提高表情識別的性能。因此,本文著眼于特征提取方法,提出了一種輕量級的表情識別網絡模型。主要貢獻有:

1) 數據預處理部分主要使用圖像尺寸歸一化和增加噪聲隨機擾動等數據增強操作,去除與表情無關的干擾信息,提高模型的泛化性;2) 網絡模型采用深度可分離卷積和全局平均池化層有效地減少網絡參數,并且合理嵌入SE(squeeze-and-excitation)模塊(Hu等,2020),在不同通道設置不同壓縮率更高效地提取人臉表情特征,提升網絡的識別能力;3) 本文表情識別任務包括實驗室受控環境和真實的環境多個場景,并通過大量實驗論證了本文方法的有效性和可靠性。

1 基于卷積神經網絡的表情識別

卷積神經網絡(convolutional neural network,CNN)(Lecun等,1998)是表情識別常用算法之一,結構如圖1所示,主要由卷積層、池化層和全連接層組成。輸入圖像先通過卷積層卷積并產生特定類型的激活特征映射;再通過池化層減小特征映射的空間大小和網絡計算量,提升網絡的非線性特征提取能力;最后將提取的特征映射到全連接層,轉換為1維特征映射便于進一步的特征表示和分類。

圖1 卷積神經網絡結構Fig.1 The structure of the convolutional neural network

卷積神經網絡雖然具有較高的精度和較強的魯棒性等優點,但是隨著網絡層數的加深,深度卷積神經網絡結構的復雜度也越高,實時性難以保證,這使得傳統的卷積神經網絡不再適用。

2 表情識別網絡模型

表情識別網絡主要包括人臉圖像采集、圖像預處理、特征提取和表情分類識別4個步驟,表情識別框架如圖2所示。特征提取是網絡結構的關鍵步驟,因此,本文設計了增強深度可分離卷積通道特征模塊,以此為基礎,搭建并訓練輕量級表情網絡模型,從而實現各類表情的準確分類。

2.1 增強深度可分離卷積通道特征模塊(basic block)

本文設計的增強深度可分離卷積通道特征模塊(basic block)由深度可分離卷積(depthwise separa-ble convolution, DSC)和SE模塊組合而成,模塊結構如圖3所示。首先,通過一組1×1的卷積從輸入特征圖中提取特征,然后,將輸出特征圖根據通道維度平均分成6個組,每個組使用卷積核為3×3、通道數為C/6的小卷積擴大感受野范圍,再將這6個組的通道維度拼接起來送入壓縮激發模塊,每一個通道都壓縮為一個數值,最后,按照通道內的表情特征信息的重要程度分配權重系數,從而實現增強重要特征通道。另外,每個卷積層后都有一個批歸一化層和一個放縮指數線性單元(scaled exponential linear units,SeLU)激活函數層。其中,批歸一化層用于對數據進行歸一化,緩解深度神經網絡中梯度消失的問題,避免輸入數據偏移造成的影響;激活層增加了神經網絡各層之間的非線性關系,能夠更好地提取關鍵特征和擬合訓練數據。

深度可分離卷積由深度卷積和通道卷積組成,不僅可以拓展網絡寬度,而且在一定程度上減少了參數量,整體卷積過程如圖4所示。假設輸入的特征尺寸為DF×DF×M,DF為每個特征圖的邊長,M為輸入通道數,N為輸出通道數。先用M個卷積核為DK×DK的深度卷積各自提取特征圖的每個通道特征,輸出每個通道內的圖像特征信息;再用N個卷積核為1×1的通道卷積將每個通道的特征信息融合為一個特征圖。在參數量方面,深度可分離卷積與標準卷積的優化比例為

圖3 增強深度可分離卷積通道特征模塊結構Fig.3 The structure of basic block

圖4 深度可分離卷積過程示意圖Fig.4 The structure of the depthwise separable convolution

(1)

在生成相同尺寸特征的情況下,采用了深度可分離卷積代替部分標準卷積,使得網絡模型的參數大大減少,可以保證網絡模型的實時性要求。

圖5 SE模塊結構示意圖Fig.5 The structure of the SE module

此外還在網絡不同層引入不同壓縮率,根據通道數的不同選擇不同的壓縮率,使得重要的特征更加明顯,從而提高了網絡模型的精度。

2.2 表情識別網絡模型

2.2.1 網絡結構

本文表情識別網絡模型的主干網絡部分包括6個階段。階段1)采用兩個3×3標準卷積學習空間信息及通道間的相關性,進而提取低維特征,然后對輸出進行非線性激活。同時在每個卷積層后增加SE模塊,用于增強網絡層間的特征關系。階段2)—階段5)的結構類似,分別包括3個basic block和一個最大池化層。basic block中所有的深度可分離卷積的卷積核大小為3×3,步長為1,初始通道數為64,通道數依次遞增,最高可達1 024個通道。深度可分離卷積層后依次使用批量歸一化、SeLU和SE模塊,其中每個階段中SE模塊的壓縮率保持一致。并且分別在3、6、9、12個basic block后采用窗口大小為3、步長為2的最大池化層進行下采樣,減少特征圖的尺寸。階段6)為輸出層結構:首先,使用一個卷積核為3×3的標準卷積將1 024個特征圖映射為7個特征圖;然后,使用一個全局平均池化(global average pooling,GAP)對特征圖的空間信息進行求和(Lin等,2013),分別累加每個特征圖所有像素值并求平均得到7個數值,增強輸入的空間變化的魯棒性;最后,輸入到softmax分類器中,得到對應表情類別的7個概率值,最大概率值即為表情分類的預測結果。網絡模型的整體結構如圖6所示。

圖6 表情識別網絡模型結構示意圖Fig.6 The structure of FER network model

2.2.2 激活函數

網絡采用SeLU激活函數處理人臉表情網絡輸入與輸出之間的非線性關系。SeLU自帶樣本歸一化特性,不受外界因素干擾,可以解決非正區間輸出為0的問題,當輸入給定負數的情況下,依然可以保持神經單元的運作性。SeLU函數如式(2)所示,更有利于訓練多層的深度神經網絡,訓練過程中梯度也不會爆炸或消失。

(2)

式中,x為輸入值,參數α和λ被證明得到了具體的數值:

λ= 1.050 700 987 355 480 493 419 334 985 294 6,

α= 1.673 263 242 354 377 284 817 042 991 671 7。

2.2.3 損失函數

本文網絡模型選用交叉熵損失函數衡量真實概率和預測概率之間的差別,損失函數不斷優化網絡權重比例,從而進行評定網絡模型的好壞。交叉熵損失越小,模型預測的準確率越高。交叉熵損失函數為

(3)

式中,xi為樣本數據,P(xi)為輸入xi真實值的概率,Q(xi)為模型輸出預測值的概率。

3 實 驗

3.1 數據集

通過5個廣泛使用的數據集驗證本文方法的有效性,包括FER2013(Facial Expression Recognition 2013)數據集(Goodfellow等,2013)、CK+(the extended Cohn-Kanade)數據集(Lucey等,2010)、JAFFE(Japanses female facial expression)數據庫(Lyons等,1998)和RAF-DB(real-world affective faces database)(Li和Deng等,2019)、AffectNet (Mollahosseini等,2019)這兩個in-the-wild表情數據集。其中,既有在實驗室受控環境下采集較為標準的數據集(CK+和JAFFE),也有在真實世界環境下采集的較為自然的數據集(RAF-DB和AffectNet)。每個數據集細分為7種不同的表情標簽:憤怒、厭惡、恐懼、高興、悲傷、驚訝和自然。這些同類表情的面部姿態、年齡、表情強度和膚色有明顯差異,在光照、頭部姿態以及面部遮擋等方面多樣性,使用不同環境下采集的表情數據集更能說明算法模型的泛化性能。圖7展示了這5個數據集的各類表情的部分圖像樣本。

圖7 部分數據集樣本Fig.7 Part of datasets samples((a)angry; (b)disgust; (c)fear; (d)happy;(e)sad; (f)surprise; (g)natural)

1) FER2013數據集。數據庫人臉完整表情數據量大,不僅包括真實人臉圖像,還包括卡通類人臉表情圖像,數據集樣本豐富。此數據集共有35 887幅關于表情的圖像數據,其中包括28 708幅訓練集圖像,公共驗證集與私有驗證集均3 589幅。

2) CK+數據集。在實驗室條件下,按照要求進行采集年齡18-30歲的亞洲、非洲人的面部動作得到此數據集序列,是表情識別中最具代表性的數據庫。這些表情圖像由123個測試人員的593個圖像序列組成,展示了從平靜狀態到峰值表情轉變的過程,其中包括327個被標記的圖像序列。

3) JAFFE數據集。這些圖像包括了不同強度的不同情緒,有著很高的識別率,也是使用率很高的數據庫。數據庫包括了10名日本女性根據指示在實驗環境下做出各種表情,每個人做出7種表情,共計213幅圖像。

4) RAF-DB數據集。由從互聯網上下載的來自數千人的29 672幅圖像構成的大規模面部表情數據庫,非在實驗室控制條件下獲得,所以表情更自然,接近人類真實表情。數據庫包括7 類基本表情、12類復合表情和30余類混合表情,本文實驗研究僅使用基本表情圖像及標簽。在光照、頭部姿態等方面具有多樣性,注釋豐富。

5) AffectNet數據集。從互聯網收集面部表情圖像,是目前自然條件下最大的面部表情識別圖像數據集。本文使用該數據庫中約28萬幅圖像,含有7種基本表情標簽的標注。標注類型包括表情類型和幅度等多樣化,更能反映真實場景的表情。

3.2 數據集處理

為提高訓練出來的模型的泛化性能,避免數據不充足導致的過擬合反應,對數據集進行預處理,示例如圖8所示(以CK+部分數據為例)。實驗訓練之前需要對所有數據集的圖像尺寸歸一化和一些數據增強操作。圖像尺寸歸一化即對訓練集所有圖像裁剪為48×48像素的灰度圖像,并分別在數據圖的左上角、左下角、右上角和右下角進行裁剪,去除不平衡光照;然后,進行隨機翻轉和增加隨機擾動、添加噪聲等數據增強操作。

圖8 圖像增強示例圖Fig.8 Image enhancement example image

數據增強后同一幅表情圖像會生成許多幅不一樣的圖像數據,進一步擴充表情識別的數據集,有效降低了訓練網絡模型過程中出現的過擬合風險,提高了算法的魯棒性和模型的泛化性。具體的一些數據增強參數如表1所示。

3.3 網絡訓練及參數設置

實驗搭建了TensorFlow和Keras框架的深度學習網絡,操作系統為Windows 10,使用Python3.8.10編程語言進行訓練和測試。硬件平臺為英特爾 Core TM i7-10700CPU,內存為64 GB,GPU為顯存11 GB的NVIDIA GeForce RTX 3070 Ti。網絡模型訓練時每次訓練數據總輪數為500次,批次大小為32,學習率初始化為0.1,隨著訓練的進行,根據損失函數的變化逐漸降低學習率,直到學習率變為0.000 1時停止降低。訓練得到各個數據集的識別精確度迭代結果如圖9所示,以及訓練網絡模型500次的損失收斂過程如圖10所示。

可以看到,隨著訓練次數的增加,準確率逐漸提高,損失逐漸下降。間接反映出損失越小,準確率就會越高。網絡訓練過程中迭代的趨勢整體趨于穩定,證明了本文網絡模型具有一定的穩定性。

表1 數據增強參數表Table 1 Data enhancement parameter table

圖9 表情識別率迭代結果Fig.9 FER rate iteration results

圖10 損失過程曲線圖Fig.10 Loss process curve

3.4 壓縮率對比實驗

本文在卷積層后引入SE模塊擴大感受野,進行通道加權增強重要的表情特征,提高表情識別率。對于本文搭建的網絡模型加入SE模塊和未加入SE模塊分別進行實驗,并對比識別精確度,實驗結果如圖11所示。

圖11 SE模塊對比Fig.11 Comparison result of SE module

可以看到網絡模型加入SE模塊后,FER2013、CK+、JAFFE這3個數據集的識別精確度提高了3% -7%,而RAF-DB、AffectNet這兩個in-the-wild數據集由于存在被遮擋的人臉、錯誤的標簽等,其識別精確度平均提高2%,說明SE模塊重新調整表情特征的權重能夠提升網絡模型的準確率。為了更好地獲取各個通道特征的重要性關系,設置了壓縮率對比實驗。將網絡模型所有層分別取2、4、8、16、32壓縮率(r)和組合壓縮率的識別精確度進行對比,得到表情識別率對比結果,如圖12所示。

圖12 表情識別準確率對比Fig.12 Comparison result of FER accuracy

對比不同壓縮率取值,表情識別準確率不同,驗證了壓縮率的取值和網絡通道數之間存在一定的聯系。與各種壓縮率取值以及不加入SE模塊相比,組合壓縮率的表情識別率是最高的。因此,本文的SE模塊采用組合形式嵌入網絡模型中。

為了找出最佳壓縮率組合方法,本文通過實驗在不同通道選擇最合適的壓縮率r對網絡模型進行測試??紤]不同網絡通道的特征分布,在卷積初始層不選擇太大的壓縮率。網絡結構中總共加入了14個SE模塊,前2層初始層的標準卷積層的壓縮率保持一致,在layer 1—layer 4中采用同一layer保持一致壓縮率的原則進行組合設計。本文選取了10種壓縮率的取值組合方式進行測試實驗,如表2所示。

表2 壓縮率取值Table 2 Compression rate value

對表2中10種壓縮率取值組合方式在各個數據集上分別進行驗證,實驗結果得到的識別精確度如圖13所示。

圖13 不同壓縮率組合方式識別準確率Fig.13 FER accuracy of different compression ratio combinations

實驗對比結果表明,選取第9種壓縮率的取值組合方式(c9)可以使得表情識別準確率最高,所以最終本文網絡模型選擇了第9種組合即采用2、4、8、16、16的壓縮率組合將SE模塊嵌入在網絡中,更高效提取表情特征。

3.5 結果和分析

實驗分別對比了目前7種識別率較高網絡結構的參數量,有:

1) AlexNet網絡(Krizhevsky等,2017)是在圖像分類競賽ImageNet Large Scale Visual Recognition Competition (ILSVRC2012)中第1名的網絡,掀起了深度卷積神經網絡在各個領域的研究熱潮。

2) InceptionV4 (Szegedy等,2016)使用了統一的inception模塊并結合了殘差思想,使網絡層數更深。

3) Xception網絡(Chollet,2017)是在網絡Inceptionv3的基礎上引入了可分離卷積(depthwise separable convolution),在基本不增加網絡復雜度的前提下提高了模型效果。

4) Parallel CNN網絡(徐琳琳 等,2019)采用兩個并行的卷積池化結構,分成3個不同的并行路徑來提取3種不同的圖像特征。

5) Attention Net方法(Fernandez等,2019)將注意力集中在人臉上,用高斯空間表示來進行表情識別。

6) FaceNet2ExpNet網絡(Ding等,2017)對表情識別網絡的訓練進行調整:首先提出一種新的分布函數來模擬表達網絡的神經元,接著設計了兩個階段的訓練算法。

7) GAN網絡(孫曉和丁小龍,2020)是一種通過訓練使判別器和生成器達到平衡狀態的無監督算法,將一種表情采用生成器進行下采樣生成其他不同表情。不同方法的網絡結構參數量如表3所示。

表3 不同方法的網絡結構參數量Table 3 The amount of network structure parameters of different methods

實驗結果顯示,本文方法相較于識別性能較好的Xception神經網絡參數減少了63%,可保證實時性需求。本文提出的神經網絡結構減少了參數數量和計算量,使得模型體積大大減小,屬于輕量級的模型,且對模型精確度不產生影響。與目前優秀的特征提取網絡如MobileNetV3輕量級網絡(Howard等,2019)相比,在精確度相差不大的前提下,本文模塊參數量大大減少,在提升實時識別速度上有明顯優勢。通過服務端設備對網絡模型的實時性進行了測試,經測試發現:平均識別速度可以達到128 幀/s,滿足實時性的要求。本文通過服務端設備對基于增強深度可分離卷積通道特征模塊的網絡模型的實時性進行了測試,如圖14所示為7種表情實時測試圖。

圖14 實時表情識別效果圖Fig.14 The effect of real-time expression recognition((a)angry; (b)disgust; (c)fear; (d)happy; (e)sad;(f)surprise;(g)natural)

在相同數據集和檢測環境下,對比7種現有最新的網絡模型的識別準確率,用于驗證網絡模型的有效性。實驗結果如表4所示。

表4 不同方法的識別結果Table 4 Recognition results of different methods /%

本文模型的識別率在CK+、FER2013、JAFFE、RAF-DB和AffectNet共5個表情識別數據集上分別可以達到99.32%、79.73%、98.48%、86.54%、60.89%,相比于7種卷積神經網絡對比模型,識別精確度分別提高了0.51%、5.72%、0.28%、2.04%和0.68%。本文方法不僅能很好地識別室內數據集且對室外表情數據集仍然有效,均取得了較高的識別精確度。由此說明本文在簡化網絡的復雜程度和減少計算量的同時仍能夠準確識別人臉表情,驗證了本文方法的有效性。由于FER2013和AffectNet這兩個數據集的干擾因素較多,如FER2013存在一些非正常表情圖片,生氣與悲傷、厭惡等表情易混淆等,AffectNet數據集存在頭部姿態、面部遮擋等,導致網絡模型在這兩個數據集的識別率比CK+、JAFFE、RAF-DB數據集的識別率低,進一步說明了表情識別的復雜性。

4 結 論

針對表情識別網絡模型復雜、泛化性差等問題,本文提出了一種增強深度可分離卷積通道特征的改進卷積神經網絡的輕量級表情識別方法。主要工作如下:

1) 對多個場景的表情數據集進行數據增強操作,丟棄干擾性較大的背景信息。

2) 網絡模型采用標準卷積提取低維特征,用深度可分離卷積組合神經網絡結構,并將全局平均池化直接輸入到softmax分類器,簡化了網絡的復雜度,從而有效降低了網絡的參數和計算量。

3) 引入SE模塊進行通道加權,通過實驗選取最優壓縮率設置方案,使得網絡模型提升特征表達能力,剔除無關的冗余特征,提高了網絡的魯棒性。

最后在FER2013、CK+、JAFFE和RAF-DB、AffectNet多個場景的數據集上進行對比實驗,均得到了較高的表情識別率,從而驗證了本文方法的有效性。但是本文也存在一定不足,為了進一步提高算法的可靠性,需進一步考慮影響人臉表情識別精確度的問題,如遮擋、人臉姿勢變換等,解決這些問題是后續工作的重點。

猜你喜歡
壓縮率卷積神經網絡
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
神經網絡抑制無線通信干擾探究
從濾波器理解卷積
基于神經網絡的中小學生情感分析
水密封連接器尾部接電纜的優化設計
纏繞墊片產品質量控制研究
某型飛機靜密封裝置漏油故障分析
基于傅里葉域卷積表示的目標跟蹤算法
分布式多視點視頻編碼在應急通信中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合