?

基于局部流形注意力的人臉表情識別①

2022-11-07 09:06杜洋濤楊鼎康張立華
計算機系統應用 2022年10期
關鍵詞:矩陣局部注意力

杜洋濤,楊鼎康,翟 鵬,3,5,張立華,2,3,4,5

1(復旦大學工程與應用技術研究院,上海 200433)

2(季華實驗室,佛山 528200)

3(智能機器人教育部工程研究中心,上海 200433)

4(吉林省人工智能與無人系統工程研究中心,長春 130703)

5(吉林省智能科學與工程聯合重點實驗室,長春 132606)

面部表情是最自然、通用的人類情感信息傳達的方式之一.機器學習任務中,面部表情識別可以幫助機器更好的理解人類的行為和與人類交互,在人機協同、自動駕駛等領域有重要應用.目前表情識別算法可以在大部分場景下發揮較好效果,但是對于模糊微弱表情或伴隨著遮擋、面部姿勢、光照等外在干擾情況,現有算法仍然具有一定缺陷.

一般來說,面部表情識別主要包括3 個階段,即人臉檢測、特征提取和表情分類.在人臉檢測階段,Dlib[1]是較為輕量級別的檢測接口,但由于其對側臉檢測效果一般,所以MTCNN[2]人臉檢測器在復雜場景中更為常用.表情的特征提取工作可以根據特征類型,分為手工設計特征和基于學習得到的特征.手工特征主要分為基于紋理表達和基于幾何結構兩類,如SIFT[3]、HOG[4]、LBP 直方圖[5]、Gabor 小波系數[6]等屬于經典的紋理表達特征,同時還有大量研究基于鼻子、眼睛和嘴巴周圍關鍵點的相關幾何特征.隨著GPU 等并行計算設備高速發展,深度學習逐漸成為圖像分析領域的主要研究方向,因此基于學習得到特征是目前表情特征提取的主流方法.Tang[7]利用卷積神經網絡(convolutional neural networks,CNN)進行特征提取并分類,Liu 等人[8]也提出了一種基于面部動作單元的CNN 架構用于表情識別.

大部分現實生活中的表情并不會像實驗室采集的數據那樣具有明顯的表情幅度特征,更多以微弱表情形式呈現,同時真實場景下人臉表情關鍵部位可能會被墨鏡、口罩、帽子等遮擋.模糊微弱表情識別的主要難點在于表情特征過小會被淹沒與人臉圖像特征中,使得表情特征無法對分類器訓練產生促進效果.為了解決此問題,Peng 等人[9]基于遷移學習的概念,在經過ImageNet 預訓練的ResNet101 網絡基礎上,用表情數據集進行凍結訓練微調參數.Khor 等人[10]進一步提出豐富的長期遞歸卷積網絡(enriched long-term recurrent convolutional network,ELRCN),在長短期記憶網絡(long short-term memory,LSTM)結構基礎上利用CNN 模塊完成模糊表情序列的特征向量編碼,最后實現分類.Peng 等人[11]和Huang 等人[12]利用表情序列進行特征增強,通過計算表情幅度最大的圖像幀與序列中某一代表幀的光流特征作為時序信息,然后利用CNN 完成模糊表情識別,同時提高了分類正確率和節省了序列信息的計算耗時.

面部遮擋、光照明暗和不同的姿勢帶來的面部表情信息損失通常發生在現實世界的場景,因為面部區域可以很容易被太陽眼鏡,帽子,圍巾等遮擋.Liu 等人[13]提出利用Gabor 直方圖衡量圖像部分遮擋,并引入LGBPHS 方法來解決.Cotter[14,15]提出對部分遮擋圖片使用稀疏性表示分類器效果較差的問題.Li 等人[16]設計了一個基于補丁的注意網絡,用于遮擋感知下的表情識別.對于位姿變化問題,Rudovic 等人[17]提出了耦合比例高斯過程回歸(CSGPR)模型的頭部歸一化,Lai 等人[18]利用GAN 從側臉圖像生成正臉圖像來解決面部姿勢問題.

由于表情模糊導致的表情特征不明顯和由于遮擋導致的表情特征不可見是表情識別領域的兩個重要問題.因此如果直接對面部圖像進行特征提取,微弱模糊的表情特征容易被忽略,同時遮擋區域則會提取面部無關特征,而人類卻可以“放大”微弱表情特征同時忽略遮擋區域的無關特征.心理學研究表明[19],人類的注意力機制可以有效地利用局部區域和整體面孔來感知不完整面孔傳遞地語義信息.受到此研究啟發,近年來涌現出許多基于注意力機制(attention)的深度學習方法.

注意機制是在強化算法的基礎上發展起來的,但卻廣泛地應用于視覺深度學習領域的局部特征強化.Badanau 等人[20]同時對翻譯和源語言對齊兩項任務進行注意力運算,他們的工作是首次嘗試將注意機制應用于機器翻譯,并獲得突破性結果.隨后,注意力模型在深度學習領域被廣泛應用,針對不同任務提出了多種注意機制模型,如針對機器閱讀的LSTM模型、機器翻譯[21]的多類注意模型和視頻分類[22]的注意集群模型.在計算機視覺領域,注意力模型也取得了異常成功的效果,Wang 等人[23]提出了一種人臉檢測的注意網絡,在生成錨點的步驟中突出了人臉區域.Yang 等人提出的神經聚合網絡(neural aggregation network,NAN)[24],NAN 使用級聯注意機制將一個視頻或集合的人臉特征聚合成一個緊湊的視頻表示.

上述討論的所有深度學習網絡幾乎均采用傳統的卷積、池化、全連接等網絡層.Yu 等人研究認為[25],傳統的卷積神經網絡(CNNs)使用卷積層、最大池化或平均池化和全連接層只能捕獲一階統計量,而二階統計量如協方差等被認為是比第一階統計量(如均值或最大值)更好的圖像區域語義描述符[26].而基于流行網絡的特征提取模塊可以捕獲二階統計量,更好的刻畫圖像扭曲的特征.在文獻[25,27,28] 中,作者基于VGG 網絡的各種架構實驗二階特征的合并效果,并在圖像分類、目標檢測等數據集上進行實驗.而在表情識別領域,Acharya 等人在文獻[28]中提出了一種協方差池化(covariance pooling)的深度學習架構,該工作分析了駐留在SPD 流形[29,30]上的二階統計特征,并構造成網絡框架對特征協方差進行學習迭代,其實驗表明在表情識別任務中擁有較好的效果.但是協方差池化往往針對全局采用相同的計算系數,對于表情微弱和局部遮擋等情況并未做考慮,因此本文改進其方法,以更好的應對模糊微弱表情和遮擋情況.

因此本文認為二階統計特征可以更好地描述區域的扭曲程度從而更好地學習表情語義,如果結合注意力機制將更有效地提取局部微弱表情特征同時抑制無關特征.因此本文利用流形學習網絡獲取局部區域的二階統計特征并將其作為局部注意力特征輸入主網絡中.值得指出的是,本文并非第一個提出用局部注意力機制解決表情識別問題的,但盡我們所知,本文是第一個用流形學習獲取二階統計信息作為面部區域注意力系數的.

綜上所述,本文的主要貢獻有:

(1)構建了面部表情局部注意力網絡框架,利用注意力機制強化模糊微弱表情等情況下的微小表情特征,同時抑制由于墨鏡、口罩等面部遮擋物帶來的表情無關特征,從而提高表情識別能力;

(2)提出流形注意力機制模塊(SPD-Attention module),構造對稱正定的協方差矩陣結合流形學習網絡得到二階統計特征刻畫局部區域的扭曲程度,相比于一階特征可以更好地刻畫表情特,同時提出了對流形網絡過程的正則化損失,提高其收斂速度;

(3)在AffectNet、CK+、FER2013、FER2013plus、RAF-DB、SFEW 和公開的模糊遮擋數據集上進行了測評,相比與ResNet34、VGG19 等經典深度學習方法具有普遍提升效果,同時與目前先進方法對比也取得了近似或更好的水平.

1 基于局部流形注意力的表情識別

目前大部分表情識別方法主要基于深度學習網絡,對于微表情和遮擋問題也主要依賴于網絡結構的調整和細化.基于以上研究方向,本文希望可以通過注意力機制自動地增強較小的表情特征和抑制遮擋帶來的無關特征,并構建一個端到端(end-to-end)的網絡結構進行學習訓練.

由于注意力機制可以由不同的網絡結構實現,其本質是對特征的賦權,如文獻[31]中,Wang 等人利用共享的全連接層訓練注意力系數.但考慮到二階統計信息往往可以更好地刻畫面部扭曲情況(而表情語義往往蘊含與局部扭曲),因此本文考慮采用二階統計信息來構造注意力機制,設計算法1.

算法1.基于局部流形注意力的表情識別框架1)從將輸入圖片進行一份拷貝和n 份局部剪裁構成圖片集;S O={output0,output1,···,outputn}F={fea0,fea1,···,fean}imageraw S={image0,image1,···,imagen}2)將圖片集輸入一個共享權值的基礎卷積神經網絡(CNN),并提取該網絡某一層(本文提取倒數第2 層)的特征圖集合和該網絡最后的特征向量集合;outputifeai vectori~Vector 3)將每個特征圖和特征向量輸入流形注意力計算模塊(SPD-Attention module)中得到帶注意力的j 局部特征向量,最后求和輸出;FC1 4)計將求和后的特征向量輸入全連接層中得到分類預測結果.

這樣做的好處主要有兩點: (1)模糊微弱表情的二階統計特征相對一階統計特征更明顯,可以提高分類效果; (2)面部圖像中的墨鏡等遮擋物在二階統計信息會被相對抑制,可以過濾表情無關特征.本文的網絡結構如圖1 所示.

1.1 局部注意力機制網絡

如圖1 所示,本文的主體框架是基于局部圖像的自注意力機制網絡結構,主要包含3 個步驟,第1 步是獲得表情圖像的聯合特征向量: 輸入原始圖像的一份拷貝和n份局部剪裁圖片構成整體輸入圖片集合S={image0,image1,···,imagen},經過基礎特征提取卷積神經網絡(該網絡對S中的每個元素權值共享)得到特征圖和特征向量; 第2 步是利用第1 步得到的特征圖求取協方差矩陣,然后經過流形注意力模塊(SPDAttention module)得到帶注意力的圖像待分類特征向量; 第3 步則是利用最終的待分類特征向量通過全連接層進行分類預測.我們將在第1.2 節詳細介紹SPDAttention 模塊,此處將詳細介紹第1 步和第3 步.

圖1 基于局部流形注意力的表情識別網絡框架

為了保證網絡可以得到面部表情的全局特征作為局部特征的參考,對于輸入圖片imageraw,我們首先復制其本身得到image0,然后對其進行局部剪裁得到局部圖像序列image1,image2,···,imagen本文采用的局部剪裁方法主要有兩種,第1 種是隨機剪裁: 設定剪裁區域面積占總面積的比例為r(本文取r=0.75),然后隨機選取相應面積區域; 第2 種是面部關鍵點剪裁: 根據標定的83 個人臉關鍵點[2],剪裁關鍵點周圍區域.剪裁完成后將得到的圖片集S={image0,image1,···,imagen}輸入一個權值共享的CNN 網絡中,本文采用ResNet18作為基本框架,得到特征圖輸出集合O={output0,output1,···,outputn}和最后的特征向量集合F={fea0,fea1,···,fean}.

上述特征圖和特征向量經過局部流行注意力機制后再求和得到最終的待分類特征向量并將其輸入最后一層全連接層FC1得到分類的預測結果,由于是多分類任務,本文采用的分類損失函數為交叉熵損失(CrossEntropy),具體如式(1)所示:

其中,p為標簽值,q為預測值(經過Softmax 后的onehot 形式).

1.2 SPD 流形注意力機制

流形注意力機制(SPD-Attention module)是本文的核心創新點,如圖1 虛線框中模塊所示.對于CNN輸出的特征圖輸出集合O={output0,output1,···,outputn}中的每個元素outputi進行相同的操作,首先將outputi的每一層拉平,假設原來的outputi的維度為w×h×c,拉平后維度變成wh×c即變成c個向量組,由此可以對它們求協方差矩陣Covmatrixi,Tuzel 等人[26]的研究表明由特征計算出的協方差矩陣駐留在SPD 流形上,其相較于一階統計信息可以更好地捕獲區域特征.值得一提的是,CNN 輸出的特征圖理論上可以選取任一層,本文選取ResNet18 的倒數第2 層作為輸出.

假設特征圖拉平后得到的向量為{x1,x2,···,xc}∈Rwh則協方差矩陣為式(2):

其中,為均值.

當向量集{x1,x2,···,xc}中的線性獨立元素個數大于wh時,該協方差矩陣為對稱正定矩陣(SPD),而只有在協方差矩陣滿足SPD 性質時,黎曼流形的SPD 網絡結構[29]才得以使用.而協方差矩陣一定滿足對稱性,根據式(3)可以證明協方差矩陣Covmatrixi一定半正定.

其中,β為任意向量.

因此可以通過矩陣跡的方式將協方差矩陣正定化,即如式(4)所示:

其中,λ為正則系數,I為單位矩陣.

Huang 等人[30]提出了Bilinear Mapping 層、Eigenvalue Rectification 層、Log Eigenvalue 層可以在黎曼流形空間進行參數學習,本文在其基礎上對駐留在SPD 流形上的協方差特征矩陣進行了網絡訓練,下文將簡要介紹,流形學習流程如圖2 所示.

圖2 SPD 流形學習流程

由于直接將CNN 輸出的特征圖拉平計算協方差矩陣Cov,因此Cov 維度可能非常大,而且可能并不適合用傳統的網絡層連接方式.所以采用Bilinear Mapping層代替傳統的網絡層鏈接方式,可以在降低維度的同時保證其幾何結構不變,其具體如式(5)所示:

其中,Xk-1為輸入Bilinear Mapping 層的SPD 矩陣,Wk為權值矩陣,Xk為輸出的SPD 矩陣.

傳統的CNN 在每一層卷積池化之后往往需要添加如ReLU 等激活函數層,而在黎曼流形下可以采用Eigenvalue Rectification 層代替,其具體如式(6)所示:

其中,Xk-1為輸入Eigenvalue Rectification 層的SPD 矩陣,Xk為輸出的SPD 矩陣,ε為閾值,Uk-1和Σk-1為Xk-1的矩陣特征向量和特征值,即Xk-1=Uk-1Σk-1

由于黎曼流形于傳統歐氏空間計算法則并不一致,所以可以采用Log Eigenvalue 層使黎曼流形中的元素具有李群結構,其輸出矩陣可以展平并且可以應用標準的歐幾里得運算.其具體如式(7)所示:

其中,Xk-1為輸入Log Eigenvalue 層的SPD 矩陣,Xk為輸出的SPD 矩陣,Uk-1和Σk-1為Xk-1的矩陣特征向量和特征值,即Xk-1=Uk-1Σk-1.

1.3 正則損失

如第1.2 節中式(7)所示,由于在網絡末端的全鏈接結構需要進行標準的歐幾里得運算,所以需要采用Log Eigenvalue 層將分布于黎曼空間的SPD 矩陣轉到歐氏空間中.雖然Eigenvalue Rectification 層保證了Σk中的數值符合Log Eigenvalue 層的計算定義,但是由于對數運算本身的性質,當Σk(i,i)趨向于0 時容易導致梯度爆炸,而Σk(i,i)過大時容易導致梯度消失.為了網絡收斂的穩健性,本文此處引入正則項,約束 Σk的分布,保證良好的梯度性質.

根據泰勒一階展開,我們可以定義正則約束如式(8)所示:

根據Log Eigenvalue 層的Backpropagation 規則[30],我們可以修正梯度式(9)到式(10).

其中,L(k)為第k層的loss,I為單位矩陣.

2 實驗與結果分析

為了充分驗證算法的有效性,本文首先在多個通用的表情識別數據集上實驗了效果,并與VGG、ResNet等經典深度學習方法和Covariance Pooling[28]等時下先進方法進行比較; 其次為了進一步驗證本文算法對于微弱表情和遮擋情況的效果提升,在專用的模糊遮擋表情數據集上驗證了效果,并與時下先進方法進行對比; 最后,本文對具體效果進行了可視化,對比分析了正則項對于流形網絡的梯度約束作用.

2.1 實驗數據與細節介紹

本文在6 個公開通用表情數據集和1 個公開專用遮擋或模糊表情數據集上實驗了本文的效果; 6 個通用表情數據集分別是: Affectnet、CK+、FER2013、FER2013plus、RAFDB 和SFEW,專用遮擋或模糊表情數據集來自Kai 等人的工作[31].

AffectNet 數據集.AffectNet 是一個由互聯網圖片組成了規模巨大的數據集,其標注包含了離散的表情分和連續的VA 標注信息.AffectNet 由一個不平衡的訓練集和一個平衡的測試集組成,在本文實驗中,采用的是其中給出8 種基本表情類別(分別為: 憤怒、蔑視、嫌棄、恐懼、高興、中性、悲傷、驚訝)的450k 張數據作為訓練集,4k 張數據作為測試集.

CK+數據集.CK+數據集是經典的實驗室數據集,由序列圖片構成,圖片序列展示了表情幅度由弱變強的過程,其中包含了8 種基本表情.與目前大多數方法類似,本文在處理CK+數據時取最后3 幀表情圖片用于實驗,同時利用MTCNN[2]等算法對圖片進行人臉裁剪,除去背景等無關信息.

FER2013 數據集.FER2013 數據集是ICML2013的比賽數據集,是一個大規模的現實生活環境表情數據集.FER2013 包含28 709 張訓練集,3 589 張驗證集和3 589 張測試集,每張圖片是48×48 的灰度圖片,共有7 種表情標簽.

FER2013plus 數據集.FER2013plus 數據集是由數據集FER2013 擴展而成,包含了10 種離散的表情標簽.同Covariance Pooling 工作一致,我們選取其中標簽位8 種基本表情的圖片為實驗數據.值得注意的是,FER2013plus 數據集并未給出唯一真實標簽,而是公布了所有標注者對同一張圖片的標注信息,本文同以往工作一致,根據最大投票原則確定表情類別.

RAFDB 數據集.RAFDB 包含30 000 張由受過訓練的40 位標注人員給出多重表情標簽的圖片,圖像質量和標簽質量均相對較高,在本文的實驗中,與Covariance Pooling 工作一致,采用基礎的12 271 張表情標注圖片用于訓練,3 068 張作為測試.

SFEW 數據集.SFEW 數據集是數據集AFEW 的子集,包含958 張訓練集圖片,436 張驗證集圖片和372 張測試集圖片.由于測試集標簽并未開源,所以同以往工作一致,本文利用訓練集訓練,驗證集測試效果.

由于SFEW 數據集過小,為了提高訓練效果,本文將RAFDB 數據集的訓練集加入SFEW 數據的訓練過程中,提升模型泛化能力.由于AffectNet 等數據集存在數據分布不平衡的問題,同時CK+數據集存在訓練樣本分布較小的問題,所以本文對于AffectNet 等數據集采用帶權重的分類損失,權重正比例于訓練集的樣本分布,同時對CK+等數據采用水平翻轉、隨機剪裁等數據增強方法擴大訓練數據集規模,圖片尺寸統一采用224×224.本文在PyTorch 框架下進行實驗,網絡backbone 為PyTorch 官方提供的ResNet18,訓練時batchsize 為256,測試時batchsize 為128,學習率初始為0.1,并每20 個epoch 下降10%,實驗在Tesla V100 GOSUs 平臺完成.

2.2 通用數據集實驗結果

為了驗證本文算法的有效性,本文首先在Affectnet、CK+、FER2013、FER2013plus、RAFDB 和SFEW 6 個通用數據集上實驗了本文算法,并于經典的深度學習方法ResNet18、ResNet34、VGG16、VGG19進行了對比實驗.如圖3 所示,分別展示了本文方法在6 個通用數據集上的混淆矩陣.從圖中可以看出在本文方法在CK+、FER2013plus 和RAFDB 上表現較好,而在SFEW 上表現則一般.這主要是因為CK+數據集較為簡單,FER2013plus 和RAFDB 的數據較為清晰,相比之下SFEW 的數據難度較大,且圖像存在較多干擾,值得指出的是,目前的所有先進方法在SFEW 數據上的表現均遠遜于其他數據集.同時對于不同種類的表情的識別結果也有顯著區別,對于高興這類表情的識別效果普遍較好,對于恐懼等表情識別效果一般較差.這主要是因為高興的表情具有區分性非常強的特征,而恐懼的表情特征則容易和驚訝等表情混淆.

圖3 通用表情識別數據集結果

如表1 所示,本文在6 個數據集上和經典的深度學習方法進行了對比.VGG 網絡是圖像識別領域非常經典的網絡結構,在人臉識別領域具有廣泛應用,ResNet 由于其殘差學習的特質,可以適應于大規模深度網絡,同時也是ImageNet 比賽的冠軍網絡框架.為了更好的消融對比,本文此處采用的ResNet 和VGG均保持原有框架,分類器統一選擇全連接層,除此之外沒有其他任何模塊.為了對比的公平性,本文此處采用相同數據集進行訓練,未加載任何人臉識別預訓練權重,優化方法均選擇隨機梯度下降方式(SGD).從表格中可以看出,本文的方法相比與經典方法在所有數據集上均有效果提升.

表1 通用表情識別數據集上與經典方法對比結果(%)

在驗證效果普遍優于經典方法后,由于目前先進方法普遍是基于ResNet 等經典方法改進的,所以為了進一步驗證本文算法效果,在RAFDB 數據集上與目前先進方法進行了效果對比,結果如表2 所示,此處選擇RAFDB 數據集的原因主要是由于RAFDB 是公認的高質量數據集,所有目前先進方法均匯報了在其上的效果.如表2 所示,本文相比目前先進方法在RADFB數據上的效果也均有提升.值得一提的是,對比方法中的Covariance Pooling 同樣也采用了流形學習的方式,利用全局的協方差池化提取二階統計信息,但本文方法相比于其增加了注意力機制的使用,將二階統計信息用作注意力系數,更好地把握了表情的局部信息,由此相比與Covariance Pooling 本文有更好的識別效果.

表2 RAFDB 上與目前先進方法對比結果

2.3 模糊、遮擋專用數據集實驗結果

本文方法的設計初衷是為了應對表情數據中出現模糊微弱表情或者面部存在遮擋的情況,所以此處本文在專用的RAFDB 模糊、遮擋數據集[31]上進行實驗,并于目前先進方法進行對比,結果如表3 所示,混淆矩陣如圖4、圖5 所示.

表3 模糊、遮擋表情數據集上與目前先進方法對比結果(%)

圖4 SPD-Attention on Occlusion

圖5 SPD-Attention on Pose blur

可以看出,在模糊微弱表情或存在遮擋情況下本文算法相較于目前先進方法有一定提升.Covariance Pooling 方法在模糊、遮擋數據集上表現效果顯著降低,本文相較于其具有3%以上的提升,主要原因是遮擋或模糊數據集主要信息來自于面部的局部信息,而Covariance Pooling 采用的是全局協方差池化,缺乏對局部信息的關注.值得一提的是,Finetune 的效果是利用專用的網絡并在大規模專用數據集上進行細節化調整得到的結果,其可以反映目前先進方法在遮擋等情況下的表情識別效果.

通過和目前先進方法的對比,可看出本文利用流形學習得到二階統計信息會比其他方法使用的一階統計信息具有更好的表情特征描述能力,也具備更好的抗干擾能力; 同時也可以看出,相較目前利用二階統計信息的先進工作,本文將二階統計信息作為注意力系數放入網絡架構中,可以更好地關注局部信息,提高對微弱表情特征的學習,抑制無關遮擋信息的影響.

為了進一步探究不同程度表情模糊數據對本文算法的影響,針對FER2013plus 數據集上不同程度姿態模糊數據[31]進行對比實驗.如表4 所示,對于大姿態(Pose45)變化導致的表情模糊,本文算法效果會有一定下降,但與目前先進方法效果持平,本文認為是大姿態模糊情況下表情信息非常有限導致.

表4 不同程度模糊數據本文方法對比結果(%)

2.4 可視化實驗結果

如圖6 所示,是本文利用梯度熱力圖方式對本文算法的注意力區域進行可視化,利用網絡在梯度傳遞時對于不同區域的梯度大小,表示網絡對圖像區域的關注程度.顏色越鮮艷的區域表示網絡對于該區域的梯度更大,即表示該區域的內容對于網絡識別越重要.

圖6 網絡熱力圖可視化

從圖6 中可以看出,本文算法著重關注面部的扭曲區域,對于手、眼睛等遮擋具有較強的對抗能力,同時對于模糊微弱表情也可以著重關注表情特征顯著區域.

2.5 流形損失正則化效果

由于流形網絡計算需要通過對數運算將SPD 流形結構轉到歐氏空間,為了抑制梯度爆炸和梯度消失,本文對網絡的對數層引入正則損失.由圖7 所示不同程度正則損失對于網絡梯度的影響,可以得出結論: 合適的正則損失可以有效提高網絡的魯棒性.

圖7 不同程度正則損失對于網絡梯度的影響

3 結論與展望

本文重點關注了表情識別中模糊微弱表情和存在遮擋的表情,從注意力機制和流形學習角度出發,利用表達能力更強的二階統計信息表達局部表情特征,提出了局部流形注意力機制.通過和ResNet 等經典方法以及Covariance Pooling 等目前先進方法的實驗對比,驗證了本文算法對于模糊、遮擋表情識別有較好的效果.同時為了抑制流形學習可能帶來的梯度消失、梯度爆炸等情況,利用正則損失約束網絡梯度,提高了網絡穩定性.在未來工作中,本文將繼續探究流形注意力機制在人臉識別等任務中的應用可能,同時從知識蒸餾等角度降低由于流形網絡計算帶來的整體算法復雜度的提升,探究在移動設備端使用的價值.

猜你喜歡
矩陣局部注意力
日常的神性:局部(隨筆)
讓注意力“飛”回來
凡·高《夜晚露天咖啡座》局部[荷蘭]
多項式理論在矩陣求逆中的應用
丁學軍作品
A Beautiful Way Of Looking At Things
矩陣
矩陣
矩陣
局部求解也生動
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合