?

基于注意力機制多尺度網絡的自然場景情緒識別

2022-02-10 06:47晉儒龍卿粼波文虹茜
關鍵詞:分支注意力特征

晉儒龍, 卿粼波, 文虹茜

(四川大學電子信息學院, 成都 610065)

1 引 言

情緒識別是計算機視覺的一項基本任務,它是情感計算的一部分,旨在識別出某個體的感受與狀態,例如高興、悲傷、厭惡和驚喜等.情緒識別技術用途廣泛,目前已經在人機交互[1]、安防[2]和醫療健康[3]等領域有所應用,然而自然場景中的情緒識別存在識別難度大等問題仍具挑戰性.得益于深度學習近幾年的快速發展,基于卷積神經網絡(Convolutional Neural Network, CNN)的方法已經成為各種先進模型的基礎.

情緒表達的途徑多種多樣,語音、文本、生理電信號以及圖像[4-7]是情緒識別的常見方式.在自然環境中,語音和文本數據難以采集,生理電信號的采集會對研究對象的情緒產生干預,因此基于視覺信息仍是主要的情緒識別方法.關于面部情緒識別,無論是傳統的手工提取特征,還是深度學習方法,多數都是關注面部特征,因其能夠提供最明顯直觀的情感狀態.普遍使用的方法是面部動作編碼系統(Facial Action Coding System, FACS)[8],核心思想是將面部定義為多個運動單元(Action Unit),然后根據不同運動單元的組合編碼為6種基本表情(快樂、悲傷、恐懼、驚訝、憤怒和嫉妒).由于深度CNN網絡的快速發展,運動單元從手工設計轉變為自動識別,例如Jain等[9]提出使用CNN進行特征提取和情緒分類.但是人臉在自然場景中存在光照不均勻、遮擋和拍攝角度等問題,導致難以準確識別其情緒狀態.

關于姿態情緒識別,Nicolaou等[10]提出一種面部結合肩部運動信息的情緒識別方法,Schindler等[11]使用身體姿態在約束條件下識別6種基本情緒.Dael等[12]發現身體的動作和姿態不僅能反映情緒強度,還能得到具體的情緒類別.然而,同一種姿態或行為在不同語境中表達的可能是不同的情緒狀態.例如,在家中看電腦和在辦公室看電腦是同一種行為,綜合考慮其姿勢,衣著以及環境會得到情緒狀態不同的結論.

最后是基于場景的情緒識別,Mou等[13]通過融合人臉,身體以及場景信息進行群體的情緒識別,但基于場景信息的個體情緒識別很少被研究.為了更好地研究基于場景的情緒識別Kosti等[14]提出了EMOTIC (EMOTions In Context database)數據集,并且基于該數據集設計了一個雙通道的基準網絡結構,分別用于提取人物特征和場景特征.在此基礎上,Zhang等[15]利用Region Proposal Network (RPN)網絡提取場景元素作為節點構建情感圖進行情緒識別.Bendjoudi等[16]在雙通道的基準網絡上提出多任務損失函數改進模型的訓練過程.雖然上述方法都利用了場景信息,但是自然場景中的情緒線索有大小遠近之分,簡單地對場景信息提取特征,并不能有效利用場景中的情感線索.

為了改善上述問題,本文提出了一種基于注意力機制的多尺度情緒識別網絡模型.此網絡由人物分支與場景分支組成.針對人物個體在自然場景中存在的不確定性問題,人物分支設計一種身體注意力機制用來預判個體情緒的置信度,并且作用于人物的特征,從而抑制相應的不確定性.針對場景情緒線索探索不充分的問題,場景分支設計了全局-局部的網絡結構.對于全局信息,利用空間注意力機制獲取場景中的全局信息.對于局部信息,利用空間金字塔能夠捕獲不同粒度信息的能力,將場景中多種尺度的情感線索進行融合增強,從而獲得更加豐富的場景特征表示.最后早期融合雙分支的特征向量,得到最終的情緒分類結果.本文的主要貢獻如下:(1) 提出一種基于注意力機制與多尺度的網絡,充分捕獲人物與場景各自的情感線索,最后融合二者之間的關系,推理出人物在自然場景中的情緒類別;(2) 在EMOTIC數據集進行廣泛的實驗,實驗結果證明了提出模型的有效性.

2 模型結構

現有方法在探索人物與場景線索時,只是簡單地提取特征,然后進行融合并進行情緒分類,并未關注人物在場景中的不確定性,以及場景信息的復雜性.針對以上問題,設計一種基于注意力機制的多尺度網絡情緒識別模型,系統框架如圖1所示.對于人物個體,提取特征的同時使用注意力機制學習當前人物情緒的置信度;對于場景,使用特征金字塔提取不同尺度的特征圖,其中高階語義信息使用空間注意力機制學習場景中的主要信息,最后融合雙分支網絡獲得情緒分類的結果.

2.1 人物分支

在圖像中,人物個體能夠直觀地描述情緒狀態,因此建立基于人體的CNN網絡結構.為避免過擬合以及增強模型泛化性能,使用Image-Net數據集下預訓練的ResNet-50模型進行微調.根據Bounding Box裁剪出人物區域,作為網絡的輸入IB∈,通過ResNet-50得到的特征向量記作XB∈,其中d表示情緒類別數.其前向傳播如式(1)所示

XB=F(IB;WB)

(1)

其中,WB表示網絡權重.考慮到圖像中人物的遮擋以及人物在圖像中是否占主導地位的因素,加入注意力機制預判當前人物對情緒識別的置信度.該注意力機制有兩點值得注意:(1) 位置不同于傳統的注意力機制.不是位于特征圖之后,而是直接置于特征提取之前,這樣可以有效地預判當前人物的情緒置信度;(2)結構不同于Squeeze-and-Excitation[17]模型.首先使用全局平均池化得到11的卷積核,再通過兩個卷積層得到權重λ,最后與XB點乘,得到基于人物CNN的分類結果如式(2)所示.

fB=λ?XB

(2)

其中,?表示按位置相乘.部分判決結果如圖2a所示.

圖1基于注意力機制的多尺度網絡情緒識別框架Fig.1 The framework of attention mechanism and multi-scale network based emotion recognition

2.2 場景分支

文獻[13-15, 18]的研究已表明場景信息能夠很好地輔助情緒識別,因此搭建基于場景的CNN網絡結構.為了防止與人物特征重復提取,對場景中主要人物增加掩模,如式(3)所示,對于場景圖像IC∈有

(3)

其中,bboxIB表示主要人物所在區域.使用特征金字塔(Feature Pyramid Networks, FPN)[19]處理場景細節信息.FPN常用于多尺度目標檢測,它能夠在增加少量計算量的前提下融合低分辨率語義信息較強的特征圖和高分辨率語義信息較弱但空間信息豐富的特征圖,在下采樣過程中有效地增強局部細節特征.FPN分為自底向上和自上而下兩個過程,在自底向上的過程中,采用預訓練的ResNet-18模型作為特征提取網絡,ResNet擁有4個殘差塊,為避免內存占用以及過擬合問題,使用最后3個殘差塊的輸出構建FPN,記作C={C3,C4,C5},分別對應IC的{8,16,32}下采樣倍數;在自頂向下的過程中,采用兩倍最近鄰插值對{C3,C4,C5}上采樣,然后與其下一層的特征圖進行對應位置的相加,得到對應的特征金字塔P={P3,P4,P5},C與P擁有相同的尺寸.由于P共享同一個分類器,所以在分類前通過11卷積修正所有特征圖的通道為256維,分類器由兩個卷積層和全局平均池化構成,輸出分類結果為

(4)

由于只關注場景中對情緒識別有幫助的部分,因此引入空間注意力機制,對此使用Attention Branch Network[20],與FPN自底向上過程共享網絡權重,該網絡能夠有效地識別定位圖像中主要的區域,其輸出記作fC2.場景分支的分類結果由fC1和fC2構成.

2.3 模型融合

為融合人物分支和場景分支的特征向量,使用早期融合在通道維數連接

f=concatnate[fB,fC1,fC2]

(5)

然后通過一個全連接層對特征向量f∈進行分類,再通過Softmax歸一化到[0, 1]區間.

3 實驗與分析

3.1 實驗數據

本文基于EMOTIC數據集[14]進行實驗,該數據集圖片來源于MSCOCO、Ade20K和網絡下載等3部分.共包含23 571張圖片,標注了34 320個人物.標注信息包含26類情緒,每個人物至少擁有一種情緒標簽.其中70%用于訓練,10%用于驗證,20%用于測試.

3.2 實驗設置

本文在Ubuntu16.04系統使用Pytorch框架進行實驗,GPU為NVIDIA GeForce GTX2080,內存為11 GB,模型參數的優化使用Adam優化器,初始學習率為1e-4并按照余弦方式下降,訓練輪數為70次,批次為32,使用MultiLabelSoftMarginLoss函數進行誤差反向傳播.IB和IC縮放為224224,使用水平翻轉,改變對比度、亮度和飽和度進行數據增強.

3.3 實驗分析

沿用文獻[14]使用的mAP(mean Average Precision)作為評價指標以便客觀評價模型性能.實驗對比了EMOTIC數據集的基準方法[18],Bendjoudi等[16]提出的方法以及Zhang等[15]提出的方法.實驗結果如表1所示,從表1可以發現自然場景中的復雜情緒識別任務挑戰較大.文獻[16]在基準模型[18]的基礎上對損失函數進行改進,獲得了一定的性能提升.先進模型[15]利用目標檢測算法進一步提取場景線索,其性能的提升也說明有效利用場景線索可以輔助情緒識別.

表1 EMOTIC測試集下的AP和mAPTab.1 Quantitative evaluation of EMOTIC in comparison on average precision and mean average precision

本文模型利用多尺度信息以及空間注意力機制探索不同粒度的場景信息,相比單階段方法[16,18]分別提升了2.27%和1.32%.相比于先進模型[15]使用雙階段的訓練策略(先單獨檢測自然場景的線索,然后依賴圖神經網絡構建情感計算圖),我們的模型可以實現端到端的訓練以及計算量的減少,并且mAP提升了1.23%,表明了本文提出模型的優越性.

值得注意的是,在數據較少的類別Annoyance(2%),Aversion(1%),Disapproval(2%),Pain(1%),Sadness(2%),AP值均優于其他方法,其中Disapproval提升最多為4.67%.說明當數據較少時,本文模型仍能有效學習到自然場景中的情緒線索.在數據較多的類別Confidence(23%),Engagement(50%),Happiness(26%),相比其他方法,提升幅度有限.主要是因為場景分支未使用較深層數的骨干網絡,這使得我們的模型能夠在數據少的類別實現明顯的性能提升.但隨著網絡的加深,容易導致模型過擬合,進而降低泛化性能.詳細類別分布見文獻[14].整體來說,所提出模型在多數類別的AP均獲得了提升,mAP也達到了最優結果.

為了更準確地衡量本文模型的有效性,設計消融實驗對比分析身體注意力機制(w/BA),空間注意力機制(w/CA)以及特征金字塔(w/FPN)等3個組件的性能,實驗結果如表2所示.可見三者組合使用可以獲得最優的性能,三者單獨使用也優于其他方法.其中BA用于預判人物在場景中的情緒置信度,同時抑制人物個體的不確定性,性能相比先進方法提升了0.67%.CA用來捕獲全局場景信息,提升最多為1.85%,用來提取局部場景信息的FPN也獲得了可比的性能提升.消融實驗結果表明該模型使用的3個模塊能夠充分利用人物信息和場景中的全局-局部信息,從而有效提高情緒識別效果.

表2 基于注意力機制的多尺度網絡消融實驗Tab.2 Ablation studies for proposed method

除了實驗數據分析,我們也對部分測試集進行可視化分析,如圖2所示.一方面是人物分支的情緒權重λ,如圖2(a)所示,當人物在圖片中清晰可見時,其權重較大;當人物受到分辨率,拍攝角度等影響,通過人物本身難以識別其情緒狀態,對應的情緒權重也相應減少并弱化人物對情緒識別的影響.另一方面是場景分支的空間注意力分布,如圖2 (c)和(d)所示,對人物增加掩模后,場景分支將注意力從人物本身轉移到關注場景本身,這樣可以有效地避免人物分支與場景分支學習到重復的特征.表3的實驗結果也表明對人物增加掩模后(w/ masking)性能有所提升.

圖2 情緒識別結果可視化(a) 原始圖像;(b) 人物情緒標簽,其中綠框為真值,藍框為預測值;(c)(d) 分別為原始圖像和IC訓練得到的空間注意力分布Fig.2 Visualization of emotion recognition results(a) Original image; (b) multi-label,which ground truth in green box and prediction in blue box; (c) and (d) results of without hiding the body and with hiding the body during training respectively

表3 人物增加掩模性能對比Tab.3 Quantitative evaluation of with/without masking.

4 結 論

本文研究了基于人物與場景線索的自然場景情緒識別問題,提出了基于注意力機制的多尺度情緒識別網絡結構,在完全缺乏人臉信息的真實場景中,實現了對26類復雜情緒的基本識別.網絡結構由人物分支與場景分支組成,針對人物分支設計的身體注意力機制能夠有效預判當前人物對情緒識別的置信度,針對場景分支,融合空間注意力機制和特征金字塔可以進一步探索場景中的全局-局部情緒線索.在EMOTIC數據集上進行多個實驗以評估該方法的識別性能.與相關方法比較,實驗結果驗證了該模型的有效性.雖然本文方法在識別精度上有較好的結果,但仍然有進一步的提升空間,主要原因是在對人物分支以及數據集不平衡的研究有限,在后續研究中,會考慮融合行為識別和改進訓練策略等方式,提升算法識別的精度.

猜你喜歡
分支注意力特征
離散型隨機變量的分布列與數字特征
讓注意力“飛”回來
一類離散時間反饋控制系統Hopf分支研究
軟件多分支開發代碼漏合問題及解決途徑①
抓特征解方程組
不忠誠的四個特征
A Beautiful Way Of Looking At Things
碩果累累
抓特征 猜成語
閱讀理解兩則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合