?

基于MSVR和Arousal-Valence情感模型的表情識別研究

2017-01-03 01:29黃文波金裕成顧西存
關鍵詞:集上維度特征

楊 勇,黃文波,金裕成,顧西存

(1. 重慶郵電大學 計算智能重慶市重點實驗室,重慶400065;2.韓國仁荷大學 情報通信工學部,仁川402-751; 3. 重慶郵電大學 圖形圖像與多媒體實驗室,重慶 400065)

基于MSVR和Arousal-Valence情感模型的表情識別研究

楊 勇1,2,黃文波1,金裕成2,顧西存3

(1. 重慶郵電大學 計算智能重慶市重點實驗室,重慶400065;2.韓國仁荷大學 情報通信工學部,仁川402-751; 3. 重慶郵電大學 圖形圖像與多媒體實驗室,重慶 400065)

通常的表情識別方法是對基本情緒進行表情分類,然而基本情緒對情感的表達能力有限。為了豐富情感的表達,研究采用Arousal-Valence情感模型,從心理學的角度對Arousal-Valence模型中Arousal維度和Valence維度之間的相關性進行了分析,并用統計學方法對AVEC2013,NVIE和Recola 3個數據集進行研究,實驗結果表明它們之間具有正相關關系。為了利用Arousal-Valence之間的相關性,采用多輸出支持向量回歸(multiple dimensional output support vector regression,MSVR)算法作為表情的訓練和預測算法,并結合特征融合和決策融合提出了一種基于MSVR的兩層融合表情識別方法。實驗結果表明提出的表情識別方法比傳統的方法能取得更好的識別效果。

表情識別;Arousal-Valence情感維度;相關性;多輸出支持向量回歸(MSVR)

0 引 言

隨著人工智能的發展,在人機交互中,人們越來越希望計算機能夠理解人類的情感。表情作為人類情感表達的主要方式早已被證實對情感的表達具有55%的貢獻率[1]。近年來,表情識別已在人機交互、駕駛員疲勞檢測、醫院病人看護等方面得到了很大的發展。

在表情識別研究領域,通常采用Ekman的基本情緒理論[2],該情緒理論把情感分為6種基本類型,即高興、厭惡、吃驚、悲傷、生氣和恐懼。因此,基于該理論的表情識別從本質上說是分類問題。但是基本情緒理論在表情識別中有一定的局限性,主要表現在:①對情感的表達能力有限,對基本表情之外的其他表情不能有效地表達;②不能表達不同情感之間的關系;③不能表達出情感的強度。比如高興可以分為一般高興、中等高興、特別高興,基本情緒理論不能表達出表情的這種強弱關系。

鑒于基于基本情緒理論的情感分類具有以上缺點,近年來國外很多情感計算領域的研究者開始嘗試采用基于維度的情感模型來研究情感[3]。維度理論采用多維空間,從激勵、愉悅等不同的角度來描述情感,常見的情感模型有Mehrabian提出的PAD(pleasure, arousal, dominance)情感模型[4]、Cowie提出的EAP(evaluation, activity, power)情感模型[5]、 Russell提出的A-V(arousal, valence)情感模型[6]等。在眾多情感模型中,由于Arousal和Valence維度最能體現出人的情感變化[7],廣泛地被情感計算領域的學者所采用。所以,本文基于Russell的A-V情感模型對表情識別進行了研究,圖1是該情感模型的一個簡單示意圖。

從圖1可以看到,不同的情感分布在空間中的不同位置,位置越接近的情感表明它們代表的情緒越接近。在A-V情感空間中,Arousal代表的是激活度(activation),Valence代表的是愉悅度(pleasantness)。通常二者的取值是[-1,1]。

對A-V空間上的表情識別研究,通常的方法都是把Arousal和Valence維度分開,采用回歸的方法單獨識別,顯然這些傳統的方式沒有利用到2個輸出維度之間的關系。鑒于此,本文從Arousal維度和Valence維度之間的關系入手,研究了利用A-V之間的相關關系進行表情識別。本文的主要貢獻有:①研究并發現了Arousal和Valence兩個維度之間具有正相關的相關關系;②利用A-V之間正相關的關系,結合特征融合和決策融合提出了一種基于多輸出支持向量回歸(multiple dimensional output support vector regression, MSVR)的兩層融合表情識別方法。

圖1 Arousal-Valence情感空間Fig.1 Arousal-Valence emotion space

1 Arousal和Valence之間的相關性

在從情感計算的角度研究情感維度之間相關性的研究中,Pantic教授團隊從五維(valence, arousal, power, expectation, intensity)情感空間中任選四維預測另一維時取得了不錯的實驗效果,他們的研究表明了各情感維度之間是相互關聯的[8]。Cristian等[9]在用生理信號腦電圖(electroencephalogram, EEG)、眼動電圖(electrooculogram, EOG)和(electromyogram, EMG)研究情感時嘗試了利用Arousal和Valence維度之間的相關性,取得了不錯的效果,他們的研究表明了利用Arousal和Valence之間的相關性能取得更好的效果。然而,以上研究僅表明A-V之間存在相關性,并沒有對二者的相關性進行深入的分析。Kuppens[10]等人總結并分析了幾種常見的A-V相關性模型,指出了A-V之間的相關性存在個體差異性。Sánchez-Lozano[11]等人在特定數據集上通過實驗計算出A-V之間的皮爾遜相關系數為0.25。

心理學研究結果表明人對Arousal和Valence維度的響應是由大腦中的不同組織部位控制的[7,12]。大腦中的眼窩前額皮質(orbitofrontal cortex)和亞屬皮質(subgenual cortex)主要負責響應Valence維度;大腦中的島葉(insula)、基底神經節(basal ganglia)和杏仁核(amygdala)主要負責響應Arousal維度。并且,這些大腦組織對Arousal和Valence的響應都有一定的獨立性。但是大腦中有些部位則會對Arousal和Valence都產生響應,比如扣帶回膝上部(subgenual cingulate)。這些能同時響應Arousal和Valence維度的腦部位表明了A-V之間是相互聯系的。Lewis等[12]在用機能性磁共振成像技術研究大腦不同部位對Arousal和Valence的響應時發現當大腦中的扣帶回膝上部對Valence維度的響應變強烈時,其對Valence維度的響應程度也會相應的加強。以上心理學研究結果表明:A-V之間存在一定的相關性,而且表現為正相關。

為了從情感計算的角度驗證上述心理學研究結果,本文從統計學上的皮爾遜相關系數入手對Arousal和Valence之間的相關性進行了研究。皮爾遜相關系數(COR)的定義為

(1)

(1)式中:cov表示2個變量的協方差;σx,σy分別為x,y的標準差;COR表示2個變量的相關性,其取值為[-1,+1],若其絕對值越接近1,表示2個變量之間的相關性越強;若越接近0,表示兩者的相關性越弱;若為0表示則兩者不相關。相關系數若為正,說明一個變量隨另一個變量增減而增減,即變化方向相同;若為負,表示一個變量增加另一個變量減少,即變化方向相反。

本研究從2013年音頻/視覺情感挑戰賽(audio/visual emotion challenge, AVEC2013)提供的數據集上選取1 100張表情圖片,從遠程協作情感交互(remote collaborative and affective interactions, RECOLA)數據集上選取840張表情圖片,從中科大自然可見與紅外面部表情(natural visible and infrared facial expression, NVIE)數據集上選取1 278張表情圖片進行實驗。對應地,每一張圖片都有一對A-V標簽。最后,通過計算3個數據集的Arousal和Valence之間的皮爾遜相關系數得出了如表1所示的結果。

表1 3個數據集上A-V之間的相關系數

從表1中的結果可以看到,3個不同數據集中A-V之間的相關系數都為正,即都表現為正相關的相關關系。由此,本文從情感計算的角度,采用統計學的方法,得出A-V 2個維度之間存在正相關的相關關系。并且這一結論和心理學的研究結果相互吻合。除此之外,從表1中可以看到,不同數據集之間的A-V相關性大小不一致,AVEC2013和RECOLA上的正相關性強度較大,而NVIE上的正相關性強度則較小。這主要是由于NVIE數據集的A-V標簽是通過視覺模態標定的,而AVEC2013和RECOLA數據集的A-V標簽標定時用到了視覺模態和聽覺模態。標定時用到的模態越多,標定的準確性就會越高。此外,不同的心理學家對A-V維度的標定方法存在不一致性,不同的人對Arousal和Valence的標定也存在一定的主觀性。

2 基于MSVR的表情識別

2.1 本文提出的表情識別框架

采用A-V情感模型進行表情識別,由于A、V 2個維度不再是一個具體的分類標簽,而是連續值,因此,表情識別不再是模式分類的問題,而是一個具有多輸出的回歸問題。本文結合特征融合和決策融合提出的基于多輸出支持向量回歸的兩層融合表情識別方法框架如圖2所示。

在表情識別中,首先需要從圖片中檢測人臉區域。對于人臉區域的特征提取,采用了表情識別領域最常用的3種特征,即局部二值模式(local binary pattern, LBP),Gabor小波濾波和局部相位變換(local phase quantization,LPQ)。

為了提高表情識別的效果,本文對LBP,Gabor,LPQ 3種基本特征進行了兩兩組合的串行特征融合。假設樣本空間Ω中存在樣本ξ∈Ω,其對應有2組特征數據α∈A和β∈B。那么對應的串行組合特征γ描述如下

γ=(α,β)T

(2)

若特征向量α為m維,β為n維,則串行組合特征γ的維數為m+n維。

在多輸出回歸的研究中,通常采用的方法是對每一個輸出維度單獨訓練和預測。比如,大部分的研究采用的回歸方法都是支持向量回歸(support vector regression, SVR),它是SVM(support vector machine)在回歸領域的應用,其基本思想是將低維空間中的非線性數據通過映射轉換到高維空間中的線性數據,然后在高維空間中對數據進行分類或回歸處理[13]。但是傳統SVR的輸出只有一個維度,在處理多維輸出的問題時,通常是將它轉化為多個一維輸出的問題來處理,即對每一個輸出維度用SVR單獨訓練和預測。顯然,對于A-V情感空間中的回歸,如果采用上述的SVR就不能有效地利用Arousal維度和Valence維度之間的相關關系。

為了充分利用輸出維度之間的關系,本文在表情識別領域首次采用MSVR作為回歸器。

同時,為了充分利用特征融合后的3種串行特征,本文在第1層特征融合的基礎上增加了決策融合作為第2層融合。具體地,先用MSVR對3種串行特征組合進行訓練和預測并得到3組Arousal和Valence的值,最后通過取平均值的融合方式來得到最終的Arousal和Valence值。

圖2 基于MSVR的兩層融合表情識別框架圖Fig.2 Framework of the two-level fusion for facial emotion recognition based on MSVR

2.2 MSVR簡介

為了解決多輸出回歸的問題,Pérez-Cruz等[14-15]提出了MSVR。MSVR的核心思想是通過修改原始SVR的損失函數使之能考慮到各輸出分量的誤差。這樣,MSVR在訓練回歸器時就能同時考慮到不同維度之間的關系。因此,從理論上講它要優于將多個輸出維度分離開來單純處理的方法。

MSVR用定義在超球上的損失函數代替了SVR定義在超立方體上的損失函數。設樣本集D={(xi,yi)|i=1,2,…,l},xi∈Rd,yi∈Rm,構造回歸函數

f(x)=φ(xi)TW+B

(3)

(3)式中:φ(x)為映射函數,將低維空間中的非線性特征數據xi轉化為高維空間中的線性數據;W和B分別為權向量和偏置,W=[w1,…,wm]T,B=[b1,…,bm]T。因此,(3)式可以轉化為(4)式的約束優化問題

(4)

s.t. ‖yi-φ(xi)Twj+bj‖≤ε+ui,i=1,…,n

(5)

由(5)式可知,當ε=0,該問題退化為對每一個輸出分量yi做最小二乘回歸;當ε≠0時,在求解每一個輸出函數的回歸量時會同時兼顧到其他輸出分量的擬合效果,所以,這樣得到的解將會是一個整體擬合最優的解。

根據目標函數及約束條件,可以得到(6)式的拉格朗日函數

(6)

在函數的極值點,對于變量wj,bj,ui,αi,其偏導數為0,于是可得

(7)

(7)式中:φ=[φ(x1),…,φ(xn)]T;Dα=diag{α1,α2,…,αn};α=[α1,α2,…,αn]T;I表示單位矩陣;1=(1,1,…,1)T。

(8)

(8)式中:(K)ij=κ(xi,xj)。若求出βj,則對于每個x可得yj=φT(xi)φ(xj)βj,定義β=[β1,β2,…,βm],則m個輸出可表示為

y=φT(x)φ(x)β=Kxβ

(9)

對于βj的求解,可采用迭代的方法,具體步驟如下[15-16]

可以看到,MSVR求解(4)式時采用的是迭代求解的方法,且在求解的過程中還用到了回溯法來求步長,這樣必然會增加循環的次數,從而在一定程度上增加了時間開銷。

3 實 驗

3.1 實驗設置

人臉檢測采用OpenCV自帶的Haar特征分類器實現。圖像的預處理統一采用文獻[17]中提供的裁剪方法。裁剪后統一所有的圖片尺寸為120×120,并進行直方圖均衡化。預處理完成后對所有圖片進行3×3分塊處理,把圖片劃分為9個不重疊的子塊,然后對每個子塊求其LBP,Gabor,LPQ特征,最后把每個子塊的特征級聯在一起。

為了降低特征空間的維數,所有特征提取完后都通過主成分分析(principal components analysis, PCA)進行了特征降維,降維時PCA主成分貢獻率統一設置為0.96。最后,再用通過PCA降維后的LBP,Gabor,LPQ特征進行特征融合。

實驗中,本文采用了AVEC2013數據集、RECOLA數據集和中科大NVIE數據集。

AVEC2013數據集[18]是一個基于視頻的表情數據集。該數據集的公開部分包含訓練和驗證2個部分共100個視頻,本研究選用了其中的11個視頻,并在每個視頻中抽 取了100張表情圖片(共1 100張表情圖片)進行實驗。

RECOLA數據集[19]也是一個基于視頻的多模情感數據集,該數據集包含了從27個志愿者中采集到的34個視頻。本研究選用了其中的11個視頻,并從中抽取了共840張表情圖片作為實驗。

中科大NVIE[20]數據集包括自發表情庫和人為表情庫,本實驗采用其中的自發表情庫。自發表情庫是通過特定視頻誘發并在3種光照下(正面、左側、右側光照)采集的表情庫,其中正面光照103人,左側光照99人,右側光照103人。每種光照下,每人有6種表情(喜悅、憤怒、哀 傷、恐懼、厭惡、驚奇)中的3種以上,每種表情的平靜幀以及最大幀都已挑出。本文一共選用了3種光照條件下的共1 278張圖片作為實驗。

3.2 實驗評價方式

對于回歸結果的評價方式,本文采用了該領域最為常用的3種評價方式,即:相關系數(correlation coefficient, COR)、均方根誤差(root mean squared error, RMSE)和平均絕對誤差(mean absolute error, MAE)。COR的定義在(1)式中已經給出。

設有兩個n維向量X,Y,則它們之間的RMSE和MAE分別定義為

(10)

(11)

在上述3個評估方式中,COR表示的是預測的值和標定的值之間的相關性,COR越大表示回歸的效果越好;RMSE描述的是預測值和標定值之間的均方差誤差,誤差的值越小表示預測值與標定值之間越接近;MAE描述的是預測值和標定值之間的絕對值誤差,值越小表示誤差越小。

在計算實驗結果時,本文采用了十折交叉驗證的方式,通過計算十折的平均COR,RMSE,MAE作為最后的實驗結果。

3.3 實驗與結果分析

3.3.1 實驗1(不同回歸方法的對比實驗)

為了驗證MSVR多輸出回歸算法在表情識別上的有效性,本實驗在回歸時采用了基于維度的表情識別中最常用的單輸出回歸算法SVR和相關向量機(relevance vector machine, RVM)作為對比。本實驗分別在LBP,Gabor,LPQ 3種特征上進行了對比實驗。實驗結果如表2、表3和表4所示。同時,為了對比MSVR的計算開銷,本文統計了3個回歸算法在NVIE數據集上進行十折交叉驗證的平均訓練時間和對測試集中127張表情圖片進行預測的平均時間,統計結果如表5所示。

表2 AVEC2013數據集上不同特征和回歸算法組合時的實驗結果

表3 NVIE數據集上不同特征和回歸算法組合時的實驗結果

表4 RECOLA數據集上不同特征和回歸算法組合時的實驗結果

Tab.4 Experimental results on RECOLA dataset using different features and regression methods

MethodArousalValenceRMSECORMAERMSECORMAELBP+MSVR0.1470.5120.1240.1080.5910.087LBP+SVR0.1630.2590.1300.0970.4250.074LBP+RVM0.1870.3400.1560.1290.3520.102Gabor+MSVR0.1610.4500.1330.1200.5130.094Gabor+SVR0.1800.3310.1480.1270.3010.101Gabor+RVM0.1860.2910.1530.1270.3210.102LPQ+MSVR0.1480.5070.1220.1210.4720.094LPQ+SVR0.1940.2260.1630.1470.1900.116LPQ+RVM0.1820.3440.1510.1290.3570.100

從表2-表4可以看到,對于同一種特征,MSVR總能取得比SVR和RVM更好的實驗結果。此外,在NVIE和RECOLA數據集上,3種特征中LBP特征的實驗效果最好。但對于AVEC2013數據集,LPQ特征在Arousal維度上能取得比LBP更好的效果??梢娞卣鞯奶崛祿灿幸欢ǖ囊蕾囆?。由表5可以看到,3種回歸算法中,SVR的訓練時間最短,RVM的訓練時間最長。對于預測,MSVR和SVR的時間都低于2 ms,能較好地滿足實際應用的實時性要求。

進一步分析MSVR在3個數據集上的實驗結果可以發現,當數據集的Arousal和Valence標簽之間的皮爾遜相關系數越高時,使用MSVR能取得越好的實驗效果。由表1可知,AVEC2013數據上Arousal和Valence之間的相關系數是0.459,比NVIE數據集的0.147高0.312。從實驗結果看,對于評價方式COR,使用MSVR后,AVEC2013數據集在Arousal和Valence 2個維度上都比SVR和RVM平均提升了0.2左右,而對于NVIE數據集,MSVR對比于SVR和RVM卻只提升了不到0.1。由此可以得出結論:當數據集上A-V之間的相關性越高時,使用MSVR能取得更顯著的效果。

表5 NVIE數據集上3種回歸算法的平均訓練時間和預測一張圖片的平均時間

Tab.5 Average training time on NVIE and average predicting time of one image by three regression methods

MethodTrain/msTest/msSVR5021.5RVM319722.3MSVR22071.8

3.3.2 實驗2(提出的方法與傳統基于特征融合方法的對比)

為了驗證如圖2所提出的基于兩層融合的表情識別方法的可行性,該方法與傳統的基于特征融合的方法進行了對比。對提取到的LBP,Gabor,LPQ特征,在對比實驗室中,分別把它們融合為LBP+Gabor,LBP+LPQ,LPQ+Gabor,LBP+LPQ+Gabor 4種特征作為對比對象,在回歸時統一采用基于多輸出回歸的MSVR算法。實驗2的結果如圖3-圖5所示。

圖3 3個數據集上特征融合和決策融合的COR實驗結果Fig.3 COR experimental results on three datasets using feature fusion and decision fusion

從實驗1和實驗2的對比中可以看到,當采用MSVR作為回歸算法時,2種特征融合后能取得比單特征更好的實驗效果。比如把LBP和Gabor特征融合后的實驗效果比單獨的LBP或Gabor特征所取得的實驗效果要好。從實驗2中的特征融合實驗結果可以看到,當同時融合LBP,Gabor和LPQ 3種特征時,實驗效果并沒有得到明顯的提升,甚至在某些評價指標上還有性能退化的表現。如在Recola數據上,采用LBP+Gabor+LPQ特征融合后的實驗結果還沒有僅融合LBP和LPQ的實驗效果好。這主要是由于當融合的特征越來越多后,會產生特征數據的冗余,從而在訓練時導致實驗效果的退化。所以,從實驗結果來看并不是融合的特征越多越好。鑒于此,本文在決策融合時只選用了LBP+Gabor,LBP+LPQ,LPQ+Gabor 3種融合特征。采用本文所提出的基于MSVR的特征融合加決策融合的方法后,RMSE,COR和MAE在3個數據集上較傳統的特征融合方法都有了進一步的提升,特別是MAE。如,在AVEC2013數據集,使用本文的方法后,MAE在Arousal和Valence維度上都可以降低到0.01(見圖5)。

圖4 3個數據集上特征融合和決策融合的RMSE實驗結果Fig.4 RMSE experimental results on three datasets using feature fusion and decision fusion

圖5 3個數據集上特征融合和決策融合的MAE實驗結果Fig.5 MAE experimental results on three datasets using feature fusion and decision fusion

由以上分析可知,本文提出的方法要優于只采用特征融合的方法,此外,本方法對MAE有非常顯著的提升效果

同時為了驗證本文所提出方法的時間開銷,本文在NVIE數據集上統計了十折交叉驗證的平均訓練時間,并對127張測試集圖片進行預測并計算平均測試時間,表6是時間開銷的統計結果。從表6中可以看到,采用本文所提出的表情識別方法訓練時間和預測時間均比其他方法要高,這主要是由于本文要訓練3個回歸器。預測時也要通過3個回歸器進行預測??梢钥吹奖痉椒A測一張圖片表情的平均時間為6.8 ms,該時間能較好地滿足實際應用場景。

表6 NVIE數據上不同融合方法的平均訓練時間和預測一張圖片的平均時間

Tab.6 Average training time on NVIE and average predicting time of one image by different fusion methods

MethodTrain/msTest/msLBP+Gabor+MSVR30152.5LBP+LPQ+MSVR29501.8LPQ+Gabor+MSVR30452.3LBP+Gabor+LPQ+MSVR44562.9本文方法90896.8

4 總結和展望

基于維度的表情識別目前在國內的研究很少,本研究采用了當前最為常見的Arousal-Valence二維連續情感模型。本文首先從心理學入手研究了A-V之間的相關性,并得出了A-V之間存在正相關的關系。為了利用A-V維度之間的相關性,本文在A-V情感空間上提出了基于MSVR的兩層融合表情識別方法。在實驗中采用了AVEC2013,NVIE和Recola 3個數據集。實驗時,為了驗證MSVR的實驗效果,本文采用了單輸出回歸中最常使用的SVR和RVM作為對比的回歸算法;同時,本方法還與傳統的特征融合方法進行了對比。 實驗結果表明,本文提出的方法能取得更好的實驗效果,且預測表情的時間能滿足實際應用場景。通過實驗本文還發現了當輸出維度之間的相關性越好時,使用MSVR能取得更好的實驗效果。

表情識別的本質是模式識別,本文研究的發展在很大程度上依賴于機器學習的發展。MSVR只是眾多機器學習算法中能利用Arousal和Valence維度之間相關性的一種算法,在未來的研究中還可以嘗試探索其他能利用輸出相關性的機器學習算法。

[1] MEHRABIAN A. Communication without words[J]. Psychology Today, 1968, 2(4): 53-56.

[2] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J]. Journal of Personality Social Psychology, 1971, 2(17): 124-129.

[3] GUNNES H, PANTIC M. Automatic, dimensional and continuous emotion recognition[J]. International Journal of Synthetic Emotions, 2010, 1(1): 68-99.

[4] MEHRABIAN A. Pleasure-Arousal-Dominance: a general framework for Describing and measuring individual differences in temperament [J]. Current Psychology, 1996, 14(4): 261-292.

[5] COWIE R, DOUGLAS C E. Emotion recognition in human-computer interaction[J]. IEEE Signal Process, 2001, 18(1): 32-80.

[6] RUSSEL J A.A circumplex model of affect[J].Journal of Personality & Social Psychology,1980,39(6):1161-1178.

[7] ANDERS S,LOTZE M,ERB M,et al.Brain activity underlying emotional valence and arousal:a response-related fMRI study[J].Human Brain Mapping,2004,23(4):200-209.

[8] MIHALIS A, NICOLAOU S Z, PANTIC M. Correlated-spaces regression for learning continuous emotion dimensions[C]//Proceedings of the 21st ACM international conference on Multimedia. Barcelona, Spain: ACM Press, 2013: 773-776.

[9] CRISTIAN A, MAURICIO A, A LVAREZ, et al. Mutiple-output support vector machine regression with feature selection for arousal/valence space emotion assessment[C]// Engineering in Medicine and Biology Society (EMBC), 36th Annual International Conference of the IEEE. Chicago, USA: IEEE Press, 2014: 970-973.

[10] KUPPENS P,TUERLINCKX F,RUSSELL J A,et al.The relation between valence and arousal in subjective experience[J].Psychological Bulletin,2013,139(4):917-940.

[11] SáNCHEZ L E, LOPEZ O P, DOCIO F L, et al. Audiovisual three-level fusion for continuous estimation of Russell’s emotion circumplex[C]//Proceedings of the 3rd ACM international workshop on Audio/visual emotion challenge. Barcelona, Spain: ACM Press, 2013: 31-40.

[12] LEWIS P A,CRITCHLEY H D,ROTSHTEIN P,et al.Neural correlates of processing valence and arousal in affective words[J].Cerebral Cortex,2007,17(3):742-748.

[13] VAPNIK V N. An overview of statistical learning theory[J]. IEEE Transactions on Neural Networks, 1999, 10(5): 988-999.

[14] PéREZ C F, CAMPS V G, SORIA E, et al. Multi-dimensional function approximation and regression estimation[C]//Proc. of the ICANN. Madrid, Spain: Springer Press, 2002: 757-762.

[15] SáNCHEZ F, CUMPLIDO M D. SVM multiregression for nonlinear channel estimation in multiple-input multiple-output systems[J]. IEEE Transactions on Signal Processing, 2004, 52(8): 2298-2307.

[16] 胡蓉. 多輸出函數回歸的SVM算法研究[D]. 廣州:華南理工大學, 2005. HU Rong. Research on multi-dimensional regression of SVM[D]. Guangzhou: South China University of Technology, 2005.

[17] FRANK Y, CHAO F C. Automatic extraction of head and face boundaries and facial features[J]. Information Science, 2004, 158: 117-130.

[18] VALSTAR M, SCHULLER B, SMITH K. 2013: the continuous audio/visual emotion and depression recognition challenge[C]// Proceedings of the 3rd ACM International Workshop on Audio/Visual Emotion Challenge. Barcelona, Spain: ACM Press, 2013: 3-10.

[19] FABIEN R, ANDREAS S, JUERGEN S, et al. Introducing the RECOLA multimodal corpus of collaborative and affective interactions[C]//10th IEEE Int'l conf. and workshops on automatic face and gesture recognition. Shanghai, CN: IEEE Press, 2013: 1-8.

[20] WANG Shangfei, LIU Zhilei, LV Siliang, et al. A Natural Visible and Infrared Facial Expression Database for Expression Recognition and Emotion Inference[J]. IEEE Transactions on Multimedia, 2010, 12(7): 682-691.

楊 勇(1976-):男,云南大理人,副教授,博士,碩士生導師。主要研究方向為人工智能與模式識別、情感計算、數據挖掘等。E-mail:yangyong@cqupt.edu.cn。

黃文波(1989-):男,四川自貢人,碩士研究生,主要研究方向為圖像處理與模式識別。E-mail:schwbo@163.com。

金裕成(1963-),男,韓國仁川人,韓國仁荷大學博士生導師,主要研究方向為多媒體數據挖掘,大數據,智能視頻監控等。E-mail:yskim@inha.ac.kr。

(編輯:張 誠)

Facial expression recognition method based on MSVR and Arousal-Valence emotion model

YANG Yong1,2, HUANG Wenbo1,KIM Yoosung2,GU Xicun3

(1. Chongqing Key Laboratory of Computational and Intelligence, Chongqing University of Posts and Telecommunications,Chongqing 400065, P.R. China; 2. Department of Information and Communication Engineering, Inha University, Incheon 402-751, Korea; 3. Laboratory of Graphics Image and Multimedia, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China)

The most commonly used facial emotion recognition method is classitying basic emotions. However, the basic emotion theory has a limited leval of ability to express emotion. To enrich emotion expression, the arousal-valence continuous emotion space model is adopted in this paper. Firstly, the correlation between arousal and valence is discussed from the perspective of psychology and researched based on the statistics. The experimental results on AVEC2013, NVIE and Recola datasets indicate the correlation is positive. Then, in order to use the correlation between arousal and valence, MSVR(multiple dimensional output support vector regression) is adopted to train and predict facial emotion, and a new facial emotion recognition method based on MSVR and two-level fusion is proposed, which combines feature fusion and decision fusion.The contrast experimental results show that the proposed method can get better recognition result than the traditional methods.

facial expression recognition; arousal-valence emotion dimensions; correlation; multiple dimensional output support vector regression(MSVR)

10.3979/j.issn.1673-825X.2016.06.015

2015-12-10

2016-06-10

楊 勇 yangyong@cqupt.edu.cn

韓國科學與信息科技未來規劃部2013年ICT研發項目(10039149);重慶市自然科學基金項目(CSTC,2007BB2445);2015年重慶市研究生科研創新項目(CYS15174)

Foundation Items:The MSIP Ministry of Science, ICT & Future Planning(MSIP) of Korea in the ICT R&D Program 2013(10039149); The Natural Science Foundation Project of CQ(CSTC, 2007BB2445); The Graduate Research and Innovation Project of CQ(CYS15174)

TP181

A

1673-825X(2016)06-0836-08

猜你喜歡
集上維度特征
根據方程特征選解法
理解“第三次理論飛躍”的三個維度
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
淺論詩中“史”識的四個維度
分形集上的Ostrowski型不等式和Ostrowski-Grüss型不等式
不忠誠的四個特征
抓住特征巧觀察
光的維度
人生三維度
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合