?

時空LBP矩和Dempster-Shafer證據融合的雙模態情感識別

2016-10-13 20:27王曉華侯登永任福繼王家勇
光電工程 2016年12期
關鍵詞:識別率姿態時空

王曉華,侯登永,胡 敏,任福繼,2,王家勇

?

時空LBP矩和Dempster-Shafer證據融合的雙模態情感識別

王曉華1,侯登永1,胡 敏1,任福繼1,2,王家勇1

( 1. 合肥工業大學計算機與信息學院情感計算與先進智能機器安徽省重點實驗室,合肥230009;2. 德島大學先端技術科學教育部,日本德島 77085020 )

針對視頻情感識別中存在運算復雜度高的缺點,提出一種基于時空局部二值模式矩(Temporal-Spatial Local Binary Pattern Moment,TSLBPM)的雙模態情感識別方法。首先對視頻進行預處理獲得表情和姿態序列;然后對表情和姿態序列分別提取TSLBPM特征,計算測試序列與已標記的情感訓練集特征間的最小歐氏距離,并將其作為獨立證據來構造基本概率分配(Basic Probability Assignment,BPA);最后使用Dempster-Shafer證據理論聯合規則得到情感識別結果。在雙模態表情和姿態情感數據庫上的實驗結果表明,本文提出的時空局部二值模式矩可以快速提取視頻圖像的時空特征,能有效識別情感狀態。與其他方法的對比實驗也驗證了本文融合方法的優越性。

視頻感情識別;雙模態情感識別;時空局部二值模式矩;Dempster-Shafer證據理論

0 引 言

近年來,隨著計算機視覺及人工智能技術的發展,人類迫切希望計算機能夠更人性化,可以自動感知和響應自然的人類行為,像人與人之間的交流那樣自然。非語言交流在人類交往中起著重要的作用,擁有讀懂非語言情感的能力對于理解、分析和預測他人的行為和意圖具有至關重要的地位。要實現自然的人機交互,就要求計算機具有和人類相似的情感感知和識別能力。人類的情感狀態是復雜而且多變的,我們觀察到的情感狀態自然也是通過多種方式,如面部表情、身體姿態、音頻信號等,這些通過不同方式獲得的情感信息也是互補的。

關于情感識別方面的研究大多基于單模態,比如人臉表情識別[1]、姿態情感識別和語音情感識別等[2-5]。Pardas M[6]等人提取面部動畫參數作為表情特征,利用隱馬爾可夫模型(HMM)識別圖像序列中的表情。Camurri等人[7]做了關于舞蹈動作對情感識別作用的研究,結果表明部分舞蹈動作有助于情感識別。既然人類的情感狀態是通過多種方式表達的,那么僅通過單模態進行情感識別就會存在一定的局限性,介于此,雙模態或者多種模態的情感識別成為目前研究的主流方向。文獻[4]針對目前實時自動情感識別中表情和姿態特征提取問題,提出結合局部運動和外觀特征的新型框架模型,該框架模型采用MHI-HOG和圖像的梯度直方圖特征,通過時間歸一化或詞袋捕捉運動和外觀的信息。Yan等人[8]研究了基于視頻的表情和姿態雙模態情感識別,提出了一種基于雙邊稀疏偏最小二乘的情感識別方法,計算復雜度低,實驗取得了不錯的效果。Gunes和Piccard對姿態和表情的雙模態情感識別研究進行了大量探索和研究[9-12],首先提出一個識別框架,然后建立了基于表情和姿態的雙模態情感數據庫,應用基于視頻的HMM和最大投票頂點幀的方法進行情感識別研究。盡管實驗取得了不錯的效果,但是實時特征提取處理相當復雜,涉及到光流、邊緣、跟蹤等處理,在實際應用中無法滿足實時性的要求。

綜上,本文在前人研究的基礎上,提出一種基于時空LBP矩特征的表情和姿態雙模態情感識別方法。將視頻中的面部表情和上身姿態看成由每幀圖像沿時間軸堆疊而成的三維時空體。與其他方法相比,在特征提取上,本文方法從視頻幀序列中直接提取時空特征,不需要對視頻幀時間對齊,可避免視頻幀序列持續時間不同所造成的后果,同時特征維數小,對光照表現一定的魯棒性等特性。在分類識別上,D-S證據理論融合兩種模態的數據信息,可以克服單一模態的局限性,得到更為可靠、準確的結果。

1 TSLBPM特征提取方法

對于視頻序列中的某一幀圖像,其局部像素的梯度位置和方向常被用來表征圖像的紋理特征分布。借鑒傳統的LBP[13]算法思想,本文將其從描述單幅圖像不同像素點的空間關系擴展到時間序列中,并融合灰度共生矩陣提出一種基于時空的局部二值模式矩,它是通過度量相鄰幀序列及其對應像素點間的大小關系來獲取紋理特征值,具有計算復雜度低、對光照變化不敏感等優點,適用于靜態背景環境中的情感識別。

1.1 時空局部二值模式(TSLBP)

對于視頻中時刻圖像I中像素位置,考慮以其為中心的鄰域窗口及其前后兩幀的像素窗口,可以得到像素值向量[14]:

由3個0/1比特組成,其十進制編碼值計算如式(4)所示:

圖1 ATSLBP(1,8)的計算流程

1.2 時空局部二值模式矩(TSLBPM)

時空LBP的特征值是將二進制序列乘以相應的權重因子轉化成十進制后得到的,這使得相似的二進制序列經十進制編碼后數值相差很大,導致相似的二進制特征無法落入直方圖相鄰的區域。同時,計算得到的十進制編碼數相對比較大,在進行直方圖統計時,直方圖分布過于稀疏,特征分布不集中。在時空LBP算子的基礎上,考慮相鄰幀圖像對應位置的像素值變化,借鑒灰度共生矩陣[15]在研究灰度圖像紋理空間相關特性的思想,本文進一步提出時空局部二值模式矩。將式(2)得到的像素二值向量寫成一個3′8矩陣:

在式(5)中,其中每一行表示每一幀的二進制序列,每一列表示相鄰幀對應位置的二進制序列。

灰度共生矩陣的紋理特征量描述符角二階矩(Angular Second Moment,ASM)能量,是對圖像紋理的灰度變化穩定程度的度量,反映了圖像灰度分布均勻程度和紋理粗細度。借鑒這一思想,我們對求取ASM能量??v向統計字符跳變次數,即、、、的跳變次數,得到的灰度共生矩陣:

在灰度共生矩陣中,跳變次數大小反應了相鄰兩幀圖像紋理變化的程度。如果其值集中在對角線分布,說明相鄰兩幀之間紋理未發生變化或發生較大變化,也即相鄰兩幀之間未產生動作變化或動作幅度較大,此時ASM有較大值;如果其值分布較均勻,說明相鄰幀之間紋理發生部分變化,也即相鄰幀之間產生小幅動作變化,此時ASM有較小值。ASM值的大小衡量當前紋理變化是否穩定,能夠有效描述幀間的運動信息,由此可以有效表征圖像的紋理特征。

2 基于TSLBPM和Dempster-Shafer理論的雙模態情感識別

2.1 Dempster-Shafer證據理論

證據理論[16-17]是由Dempster提出的一種不精確推理理論,并由Shafter對其進行完善,因此又被稱為D-S(Dempster-Shafer)證據理論。它可以將具有模糊性、不確定性的信息按照合成法則融合成一個新的信任函數,并由此得到最終的決策結果,具有處理不確定信息的能力,可獲得較高的準確性和識別性能。

在D-S理論中,設是一個元素互斥的識別框架集合,其中包含的所有取值。定義一個函數滿足下面條件:

2.2 基本概率分配函數的構造

在情感識別中,將情感的類別表示成識別框架中的焦點元素,設有類情感,即。在本文中,證據來自于表情和姿態兩種模態(=1,2)。首先提取所有測試樣本和訓練樣本的TSLBPM特征,然后計算某一測試樣本與所有訓練樣本的歐氏距離,記為每一類情感的最小歐式距離,表示表情或姿態,是情感的類別。在進行合成規則前,先將所有的進行歸一化,即:

2.3 決策融合及判決規則

2.4 基于TSLBPM和D-S理論的雙模態情感識別方法

本文從視頻的原始圖像中提取出表情序列和姿態序列。對于視頻圖像中姿態動作的變化,由于時空LBP矩保留了時空LBP良好的抗噪聲能力,可以不用對其進行目標追蹤、分割等一系列常規視頻圖像處理的環節,就可以達到較好的實驗效果。在預處理部分,主要對視頻幀序列進行圖像標準化處理。另外,由于一個幾秒的視頻往往包含幾十幀的圖像信息,數據龐大,這就給特征提取帶來困擾,影響后續的模式識別。本文采用均值聚類的方法分別對表情序列和姿態序列進行聚類,用=5幅圖像序列信息來代替整個圖像序列信息,從而極大地減少了計算量。

圖2 上身姿態三維時空體特征圖譜

3 實驗結果與分析

3.1 實驗數據庫

為了驗證本文方法的有效性,本文使用雙模態表情和姿態情感數據庫(Bimodal Face and Body Gesture Database,FABO)(分辨率為1 024×768,15 f/s)進行實驗。在FABO數據庫中,由于每個人的樣本數和情感類別數均不一樣,為了保證實驗數據的一致性,本文選取FABO數據庫中樣本數相對較多且情感類別數相對均勻的12個人做了相關實驗。所選樣本共包括高興、害怕、生氣、厭煩和不確定5類情感,其中姿態和表情各取238個樣本,一半作為訓練一半作為測試。本文實驗是在Windows XP系統下(雙核CPU 2.53 GHz 內存2 G),使用VC6.0+OpenCV1.0實現的。實驗中將人臉表情圖片幀和上身姿態圖片幀分別統一大小為96×96和128×96。本文實驗最后的識別率均為實驗結果的平均值。表情圖片和姿態圖片統一大小后的部分圖像如圖4所示。

圖4 表情和姿態圖片樣本

3.2 單模態情感識別實驗

在D-S證據融合前,首先對表情和姿態兩個單模態進行單獨的情感識別。先分別對表情序列和姿態序列提取TSLBPM特征,然后使用分類器進行分類識別。

本實驗中需要定義的參數是表情和姿態圖像的分塊大小。圖5給出了平均識別率與分塊大小的對應關系。從識別率考慮,取表情圖像分塊為6×6,姿態圖像分塊為4×4。圖6給出了在此分塊方法下,表情和姿態兩種單模態的混淆矩陣。表1顯示了在FABO數據庫上分別采用支持向量機(SVM)、最小距離分類器和最近鄰分類器(NNC)時表情和姿態兩種單模態的平均識別率。表2給出了本文算法與其它文獻算法識別率的比較結果。

圖5 分塊大小與平均識別率關系圖

圖6 表情和姿態單模態識別混淆矩陣

表1 基于表情和姿態的單模態情感識別的平均識別率

表2 基于單模態的不同特征提取方法的平均識別率比較

從表1的實驗結果來看,使用NNC分類器的實驗結果要好于SVM和最小距離分類器,并且姿態單模態的識別率高于表情單模態的識別率。究其原因,是因為姿態動作的變化幅度大,紋理變化比較明顯,提取的特征更加有效,而表情的紋理變化比較微小,相比于姿態動作較難識別。表2表明,與其他論文中的方法相比,本文提出的時空LBP矩特征在單模態情感識別上的識別性能顯著優于其他方法,是一種有效的特征提取方法。

3.3 雙模態情感識別實驗

由表3結果看出,將表情和姿態兩種單模態利用D-S證據理論進行融合獲得的識別率為96.64%,取得比兩種單模態都要高的識別率,說明了融合表情和姿態進行情感識別的有效性。同時,與其他論文融合方法相比,本文融合方法具有更好的優越性。兩種模態相融合與單模態情感識別相比,準確率和穩定性明顯提高。原因在于:D-S證據理論以歐氏距離構造BPA,根據組合規則,融合來自表情和姿態兩種模態的識別信息,能夠實現較弱分類(單模態)決策對較強分類(雙模態)決策的有效支持,從而可以進一步提高識別準確率和可靠性。

表4為D-S證據理論融合數據的實驗結果,這里選取兩類出現誤識別的情感數據作為應用舉例。分析表4的數據可以得出:1) 表情和姿態兩種單模態融合后的信任度值大于單模態的信任度值,增加了正確目標的可信度,大幅度降低對目標識別的不確定性。2) 對于兩種單模態均無法正確識別的情感樣本,利用D-S融合后仍能將其準確識別出來,說明了基于D-S證據理論的多模態融合方法增強了系統的識別能力,提高了系統的可靠性和準確性。

表3 不同融合方法的平均識別率對比

表4 D-S方法的數據融合結果

4 結 論

本文提出的時空局部二值模式矩可以快速提取視頻圖像的時空特征,能有效識別認知情感狀態。此方法從一個全新的角度對情感識別問題進行探索,將刻畫圖像局部特征的有效算子發展為三維形式并應用于視頻數據,它無需降維,無需進行時間對齊,能夠從時空體積直接提取有效低維特征。在分類識別上,用NN分類器分別基于表情和姿態兩種單模態進行情感識別,并以NN的輸出作為獨立證據分別構造基本概率分配值;然后利用D-S證據理論合成法則對各證據信息進行合成;最后依據判別規則獲得最終的情感識別結果。從其實驗數據來看,可以得出如下結論:

1) 在基于視頻紋理特征提取中,TSLBPM考慮幀間的紋理變化,融入時間信息,相比較原始LBP特征更能有效提取動態的紋理特征變化,可以很好的提取局部特征。

2) TSLBPM特征保留了原始LBP特征對光照變化魯棒的優點,特征維數小,且計算簡單有效,滿足實時系統的要求。

3) 利用D-S證據理論對來自不同模態的TSLBPM特征進行融合,并使用曲線擬合來構造BPA函數,能夠有效弱化信息的不完整性及錯誤數據對識別的不良影響,使得系統最終獲得較高的識別率。

[1] ZHANG Wei,ZHANG Youmei,MA Lin,. Multimodal learning for facial expression recognition [J]. Pattern Recognition(S0031-3203),2015,48(10):3191-3202.

[2] Valstar Michel,JIANG Bihan,Mehu Marc,. The first facial expression recognition and analysis challenge [C]// 2011 IEEE International Conference on Automatic Face & Gesture Recognition and Workshops,Santa Barbara,CA,Mar 21-25,2011,31:921-926.

[3] Ou Jun,BAI Xiaobo,PEI Yun,. Automatic Facial Expression Recognition Using Gabor Filter and Expression Analysis [C]// ICCMS '10. Second International Conference on Computer Modeling and Simulation,Sanya,Hainan,Jan 22-24,2010,2:215-218.

[4] CHEN Shizhi,TIAN Yingli,LIU Qingshan,. Recognizing expressions from face and body gesture by temporal normalized motion and appearance features [J]. Image & Vision Computing(S0262-8856),2013,31(2):175-185.

[5] Ayadi M E,Kamel M S,Karray F. Survey on speech emotion recognition:Features,classification schemes,and databases [J]. Pattern Recognition(S0031-3203),2011,44(3):572-587.

[6] Pardas M,Bonafonte A. Facial animation parameters extraction and expression recognition using Hidden Markov Models [J]. Signal Processing Image Communication(S0923-5965),2002,17(9):675-688.

[7] Camurri A,Lagerl?f I,Volpe G. Recognizing emotion from dance movement:comparison of spectator recognition and automated techniques [J]. International Journal of Human-Computer Studies(S1071-5819),2003,59(1/2):213-225.

[8] YAN Jingjie,ZHENG Wenming,XIN Minghai,. Bimodal emotion recognition based on body gesture and facial expression [J]. Journal of Image & Graphics(S1793-6756),2013,18(9):1101-1106.

[9] Gunes H,Piccardi M. A bimodal Face and Body Gesture Database for Automatic Analysis of Human Nonverbal Affective Behavior [C]// International Conference on Pattern Recognition,Hong Kong,China,Aug 20-24,2006,1:1148-1153.

[10] Gunes H,Piccardi M. Bi-modal emotion recognition from expressive face and body gestures [J]. Journal of Network & Computer Applications(S1084-8045),2007,30(4):1334–1345.

[11] Gunes H,Piccardi M. Fusing face and body gesture for machine recognition of emotions [C]// IEEE International Workshop on Robot and Human Interactive Communication,Roman,Aug 13-15,2005:306-311.

[12] Hatice G,Massimo P. Automatic temporal segment detection and affect recognition from face and body display [J]. IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society(S2168-2216),2009,39(1):64-84.

[13] 胡敏,許艷俠,王曉華,等. 自適應加權完全局部二值模式的表情識別 [J]. 中國圖象圖形學報,2013,18(10):1279-1284.

HU Min,XU Yanxia,WANG Xiaohua,Facial expression recognition based on AWCLBP [J]. Journal of Image and Graphics,2013,18(10):1279-1284.

[14] ZHAO Guoying,Pietikainen Matti. Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence(S1939-3539),2007,29(6):915-928.

[15] 桑慶兵,李朝鋒,吳小俊. 基于灰度共生矩陣的無參考模糊圖像質量評價方法 [J]. 模式識別與人工智能,2013,25(05):492-497.

SANG Qinbing,LI Zhaofeng,WU XiaojunNo-Reference Blurred Image Quality Assessment Based on Gray Level Co-occurrence Matrix [J]. Pattern Recognition and Artificial Intelligence,2013,25(05):492-497.

[16] 李先鋒,朱偉興,孔令東,等. 基于SVM和D-S證據理論的多特征融合雜草識別方法 [J]. 農業機械學報,2012,42(11):164-168.

LI Xianfeng,ZHU Weixing,KONG Lindong,Method of Multi-feature Fusion Based on SVM and D- S Evidence Theory in Weed Recognition [J]. Transactions of the Chinese Society for Agricultural Machinery,2012,42(11):164-168.

[17] 王曉華,金超,任福繼,等. Dempster-Shafer證據融合金字塔韋伯局部特征的表情識別[J]. 中國圖象圖形學報,2014,19(9):1297-1305.

WANG Xiaohua,JIN Chao,REN Fuji,Research on facial expression recognition based on pyramid Weber local descriptor and the Dempster-Shafer theory of evidence [J].Journal of Image and Graphics,2014,19(9):1297-1305.

Dual-modality Emotion Recognition Model Based on Temporal-spatial LBP Moment and Dempster-Shafer Evidence Fusion

WANG Xiaohua1,HOU Dengyong2,HU Min1,REN Fuji1,2,WANG Jiayong1

( 1. School of Computer and Information of Hefei University of Technology, Anhui Province Key Laboratory of Affective Computingand Advanced Intelligent Machine, Hefei 230009, China;2. University of Tokushima, Graduate School of Advanced Technology &Science, Tokushima 7708502, Japan )

To overcome the deficiency of high complexity performance in video emotion recognition, we propose a novel Local Binary Pattern Moment method based on Temporal-Spatial for feature extraction of dual-modality emotion recognition. Firstly, preprocessing is used to obtain the facial expression and posture sequences. Secondly, TSLBPM is utilized to extract the features of the facial expression and posture sequences. The minimum Euclidean distances are selected by calculating the features of the testing sequences and the marked emotion training sets, and they are used as independent evidence to build the Basic Probability Assignment (BPA). Finally, according to the rules of Dempster-Shafer evidence theory, the expression recognition result is obtained by fused BPA. The experimental results on the FABO expression and posture dual-modality emotion database show the Temporal-Spatial Local Binary Pattern Moment feature of the video image can be extracted quickly and the video emotional state can be effectively identified. What’s more, compared with other methods , the experiments have verified the superiority of fusion.

video emotion recognition; dual-modality emotion recognition; temporal-spatial lbp moment; Dempster- Shafer evidence theory

1003-501X(2016)12-0154-08

O438

A

10.3969/j.issn.1003-501X.2016.12.024

2016-01-28;

2016-05-11

國家自然科學青年基金項目(61300119);國家自然科學基金重點項目(61432004);安徽省自然科學基金項目(1408085MKL16)

王曉華(1976-),女(漢族),河南漯河人。博士,副教授,碩士生導師,主要研究方向為數字圖像處理、情感計算等。E-mail:xh_wang@hfut.edu.cn。

猜你喜歡
識別率姿態時空
跨越時空的相遇
鏡中的時空穿梭
攀爬的姿態
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
玩一次時空大“穿越”
全新一代宋的新姿態
跑與走的姿態
提升高速公路MTC二次抓拍車牌識別率方案研究
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合