?

基于降維的堆積降噪自動編碼機的表情識別方法

2017-01-03 01:29樸仁圭
關鍵詞:降維人臉神經網絡

趙 軍,趙 艷,楊 勇,,樸仁圭,黃 勇

(1. 重慶郵電大學 計算智能重慶市重點實驗室,重慶 400065;2.韓國仁荷大學 情報通信工學部,仁川 402751)

基于降維的堆積降噪自動編碼機的表情識別方法

趙 軍1,趙 艷1,楊 勇1,2,樸仁圭2,黃 勇1

(1. 重慶郵電大學 計算智能重慶市重點實驗室,重慶 400065;2.韓國仁荷大學 情報通信工學部,仁川 402751)

堆積降噪自動編碼機是一種典型的深度學習模型,它能夠刻畫數據豐富的內在信息,具有較強的特征學習能力?;谥鞒煞址治?principal component analysis, PCA)技術和堆積降噪自動編碼機(stacked denoising autoencoders, SDAE)模型,提出一種新的表情識別算法PCA+SDAE。該算法對人臉圖片進行裁剪及歸一化等預處理,采用主成分分析技術對人臉特征進行線性降維,再利用堆積降噪自動編碼機逐層進行特征學習并同時實現對人臉表情數據的非線性降維,可以得到更好的、維度更低的表情特征,并據此進行表情分類。對PCA+SDAE算法的仿真測試實驗結果表明,其綜合性能比其他的基于深度學習模型的表情識別方法更好,同時與傳統的非深度學習表情識別方法相比,它具有更高的表情識別正確率。

表情識別;深度學習;堆積降噪自動編碼機;主成分分析

0 引 言

面部表情不僅是人們常用的較自然的表達情感的方式,也是人類鑒別情感的主要標志,在情感計算中占有很重要的地位。近些年來,表情識別作為情感識別的主要方式[1],已被廣泛地應用到人機交互、遠程教育管理、車輛安全駕駛、公共場合安全監控等領域。

傳統的表情識別思路包括以下幾個步驟:獲得數據、預處理、特征提取、特征選擇、表情分類[2-4],而在表情分類之前所做的工作概括起來就是特征表達,良好的特征表達對最終分類的準確性起著非常關鍵的作用,這部分工作一般都是先于表情分類過程獨立完成。截至目前為止,已有人提出多種特征表達方法,比如Gabor小波特征、離散余弦轉換、局部二值模式等。

深度學習通過構建具有多隱層的非線性神經網絡結構,將輸入數據通過逐層特征變換,將樣本在原空間的特征表示變換到一個新的特征空間,從而試圖學習數據樣本的本質特征,并建立模擬人腦進行分析學習的神經網絡,進一步模仿人腦來解釋圖像、聲音、文本等數據[5]。與特征表達方法相比,深度學習更能夠刻畫數據的豐富內在信息,從而最終提升分類的準確性。近些年來,一些深度學習方法,如受限玻爾茲曼機、深度信念網絡和卷積神經網絡也被應用于表情識別領域。2002年,FASEL B利用卷積神經網絡進行表情識別[6]; 2014年,劉云帆等人利用光流特征和稀疏自動編碼機進行表情識別[7];同年,LV Y等人利用深度信念網絡對臉部切片進行檢查,并利用自動編碼機進行表情識別[8];2015年,JUNG H等人利用深度神經網絡和卷積神經網絡開發了一套表情識別系統[9],同年LIU P等人利用結合深度信念網絡和adaboost的方法進行表情識別[10]。盡管基于深度學習模型的表情識別方法已經取得較大的研究進展,但人們發現僅使用單一的深度學習模型進行表情識別很難取得較高的識別率;要取得更好的結果,需要對模型進行改造,其工作流程繁瑣,而且模型訓練與識別的過程也較為復雜。

堆積降噪自動編碼機[11]是一種高效的深度學習模型。本文提出一種基于主成分分析(principal component analysis,PCA)和堆積降噪自動編碼機(stacked denoising autoencoders, SDAE)的表情識別方法,對輸入特征先利用主成分分析進行線性降維,再利用堆積降噪自動編碼機在特征學習時對數據進行非線性降維,從而得到更有效的特征表達,使得預測平均時間及表情識別率都有所提高。仿真實驗結果驗證了新方法的有效性。

1 堆積降噪自動編碼機基礎

1.1 降噪自動編碼機

(1)

(1)式中,L是損失函數。把向量x和z的每個分量看做滿足伯努利分布,使用交叉熵來度量x和z之間的距離。

(2)

圖1 降噪自動編碼機結構Fig.1 The structure of denoising auto-encoders

1.2 堆積降噪自動編碼機

圖2 堆積降噪自動編碼機結構Fig.2 Structure of stacked denoising auto-encoders

2 基于PCA+SDAE的表情識別方法

與卷積神經網絡和深度信念網絡等常用深度學習模型相比,SDAE具有更強的特征學習能力,在手寫數字識別領域已經得到成功應用,自然地,我們也可以考慮將SDAE應用于表情識別領域。不過,由于原始人臉圖像含有大量與表情表達無關的成分,如果直接將其輸入堆積降噪自動編碼機進行特征學習,必定會影響模型訓練和識別的效率,因此,需要事先有效去除圖像數據中的無關成分?;谶@一思想,我們提出PCA+SDAE的表情識別算法,算法框架如圖3所示。

圖3 基于PCA+SDAE的表情識別方法框架圖Fig.3 Framework of facial expression recognition method based on PCA+SDAE

算法首先對人臉圖片進行裁剪及歸一化等預處理。先對人臉圖片按文獻[15]的方式進行剪裁,既減小圖片數據的規模,又去除頭發、背景等干擾區域,盡可能只保留臉部與表情表達相關的部分;然后進行灰度歸一化處理,以減小因光照不勻而帶來的影響。

接下來,算法采用PCA[16]對預處理之后的人臉特征進行降維。PCA是一種正交線性變換,它利用主成分值來替代原始數據,可以有效提取表達表情的主要成分,從而實現對人臉圖像數據的線性降維。PCA降維的這種線性特性,正好與隨后的SDAE學習過程的非線性降維形成互補性,仿真實驗結果表明這種方式能夠取得較理想的效果。

算法最后將降維得到的特征輸入SDAE進行特征學習,從而完成堆積降噪自動編碼機的訓練,這是算法最核心的步驟。SDAE通常要求各層輸出數據的維度要低于輸入數據[11],于是,SDAE模型的學習訓練過程也是一個對輸入數據進行非線性降維的過程;此外,SDAE各層節點數通常是由低到高逐層遞減的[11-12],通??稍O為整百或整十[8]。

進行表情識別時,將待識別人臉圖像進行同樣的預處理和PCA降維,將訓練得到各層參數的SDAE作為測試模型,把待識別人臉圖像輸入SDAE模型,就可以得到表情分類結果。

3 實 驗

3.1 實驗設置

為了驗證本文提出方法的有效性,我們采用經典的表情數據集CK+和JAFFE[17-19]進行實驗測試,對包括憤怒、厭惡、害怕、高興、悲傷、驚訝[20]等6種常見的基本表情進行分類。除中性表情的人臉圖片外,我們分別從CK+數據集中選取600張表情圖片、從JAFFE數據集選取183張表情圖片作為樣本,按照十折交叉驗證的方法進行實驗。

實驗過程中,我們按文獻[11-12]和[8]討論的方法來設置SDAE模型的參數。我們為CK+數據集選取5層結構,隱層節點數由低到高分別是500,400,200;由于JAFFE數據集較小,需要更多層模型來進行特征學習,我們為其選擇7層模型,隱層節點數由低到高分別是500,400,300,200,100。

3.2 實驗與結果分析

3.2.1 與不同深度學習方法的對比實驗

表1比較了本文提出的PCA+SDAE算法與幾種經典的基于深度學習的表情識別算法的實驗測試結果。

表1 不同深度學習算法的表情識別率

測試結果表明,PCA+SDAE的綜合性能明顯優于經典的堆積降噪自動編碼機SDAE、深度信念網絡(deep belief networks, DBN),略優于卷積神經網絡(convolutional neural networks, CNN),但略次于文獻[8]提出的FP+SAE算法。不過值得注意的是,FP+SAE算法需先對人臉切塊進行特征提取,再對臉部各切塊特征進行融合,最后利用堆積自動編碼機進行表情識別,其計算過程比本文提出的算法更為復雜。

3.2.2 與非深度學習方法的對比實驗

我們比較了PCA+SDAE與人工神經網絡(artificial neural networks, ANN)、局部二值模式+支持向量機(local binary pattern+support vector machine, LBP+SVM)等3種算法對人臉表情進行識別的效果,其中,ANN和LBP+SVM是兩種經典的非深度學習的表情識別算法。實驗結果如表2所示。

表2 PCA+SDAE與非深度學習方法的表情識別率比較

測試結果表明,PCA+SDAE的綜合性能明顯優于ANN和LBP+SVM。從某種意義上說,這一結果反映了深度學習方法具有更強的自動學習特征的能力。

4 總結和展望

本文提出一種結合主成分分析和堆積降噪自動編碼機的表情識別方法PCA+SDAE。測試實驗結果表明,總體來看,與其他幾種經典的深度學習方法和非深度學習方法相比,PCA+SDAE能得到更高的表情識別率。但是迄今為止,盡管有一些原則性的約束和方向性的討論,在SDAE模型結構的選擇仍然主要利用經驗來確定,因此,如何結合人臉圖片的特征,選擇最優的模型結構值得進一步研究;另外,目前的表情識別大都應用于正面人臉表情,今后還可以進一步拓寬到有姿態的表情識別領域。

[1] FASEL B,LUETTIN J.Automatic facial expression analysis:a survey[J].Pattern recognition,2003,36(1):259-275.[2] SUMATHI C P, SANTHANAM T, MAHADEVI M. Automatic facial expression analysis a survey[J]. International Journal of Computer Science & Engineering Survey, 2012, 3(6):47-59.

[3] CALEANU C D. Face expression recognition: a brief overview of the last decade[C]// 8th IEEE International Symposium on Applied Computational Intelligence and Informatics. Timisoara: IEEE press, 2013: 157-161.

[4] PANTIC M, ROTHKRANTZ L J M. Automatic analysis of facial expressions: the state of the art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1424-1445.

[5] BOUREAU Y, CUN Y L. Sparse feature learning for deep belief networks[C]//Advances in neural information processing systems. Vancouver: NIPS press, 2008: 1185-1192.

[6] FASEL B. Mutliscale facial expression recognition using convolutional neural networks[C]//Indian Conference on Computer Vision, Graphics and Image Processing (ICVGIP 02).Ahmedabad: ICVGIP press, 2002: 1-9.

[7] LIU Y, HOU X, CHEN J, et al. Facial expression recognition and generation using sparse autoencoder[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 125-130.

[8] LV Y, FENG Z, XU C. Facial expression recognition via deep learning[C]// International Conference on Smart Computing. Hong Kong: IEEE press, 2014: 303-308.

[9] JUNG H, LEE S, PARK S, et al. Development of deep learning-based facial expression recognition system[C]// 21st Korea-Japan Joint Workshop on Frontiers of Computer Vision. Mokpo: IEEE press, 2015: 1-4.

[10] LIU P, HAN S, MENG Z, et al. Facial expression recognition via a boosted deep belief network[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE press, 2014: 1805-1812.

[11] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(6):3371-3408.

[12] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th international conference on Machine learning. Helsinki: ACM press,2008: 1096-1103.

[13] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1):1-127.

[14] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[M]∥Advances in neural information processing systems 19(NIPS’06). [s.L.]: MIT Press, 2007:153-160.

[15] DENG H B, JIN L W, ZHEN L X, et al. A new facial expression recognition method based on local Gabor filter bank and PCA plus LDA[J]. International Journal of Information Technology, 2005, 11(11): 86-96.

[16] JOLLIFFE I. Principal component analysis[M]. USA: John Wiley & Sons, Ltd, 2002.

[17] KANADE T, COHN J F,TIAN Y. Comprehensive database for facial expression analysis[C]// Fourth IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble: IEEE press, 2000: 46-53.

[18] LUCEY P, COHN J F, KANADE T, et al. The extended cohn-kanade dataset (ck+): a complete expression dataset for action unit and emotion-specified expression[C]//IEEE Computer Society Conference of Computer Vision and Pattern Recognition Workshops. San Francisco, CA: IEEE press, 2010: 94-101.

[19] LYONS M J, BUDYNEK J, AKAMATSU S. Automatic classification of single facial images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001, 21(21):1357-1362.

[20] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J].Journal of Personality and Social Psychology, 1971, 17(2):124-129.

趙 軍(1971-):男,重慶市人,博士,教授,碩士生導師。主要研究方向為人工智能與模式識別、情感計算等。E-mail:zhaojun@cqupt.edu.cn。

趙 艷(1990-):女,山西朔州人,碩士研究生,主要研究方向為圖像處理與模式識別E-mail:cquptzyan@163.com。

楊 勇(1976-):男,云南大理人,博士,副教授,碩士生導師。主要研究方向為人工智能與模式識別、情感計算、數據挖掘等。E-mail:yangyong@cqupt.edu.cn。

樸仁圭(1972-),男,韓國仁川人,韓國仁荷大學博士生導師,主要研究方向為基于圖像和視頻的3D形狀采集、建模、處理和呈現,嵌入計算及視覺,多媒體應用。E-mail:pik@inha.ac.kr。

黃 勇(1990-),男,湖南益陽人,碩士研究生,主要研究方向為圖像處理與模型識別。E-mail:lyrhy@foxmail.com。

(編輯:張 誠)

Facial expression recognition method based on stacked denoising auto-encoders and feature reduction

ZHAO Jun1, ZHAO Yan1, YANG Yong1,2, PARK Inkyu2, HUANG Yong1

(1. Chongqing Key Laboratory of Computational and Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China; 2. Department of Information and Communication Engineering, Inha University, Incheon 402751, Korea)

A Stacked Denoising Auto-Encoders (SDAE) is a typical deep learning model. Because of its capability of disclosing rich inherent information from data, and it has a strong ability of leaning features. Herein, a new algorithm principal components analysis+stacked denoising auto-encoders (PCA+SDAE) for facial expression recognition is put forward on the bases of principal components analysis (PCA) technology and stacked denoising auto-encoders model. By the new algorithm PCA+SDAE, a facial image is firstly processed by cutting and normalization; then the linear dimensionality of its expression features is reduced by PCA; lastly, a greed layer-wise feature learning is conducted by a SDAE, and the non-linear dimensionality of its expression features is simultaneously reduced. Consequently, facial expression can be recognized based on the more powerful and lower dimensional facial features can be obtained. The results of simulation test experiments on algorithm PCA+SDAE show that the proposed method has better overall performance than some other expression recognition methods based on deep learning models; and it can also get higher expression recognition accuracy than traditional non-deep learning based expression recognition methods.

facial expression recognition; deep learning; stacked denoising autoencoders; principal component analysis.

10.3979/j.issn.1673-825X.2016.06.016

2016-03-15

2016-07-20

趙 軍 zhaojun@cqupt.edu.cn

重慶市自然科學基金項目(CSTC,2007BB2445);韓國科學與信息科技未來規劃部2013年ICT研發項目(10039149)

Foundation Items:The Natural Science Foundation Project of CQ (CSTC, 2007BB2445); The MSIP Ministry of Science, ICT & Future Planning(MSIP) of Korea in the ICT R&D Program 2013 (10039149)

TP181

A

1673-825X(2016)06-0844-05

猜你喜歡
降維人臉神經網絡
混動成為降維打擊的實力 東風風神皓極
有特點的人臉
一起學畫人臉
降維打擊
神經網絡抑制無線通信干擾探究
三國漫——人臉解鎖
基于神經網絡的拉矯機控制模型建立
一種改進的稀疏保持投影算法在高光譜數據降維中的應用
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合