?

一種魯棒的多態人臉識別算法

2015-10-14 07:11趙繼東李晶晶
電子科技大學學報 2015年2期
關鍵詞:類間子類多態

趙繼東,李晶晶,魯 珂,吳 躍

?

一種魯棒的多態人臉識別算法

趙繼東,李晶晶,魯 珂,吳 躍

(電子科技大學計算機科學和工程學院 成都 611731)

如何處理人臉識別中的多態性一直是人臉識別領域的一個難題。傳統的圖嵌入算法忽視了同類中多態子類間的同屬關系,而且也沒有恰當地處理異類間的區別信息。該文提出一種魯棒的圖嵌入人臉識別算法,該算法可以恰當地模擬同類中的多態間關系,而且能在局部流形結構與全局區別信息間實現平衡?;诙鄠€公開數據庫的人臉識別實驗證明了該方法的有效性。

人臉識別; 圖嵌入; 流形學習; 多態信息

與大多數圖像識別任務一樣,人臉識別也經常面臨“維數災難”[1]問題,這時最常見的處理辦法是使用降維技術。特征選擇和子空間學習是兩種經常使用的降維技術。

主成分分析(principal component analysis,PCA)、Fisher判別式分析(fisher discriminant analysis, FDA)、保局投影(locality preserving projections,LPP)[2]是3種典型的子空間學習算法。盡管PCA和FDA已經在很多應用領域成功使用,但它們處理非線性數據的效果卻不太理想。在面對非線性數據時,具有流形學習能力的LPP明顯優于PCA和FDA。盡管上述3種方法的原理有所不同,但可以把它們統一在一個通用的圖嵌入框架下[3]。為了更好地保留標記信息,文獻[4-6]提出了基于FDA的一些圖嵌入方法,它們在存在標記樣本集的一些場合具有優異的性能。在圖像識別領域,多態圖像(人臉、交通信號、手寫文字等)識別[7-9]一直是一個研究熱點。在多態人臉識別環境中,可以把同一類別人臉中具有同一模態的樣本稱為一個多態子類,如暗光、遮擋、側臉可以為3個不同的模態。由于忽視了同類中多態子類間的同屬關系,而且也沒有恰當地處理異類間的區別信息,上述基于FDA的圖嵌入算法在處理多態人臉識別中會遇到困難。

特征選擇和子空間學習在降維應用上各有所長,近年來提出的稀疏表示方法[10-12]結合了二者的優點,成為一個研究熱點。一些稀疏表示算法[12]在處理遮擋人臉識別任務時表現優異。由于稀疏表示算法可以有效地整合具有良好分類能力的特征,因而應該特別適合用于多態人臉識別任務。

受到統一圖嵌入框架、基于FDA的圖嵌入算法、以及稀疏表示方法的啟發,本文提出一種魯棒的多態圖嵌入算法(robust multimodal graph embedding,RMGE)。為了更好地模擬多態人臉識別環境中的數據集特征,本文設計了一種新型的圖結構。這種圖結構可以更好地保留同類中多態子類間的同屬關系,且對異類間的區別信息也進行了更有效地保留。另外,通過在子空間映射時引入稀疏子空間學習技術,該算法可以更好地提取多態數據中的區別特征。

1 圖結構設計

幾種監督圖嵌入算法[7-8]均試圖獲得一個具有較強分類能力的子空間。LDE(local discriminant embedding)[7]使用一般的近鄰方法構造類內圖和類間圖。LFDA(local fisher discriminant analysis)[8]用近鄰方法構造類內圖,但使用全連通方法構造類間圖。CGE(constraints graph embedding)[13]把局部保留矩陣和強制約束矩陣結合在一起獲得降維子空間。在多態人臉識別任務中,由于同類中多態子類間經常距離較遠,因此簡單地使用近鄰來保留數據局部流形,可能會使得這些子類的同類屬性在子空間中丟失。另外,這些方法也并沒有考慮如何在保留局部流形和保留類間區別信息間達到平衡。

1.1 圖結構設計規則

譜圖理論[14]指出,利用鄰接圖、數據對之間的鄰接關系可以在低維空間中得到保留。針對多態人臉識別任務設計一個魯棒的圖嵌入算法的關鍵是構造一個適當的圖結構。當類內圖的鄰接邊過多或過少時,數據局部流形不能很好地保留;另外,當類間連接邊過多時,將會破壞類內圖的緊湊性。為構造一個適合多態人臉識別的圖結構定義了以下3個構圖規則。

規則 1 在每個多態子類里使用近鄰方法連接近鄰點。

該規則可以基于預定義的認知語義,有效保留每個多態子類內的流形結構,且避免了在子類間產生混淆。

規則2 在同類中每一對多態子類間中連接距離最遠的兩點。

該規則強制將多態子類從最遠端進行連接,可以使類內圖盡量緊湊,同時又避免了破壞多態子類內的局部流形結構。

規則3 為每一類搜索個異類間近鄰點(由近到遠,每一個異類搜索一對近鄰點)進行類間連接。

該規則在類間圖里連接適當多的異類對,只會在同一異類對間出現最多一條邊,也沒有采用極端的全連通形式。

用幾組人臉圖像數據來說明本文設計的圖結構。在圖1中,使用具有正臉、側臉、遮擋3個模態的類人臉數據和只具有遮擋模態的類人臉數據。圖1a~圖1d的4個子圖分別表示原始數據、CGE的近鄰圖、LDE/LFDA的類內圖、RMGE的類內圖。其中,圖1b表示CGE是在所有數據中用近鄰方法構造類內圖;圖1c表示LDE和LFDA都是在同類中用近鄰方法構造類內圖;圖1d表示RMGE是在同類的每個多態子類中先用近鄰方法連接近鄰點,然后在每一對多態子類間中連接距離最遠的兩點。為統一表示,對于類內圖,對每個算法均取近鄰參數1=2。

a. 原始數據????????b. CGE的近鄰圖

c. LFDA/LDE類內圖????????d. RMGE類內圖

圖1 類內圖構建對比示意圖

在圖2中,本文使用具有正臉、側臉兩個模態的類人臉數據、側臉模態的類人臉數據、正臉模態的類人臉數據來表示類間圖構造。為統一表示,在類間圖中,對每個算法均取近鄰參數2=2。圖2a~圖2d的4個子圖分別表示原始數據、LFDA的類間圖、LDE的類間圖、RMGE的類間圖。圖2b表示LFDA的類間圖使用全連通方式構建,該子圖只表示了類中1個點的類間連接情況。圖2c表示LDE的類間圖使用無差別的近鄰方式構建,該子圖表示了類中2個點的類間連接情況,顯然,、間這時沒有連線。圖2d表示RMGE的類間圖使用由近及遠逐類的近鄰方式構建,對于類,2=2時,將只有兩條邊分別連接-、-中兩對異類近鄰點。

綜合圖1、圖2可以發現,RMGE的圖結構在類內圖的緊湊性及類間圖連接邊的分布均衡性方面,明顯要優于CGE、LFDA、和LDE。在類內圖中,通過多態子類間最遠點對的連接,RMGE可以在保持局部流形結構的同時盡量強制多態子類靠近,而LFDA和LDE均不具有該特點。在類間圖中,RMGE最多只在一對異類間有一條連接邊,從而比LFDA和LDE可以用更少的類間連接保留更多的類間區別信息,這種特點在類別數目較多時可以更有效地在保留類內局部流形與保留類間區別信息間取得平衡。另外,與文獻[15]的方法相比,RMGE工作在全監督模式,而且連接的是多態子類間的最遠點對而不是最近點對。顯然,RMGE近鄰圖的參數1、2的選擇將直接影響算法的性能,本文在后面第4節將討論這一問題。

a 原始數據????????b LFDA的類間圖

c. LDE類間圖????????d. RMGE類間圖

圖2 類間圖構建對比示意圖

1.2 基于圖結構的可視化實驗

本文使用一個直觀的簡單實驗來驗證RMGE的圖結構更適合用于多態人臉識別任務。選用4類人臉數據,每類選取10個樣本,分別來自正臉、側臉、遮擋3個模態。對于CGE,設置=4;對于LFDA,設置=3;對于LDE和RMGE,設置1=2,2=3。使用不同算法得到的圖像數據3維可視化結果如圖3所示。

從圖3可以看出,由于使用全局近鄰而且沒有類間圖,CGE的可視化呈現為一個較混雜的球形分布。對于LFDA,由于使用全連接的類間圖,圖像的可視化顯示類間區別清晰,但類內緊湊性被嚴重破壞。對于LDE的可視化結果,類內分布較緊湊,但由于類間連接容易重復在最近鄰的兩類間,使得其他異類間的點在降維后容易出現混雜。對于RMGE,其可視化結果明顯優于其他3種算法。

a. CGE可視化效果

b. LFDA可視化效果

c. LDE可視化效果

d. RMGE可視化效果

圖3 三維可視化實驗對比示意圖

2 優化的圖嵌入算法

基于前面設計的圖結構,可以通過通用的圖嵌入框架得到嵌入映射矩陣,然后獲得一個低維子空間。但為了更適合多態人臉識別環境,將稀疏子空間學習方法結合到圖嵌入過程中,使低維子空間能夠更好地提取多態圖像的類間區別特征,從而對多態人臉圖像具有更強的分類識別能力。下面先對基本圖嵌入進行說明,然后介紹如何將稀疏子空間學習結合到圖嵌入過程中,最終獲取一個優化的子空間模型。

2.1 基本圖嵌入

按照本文的構圖規則,可以構造一個類內圖{G,W}和一個類間圖{G,W}。設=[1,2, …,y]T是基于圖的低維映射向量,按拉普拉斯規則[16],可以得到:

式中,L、L分別是類內圖和類間圖的拉普拉斯算子。顯然應該最小化類內距離并最大化類間距離,以得到更好的圖嵌入子空間,按照基于FDA的LPP框架[4-5],可以得到目標函數為:

(2)

設是轉換矩陣,是圖像數據的原始特征表示,則=T。式(2)可以表示為:

然后,轉換矩陣可以通過求解得到:

(4)

2.2 優化圖嵌入

對于多態人臉識別任務,多態性經常表現為人臉角度、光照、遮擋等變化因素,因此要求映射子空間能盡量從多態的原始數據中保留那些對分類最有用的特征。由于稀疏子空間學習可以將降維映射和特征選擇結合起來,因此,期望通過它能得到一個優化的子空間模型。本文主要參考投影矩陣列稀疏方法。類似的優化方法也在文獻[8,14]中被使用。首先,轉換矩陣可以通過下式實現稀疏特性:

這樣,中只有少量的元素是非零的。因此,那些使得最能接近它的低維表示的特征將得到保留。為了使得盡量稀疏,可以增加一個正則項:

(6)

可以將式(3)變形為:

結合等式(5)~式(7),可以得到優化的目標函數為:

(8)

然后可以得到:

(10)

其中,

(12)

于是,優化的目標函數可以用如下方法求解:首先是定值,通過式(12)可以求解出;然后將代入式(10)可以得到更新后的;重復上述兩步,直到和收斂。

3 實驗結果

本文將通過以下實驗來驗證RMGE的有效性。本文對以下算法進行對比測試:

1) CGE算法[13],CGE通過把類別標志作為附加的強制約束來實現監督學習,在全監督模式下,該算法類似于有監督的LPP算法。

2) LDE[4]和LFDA[5],兩種典型的基于FDA框架的LPP算法,其原理本文前面已作介紹。

3) SRLP[17],該算法直接用一個基于稀疏表示的矩陣來替換LPP的轉換矩陣。

4) LSIR[18],該算法基于逆向回歸框架,應用kNN方法來保留數據集的局部結構。

本文選取了多態性比較明顯的兩個人臉數據庫(CMU PIE, UCSD/Honda)來進行比較試驗。CMU PIE包含68類共41 368幅人臉圖片,UCSD/Honda是一個包括15類,每類兩段人臉視頻的數據庫。

為了增加比較實驗的可信度,測試了多個類別數(=4, 5, 6, 7, 8, 9, 10, 11,12)的情況。對于CMU PIE,隨機選擇訓練集后剩余的圖像構成測試集;對于UCSD/Honda,訓練集直接被用作測試集。本文在實驗中用最近鄰分類器來判定人臉類別,實驗結果如圖4所示。

通過圖4可以發現:

1) RMGE和SRLP的識別效果明顯優于CGE,證實了稀疏表示和本文提出的圖結構對于多態人臉識別的助益。與RMGE相比,SRLP僅僅使用了稀疏轉換矩陣,而沒有涉及近鄰圖結構的改善,因此其識別效果不如RMGE。

2) 由于在子空間學習時同時考慮類內結構和類間信息,LDE和LFDA可以在類別數較少時獲得優于SRLP的效果,甚至接近RSGE。但類別數較大時,不合理的類間連接會破壞類內圖的緊湊性,從而使得這兩種方法的效果急劇降低。相比LDE,LFDA的全連接方式在類別數增大時表現會更差。

3) 對于LSIR來說,逆向回歸方法在類別數較少時效果很好,準確率只略低于RMGE,但類別數增加后,LSIR算法的準確率下降比其他算法更劇烈,證明其不適合類別數較多的多態人臉識別任務。

通過兩個數據庫的比較實驗,證實了RMGE在多態人臉環境下的識別效果明顯優于其他方法。這種優勢應該主要來源于其獨特的近鄰圖結構,該結構能很好地保留原始數據的多態結構;另外,利用稀疏子空間學習來優化圖嵌入過程也應該對算法性能的提升有一定幫助。

4 總 結

本文提出一種魯棒的圖嵌入人臉識別算法RMGE,對于多態人臉識別任務,該算法可以恰當地模擬同類中的多態間關系,而且能在局部流形結構與全局區別信息間實現平衡。與現有的一些典型監督圖嵌入算法相比,由于有更恰當的圖結構并在子空間學習時引入了稀疏表示方法,該算法能明顯提升多態人臉識別的準確率。

[1] DUDA R O, HART P E, STORK D G. Pattern classication[M]. 2nd ed. [S.l.]: John Wiley and Sons, 2000.

[2] HE X F, NIYOGI P. Locality preserving projections[C]// NIPS. Cambridge, MA, USA: MIT, 2003: 159-167.

[3] YAN S C, XU D, ZHANG B Y, et al. Graph embedding and extensions: a general framework for dimensionality reduction[J]. IEEE Trans Pattern Anal Mach Intell, 2007, 29(1): 40-51.

[4] CHEN H T, CHANG H W, LIU T L. Local discriminant embedding and its variants[C]//CVPR. Piscataway, NJ, USA: IEEE, 2005: 846-853.

[5] SUGIYAMA M. Local fisher discriminant analysis for supervised dimensionality reduction[C]//ICML. New York, USA: ACM, 2006: 905-912.

[6] CAI D, HE X F, HAN J. Semi-supervised discriminant analysis[C]// ICCV. Piscataway, NJ, USA: IEEE, 2007: 1-7.

[7] ZENG Q S, LAI J H, WANG C D. Multi-local model image set matching based on domain description[J]. Pattern Recognition, 2014, 47(2): 694-704.

[8] LU K, DING Z, GE S. Sparse-representation-based graph embedding for traffic sign recognition[J]. IEEE Transactions on Intelligent Transportation Systems, 2012, 13(4): 1515- 1524.

[9] SHARMA A, JACOBS D W. Bypassing synthesis: Pls for face recognition with pose, low-resolution and sketch[C]// CVPR. Piscataway, NJ, USA: IEEE, 2011: 593-600.

[10] ZOU H, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of Computational and Graphical Statistics, 2006, 15(2): 265-286.

[11] GU Q Q, LI Z H, HAN J W. Joint feature selection and subspace learning[C]//IJCAI. Menlo Park, USA: AAAI, 2011: 1294-1299.

[12] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Trans Pattern Anal Mach Intell, 2009, 31(2): 210-227.

[13] HE X F, JI M, BAO H J. Graph embedding with constraints[C]//IJCAI. Pasadena, CA, USA: AAAI, 2009: 1065-1070.

[14] CHUNG F R K. Spectral graph theory[M]. [S.l.]: American Mathematical Soc, 1997.

[15] LU K, DING Z, ZHAO J. Locally connected graph embedding for semisupervised image classification[J]. Journal of Electronic Imaging, 2012, 21(4): 43-52.

[16] BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//NIPS. Cambridge, MA, USA: MIT, 2001: 585-591.

[17] TIMOFTE R, GOOL L V. Sparse representation based projections[C]//Proceedings of the British Machine Vision Conference. [S.l.]: BMVA, 2011: 1-12.

[18] WU Q, LIANG F, SAYAN M. Localized sliced inverse regression[J]. Journal of Computational and Graphical Statistics, 2010, 19(4): 843-860.

編 輯 黃 莘

A Robust Multimodal Face Recognition Algorithm

ZHAO Ji-dong, LI Jing-jing, LU Ke, and WU Yue

(School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731)

It is always a difficult problem in face recognition on how to process the multimodal information (e.g. variation in lighting or orientation). Traditional graph embedding algorithms neglect congener correlation between different multimodal clusters of the same class (i.e. subject) and do not properly incorporate discriminative information between classes. In this paper, a robust graph embedding face recognition algorithm is proposed. It properly captures multimodal structure within one class and also realizes a balance between local manifold structures and the global discriminative information. Experiments in several public databases demonstrate that the proposed algorithm can achieve better performance than the state-of-arts reported in recent literatures.

face recognition; graph embedding; manifold learning; multimodal information

TP391.4

A

10.3969/j.issn.1001-0548.2015.02.020

2014-08-29;

2014-11-05

國家自然科學基金(61273254,61371183)

趙繼東(1976-),男,副教授,主要從事圖像處理及計算機視覺等方面的研究.

猜你喜歡
類間子類多態
卷入Hohlov算子的某解析雙單葉函數子類的系數估計
基于OTSU改進的布匹檢測算法研究
基于貝葉斯估計的多類間方差目標提取*
參差多態而功不唐捐
基于類間區分度的屬性約簡方法*
Java類的繼承
基于改進最大類間方差法的手勢分割方法研究
《C++面向對象程序設計》中引用類型的教學實踐
面向對象的多版本傳感器觀測服務模式匹配方法
人多巴胺D2基因啟動子區—350A/G多態位點熒光素酶表達載體的構建與鑒定及活性檢測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合