?

一種基于視覺詞袋模型的人臉識別方法

2015-05-05 12:54呂江靖
電視技術 2015年17期
關鍵詞:識別率字典人臉

王 玲,呂江靖,程 誠,周 曦

(中國科學院 重慶綠色智能技術研究院 智能多媒體中心,重慶 400714)

一種基于視覺詞袋模型的人臉識別方法

王 玲,呂江靖,程 誠,周 曦

(中國科學院 重慶綠色智能技術研究院 智能多媒體中心,重慶 400714)

針對人臉圖像因受表情、光照、角度等因素影響,導致人臉識別率較低的狀況,提出了一種基于視覺詞袋模型的人臉識別方法。該方法首先對圖像進行分塊并提取局部特征,其次利用訓練樣本的所有局部特征訓練全局的混合高斯模型,然后以此為初始化訓練單張圖像的混合高斯模型,生成該圖像全局特征向量,最后用PLDA進行人臉識別。通過在LFW數據庫上進行實驗,結果顯示該方法的識別率高于傳統的特征提取方法,證明其具有更強的識別性能。

視覺詞袋模型;人臉識別;混合高斯模型;特征提取

1 詞袋模型簡介

人臉識別作為計算機視覺與模式識別領域的一個重要研究方向,已經在身份認證、視覺監控以及自動通關等方面得到了廣泛應用。雖然近年來人臉識別取得了長足的進步,但是仍受到一些因素的制約,如人臉角度、光照條件、表情以及年齡變化等主客觀因素。為了減少這些因素對人臉識別準確率的影響,需要持續的算法研究作為支撐。

詞袋模型[1]作為文本建模中的經典模型,因其簡單、有效的優點被廣泛應用于文本處理領域,用來對文檔進行分類和識別。目前,詞袋模型已被應用到圖像處理領域[2],用來進行圖像分類,即通過將一幅圖像看成是由一系列視覺單詞組成的文章,實現圖像的高速分類,是一種有效的基于圖像語義特征提取與描述的圖像分類算法。人臉識別的主要思想是對人臉圖像進行分類判別,將同一個人的圖片歸為一類,屬于經典的圖像分類問題?;谠~袋模型的人臉特征編碼過程如圖1所示:首先,對圖片庫里所有的人臉圖像進行分塊;其次,對每塊區域提取特征(如LBP、HOG、SIFT)形成局部特征描述子;然后,對所有局部特征進行量化形成字典(如k-mean,GMM);最后,通過用字典對單張人臉圖像的所有局部特征進行編碼,形成該人臉圖像的全局特征向量。

圖1 基于詞袋模型的人臉特征編碼過程

2 相關研究

基于經典的詞袋模型結構,研究者們提出了很多種基于詞袋模型的特征編碼方法。Hu等人提出了基于矢量量化(VQ)編碼方法[3],該編碼方法先對圖庫中所有圖像提取局部特征,利用k均值算法聚類得到包含K個聚類中心(μ1,μ2,…,μK)的視覺字典。當給定一幅新圖像時,提取N個局部特征x1,x2,…,xN,將N個局部特征硬量化編碼分配到聚類中心得到相應的系數qki,最后統計屬于每個聚類中心的局部特征的個數,形成局部特征的統計直方圖。Wang等人提出了局部約束線性編碼方法(LLC)[4],該方法是加入局部線性約束的空間金字塔匹配算法。LLC同樣使用k均值聚類得到K個聚類中心,構成視覺字典;然后,對給定圖像的每一個局部特征,計算與其相似的k個空間相鄰的視覺關鍵詞來稀疏表示;最后,通過空間金字塔匹配算法(Spatial Pyramid Matching,SPM)[5],將圖像劃分為不同大小的區域進行池化(pooling),形成LLC特征。Simonyan 等人提出了Fisher 編碼方法[6],該方法首先對圖庫中所有圖像分塊并提取局部特征;再使用EM算法訓練全局的GMM;最后,計算一幅圖像所有局部特征與全局GMM中每個高斯中心的一階、二階差分的平均值,拼接形成Fisher特征向量。Jégou 等人提出的VLAD編碼方法[7]與Fisher編碼方法類似,只是在最后生成基于圖像的特征向量時,利用了局部特征與全局混合高斯模型聚類中心的殘差信息。然而,這些編碼方法對局部特征進行簡單硬量化或利用差異信息進行特征編碼,無法對局部特征的分布進行精確描述,使得人臉識別的準確率降低。

針對這些問題,本文提出了基于混合高斯模型(GMM)的特征編碼方法,在下文中簡稱為GMMC。GMM作為概率密度估計中最常用的統計模型,其主要特性是只要擁有足夠數量的高斯個數就能對任意復雜的分布進行精確的量化,因此被廣泛用來描述各種復雜分布。因此,GMMC能在一定程度上解決上述方法在編碼過程中的信息丟失或者失真的問題。

3 GMMC的基本原理

GMMC同Fisher編碼一樣,首先對人臉圖像進行分塊,提取局部特征,再訓練圖庫的混合高斯模型。其創新點是在對單張圖片的局部特征進行編碼的過程中,Fisher編碼只是求取每個局部特征與高斯中心的一階、二階差分的平均值,拼接形成圖片的全局特征向量,而GMMC卻用單張圖片所有的局部特征來求基于圖片的全局GMM,然后提取該圖像的全局特征向量。在此過程中,GMMC充分利用了混合高斯模型的優勢,更準確地描述了圖像的局部特征。

3.1 局部特征提取

在詞袋模型中,圖像的局部特征被稱為視覺單詞(visual words),對圖庫中所有視覺單詞進行聚類量化形成的聚類中心被稱為視覺關鍵字(visual keywords),所有視覺關鍵字組成視覺字典(visual codebook)。

3.1.1 人臉圖像預處理

對給定的人臉圖像通過人臉檢測器定位人臉位置,再根據人臉檢測框的位置,使用SDM算法[8]進行關鍵點檢測定位,最后利用關鍵點信息對人臉進行對齊,生成160×160大小的灰度圖像,人臉對齊流程如圖2所示。

圖2 人臉對齊流程

3.1.2 局部特征提取

方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[9]是通過計算和統計圖像局部區域的梯度方向直方圖來構成特征,對旋轉、尺度縮放、亮度變化等具有較強的穩定性,因此選用HOG描述子來提取圖像的局部特征。人臉局部特征提取的具體過程如圖3所示:首先,把對齊后的每幅圖像以步長為8邊長分別為16,25,31的方形劃分成若干個子區域,并對每個子區域提取128維的HOG特征;然后,用PCA把128維HOG局部特征降到50維;最后,為了保留每個局部特征的空間位置信息,在每個降維后的局部特征中加入該區域的中心坐標和邊長[x,y,s],形成53維的局部特征向量。

圖3 人臉局部特征提取過程

3.2 全局混合高斯模型的生成

全局混合高斯模型的訓練對應于經典詞袋模型中的字典生成階段。

(1)

隨機初始化參數為

(2)

1)E-step

計算每一個訓練樣本xt屬于第k個高斯的后驗概率

(3)

式中:n表示第n次迭代。

2)M-step

計算新的一組參數

(4)

(5)

(6)

不斷迭代E-step和M-step直到參數收斂。

當給定一個新樣本xi時,可以通過式(7)計算樣本xi屬于各個高斯的后驗概率

(7)

3.3 基于圖像的混合高斯模型的生成

訓練單幅圖像的混合高斯模型對應于經典詞袋模型中的特征編碼階段。由于單幅圖像擁有的局部特征數量相對較少,不能有效地對GMM進行參數估計,因此利用全局的GMM作為初始化。最后,通過式(8)、式(9)計算圖像各個局部特征向量出現的最大后驗概率(Maximum A Posteriori,MAP),從而求解單幅圖像的GMM的參數

(8)

圖4 LFW庫中經過關鍵點對齊的人臉圖像示例

其中

(9)

(10)

1)E-step

(11)

(12)

2)M-step:

(13)

(14)

3.4 全局圖像特征生成

當求得基于單幅圖像的GMM參數后,圖像I的描述用以下向量表示

(15)

4 實驗結果及分析

本文在LFW[11](Labeled Faces in the Wild)人臉數據庫上進行實驗以驗證所提出算法的可行性。

LFW數據庫是由美國馬薩諸塞大學阿姆斯特分校計算機視覺實驗室整理完成,共收集5 749人共13 233張人臉圖像,提供了10組交叉驗證集用于人臉識別性能評測,每組包含600對人臉,其中300對為同一個人的人臉圖像,另300對則不是。該數據庫由于包含了復雜光照、角度、表情等因素下的人臉,主要用于研究非限制條件下的人臉識別問題,已成為學術界和工業界評測識別性能的基準數據庫。本文在實驗時,采用其中1組作為測試集,剩下的9組作為訓練集,計算測試集的分類正確率,最后選取10次交叉驗證結果的平均值作為每個方法的識別率。圖4為LFW庫中經過關鍵點對齊的人臉圖像示例。

本文對提取的全局人臉特征均使用概率線性判別分析(PLDA)[12-13]進行人臉識別。PLDA主要通過計算類內和類間的協方差矩陣,計算給定兩個人臉特征向量屬于同一個人和不同人的后驗概率進行分類判別。

為了評測本文提出的算法,在相同的實驗設置下,對GMMC、VQ、LLC、Fisher和VLAD等方法在LFW上進行了實驗。

4.1 各種編碼方法在LFW庫上的識別結果

表1給出了各種編碼方法在LFW數據集上的識別率,其中字典大小均設定為256。實驗結果顯示,在相同的實驗設定下,GMMC的識別率最高,達到90.88%,證明了在這種情況下GMMC的識別性能優于其他特征編碼方法。

表1 各種編碼方法在LFW數據集上的識別率

編碼方法評價精度±標準差GMMC09088±00002Fisher08935±00005VLAD08898±00005LLC08420±00002VQ08073±00006

4.2 比較不同局部特征對識別性能影響

為了評測不同局部特征對不同編碼方法識別率的影響,使用了其他兩種常用的局部特征描述子SIFT[14]和LBP[15]來做實驗。其中,SIFT對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性;LBP特征是一種用來描述圖像局部紋理特征的算子,它具有旋轉不變性和灰度不變性等顯著的優點。

表2給出了各種編碼方法在不同特征特征下的識別率,字典大小仍然為256。結果顯示,除VQ外其他編碼方法均在使用HOG局部特征情況下的識別率為最高,但是GMMC的最佳識別率仍然是最高的。

表2 各種編碼方法在不同局部特征下的識別率

編碼方法HOGSIFTLBPGMMC090880889007480Fisher089350852707453VLAD088980885207705LLC084200835307700VQ080730825707797

4.3 比較不同字典大小對識別性能影響

為了評測不同字典大小對識別性能的影響,比較了各種編碼方法在不同字典大小下的識別率,其結果如表3所示。其中,GMMC、Fisher和VLAD均在字典大小為256時識別率最好,而LLC和VQ隨著字典增大,識別率顯著提升,當字典大小為2 048時,LLC的識別率高于Fisher和VLAD。

表3 各種編碼方法在不同大小字典下的識別率

編碼方法字典大小12825651210242048GMMC0898309088090670901308812Fisher0891008935088850873208517VLAD0892208898087930869308435LLC0833808420085230867708795VQ0802808073082380825708298

5 小結

本文提出了一種新的基于詞袋模型的特征編碼方法。該方法在用字典對局部特征編碼階段并非使用簡單的硬量化或者一些簡單差分計算,而是通過生成基于圖像混合高斯模型的方式對圖像局部特征進行編碼,能夠對圖像局部特征信息的分布進行更精確的描述,提高了人臉識別率。另外,由于LFW數據庫中人臉的表情、角度以及光照等條件變化都很復雜,從表2和表3中也可以看出GMMC的最佳識別率高于其他幾種基于詞袋模型的編碼方法,說明了GMMC具有較穩定的識別性能,具有實用性。

[1] SIVIC J,ZISSERMAN A. Efficient visual search of videos cast as text retrieval[J].IEEE Trans. Pattern Analysis and Machine Intelligence,2009,31(4):591-606.

[2] HUANG Y,WU Z,WANG L,et al. Feature coding in image classification:a comprehensive study[J].IEEE Trans. Pattern Analysis and Machine Intelligence,2014,36(2):493-506.

[3] HU Y C,WEN C H,LO C C,et al. Image vector quantization using geometric transform and lossless index coding[J].Optical Engineering,2013,52(3):402-410.

[4] WANG J,YANG J,YU K,et al. Locality-constrained linear coding for image classification[C]//Proc. 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE Press,2010:3360-3367.

[5] LAZEBNIK S,SCHMID C,PONCE J. Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]//Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.[S.l.]:IEEE Press,2006(2):2169-2178.

[6] SIMONYAN K,PARKHI O M,VEDALDI A,et al. Fisher vector faces in the wild[C]//Proc. 13th European Conference on Computer Vision,2014.Zurich,Switzerland:Springer,2014:470.

[7] JéGOU H,DOUZE M,SCHMID C,et al. Aggregating local descriptors into a compact image representation[C]//Proc. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE Press,2010:3304-3311.

[8] XIONG X,TORRE F. Supervised descent method and its applications to face alignment[C]//Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE Press,2013:532-539.

[9] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//Proc. 2005 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE Press,2005:886-893.

[10] KOCH K R. Robust estimation by expectation maximization algorithm[J].Journal of Geodesy,2013,87(2):107-116.

[11] HUANG G B,RAMESH M,BERG T,et al. Labeled faces in the wild:a database for studying face recognition in unconstrained environments[EB/OL].[2015-02-10].https://hal.archives-ouvertes.fr/inria-00321923/.

[12] LI P,FU Y,MOHAMMED U,et al. Probabilistic models for inference about identity [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(1):144-157.

[13] LI Z,CHANG S,LIANG F,et al. Learning locally-adaptive decision functions for person verification[C]//Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE Press,2013:3610-3617.

[14] LOWE D G. Object recognition from local scale-invariant features[C]//Proc. the 7th IEEE International Conference on Computer Vision,1999. [S.l.]:IEEE Press,1999:1150-1157.

[15] AHONEN T,HADID A,PIETIKAINEN M. Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.

王 玲(1989— ),女,碩士生,主要研究領域為人臉識別;

呂江靖(1990— ),博士生,主要研究領域為人臉識別、深度學習;

程 誠(1982— ),助理研究員,主要研究領域為人臉識別、深度學習;

周 曦(1981— ),教授,博士生導師,主要研究領域人臉識別。

責任編輯:任健男

Face Recognition Method Based on Bags of Visual Words

WANG Ling, Lü Jiangjing, CHENG Cheng, ZHOU Xi

(DepartmentofIntelligentMultimediaTechnologyResearchCenter,ChongqingInstituteofGreenandIntelligentTechnology,ChineseAcademyofSciences,Chongqing400714,China)

In order to improve the state of low recognition rates because face images are affected by the factors of expression, light, pose,et al, a new encoding method based on bags of visual words is proposed. Firstly, all training images are sampled into local areas in a dense and local appearance feature descriptors are gained from the local areas. Next, global GMM is obtained from local feature descriptors of all training images. Then, using global GMM as initialization of every image from the test database, image-specified GMM is gotten from which the face feature vector generates. Finally, PLDA is used for face recognition. The experiments are carried on the databases of LFW and the results show that the recognition rates of the proposed method are higher than the other traditional feature extracting method, it proves that the proposed method has a stronger recognition performance.

bags of visual words; face recognition; GMM; feature extracting

中國科學院戰略性先導科技專項基金項目(XDA06040103);國家自然科學基金項目(61472386);重慶市科委科技攻關重大項目(cstc2012gg-sfgc4001)

TP391

A

10.16280/j.videoe.2015.17.027

2015-03-10

【本文獻信息】王玲,呂江靖,程誠,等.一種基于視覺詞袋模型的人臉識別方法[J].電視技術,2015,39(17).

猜你喜歡
識別率字典人臉
有特點的人臉
一起學畫人臉
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
字典的由來
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
三國漫——人臉解鎖
提升高速公路MTC二次抓拍車牌識別率方案研究
大頭熊的字典
正版字典
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合