?

基于分數階微分的卷積神經網絡人臉識別

2022-02-10 06:47彭朝霞蒲亦非
關鍵詞:微分人臉人臉識別

彭朝霞, 蒲亦非

(四川大學計算機學院, 成都 610065)

1 引 言

人臉識別是利用圖像特征提取比對來進行生物識別的一種重要模式[1],與指紋識別和虹膜識別相比,具有非接觸式、可自動抓取、應用成本較低等優點,在國家經濟安全、信息安全和公共安全等方面發揮著重要的作用.近年來隨著深度學習的快速發展,人臉識別作為計算機視覺領域最熱門的研究方向之一,其發展也取得了巨大的成功.傳統的人臉識別方法主要包括主成成分分析[2](Principal Component Analysis, PCA)、線性判別分析[3](Linear Discriminant Analysis, LDA)和支持向量機[4](Support Vector Machine, SVM)等.主成分分析方法是將原始數據通過正交變換投影到低維子空間中來提取數據的主要特征,以此減少提取的特征空間維數,所以能在較小的存儲代價和較低的計算復雜度下獲得相對較高的準確性.線性判別分析的核心思想是最大化類間間距,同時最小化類內間距,相較于主成成分分析方法,線性判別分析人臉識別對光照、人臉表情和姿態的變化更不敏感,這也在一定程度上提升了識別效果.支持向量機的人臉識別是在特征空間上找到一個唯一的分類超平面,對于待檢測樣本,通過計算它相對于超平面的位置進行分類,實驗證明,支持向量機對于人臉識別有較好的識別效果,但是由于它對每類樣本的訓練數據需求量較大,使得該方法在實際應用中往往面臨較大的困難.與傳統人臉識別方法相比,基于深度學習[5]的神經網絡模型提取到的特征具有更強的泛化性和魯棒性,在識別效果上能達到更好的識別精度.1998年,Lecun等[6]提出了LeNet-5用于手寫數字體識別,為后來基于卷積神經網絡提出的一系列人臉識別模型奠定了基礎.2012年,Krizhevsky等[7]提出了一個深層卷積神經網絡AlexNet,并以準確率遠超第二名的成績獲得了2012年ILSVRC-2012比賽的冠軍,從此引發了卷積神經網絡的快速發展.2014年,VGGNet[8]和GoogLeNet[9]的出現被視為卷積神經網絡發展的又一里程碑,這兩種模型分別獲得了2014年ILSVRC-2014比賽的第二名和第一名.VGGNet在AlexNet的基礎上加入了更多的卷積層,擴展了網絡深度,在人臉識別上實現了更好的效果,同時也充分說明加深網絡模型深度是改善模型質量的一個有效途徑.卷積神經網絡的快速發展極大地提高了人臉識別的準確率,但同時深層的網絡模型結構帶來的計算力耗費和時間代價也是不可避免的.

近年來,分數階微分在各個領域的應用愈加廣泛,越來越多的學者也將分數階微分應用到了深度學習領域.蒲亦非[10]提出將分數階微分應用到圖像處理領域,利用分數階微分增強圖像細節紋理信息的同時能夠很好的保留圖像中的平滑區域,在視覺效果上有很大的突破.Rostami等[11]設計了優化的分數階梯度法,將卷積神經網絡中反向傳播的整數階梯度定義為分數階梯度,利用改進的分數階梯度對網絡進行訓練,使得圖像識別效果更好,同時加快了網絡的收斂速度.Bao等[12]提出了帶有L2正則化的分數階反向傳播神經網絡,利用分數階更新反向傳播過程中的權重,同時利用分數階算法對L2正則化的影響提高網絡的識別精度.隨著分數階微分在神經網絡方面的研究發現,分數階微分對神經網絡的穩定性以及收斂速度等方面都有一定的提升效果.由于分數階微分的記憶性和遺傳性,且分數階模型包含整數階模型,在網絡模型中應用分數階能使得模型具有更大的靈活性,所以將分數階運用到神經網絡模型中能為模型的優化提供更大的可能性.

深度學習的快速發展促進了人臉識別技術的愈加成熟,但由于在現實生活中,設備捕捉到的人臉圖像受到自然光照、人物姿態表情、環境背景等因素的影響,或是在當前新冠肺炎疫情下,佩戴口罩造成的人臉遮擋,這些現象使得人臉識別依然面臨著一些挑戰.基于此,我們提出了一種基于分數階微積分(Fractional-order Differential)卷積神經網絡模型的人臉識別算法FD-ResNet,在改進算法中基于殘差網絡ResNet提取特征,利用分數階微分處理網絡中的節點函數Sigmoid,加快函數的收斂速度,在模型中添加注意力機制增強提取特征的健壯性.同時,增加網絡結構中的卷積層使得網絡模型提取到更多的人臉細節信息.最后,采用ArcFace[13]作為損失函數來對數據進行分類,提高了訓練效率和識別效果.

2 FD-ResNet

2.1 分數階微積分數學方法

分數階微分作為微分的重要分支,通過將傳統的整數階導數的階次擴展到分數以及復數域,并將其運用到信號處理等領域取得了非常好的效果.由于分數階微分相較于整數階特有的記憶性和遺傳性,在圖像處理中能夠捕捉到更多的邊緣和紋理信息,同時在卷積神經網絡模型中能夠提取到更多的特征,所以將分數階微分應用到神經網絡模型中對于提升模型訓練精度,加快模型收斂速度都有顯著的效果.本文中我們在網絡模型結構中使用了經典的Grunwald-Letnikoff(G-L)分數階微分,其定義如下.

(1)

其中,[a,x]是f(x)的持續區間,v是階次,

(2)

(3)

當v=0.1,0.3,0.5,0.7,0.9時,q(k)隨k的變化曲線如圖1所示.

圖1 q(k)變化曲線圖Fig.1 q(k) change curve

2.2 FD-ResNet算法設計

本文以ResNet殘差網絡[14]作為特征提取結構,在提取豐富的人臉特征的同時簡化對更深層網絡結構的訓練,避免在加深模型結構深度時造成的模型退化問題,ResNet殘差塊結構如圖2所示.

圖2 殘差塊結構Fig.2 Residual block structure

在殘差塊當中,當輸入為x的時候,輸出y為

y=F(x,{Wi})+x

(4)

通過迭代我們可以將網絡中任意層的特征表示為

(5)

由反向傳播原理,我們將誤差假設為ε,對xl求偏導可以得到

(6)

通道注意力機制表示為

Mc(F)=σ(MLP(AvgPool(F))+

(7)

其中,σ為Sigmoid函數;W0和W1為卷積乘法的權重.

空間注意力機制表示為

Ms(F)=

σ(f7×7([AvgPool (F);MaxPool (F)]))=

(8)

其中,σ為Sigmoid函數,7×7代表卷積核大小.改進后的卷積注意力模塊結構如圖3所示.

圖3 卷積注意力模塊Fig.3 Convolution attention module

同時在改進后的注意力模塊中我們利用分數階對節點函數Sigmoid進行處理,Sigmoid函數表示為

(9)

其1階導數為

(10)

其0.5階導數為

(11)

e-t=p,

同理可以得到Sigmoid的0.3和0.8階導數分別為

(12)

(13)

Sigmoid函數及其1階導數圖像如圖4所示.

圖4 Sigmoid函數及其導數圖像Fig.4 Sigmoid function and its derivative image

從圖4可以看出來,相較于Sigmoid的整數階微分,在使用分數階微分處理節點函數時,函數的0.5階導數相對于1階導數在函數的0和1處值的變化非???,這可以顯著加快網絡模型在訓練過程中的收斂速度,同時減少由于增加網絡模型深度所花費的時間代價.

本文在ResNet殘差網絡的基礎上,加入了通道注意力和空間注意力機制,利用分數階微分對節點函數進行處理加快模型收斂速度,將ResNet網絡的7×7卷積改為兩個3×3卷積,同時為了減少池化層進行下采樣以及減少網絡參數時造成的圖片特征信息的大量丟失,去掉了模型中的池化層,將內邊距padding由3改為1,同時將步長設置為2,縮小卷積核以此獲得更多的人臉特征信息.改進后的殘差網絡模型結構FD-ResNet如圖5所示.

圖5 FD-ResNet 網絡結構圖Fig.5 FD-ResNet network structure diagram

2.3 分類函數的設計

本文采用ArcFace損失函數作為分類函數,函數定義為

lossArc=

(14)

其中,N是每一個訓練批次中人臉圖像的數量;θi是特征與權重向量Wi的角度;m是控制優化難度的超參數,網絡將最后一個全連接層的輸入x的范數固定為s,從而消除特征分布在半徑方向上的變化.

全連接層權重和輸出特征經過歸一化操作.

(15)

Arcface是softmax損失函數的改進方法,函數將m作為角度加在了余弦空間上,使得在0-π這個單調區間上,cos((θyi,i)+m)更小,即等價于(θyi,i)更大,說明樣本與自己的類中心夾角過大.

正是由于角度距離比余弦距離對角度的影響更加直接,所以利用了參數m來提高樣本的訓練環境,當loss收斂的時候,θ就會更加小,使得類間盡量可分離,類內盡量聚攏.

3 實驗與分析

3.1 數據集預處理

本次實驗采用CASIA-WebFace[17]作為訓練數據集,CASIA-WebFace數據集包含了在網絡上收集的10 575個人的494 414張人臉圖像,我們先使用訓練好的MTCNN[18]神經網絡對數據集中的圖片進行檢測,并將檢測到的人臉圖片裁剪為112×112像素大小,如圖6所示,然后我們在LFW[19]、AgeDB-30[20]和CFP-FP三個人臉數據集上進行了測試,LFW數據集包含了13 233張在無約束設置下拍攝的5749人的人臉圖像,每張圖像均給出了對應的人名,且絕大部分人僅有一張圖片,AgeDB-30數據集包含了16 488張屬于568幅不同名人的圖像,每張圖像都標明了身份、年齡和性別屬性;CFP數據集包含了500個不同身份的人臉圖片,包含每個人不同的正臉和側臉,能夠有效優化模型對于人臉正面和側面的識別效果.

圖6 MTCNN預處理的部分人臉集Fig.6 Partial face sets after MTCNN preprocessing

3.2 實驗環境及參數設置

本文所有的實驗都是基于操作系統為Ubuntu 5.4.0-6ubuntu1,GPU為NVIDIA GeForce GTX1080Ti,訓練和測試都是在pytorch開源深度學習框架下使用python語言進行的.訓練中的batch-size設置為64,初始學習率設置為0.05,迭代總輪數epoch設置為25,迭代到第14個和第22個epoch時學習率衰減為上次學習率的0.1倍,為了防止模型過擬合,將總的權重衰減參數設置為5×10-4,在訓練中采用隨機梯度下降策略SGD[21]對模型進行優化,將動量參數設置為0.9.

3.3 實驗結果比較

我們在基于CASIA-WebFace數據庫上進行了迭代訓練,并在LFW、AgeDB-30和CFP-FP三個不同的數據集上進行了測試,圖7為測試數據集當中的部分人臉對.

在FD-ResNet中隨著epoch增大,訓練的識別率變化以及不同epoch下在LFW,AgeDB-30和CFP-FP三個數據集上的測試識別率如圖8所示,從圖8可以看出,隨著訓練輪次的增加,識別率在顯著增長,在改變學習率的第14個epoch中,訓練模型的識別率有顯著的提升,但是在第22個epoch改變學習率時,模型的精度并沒有得到明顯改善,說明模型已經幾乎達到收斂狀態.

(a) 相同標簽

圖8 模型在每個epoch的識別變化率Fig.8 Recognition change rate of model at each epoch

為了驗證該算法在利用不同分數階次處理節點函數Sigmoid時對模型識別效果和收斂速度的影響,我們改變處理Sigmoid導數的階次,得到了不同階次下FD-ResNet100在LFW、AgeDB-30和CFP-FP三個不同的數據集上的測試效果如表1所示,在CASIA-WebFace數據集上的訓練收斂時間變化如圖9所示.

圖9 基于FD-ResNet的各階次訓練時間比較Fig.9 Comparison of training time of each order based on FD-ResNet

從表1和圖9中可以看出,在微分階次較小時,算法的識別效果有所下降,但隨著階次逐漸接近于1時,算法效果有明顯提升,同時與整數階次相比,采用分數階次在訓練模型時收斂時間有明顯提升,所以在模型中應用合適的分數階次能在不降低算法識別效果的基礎上顯著提高算法收斂速度.

為了驗證該算法對原有ResNet殘差網絡的改進效果,我們增加網絡模型深度,同時利用改進的注意力機制和微分階次算法在基于ResNet50,FD-ResNet50,ResNet100,FD-ResNet100四個不同的網絡模型中訓練并分別在LFW、AgeDB-30、CFP-FP三個不同的數據集上進行了測試,并將其識別準確率進行了比較,實驗結果如圖10所示.

圖10 基于ResNet的各方法結果比較Fig.10 Comparison of results of different methods based on ResNet

實驗結果可以看出,本文提出的引入注意力機制和分數階微分的改進殘差網絡模型結構的表現效果最佳,在LFW,AgeDB-30和CFP-FP三個測試數據集上分別以99.583%、94.583%和96.014%的識別準確率獲得了最佳識別效果.在引入通道注意力和空間注意力機制后提高了網絡模型獲取特征的能力,相較于ResNet50,本文提出的網絡FD-ResNet50在LFW、AgeDB-30和CFP-FP三個數據集上的識別率分別提高了0.084%和0.597%、0.029%,同時相較于ResNet-100,FD-ResNet100在LFW,AgeDB-30和CFP-FP三個數據集上的識別率分別提高了0.25%、2.233%和1.971%.

同時我們比較了本文提出的算法和其他一些比較有代表性的算法分別在LFW,AgeDB-30和CFP-FP三個數據集上的識別效果,如表2所示.

表2 各方法實驗結果比較Tab.2 Comparison of experimental results of each method

從表2可以看出,本文提出的基于分數階微分的殘差網絡改進算法和其他卷積神經網絡人臉識別模型相比,在LFW、AgeDB-30和CFP-FP三個不同的數據集上取得的識別效果是最好的.在本文算法中增加了改進的注意力機制模塊,能有效提升模型對人臉重要特征的敏感度,從而提高人臉識別率,同時利用分數階微分對節點函數進行處理降低了模型的復雜度,提高了模型的收斂速度,這表明了改進后的ResNet人臉識別算法的有效性.

4 結 論

為了解決在自然無約束條件下人臉識別受到光照不足、背景雜亂等因素的影響而導致識別準確率降低的情況,提出了一種基于分數階微分改進的殘差網絡FD-ResNet模型結構.網絡以ResNet為基礎結構,通過添加通道注意力和空間注意力增強特征的提取,同時使用分數階微分對節點函數進行處理,加快模型收斂的速度,使用ArcFace作為損失函數來進行監督訓練,提升模型的精度.實驗結果表明,本文提出的方法在不增加過多計算開銷的前提下對于提升模型收斂速度有明顯效果,對于改進人臉識別準確率也有一定的效果,能夠為以后復雜情況下人臉識別的進一步研究提供思路.

猜你喜歡
微分人臉人臉識別
多飛行器突防打擊一體化微分對策制導律設計
人臉識別 等
一類帶有Slit-strips型積分邊值條件的分數階微分方程及微分包含解的存在性
有特點的人臉
玻璃窗上的人臉
人臉識別的“國標”來了
跟蹤微分器的仿真實驗分析與研究
榮耀暢玩7C:人臉識別
“領家系”可愛臉VS“高冷系”美人臉
微分在近似計算中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合