?

多尺度注意力融合和抗噪聲的輕量點云人臉識別模型

2023-01-13 07:28文,李冬,袁
圖學學報 2022年6期
關鍵詞:人臉人臉識別注意力

郭 文,李 冬,袁 飛

多尺度注意力融合和抗噪聲的輕量點云人臉識別模型

郭 文1,李 冬1,袁 飛2

(1. 山東工商學院信息與電子工程學院,山東 煙臺 264005;2. 中國科學院信息工程研究所,北京 100195)

在低質量點云人臉數據集上,判別性特征的提取和模型對噪聲的魯棒性是解決點云人臉識別問題的關鍵。針對現有輕量點云人臉識別算法不能充分提取判別性特征和數據集中存在大量噪聲而影響模型訓練的問題,設計輕量高效的網絡模型,提出了基于多尺度注意力融合和抗噪聲的自適應損失函數的點云人臉識別算法。首先通過不同卷積模塊獲得不同感受野大小的特征圖。然后進行多尺度的注意力特征提取,并使用高層的注意力權重來引導低層注意力權重的生成,最后進行通道融合得到多尺度融合的特征,提升了模型捕獲人臉細節特征的能力。其次,根據低質量點云人臉圖像的噪聲信息特點,設計了一種新穎的抗噪聲的自適應損失函數(anti-noise adaptive loss),以應對數據集大量噪聲對模型訓練過程中可能造成的負面影響,提升模型的魯棒性和泛化能力。在開源數據集Lock3DFace和本文提出的KinectFaces數據集上的實驗結果表明,與當前的主流算法相比該算法模型在低質量點云人臉識別任務中具有更好的識別效果。

點云人臉識別;注意力融合;注意力特征提??;損失函數

1 概 述

基于點云的人臉識別是計算機視覺領域中活躍的課題之一,同時也面臨著許多的挑戰。與3D點云人臉識別相比,基于2D圖像的人臉識別取得了巨大的進步[1-2]。然而,2D人臉識別在光照和姿態變化等復雜環境下性能不穩定。隨著3D成像系統的快速發展,2.5D或3D人臉識別已經成為處理2D人臉識別任務中未解決問題的主要替代方法。許多研究表明,3D人臉識別不僅自身能取得與2D人臉識別相媲美的識別結果[3],而且與2D人臉識別任務具有良好的互補性。

數據集對人臉識別發展起著重要影響,大規模的2D人臉數據集使得基于卷積神經網絡的2D人臉識別算法取得了巨大成功。如,使用200萬人臉數據訓練的FaceNet[4]算法在LFW[5]數據集上達到了99.63%的準確率。然而,3D人臉數據集受限于特定的采集設備,導致3D人臉數據集資源遠少于2D人臉數據集。3D人臉識別數據集有FRGC V2.0[6],Bosphorus[7],BU3D-FE[8]和Lock3DFace[9]等,其中最大的FRGC V2.0僅包含466個人的4 007張3D人臉圖像,Bosphorus數據集也僅包含105個人的4 666張圖像。與2D人臉數據集WebFace260M[10]包含4萬個體的千萬張人臉圖像對比,3D人臉數據集十分匱乏。另一方面,FRGC V2.0和Bosphorus數據集是通過高精度掃描儀進行采集,制作成本極高,限制了數據集規模的提升。

近年來,消費級深度相機如Kinect和RealSense逐漸走向市場。相較于高精度3D掃描設備,該類型相機更加低廉輕便,且有著更高的幀率以保證數據的實時獲取。如圖1所示,第1行高精度掃描設備獲取到的可視化人臉信息;第2行消費級深度相機獲取的人臉圖像有著大量噪聲,并可能出現大面積的空洞缺失;第3行展現了使用消費級深度相機在戴眼鏡群體中拍攝時可能出現的不規則光噪聲問題。因此,通過消費級深度相機獲得的數據需要人臉識別算法對噪聲有著較高的魯棒性。如,在最大的低質量3D人臉數據集Lock3dFace上識別率最高的Led3D[11]網絡,也僅有54.28%識別率。該模型對噪聲的魯棒性差是準確率低的主要原因。

因此,基于消費級深度相機的3D人臉識別發展潛力巨大。為了解決上述問題,本文構建一種可以有效提取人臉判別性特征信息并對噪聲有較強魯棒性的3D人臉識別算法模型至關重要。

1.1 相關工作

本節將簡要敘述3D人臉識別方法、CNN中的多尺度注意力特征融合、人臉損失函數的相關工作。

二維人臉識別的高準確率驗證了基于神經網絡的特征提取方法非常適用于人臉識別。VGG-Face[12]是首個使用卷積神經網絡來進行3D人臉識別的模型。該模型將預處理后的點云人臉圖像降維成2D,并輸入到模型中進行初步訓練。該方法使用降維的點云人臉圖像進行模型的微調,解決了3D圖像在傳統神經網絡中輸入維度不一致的問題,為后續基于神經網絡的3D人臉識別框架提供了基礎范式。文獻[13]提出了一種基于PointNet[14]的網絡模型。該模型可以將點云圖像直接作為模型的輸入,解決了3D圖像降維到2D而產生的信息丟失問題。雖然該模型提升了識別準確率,但是點云圖像直接作為網絡模型的輸入產生了巨大的計算成本,不適用于實時的人臉識別。文獻[15]提出了動態類別序列方法,訓練過程中每次迭代,均動態選擇類別子集,解決了大規模人臉識別任務中的長尾分類問題。文獻[11]利用3D人臉識別的輕量級CNN,對于低質量人臉數據集的識別有較高的準確率和識別速度。該網絡通過多尺度特征融合模塊,有效地改善了低質量人臉數據的表示,但特征的提取與融合通過簡單的下采樣和特征疊加,有較大改進空間。

多尺度的注意力機制,來自不同層或分支的注意力特征的組合。受到人類視覺注意力的啟發,注意力機制也應用于深度學習中[16-17]。最初的多尺度注意力機制是基于全局尺度。如,Self-attention通過矩陣相乘來提取每個詞在文本中的全局依賴[18]或每個像素在整個圖像中的全局依賴[19-20]。有許多在大規模的分類任務中使用注意力來提高卷積神經網絡(convolutional neural network,CNN)性能的研究,如,squeeze and excitation (SENet)壓縮全局空間信息輸出通道描述符來捕獲通道依賴[21]。更接近本文的是convolutional block attention module (CBAM)網絡[22],該網絡結合通道注意力和空間注意力來提取特征信息。在CBAM中使用全局最大池化和全局平均池化來計算通道注意力。然而,本文驗證了在點云人臉識別中使用全局池化是次優的。通過全局池化來獲得通道注意力忽略了通道注意力中的空間信息,導致模型更加關注圖像背景信息而不能很好地捕獲人臉細節的局部特征信息。

將不同大小卷積核得到的特征圖進行融合即多尺度特征融合。MARDC-MVSNet[23]將–1個源圖像特征圖與參考圖像特征圖進行融合,使得模型可以生成稠密點云。然而,在3D維度進行圖像特征的處理將耗費巨大的計算開銷。Led3D[11]網絡將不同卷積塊得到的特征通過簡單串聯的方式在通道維度上進行疊加,該方式可能導致模型來自多尺度輸出特征通道間特征相關性的缺失[24]。

如何合理地設計損失函數對加強深度卷積神經網絡在類別之間識別能力是非常重要的。Center loss[25]通過懲罰深度特征及相應類別中心點的歐氏空間距離來實現類內相近的目的。L-Softmax[26]將原始的Softmax進行了改進,提出了角度的邊界約束來限制類間距離。SphereFace[27]在L-Softmax的基礎上對權重進行了歸一化,認為最后一個全連接層的線性變換矩陣可以作為角度空間類別中心的表示,通過乘法的方式來懲罰深度特征與相應權重間的角度,為損失函數的設計提供了清晰的幾何解釋。Focal loss[28]根據特定任務中數據集數據不平衡的特點,提出一個難樣本挖掘損失函數,來降低數據集中易分樣本的權重。在特定的人臉識別任務中,不同的損失函數可能發揮出不同的效果。在點云人臉識別任務中,數據集不僅質量低,更會出現沒有判別信息的問題,如圖1第2行所示,在這種情況下傳統的損失函數無法應對大量含噪數據的干擾。

1.2 本文工作

本文提出結合多尺度注意力特征融合和抗噪聲的自適應損失函數的方法,流程如圖2所示。該方法主要包含3個模塊:

(1) 輕量的CNN特征提取模塊。為了實現模型的高效,減少參數量和內存開銷,主干網絡僅由4個Block組成,每個Block的組成如圖2所示,由一個的卷積層、BatchNormal層和ReLU層組成。4個模塊中每個卷積核的寬度分別為32,64,128和256。經過4個模塊的特征提取,獲得4個不同感受野大小的特征圖,為后續多尺度注意力特征融合提供前提條件。

(2) 多尺度注意力特征融合模塊(multi-scale attention feature module,MS-AFM)。通過將不同卷積核大小得到的特征圖來進行注意力特征的提取,并由高層的注意力權重來引導低層注意力權重的生成,獲得不同尺度特征圖的注意力特征,并最終在通道維度進行連接。

(3) 抗噪聲的自適應損失函數模塊(anti-noise adaptive loss,AN Loss)。在全連接層后的Softmax輸出基礎上加了自適應調節因子,最終實現抗噪聲的自適應損失函數的設計。

本文工作的主要創新如下:

(1) 提出了一個針對3D點云人臉識別的多尺度注意力融合模塊,可以學習全局注意力和局部注意力相融合的特征解決了傳統注意力特征過于關注背景信息而丟失了局部細節信息的問題;通過高層注意力特征來輔助低層注意力特征的生成,解決了傳統串聯特征融合方式忽略了來自多尺度輸出特征的不同通道間特征相關性的問題。

(2) 提出了一個抗噪聲的自適應損失函數,該損失函數可以使得網絡自適應地弱化噪聲對模型訓練的負面影響,提高模型的魯棒性和泛化能力。

(3) 為了緩解低質量點云人臉數據集的匱乏,本文建設了一個包含60個人和4個類別的低質量點云人臉數據集KinectFaces。本文所提出的輕量點云人臉識別模型在公開數據集Lock3DFace和本文提出的KinectFaces數據集上取得較好的識別準確率,顯示了本算法良好的識別性能和泛化能力。

2 基于多尺度特征融合與抗噪聲的網絡框架

在低質量3D人臉識別任務中,由于輸入到網絡的數據會經過圖像的預處理,人臉一般位于圖像的固定位置。因此,為了提取圖像特征固定位置的語義信息,提升模型識別精度,本文提出多尺度注意力特征融合模塊MS-AFM。

2.1 多尺度注意力融合機制

2.1.1 CBAM中通道注意力機制

考慮到人臉識別任務的特殊性,待分類的人臉特征位于圖像的固定位置,全局最大池化不同于全局平均池化可以減少無用信息的影響,保留更多固定位置的語義信息。此外,為了保留更多固定位置的語義線索,本文分別采用全局最大池化來保留全局注意力和使用最大池化來保留局部注意力相結合的方式來保留更多有用的信息。

2.1.2 融合局部注意力的通道注意力機制

為了提取通道間的空間信息,分別通過全局最大池化和最大池化來取得通道全局注意力和通道局部注意力。為了保持模型的輕量性,2個分支分別用逐點卷積來融合通道信息,保存圖像在每個空間位置上的通道信息。通道局部注意力()?R×H×和通道全局注意力()?R×H×分別為

在局部通道注意力()中,為經過最大池化后的特征,池化卷積核大小7×7。1的卷積核大小為/×1×1,2的卷積核大小為×1×1。全局通道注意力()通過全局最大池化輸出到兩層卷積核、通道數和局部注意力分支一樣的分支中。全局注意力采用全局最大池化而不是全局平均池化,可以獲取人臉在固定位置的特征線索。通道局部注意力采用最大池化和兩層卷積,可以保留通道信息中的空間線索,可以更準確地提取特征的細節信息。網絡結構如圖3所示,最終通道注意力特征為

經過多尺度通道注意力特征得到的特征圖進行空間注意力的特征提取為

2.1.3 多尺度注意力融合

在CNN中不同的卷積層包含著不同的信息。中如,在較低的卷積層含有基礎的顏色、邊際信息,同時在較高的層編碼有抽象和語義線索,因此融合不同層的信息可以生成更好的特征。本文采用高層注意力特征權重來輔助低層注意力特征的生成。兩層特征圖的注意力融合方式為

其中,?R×H×為融合后的特征;為低層特征圖;為高層卷積得到的特征圖;為注意力機制模塊具體的連接方式(圖4)。

圖4 多尺度注意力特征圖融合(MS-AFM)

Fig. 4 Multi-scale attentional feature fusion module

如圖4所示,4個模塊中通過3×3卷積捕獲到不同感受野大小的信息,經過上述注意力模塊得到的特征圖通過下采樣固定到相同的尺寸,在通道維度進行連接后,得到多尺度注意力融合最終的特征圖。

2.2 抗噪聲的自適應損失函數

如圖1所示,不同精度設備采集的數據集在質量上差別巨大。為了避免模型將噪聲當作要學習的特征,本文構建了一個抗噪聲的自適應損失函數。

許多人臉識別損失函數的研究是交叉熵Softmax損失函數的變例,對于一張人臉圖像通過網絡提取其特征向量?R,其類別用y表示,則對于的分類概率為

交叉熵損失函數為

對于所有樣本的損失函數為

其中,為樣本總數;為正例樣本個數;為負例樣本個數;=+。

為了便于表示,樣本正確分類的概率用p代替,即

則交叉熵損失函數為

圖5損失函數

3 數據預處理

通過消費級3D攝像機采集的點云人臉數據往往存在著大量的噪聲,并且圖像大小不適用于直接用來做人臉識別。例如,通過Kinect采集的Lock3DFace數據集包含了點云人臉數據集和相對應的關鍵點的坐標信息。在進行點云人臉識別網絡訓練和測試之前,需要先對點云人臉數據進行插值、鼻尖校準。為了輸入到深度卷積神經網絡中,也需要將圖像進行歸一化。此外,由于點云人臉數據集較少,對數據集的增強往往是點云人臉識別的必要工作。

(1) 插值。為了提高低質量深度圖像中人臉的占比,提升分辨率,與文獻[11]類似,使用Lock3DFace中提供的坐標值,將人臉從原始深度幀(512, 424)中裁剪出180×180的人臉,并將其線性插值到360×360。

(2) 鼻尖校準。為了切除非面部區域,使用數據集提供的鼻尖坐標(,),在其周圍定位出一個5×5的區域,并使用其中值而不是平均值作為修改的基準點來切除非面部區域,避免大量孔洞噪聲的影響。

(3) 人臉投影。為了使點云人臉圖像能夠適用基于2D圖像訓練的CNN,按照Led3D中提供的方法將3D點云投影到2D空間中并將深度人臉填充到固定大小,最終將深度人臉圖像歸一化到[0,255]的范圍內。

(4) 數據增強。為了提高點云人臉數據集的規模,使用姿勢生成、形狀縮放來進行圖像增強。姿勢生成,即在本項工作中對點云人臉圖像項進行左右旋轉角度[–600,600]和俯仰角度[–400,400],每隔200生成新的人臉圖像;形狀縮放,即為了模擬因為人臉與相機距離不同而導致的人臉在圖像中分辨率的變化,將二值化后的人臉圖像放大1.15倍和1.35倍。

4 實驗結果與分析

4.1 數據集

本文實驗共使用了3個數據集,分別是Lock3DFace,Bosphorus和KinectFaces。其中Lock3DFace是當前低質量點云人臉識別領域的主要數據集,用來測試和微調網絡模型。KinectFaces是本文為了彌補低質量人臉數據集的匱乏而建設的一個3D點云人臉識別數據集,用來測試驗證網絡模型的泛化能力。高精度的Bosphorus數據集僅用來進行網絡模型的初步訓練[29]。

(1) Lock3DFace[9]。該數據集是當前最大的低質量點云人臉公開數據集,使用Kinect V2進行拍攝。其中包含509人的5 671個視頻序列,有自然狀態(NU)、表情變化(FE)、遮擋(OC)、姿勢(PS)和時間變化(TM) 5個類別。其中,時間變化是指在2個相隔半年拍攝的數據集類別。

(2) Bosphorus[7]。該數據集是采用高精度3D傳感器拍攝的點云人臉數據集。其中,包含105個人的4 666張3D人臉圖像,包含表情變化、遮擋和姿勢變化3個類別。

(3) KinctFaces。該數據集是本文建設的一個包含60人的低質量點云人臉數據集。使用Kinect V3設備進行拍攝,同步保存深度圖像和相應的關鍵點坐標信息,包含自然狀態、表情變化、姿勢變化、光噪聲4個類別,其中針對光的折射對戴眼鏡個體的數據采集有較大影響的問題,本數據集首次將戴眼睛群體的數據歸類為光噪聲類別,如圖1中第3行所示。此外,該數據集包含4個類別的9 600張人臉圖像,因為在大學校園中進行拍攝,所拍攝對象年齡集中在20~25歲之間。

4.2 實驗設置

本文實驗平臺Tesla V100。軟件環境為:Ubuntu18.04,mxnet-cu101。權重衰減設置為0.000 5。學習率為0.01,Batch Size為300。輸入數據調整到128×128進行訓練。

4.2.1 測試方法

Led3D是Lock3DFace數據集中準確率最高的網絡模型,為了實驗的公平,采用Led3D中的測試方法作為標準。具體來說,將Bosphorus中提供的數據集進行第一步訓練,使用Lock3DFace中的數據集進行微調。在Lock3DFace數據集中隨機選擇509個個體中340個類別的全部數據用于訓練,其中采集每個視頻前6幀用于訓練,其余的169個類別作為測試數據。此外,在340個個體的自然狀態人臉中每個視頻選擇6張圖片進行數據增強。在測試集中選擇每個個體的自然狀態人臉一張圖片作為gallery,其余所有圖片作為probe。計算rank-one測試結果進行統計。

4.2.2 參數討論

表1 不同超參數對結果的影響(%)

4.2.3 消融實驗

為研究本文算法對各個模塊產生的性能增益,逐步添加多尺度注意力融合模塊、抗噪聲的自適應損失函數,且分別評估算法在低質量Lock3DFace數據集上的性能指標,為保證實驗的公平性實驗中所有的參數設置都相同,Anti-noise Adaptive Loss的超參數設置為=1。實驗結果見表2,每個模塊對模型性能的提升均有不同程度的貢獻,其中多尺度注意力融合模塊貢獻最大,提升近5%的性能增益,主要得益于其能迫使模型學習到局部注意力信息。之后通過增加抗噪聲的自適應損失函數,使模型性能得到提高,最終結合所有的模塊,本文方法達到了較好的性能,平均rank-one可以達到49.53%。

為了驗證多尺特征融合模塊中不同分支設置的影響,本文設置了不同的消融模塊,如圖6所示。

表2 每種改進策略產生的性能增益對比(%)

圖6 不同結構的通道注意力融合機制

表3實驗驗證了采用全局最大池化和最大池化的注意力結構在除了時間類別的多個類別中均取得了最好的識別效果,以及全局注意力信息和局部注意力信息相結合的方式,在點云人臉識別任務中可以更好地提取語義信息。

表3 注意力模塊設計的消融實驗(%)

注:加粗數據為最優值

為了驗證本文MS-AFM (multi-scale attention feature module)模塊的優越性,將多種注意力機制嵌入到其中進行了對比。因為AFF[30]和SENet中沒有空間注意力機制,而且空間注意力機制不是本文的主要工作,為保證實驗的公平性,空間注意力機制不參與實驗的比較,其他參數設置也完全和MS-AFM相同。實驗結果見表4,本文所提出的MS-AFM模塊在所有類別中均領先于其他模型。

表4 不同注意力機制對準確率的影響(%)

注:加粗數據為最優值

由表4可得,本文所提出的注意力機制在點云人臉識別任務中超越了大多數注意力機制。相較于AFF,本文模塊雖然在時間變化類別上略低,但在其他類別上可大幅超過,平均識別精度可以高出2.39%。AFF的通道注意力采用了局部注意力和全局注意力結合的方法和本文方法思想類似,驗證了局部注意力在人臉識別任務中的重要性。

在Lock3DFace數據集上任意抽取10個人的20張圖像,使用表4中3個不同注意力機制提取人臉特征,并將得到的特征使用t-SNE算法進行可視化,得到結果如圖7所示。經過對比可以發現,本文方法得到的特征向量更加的緊湊且具可分離性,驗證了MS-AFM模塊的有效性。

4.2.4 多模型測試結果對比

為了驗證本文方法的有效性,首先與文獻[11]的Led3D算法和其所選用方法進行對比。本文所使用的實驗方法為4.2.1節中所示。試驗結果見表5,本文模型性能在所有子集上超越了大多數先進算法,并優于當下最先進的低質量3D圖像人臉識別網絡Led3D。在表情和姿勢2個子集中有較大地提升,驗證了模型在應對復雜數據時的魯棒性。實驗統計方法與4.2.1中相同,沒有剔除任何數據。

圖7 不同結構的通道注意力融合機制特征生成圖((a)MS-AFM模塊得到的特征圖;(b)使用MS-SENet得到的特征圖;(c)使用MS-AFF得到的特征圖)

表5 不同方法在Lock3DFace上的準確率(%)

注:加粗數據為最優值

為了驗證本文方法的魯棒性和有效性,給預處理后的Lock3Dface測試集的正面子集圖像上分別添加了10%,20%,30%和40%的椒鹽噪聲。經過處理后的人臉圖像如圖8所示,與不同模型的對比實驗結果如圖9所示。

圖8 可視化的混合椒鹽噪聲人臉深度圖像

圖9 添加椒鹽噪聲的實驗結果

從圖9可以看出,在噪聲強度不斷增大的情況下,本文方法相比其他方法,識別性能更加穩定,且識別準確率優于其他方法。驗證了本文方法在特征提取過程中對噪聲的魯棒性,此外通過多尺度注意力融合模塊提取到了更多的判別性特征,從而提高模型別率。

4.2.5 泛化性實驗和數據增強

本實驗通過4.2.1中介紹的方法訓練模型,添加了數據增強的訓練數據集。在KinectFaces數據集上進行測試,來驗證本文模型的泛化能力和數據增強的效果。

從表6中可以看出使用數據增強技術雖然在個別類別上模型準確率有所下降,但在大部分類別上對模型識別準確率都有不小地提升,說明了當前低質量點云人臉識別領域數據集規模仍然是制約模型識別精度提升的主要因素。此外,本文方法在KinectFaces數據集上的識別準確率遠高于其他算法,表現出了模型較好的泛化性和較高識別準確率。

表6 在KinectFaces數據集上的rank-one測試(%)

注:加粗數據為最優值

5 結 論

本文算法在低質量點云人臉數據集上表現出相對較好的識別能力,并具有不錯的泛化性,通過實驗結果分析可以看出點云人臉識別算法所提出的多尺度注意力融合模塊可以加強對圖片中人臉信息的關注,獲得含有強有力判別性的特征,且本文提出的抗噪聲的自適應損失函數也適用于含有大量噪聲的點云數據集。但本文也存在一定的局限性,低質量點云人臉數據集數量較少,數據集規模將對最終實驗結果有著較大影響,但本文所使用的數據增強方法并不能大幅度提升數據集數量,因此對于數據增強方法還有較大改進的空間。另一方面,抗噪聲的自適應損失函數存在2個超參數,超參數的需要根據數據集的噪聲程度進行設置,但目前對于噪聲的評估并沒有具體可以量化的公式進行計算。

(感謝:北京航空航天大學IRIP實驗室提供的數據集的支持。本代碼將在https://github.com/Shel dongg/3dfacems-afm進行共享。)

[1] 侯守明, 杜成菲, 王陽, 等. 基于Kinect的拉普拉斯網格形變三維人臉建模[J]. 圖學學報, 2018, 39(5): 970-975.

HOU S M, DU C F, WANG Y, et al. Laplace’s grid deformation 3D face modeling based on kinect[J]. Journal of Graphics, 2018, 39(5): 970-975 (in Chinese).

[2] TOLOSANA R, VERA-RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: a survey of face manipulation and fake detection[J]. Information Fusion, 2020, 64: 131-148.

[3] HUANG D, ARDABILIAN M, WANG Y H, et al. 3-D face recognition using eLBP-based facial description and local feature hybrid matching[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(5): 1551-1565.

[4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.

[5] KARAM L J, ZHU T. Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments[C]//Proc SPIE 9394, Human Vision and Electronic Imaging XX, Bellingham:Society of Photo-Optical Instrumentation Engineers, 2015:93940B.

[6] PHILLIPS P J, FLYNN P J, SCRUGGS T, et al. Overview of the face recognition grand challenge[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2005: 947-954.

[7] SAVRAN A, ALYüZ N, DIBEKLIO?LU H, et al. Bosphorus database for 3D face analysis[M]//Lecture Notes in Computer Science. Berlin: Springer, 2008: 47-56.

[8] YIN L J, WEI X Z, SUN Y, et al. A 3D facial expression database for facial behavior research[C]//The 7th International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 2006: 211-216.

[9] ZHANG J J, HUANG D, WANG Y H, et al. Lock3DFace: a large-scale database of low-cost Kinect 3D faces[C]//2016 International Conference on Biometrics. New York: IEEE Press, 2016: 1-8.

[10] ZHU Z, HUANG G, DENG J K, et al. WebFace260M: a benchmark unveiling the power of million-scale deep face recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10487-10497.

[11] MU G D, HUANG D, HU G S, et al. Led3D: a lightweight and efficient deep approach to recognizing low-quality 3D faces[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5766-5775.

[12] KIM D, HERNANDEZ M, CHOI J, et al. Deep 3D face identification[C]//2017 IEEE International Joint Conference on Biometrics. New York: ACM Press, 2017: 133-142.

[13] BHOPLE A R, SHRIVASTAVA A M, PRAKASH S. Point cloud based deep convolutional neural network for 3D face recognition[J].Multimedia Tools and Applications, 2021, 80(20): 30237-30259.

[14] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.

[15] LI B, XI T, ZHANG G, et al. Dynamic class queue for large scale face recognition In the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 3762-3771.

[16] FAN D P, WANG W G, CHENG M M, et al. Shifting more attention to video salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 8546-8556.

[17] FU K R, FAN D P, JI G P, et al. JL-DCF: joint learning and densely-cooperative fusion framework for RGB-D salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3049-3059.

[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[BE/OL]. [2022-06-11]. https://proceedings.neurips. cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

[19] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3141-3149.

[20] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.

[21] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[23] 王江安, 龐大為, 黃樂, 等. 基于多尺度特征遞歸卷積的稠密點云重建網絡[J]. 圖學學報, 2022, 43(5): 875-883.

WANG J A, PANG D W, HUANG L, et al. Dense point cloud reconstruction network using multi-scale feature recursive convolution[J]. Journal of Graphics, 2022, 43(5): 875-883 (in Chinese).

[24] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1409.1556.

[25] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 499-515.

[26] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2022-06-09]. https://arxiv.org/abs/1612.02295.

[27] LIU W Y, WEN Y D, YU Z D, et al. SphereFace: deep hypersphere embedding for face recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6738-6746.

[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.

[29] 龔勛, 周煬. 面向低質量數據的3D人臉識別[J]. 電子科技大學學報, 2021, 50(1): 43-51.

GONG X, ZHOU Y. 3D face recognition for low quality data[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(1): 43-51 (in Chinese).

[30] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//2021 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2021: 3559-3568.

Multi-scale attention fusion and anti-noise lightweight 3D point cloud face recognition model

GUO Wen1, LI Dong1, YUAN Fei2

(1. School of Information and Electronic Engineering, Shandong Technology and Business University, Yantai Shandong 264005, China; 2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100195, China)

The key to achieving point cloud face recognition is discriminative feature extraction and noise robustness for low quality data. To address the problems that the existing lightweight point cloud face recognition algorithms cannot adequately extract discriminative features and that the large amount of noise in the dataset affects model training, we designed a lightweight and efficient network model and proposed a point cloud face recognition algorithm based on multi-scale attention fusion and noise-resistant adaptive loss function. Firstly, the features of receptive fields of different sizes were generalized. Then, the multi-scale attention features were extracted, and high-level attention weights were utilized to guide the generation of low-level attention weights. Finally, channel fusion was performed to obtain multi-scale fusion features, which improved the model’s ability to capture face details. Meanwhile, according to the noise information characteristics of low-quality point cloud face images, a novel anti-noise adaptive loss function was designed to deal with the possible negative impact of the large amount of noise in the dataset on the model training process, thus enhancing the robustness and generalization ability of the model. Experiments on open-source datasets such as Lock3Dface and KinectFaces show that the proposed method yields better performance on low-quality 3D face recognition accuracy.

point loud face recognition; attention feature fusion; attention feature extraction; loss function

TP 391

10.11996/JG.j.2095-302X.2022061124

A

2095-302X(2022)06-1124-10

2022-07-17;

:2022-10-05

國家自然科學基金項目(62072286,61876100,61572296);山東省研究生教育創新計劃(SDYAL21211);山東省高等學校青創科技支持計劃(2019KJN041);國家重點研發計劃(2020YFC0832503)

郭 文(1978-),男,教授,博士。主要研究方向為計算機視覺與多媒體計算。E-mail:wguo@sdtbu.edu.cn

17 July,2022;

5 October,2022

National Natural Science Foundation of China (62072286, 61876100, 61572296); Shandong Province Postgraduate Education Innovation Program (SDYAL21211); Shandong Higher Education Youth Innovation and Technology Support Program (2019KJN041); National Key Research and Development Program of China (2020YFC0832503)

GUO Wen (1978-), professor, Ph.D. His main research interests cover computer vision and multimedia computing. E-mail:wguo@sdtbu.edu.cn

猜你喜歡
人臉人臉識別注意力
人臉識別 等
讓注意力“飛”回來
有特點的人臉
一起學畫人臉
揭開人臉識別的神秘面紗
如何培養一年級學生的注意力
人臉識別技術的基本原理與應用
三國漫——人臉解鎖
人臉識別在高校安全防范中的應用
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合