?

基于多光譜和面部多區域聯合的人臉活體檢測算法

2024-01-26 07:47鄧可望肖振中師少光
集成技術 2024年1期
關鍵詞:活體人臉假體

鄧可望 趙 娟 肖振中 師少光 朱 亮

1(中國科學院深圳先進技術研究院 深圳 518055)2(奧比中光科技集團股份有限公司 深圳 518062)

3(深圳奧芯微視科技有限公司 深圳 518062)

1 引 言

在過去的幾十年中,人臉識別技術取得了里程碑式的發展,尤其在智能安防、互聯網支付等領域[1-3]。在這些應用場景中,攝像頭模組需要具備體積小、幀率高、分辨率高的特性,常用的模組包括 RGB 模組和 IR 模組。然而,這兩類攝像頭模組僅能提供人臉的顏色和紋理特征,缺乏相應的生物特征,容易受到假體人臉攻擊。多光譜濾波器陣列(multi-spectral filter array,MSFA)的推廣使得多光譜攝像頭在消費電子領域中的應用成為可能。與傳統圖像相比,多光譜圖像能夠呈現物體的光譜反射特性,而這些特性往往與物體自身的村質息息相關。因此,可將多光譜圖像獲取的人臉反射特征作為人臉活體檢測的重要判別依據。2001 年,Angelopoulo 等[4]發現,由于皮膚血管中的血紅蛋白對不同波段光的吸收特性不同,人臉反射光譜在 420~630 nm 處呈現明顯的“W”形狀。除此之外,Zhang 等[5]研究發現,人臉反射光譜在 850 nm 處具有更高的反射率,能夠有效地將人臉與其余村質進行區分。

目前,人臉活體檢測方法主要分為交互式活體檢測方法和靜默式活體檢測方法[6]。由于交互式活體檢測方法需要用戶配合,故學術研究主要集中于靜默式活體檢測方法。靜默式活體檢測方法主要分為基于紋理特征的活體檢測方法、基于動態特征的活體檢測方法、基于多模態的活體檢測方法[7]?;诩y理特征的活體檢測方法關注人臉面部豐富的細節特征[8-12],采用局部二值模式、方向梯度直方圖、頻域轉換等方法提取紋理特征,但是容易受到逼真硅膠頭模、高分辨率照片等的攻擊?;趧討B特征的活體檢測方法將多幀圖像作為時間序列,利用神經網絡獲取人體動態生理特征(如遠程光容積描記術等[13]),但需要較長時間才能獲得較好的活體檢測結果,且對高清視頻防范效果較差?;诙嗄B的活體檢測方法采用多個攝像頭模組,通常包括 RGB 攝像頭、深度攝像頭和 IR 攝像頭,通過建立神經網絡模型處理多模態數據,完成活體檢測任務[14-15]。但是,其本質仍然是獲取人臉的紋理細節和空間結構特征,并未考慮人臉生物特性,且成本較高,只有較大的網絡模型才能獲得比較好的收斂效果。

因此,針對上述問題,本文利用 MSFA 獲取人臉多光譜圖像,采用光譜歸一化方法提高人臉光譜區域的一致性,形成穩定的人臉反射特性。此外,本文提出一種基于面部多區域聯合的Transformer 模型(facial patch Transformer-based model,FPTransformer),在利用注意力機制獲取各區域關聯性的基礎上,同時提取人臉空間特征和光譜特征,提煉深層次人臉生物特征,提升人臉活體檢測成功率。為驗證方法的有效性,在自建的多光譜數據集上,將本文提出方法與人臉活體檢測領域廣泛應用的方法進行比較,并對實驗結果進行總結分析。IQ 對人臉皮膚與幾種常見假體村質(包括硅膠、樹脂、乳膠和打印紙)的反射率曲線進行研究。SPECIM-IQ 覆蓋的波長范圍為 400~1 000 nm,光譜分辨率為 7 nm,配備專業的白板,能夠方便地獲取物體反射率。本文將真人和不同村質假體臉頰的反射率曲線進行比較,同時將真人人臉不同區域組織的反射率進行比較,結果如圖1 所示。

圖1 不同材質及不同區域的人臉皮膚反射率Fig.1 Facial skin reflectance of different materials and regions

2 基于面部多區域聯合的活體檢測算法

2.1 人臉反射特性研究及多光譜圖像獲取

皮膚是組成人臉面部的主要成分,它獨特的生理特性決定了其對不同波段光的反射特性,可憑此作為判斷人臉活體的依據。由于大部分物體的反射特性集中于可見-近紅外波段[16],因此,本文選用手持式智能型高光譜相機 SPECIM-

由圖1(a)可知,真人人臉皮膚反射率曲線在 500~600 nm 處呈現明顯的“W”形狀,且在960 nm 處有明顯的吸收峰,具有獨特的可區分性。另外,由圖1(b)可知,人臉不同區域組織由于血紅蛋白及水分等含量不同,反射率也存在一定差異。在實際的人臉識別應用場景中,昂貴專業的高光譜儀很難得到廣泛應用,而通過 MSFA獲取部分可區分性大的波段圖像,從而實現活體檢測將成為一種簡單且高效的手段??紤]到市面上 MSFA 的波段排列以及濾光片的濾光曲線,本文選用的 MSFA 包含 9 個波段,排列方式以及對應的濾光曲線如圖2 所示。該濾光片組合覆蓋了具有典型人臉活性特性的 500~600 nm 區域和960 nm 區域。

圖2 MSFA 的波段排列方式和濾光曲線圖Fig.2 Band arrangement and filtering curves of MSFA

MSFA 所獲單幀馬賽克圖像的尺寸為 1 600×1 200 像素,為了便于在消費電子端進行部署,本文直接將馬賽克圖像重新采樣為多光譜圖像。即令涂有相同濾光片的像素構成對應單波段圖像,經此操作后,所獲多光譜圖像數據的大小為533×400×9 像素。

2.2 光譜歸一化

在實際的智能安防場景中,利用攝像頭模組僅能獲取物體表面的反射輻照度信息,若缺乏相應的先驗知識,則無法計算反射率信息。因此,直接利用 MSFA 捕獲的多光譜圖像容易受到外界光照條件的影響,難以獲取物體穩定的反射特性,為后續的人臉活體檢測任務帶來挑戰。本文引入多光譜成像技術的初衷是挖掘物體反射特性,將其作為村質區分的重要判斷依據。因此,本文著重關注物體反射曲線,假定組成成分相同的物體具有相近的反射曲線,且一般不受外界光照條件影響。本文經過對 MSFA 成像原理進行研究,提出了一種光譜歸一化方法,以獲取物體的相對反射曲線,提高多光譜圖像區域一致性。令 MSFA 所獲多光譜圖像記作 ,對于任一像素,其中, 為第i個波段的光強值,光譜歸一化計算公式如公式(1)~(2)所示:

其中,E為像素總能量; 為第i通道的光強值所占總能量的比值。

由公式(1)~(2)得歸一化后像素表達式為。當外界光照條件發生變化時,MSFA 所獲各波段的灰度圖像會隨之變化,而經過歸一化后的多光譜圖像能夠降低這種影響,并且能夠使村質相同的物體具有相近的反射曲線,極大地提升了后續活體檢測的成功率。圖3 中顯示了硅膠頭模的原始偽彩色圖和歸一化后的偽彩色圖(由多光譜圖像中第 6、5、4 波段作為 R、G、B 波段組合而成),同時還對比了不同區域的同種村質所對應的反射曲線。

圖3 光譜歸一化前后的偽彩色圖和反射曲線Fig.3 Pseudo-color images and reflection curves before and after spectral normalization

由圖3 可知,光譜歸一化操作提升了同種村質的反射曲線的一致性,凸顯了物體的反射特性,降低了光照條件的影響,增加了不同村質的可區分性。除此之外,光譜歸一化后的反射曲線取值為 0 到 1,降低了神經網絡模型的收斂難度。

2.3 基于面部多區域聯合的 Transformer 模型

神經網絡模型能夠提取圖像的深層次特征,在大規模的數據上進行訓練后,能夠獲得很好的魯棒性,被廣泛應用于圖像分類和識別任務。目前,基于卷積神經網絡(convolutional neural networks,CNN)模型的人臉活體檢測技術獲得了業界認可[17-18],但是,該類模型僅能提取人臉局部區域的特征,難以關注區域之間的關聯性,仍會受到部分高逼真假體的攻擊。Dosovitskiy等[19]提出的 VIT(vision Transformer)模型將基于Transformer 的神經網絡模型引入圖像分類領域,將圖像劃分成多個圖像塊,利用注意力機制捕獲圖像塊之間的關聯,提取圖像深層次特征,為視覺理解任務開辟了新的思路。由于人臉不同區域的組成成分及紋理結構不盡相同,反映在圖像上表現為光譜特征和空間特征不同,故本文提出FPTtransformer,以獲取完備的人臉特征,并作為獨特的生物特征,以提高人臉活體檢測的準確率??紤]到活體檢測易受周圍環境干擾,且鑒于人臉典型的五官結構,本文選取 6 個人臉核心區域作為神經網絡模型的輸入,包括左眼、右眼、鼻子、左臉頰、右臉頰和嘴唇,按照一定順序輸入 Transformer 模型,最終輸出活體檢測結果,模型結構如圖4 所示。

圖4 FPTransformer 結構圖Fig.4 Schematic diagram of FPTransformer

由圖4 可知,本文提出模型的特征提取能力主要依賴于 Transformer Encoder 模塊,該模塊利用獨特的注意力機制,關聯各個人臉區域塊,綜合提取人臉的光譜特征和空間特征,提煉深層次的人臉生物特征。Transformer Encoder 模塊的核心注意力機制如圖5 所示。

圖5 Transformer Encoder 模塊的核心注意力機制圖Fig.5 Core attention mechanism diagram of TransformerEncoder module

由公式(3)~(7)可知,Transformer Encoder模塊根據輸入圖像塊之間的關聯計算相應的注意力矩陣,并對圖像進行特征提取。本文提出的FPTransformer 通過多個 Transformer Encoder 的堆疊,逐步獲取深層次特征,進而獲取整個人臉的生物特征,最終經過 Fully Connection 進行活體檢測分類,得到相應的活體檢測結果。

綜上所述,本文對人臉光譜特性進行研究(活體檢測流程圖如圖6 所示),結合智能安防領域攝像頭的特點,利用 MSFA 獲取多光譜圖像,經人臉檢測模型提取人臉面部圖像,采用光譜歸一化方法對其進行數據預處理,分割多個人臉核心區域,提出 FPTransformer,以提取人臉面部生物特征,完成高準確率的人臉活體檢測。

圖6 FPTransformer 模型流程圖Fig.6 Flow chart of FPTransformer model

與現有的人臉活體檢測方案相比,多光譜數據包含了豐富的光譜信息和空間信息,提升了人臉的可區分性。本文提出的 FPTransformer 利用人臉核心區域之間的關聯性提取人臉的本質生物特征,摒棄了部分受成像環境影響較大的區域,提升了模型的魯棒性及活體檢測準確率。

3 實驗及分析

實驗過程中將本團隊提出的 FPTransformer與幾種常用的人臉活體檢測方法在相同的數據集上進行了比較。并對實驗結果進行討論分析,充分說明本文提出方法的有效性。同時,本文將對光譜歸一化方法的有效性進行進一步論證。

3.1 實驗數據及實驗環境

本文利用 MSFA 采集真人和不同村質假體的人臉數據,通過人臉檢測模型提取相應的人臉區域,為了方便神經網絡模型處理,縮放人臉區域至相同尺寸 112×112×9 像素。經統計,多光譜人臉數據集包含真人人臉數據 75 371 張,假體人臉數據 67 324 張。按照 3∶1 的比例劃分成訓練集和驗證集,訓練集包含人臉圖像 111 992 張,驗證集包含人臉圖像 30 703 張,真人和假體數據均涉及不同人臉姿態、不同采集距離及不同光照條件。其中,假體村質包含硅膠、乳膠、樹脂、打印紙。

實驗環境配置如下:操作系統為 Ubuntu 系統,深度學習框架為 Pytorch1.7.0 和 Cuda11.4,采用 4 張 NVIDIA GeForce RTX 3080 顯卡訓練神經網絡模型。在模型訓練時,最大迭代次數為200 個 epochs,優化器為 Adam,損失函數為交叉熵損失函數。

3.2 實驗結果分析

本小節將提出的方法與基于 CNN 的模型(包括采用差分卷積的 CDCN 模型[20]、采用輕便網絡結構的 Mobilenet 模型[21]、采用密集連接的 Densenet 模型[22])和傳統的 VIT 網絡模型進行比較,以攻擊錯誤分類率(attack presentation classification error rate,APCER)、真實樣本錯誤分類率(normal presentation classification error rate,NPCER)、平均分類錯誤率(average classification error rate,ACER)和準確率(accuracy,ACC)為評價標準[23],計算公式如公式(8)~(11)所示。

其中,TP為模型預測為正的正樣本;TN為模型預測為負的負樣本;FP為模型預測為正的負樣本;FN為模型預測為負的正樣本。

為了說明多光譜圖像在人臉活體檢測方面的優越性,本文將其中的第 6、5、4 波段組合成相應的 RGB 圖像,與原始多光譜圖像就活體檢測效果進行比較。不同模型在驗證集上的實驗結果如表1 所示,同一模型包含了多光譜圖像數據集及 RGB 圖像數據集的活體檢測效果。

表1 不同神經網絡模型的實驗結果表Table 1 Experimental results of different neural network models

由表1 可知,對于同一模型而言,多光譜圖像的活體檢測效果普遍優于對應的 RGB 圖像,說明多光譜圖像能夠反映物體更多的反射特性,增強真人與假體的可區分性。對于不同的模型而言,基于 CNN 的模型在真人活體檢測方面具有較好的表現,APCER 值均低于 2%,而對假體的區分效果較差,說明該類神經網絡模型缺乏獲取人臉本質特征的能力,僅依據淺層特征對人臉進行活體檢測,在面對復雜的外部環境及多變的人臉攻擊方式時,模型泛化能力較差。而反觀基于Transformer 的神經網絡模型,雖然在真人活體檢測方面的準確率存在一定程度下降,但是對于假體的活體檢測大幅提高,且擁有更低的 ACER值。值得注意的是,本文提出的基于面部多區域聯合的 Transformer 模型在 APCER 值僅下降 1%左右的基礎上,NPCER 值提升超過 4%,且擁有最低的 ACER 值 5.10%,以及最高的 ACC值95.72%,說明本文提出的方法通過捕獲人臉不同區域之間的關聯性,提取了人臉的本質生物特征,獲得了更好的人臉活體檢測效果。為了進一步說明本文提出方法的泛化能力,對不同村質的人臉假體數據分別進行統計,如表2 所示,計算相應的準確率,結果如圖7 所示,模型輸入均為MSFA 采集的多光譜數據。

表2 驗證集假體分布表Table 2 Distribution of the validation dataset of prosthesis

圖7 不同模型在假體驗證集上的實驗結果Fig.7 Experimental results of different models on the validation dataset of prosthesis

由圖7 可知,基于 CNN 的模型對不同村質假體的活體檢測準確率差異較大,對 2D 打印假體普遍具有較高的準確率,對樹脂面具同樣具有較好的可區分性,而對于細節紋理豐富的 3D 硅膠、乳膠頭模而言,則表現較差,說明該類網絡模型對村質的可區分性較差,僅根據淺層紋理特征進行人臉活體檢測;基于 Transformer 的神經網絡模型對不同村質的假體均具有較好的檢測效果,且波動范圍較基于 CNN 的模型更小。尤其是本文提出的模型,對 3D 硅膠頭模的活體檢測準確率達到了 95.28%,充分說明該模型能夠提取人臉的生物特征,對不同村質的人臉進行準確劃分,實現高精度的人臉活體檢測。

另外,本文還將提出的光譜歸一化方法與其余常見的數據歸一化方法(包括最大值歸一化方法和通道歸一化方法)進行比較,選用的神經網絡模型為本文提出的基于面部多區域聯合的Transformer 模型,實驗結果如表3 所示。

表3 不同歸一化方法結果表Table 3 Results of different normalization methods

由表3 可知,與其他歸一化方法相比,光譜歸一化方法的各項指標均有一定程度提升,APCER 值、ACER 值、ACC 值均提升不低于2%,說明光譜歸一化方法在處理多光譜數據時能夠提升不同村質之間的可區分性,以及同種村質之間的一致性,具有獨特的優越性。

4 結 論

本文提出了一種基于面部多區域聯合的Transformer 模型,不僅獲取了人臉不同核心區域的光譜特征和空間特征,還利用它們之間的關聯性,綜合提取了人臉的深層次生物特征,獲得了高準確率的活體檢測結果。與智能安防領域中現有的人臉活體檢測方案相比,本文引入了多光譜人臉數據,拓展了光譜維度,增加了不同村質人臉的可區分性,并探索了基于 Transformer 的網絡模型在人臉活體檢測任務中的應用性。實驗結果表明,在相同的人臉數據集上,本文提出的模型獲得了高達 95.72% 的活體檢測準確率,以及低至 5.10% 的錯分率,優于其他常用的人臉活體檢測模型,充分說明了該方法的有效性。在之后的研究中,不僅需要對人臉區域劃分進行更多的研究,以求選擇最優的區域組合,還需要對神經網絡模型進行優化,獲得更為豐富的人臉特征,提高真人活體檢測準確率,以在消費電子領域獲得更為廣泛的應用。另外,由于多光譜濾波陣列的濾光片選擇有限,不能針對性選擇波段,因此無法獲得可區分性最好的人臉特征波段。

猜你喜歡
活體人臉假體
友愛的“手”
Not afraid of incompleteness,living wonderfully
當歸六黃湯治療假體周圍骨折術后低熱疑似感染1例
有特點的人臉
張帆:肝穿刺活體組織學檢查
讓活體肝移植研究走上世界前沿
活體器官移植,你怎么看?
三國漫——人臉解鎖
保留假體的清創術治療急性人工關節感染
“汪星人”要打“飛的”——話說活體空運
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合