?

注意力融合雙流特征的局部GAN生成人臉檢測算法

2023-06-25 01:43陳北京喻樂延舒華忠
關鍵詞:子集人臉注意力

陳北京 王 鵬 喻樂延 舒華忠

(1南京信息工程大學計算機學院, 南京 210044)

(2南京信息工程大學雷丁學院, 南京 210044)

(3東南大學影像科學與技術實驗室, 南京 210096)

隨著基于生成式對抗網絡(GAN)的人臉生成技術的出現與發展,許多人臉處理工具被相繼提出,使得人臉身份認證技術變得不再安全[1].人臉偽造檢測也成為數字圖像盲取證領域的熱點研究方向之一[2-3].近年來,人們提出了許多檢測方法[4-12]來識別惡意的GAN生成人臉.這些方法大致可以分為2類:基于內在統計特征的方法[4-7]和基于深度學習的方法[8-12].前者利用自然圖像和GAN生成圖像之間某一類型屬性的不一致進行辨別,如人臉屬性[4-5]、全局對稱性[6]和顏色信息[7]等.然而,由于這些基于內在統計特征的方法大都以手工方式提取特征,其檢測性能受到限制.而基于深度學習的方法則通過網絡自動學習來提取所需的特征,通常比前者更有效.Liu等[8]通過結合Gram矩陣和ResNet網絡來提取全局紋理特征以提高檢測網絡的魯棒性.He等[9]利用淺卷積神經網絡提取多個顏色空間的色度分量來提高檢測網絡的魯棒性. Chen等[10]進一步研究發現,亮度分量和色度分量對GAN生成人臉檢測網絡的魯棒性都起著重要作用,并且在YCbCr、RGB、HSV和Lab四種顏色空間中,使用YCbCr顏色空間和RGB顏色空間更有利于提高網絡對不同后處理圖像的檢測性能,因此采用雙流網絡從YCbCr顏色空間和RGB顏色空間提取特征來檢測GAN生成人臉.Chen等[11]提出結合全局特征和局部特征來檢測GAN生成人臉,并取得了較好的泛化性.

上述生成人臉檢測算法的提出均基于整張人臉都是生成的,即均為全局GAN生成人臉檢測算法.但在一些實際情況中,只有小部分甚至極小部分的區域是生成的,且隨機出現在人臉中的某個位置,導致特征更難提取和分辨.以上全局GAN生成人臉檢測方法在局部GAN生成人臉檢測任務中可能效果受限.為此,Chen等[12]首次針對局部GAN生成人臉檢測任務開展了研究,利用空洞卷積技術和特征金字塔改進Xception網絡以用于檢測,并取得了較好的檢測效果.然而,在實際場景中,生成的人臉常常伴隨著一些后處理操作,如JPEG壓縮、噪聲和模糊等.而該工作在檢測經過后處理的人臉圖像時,檢測性能大大降低.

本文提出了一種注意力融合雙流特征的局部GAN生成人臉檢測算法.利用GAN生成圖像的偽影痕跡在RGB和YCbCr顏色空間中更穩定的特性,設計了一個雙流網絡從這2種顏色空間中提取魯棒特征,并采用注意力特征融合模塊融合雙顏色空間特征,以增強關鍵特征信息,獲得更魯棒的特征表示.同時,設計多層次特征融合決策以有效提升網絡對局部生成區域特征的提取能力和辨別能力.實驗表明,本文算法針對多種后處理操作的魯棒性優于現有算法.

1 注意力融合雙流特征算法

本文提出的注意力融合雙流特征算法總體架構如圖1所示.首先,采用雙流網絡從RGB和YCbCr顏色空間中提取特征,并利用注意力特征融合模塊在淺、中、深3個網絡層上自適應地融合2個顏色空間特征;然后將融合后的淺、中、深層特征圖分別經過全局平均池化和全連接層映射得到3個具有判別信息的特征向量;最后,將它們相加融合得到最終的特征向量來進行分類決策.

圖1 注意力融合雙流特征算法總體架構圖

1.1 顏色空間轉換

Chen等[10]比較了YCbCr、RGB、HSV和Lab四種顏色空間對不同后處理人臉圖像檢測性能的影響,發現使用YCbCr顏色空間和RGB顏色空間取得了更好的性能,尤其對于JPEG壓縮,使用YCbCr顏色空間時檢測性能最佳,并且這2種顏色空間對不同的后處理操作有不一樣的影響.因此,本文同時從YCbCr和RGB顏色空間中提取魯棒特征.

YCbCr顏色空間已經廣泛應用于圖像和視頻壓縮標準,如JPEG壓縮和MPEG壓縮等.YCbCr顏色空間和RGB顏色空間之間的轉換關系如下:

(1)

式中,Y、Cb和Cr分別為YCbCr顏色空間中的亮度分量、藍色色度分量和紅色色度分量;R、G和B分別為RGB顏色空間中的紅色色度分量、綠色色度分量和藍色色度分量.待檢測RGB人臉圖像通過式(1)可轉換得到YCbCr顏色空間圖像,隨后將2種不同顏色空間的待檢測人臉圖像分別輸入到對應的RGB流和YCbCr流特征提取網絡.

1.2 特征提取網絡

Xception[13]是卷積神經網絡Inception-V3[14]的改進版.文獻[13]認為通道之間的相關性和空間之間的相關性需要分開處理,因此將Inception-V3中的普通卷積改為深度可分離卷積.不同于普通卷積,深度可分離卷積將卷積操作分成2步:① 在輸入特征的每個通道上,分別使用空間卷積進行卷積操作;② 使用1×1卷積將上一步得到的特征在通道上進行加權組合.深度可分離卷積的這種操作方式不僅可以降低網絡的參數數量,同時也可以減少運算量.文獻[1]和文獻[15]分別在GAN生成人臉檢測任務和偽造人臉視頻檢測任務中對一些經典網絡的檢測性能進行了對比,發現Xception網絡均展現了最好的性能.因此,本文采用Xception作為2個分支的特征提取網絡.

Xception特征提取網絡的結構如圖2所示,可分為輸入流、中間流、輸出流3個部分.其中輸入流為特征提取網絡中的淺層網絡,中間流為中層網絡,輸出流為深層網絡.由于后續多層次特征融合決策的設計,本文省去了輸出流中的全局平均池化層和全連接層.

圖2 Xception特征提取網絡結構圖

1.3 注意力特征融合模塊

特征融合是指將多個特征組合成一個比其中任一輸入特征更具鑒別性的新特征.在圖像取證任務中,融合2種或更多類型的特征可以有效提高網絡的檢測精度和魯棒性[16].如前所述,YCbCr顏色空間和RGB顏色空間在抵抗不同后處理操作的影響上各有優勢[10].顯然,融合2種顏色空間的特征可以獲得更好的檢測效果.此外,由于局部GAN生成人臉中的生成區域較小,偽影痕跡難以捕獲,有必要引導網絡學習更重要的特征.因此,本文引入包含通道注意力和空間注意力的注意力特征融合模塊[17],通過2種注意力機制來增強RGB流和YCbCr流特征,再將增強后的特征相加融合.

注意力特征融合模塊的結構如圖3所示,主要由通道注意力模塊和空間注意力模塊組成.通道注意力模塊和空間注意力模塊的結構分別如圖4和圖5所示.在通道注意力模塊中,首先根據尺寸為H×W×C的輸入特征構造尺寸為1×1×C的通道加權向量,然后將輸入特征與通道加權向量相乘得到尺寸為H×W×C的輸出特征,目的是使網絡更關注含有重要信息的特征通道.在空間注意力模塊中,首先根據尺寸為H×W×C的輸入特征構造尺寸為H×W×1的空間加權矩陣,然后將輸入特征與加權矩陣相乘得到尺寸為H×W×C的輸出特征,目的是使網絡更關注含有重要信息的位置.

圖3 注意力特征融合模塊結構

圖4 通道注意力模塊結構

圖5 空間注意力模塊結構

如圖3所示,在注意力特征融合模塊中,首先將尺寸均為H1×W1×C的RGB顏色空間特征FR和YCbCr顏色空間特征FY分別用2個注意力模塊進行增強.然后將相同類型的注意力增強特征相加后進行卷積操作,得到通道注意力增強特征Fc和空間注意力增強特征Fs,其計算公式如下:

Fc=C(Ac(FR)+Ac(FY))

(2)

Fs=C(As(FR)+As(FY))

(3)

式中,C(·)為步長為1的3×3卷積操作;Ac(·)和As(·)分別為通道注意力模塊和空間注意力模塊中的操作.最后,將通道注意力增強特征Fc和空間注意力增強特征Fs相加后進行卷積操作,得到尺寸為H2×W2×C的融合特征F, 即

F=C(Fc+Fs)

(4)

1.4 多層次特征融合決策

由于局部GAN生成人臉中的生成區域通常較小,這些局部生成區域經過包含多個卷積層的深度網絡傳播后,在最終輸出的特征圖中可能會縮小至一個點,甚至完全消失,從而導致最終的特征向量無法進行有效的分類決策.因此,本文采用多層次特征融合決策,首先利用注意力特征融合模塊分別在特征提取網絡的淺、中、深3個網絡層上融合RGB顏色空間和YCbCr顏色空間特征,得到尺寸依次為12×12×728、12×12×728和4×4×2 048的淺層特征圖、中層特征圖和深層特征圖;然后分別將這3個特征圖經過全局平均池化和全連接層映射得到3個具有判別信息的特征向量,多層次特征融合決策中的全連接層均含有2個神經元;最后將3個特征向量相加融合,得到最終的特征向量并進行Softmax分類決策.

整個網絡的損失函數采用交叉熵函數表達,即

(5)

式中,L為交叉熵函數;i為第i個樣本;yi為真實標簽;pi為預測結果對應標簽的概率.

2 實驗

2.1 實驗數據集

本文使用FFHQ數據集[18]和LGGF數據集[12]作為實驗數據集.其中,FFHQ數據集為真實人臉圖像數據庫,包含7×104幅不同年齡、種族、性別的高質量自然人臉圖像.LGGF數據集是Chen等[12]在FFHQ數據集基礎上創建的局部GAN生成人臉數據集,LGGF數據集制作流程如圖6所示.圖中,局部生成區域對應于二值圖Mask中的白色區域,包括規則矩形和不規則形狀2種類型,每種類型均考慮了0.5%、1.5%、2.5%、3.5%、4.5%、5.5%六種不同的整張圖像生成區域比例,且每種比例的二值圖Mask數量均為7×104幅.首先,將FFHQ數據集中所有圖像分辨率調整為256×256像素,并將調整后的FFHQ數據集與這2種類型的6種不同比例的二值圖Mask組合,得到12種含有待生成區域的人臉圖像數據集.然后使用Zheng等[19]提出的多元修復算法修復這12種含有待生成區域的人臉圖像數據集,得到的LGGF數據集共有8.4×105幅圖像,圖像分辨率為256×256像素.本文從LGGF數據集中選取圖像,根據圖像中的生成區域是否規則將選取的圖像分為規則子集和不規則子集,每個子集均有7×104幅圖像,并分別與調整分辨率后的FFHQ數據集組合成FFHQ+規則子集和FFHQ+不規則子集2個數據集用于實驗.

圖6 LGGF數據集制作流程

實驗中,本文采用和文獻[12]同樣的數據集劃分方式,將上述2個數據集分別按5∶1∶4的比例分為訓練集、驗證集和測試集,且訓練集、驗證集和測試集中6種生成區域比例的圖像數量相等.其中,驗證集用于調整模型訓練過程中設置的超參數,如學習率、批處理大小等.此外,為了測試本文算法的魯棒性,分別對2個測試集進行5種常見的后處理操作,包括JPEG壓縮(壓縮質量因子為90、85、80),中值濾波(卷積核大小為3×3、5×5、7×7),椒鹽噪聲(噪聲比為0.6%、0.8%、1.0%),高斯濾波(卷積核大小為3×3、5×5、7×7),雙邊濾波(卷積核大小固定為3×3,sigma參數分別為(25,25)、(50,50)、(75,75)).

2.2 實驗設置

所有實驗均在PyTorch框架上進行,并在11 GB GeForce GTX1080Ti、3.2 GHz i7-6900K CPU、64 GB RAM的環境下訓練模型.在訓練階段使用Adam優化算法[20],并采用學習率固定為1.0×10-4的學習率策略.本文使用二分類任務中常用的標準度量準確率作為算法性能的評價指標.

2.3 消融實驗

為了驗證所提出的雙流特征提取、注意力特征融合和多層次特征融合決策這3個改進方法的有效性,本節對5種不同算法的消融實驗結果進行了對比:① 僅將RGB圖像輸入Xception網絡進行分類的RGB算法;② 將RGB圖像轉換到YCbCr顏色空間后輸入Xception網絡進行分類的YCbCr算法;③ 首先將雙流特征提取網絡最終的輸出特征相加融合,然后利用融合后的特征進行決策的RGB+YCbCr算法;④ 首先利用注意力特征融合模塊(M1)融合雙流特征提取網絡的最終輸出特征,然后利用融合后的特征進行決策的RGB+YCbCr+M1算法;⑤ 首先在雙流特征提取網絡的淺、中、深3個網絡層上,分別利用M1融合雙流特征,然后利用多層次特征融合決策(M2)的RGB+YCbCr+M1+M2算法.5種不同算法在FFHQ+規則子集和FFHQ+不規則子集上的消融實驗結果分別如圖7和圖8所示.從圖中可知,RGB顏色空間和YCbCr顏色空間對不同后處理操作有著不同的影響.因此,RGB+YCbCr算法同時使用這2種顏色空間作為輸入是有意義的.相較于將特征簡單地相加融合,RGB+YCbCr+M1算法利用注意力特征融合模塊獲得了更好的檢測性能,且RGB+YCbCr+M1+M2算法利用多層次特征融合決策有效提高了網絡的檢測性能.在FFHQ+規則子集上,相較于最初的RGB算法,本文算法RGB+YCbCr+M1+M2在JPEG壓縮、中值濾波、椒鹽噪聲、高斯濾波和雙邊濾波上的平均檢測準確率分別提高了3.98%、4.37%、1.32%、7.48%和3.87%.在FFHQ+不規則子集上,相較于最初的RGB算法,本文算法RGB+YCbCr+M1+M2在上述5種后處理上的平均檢測準確率分別提高了3.24%、1.57%、4.25%、4.16%和2.77%.消融實驗準確率結果不但充分驗證了雙流特征提取、注意力特征融合和多層次特征融合決策單個改進方法的有效性,而且證明了這3個方法融合后可以獲得最佳的檢測效果.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

圖7 在FFHQ+規則子集上的消融實驗結果

2.4 性能測試

為了評估本文算法的有效性,將提出算法與文獻[8,10,12-13,21]中的現有算法進行對比.其中,文獻[21]算法采用的是Efficientnet_b0版本,由于該版本適用的分辨率為224×224像素,因此,將該算法的輸入圖像分辨率調整為對應大小.本文算法在未經后處理的FFHQ+規則子集和FFHQ+不規則子集上與其他算法的準確率對比結果如表1所示.從表中可以看出,在檢測未經后處理的圖像時,所有算法都表現良好,并且本文提出的算法優于其他算法.本文算法在FFHQ+規則子集和FFHQ+不規則子集上的準確率分別比次優算法提高了0.06%和0.2%.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

表1 本文算法與其他算法的準確率對比 %

本文算法在經不同后處理操作的FFHQ+規則子集和FFHQ+不規則子集上與其他算法的魯棒性能比較分別如圖9和圖10所示.從圖中可以看出,各算法的檢測準確率都隨著后處理操作強度的加強而降低.由于本文算法采用了RGB 和YCbCr兩種顏色空間,同時利用注意力特征融合模塊對雙流特征進行了增強融合,并利用多層次特征融合決策提高了網絡對局部生成區域特征的提取和辨別能力,因此本文算法的檢測性能總體上優于相關對比算法.尤其是針對JPEG壓縮和雙邊濾波后處理,在FFHQ+規則子集和FFHQ+不規則子集上,本文算法在3種強度的JPEG壓縮和雙邊濾波上的檢測性能均為最優.在FFHQ+規則子集上與次優算法相比,該算法在3種強度的JPEG壓縮和雙邊濾波上的平均準確率分別提高了1.88%和2.64%.在FFHQ+不規則子集上與次優算法相比,該算法在3種強度的JPEG壓縮和雙邊濾波上的平均準確率分別提高了2.85%和1.60%.

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

(a) JPEG壓縮

(b) 中值濾波

(c) 椒鹽噪聲

3 結論

1) 針對局部GAN生成人臉檢測算法魯棒性不足的問題,采用雙流網絡從RGB和YCbCr兩種顏色空間中提取魯棒特征,通過引入注意力特征融合模塊在不同網絡層融合雙流特征以獲得更魯棒的特征,并設計了多層次特征融合決策提高網絡對局部生成區域特征的提取和辨別能力.

2) 在FFHQ+規則子集和FFHQ+不規則子集上進行消融實驗.結果表明,同時采用RGB顏色空間和YCbCr顏色空間,引入注意力特征融合模塊以及設計多層次特征融合決策均有助于提升本文局部GAN生成人臉圖像檢測算法的魯棒性.

3) 性能測試實驗結果表明,本文算法的魯棒性總體上優于現有算法,尤其是針對JPEG壓縮和雙邊濾波這2種后處理操作,本文算法的檢測性能均為最優.在FFHQ+規則子集上,與次優算法相比,本文算法在3種強度的JPEG壓縮和雙邊濾波上的平均準確率分別提高了1.88%和2.64%.在FFHQ+不規則子集上,與次優算法相比,本文算法在3種強度的JPEG壓縮和雙邊濾波上的平均準確率分別提高了2.85%和1.60%.

猜你喜歡
子集人臉注意力
讓注意力“飛”回來
拓撲空間中緊致子集的性質研究
有特點的人臉
連通子集性質的推廣與等價刻畫
關于奇數階二元子集的分離序列
三國漫——人臉解鎖
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
每一次愛情都只是愛情的子集
馬面部與人臉相似度驚人
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合