基于局部和全局特征的深度偽造檢測方法

2023-12-20 03:13楊新露

哈爾濱商業大學學報（自然科學版） 2023年6期

楊新露,程健,張凱

(1.安徽理工大學計算機科學與工程學院,安徽淮南 232001; 2.安徽理工大學人工智能學院,安徽淮南 232001)

神經網絡已經應用于計算機視覺的各個領域,深度偽造技術也迅速發展,其主要通過生成對抗網絡[1]和自編碼器[2]實現,旨在對圖像或視頻中的人臉進行替換、修改面部屬性或表情以及合成不存在的人臉.現在的偽造模型可以生成高質量的虛假人臉,人眼無法直接辨別真假.此外,即使是非專業人士不了解生成原理也可以通過應用程序和開源工具生成高質量的虛假圖像.雖然深度偽造可以應用于計算機生成圖像、虛擬現實、增強現實、教育、藝術、動畫和電影制作[3]等方面,但是偽造方法也可能應用于惡意的目的.這些偽造的圖像或視頻上傳到互聯網上傳播虛假信息或者金融欺詐等,對個人和社會帶來嚴重的危害[4].

為了解決這些威脅,深度偽造檢測技術不斷發展來確定數字媒體的可信度和真實性.早期的深度偽造檢測算法主要基于手工制作的特征和可見的偽影進行判別,如頭部姿勢不一致、眨眼、面部偽影等.近幾年開始使用卷積神經網絡[5]檢測虛假圖像或視頻.卷積神經網絡能夠學習局部區域的微小視覺偽影來區分圖像真假,也取得了比較高的準確性[6].由于卷積神經網絡的感受野受限,只能通過學習局部紋理來區分真假.然而局部紋理在數據集間不同導致一些檢測方法在FaceForensics++[7]進行訓練和測試時顯示出優越的性能,在Celeb-DF[8]或其他數據集上進行測試時準確性大幅度下降.因此,深度偽造檢測方法的泛化性需要進一步提高.

一些偽造圖像通過局部特征檢測時是正常的,但是從全局特征中可以檢測到偽影,因此提出了基于局部和全局特征的深度偽造檢測方法來提高泛化性.首先,通過多尺度Transformer模塊從不同尺寸的圖像塊中提取全局特征.此外,使用滑動窗口對圖像進行分塊,保存圖像塊間的相鄰信息,從而更好地提取圖像全局信息.進一步,將EfficientNet網絡作為骨干網絡,通過注意力機制提取圖像局部特征.然后將全局特征和局部特征結合學習偽造圖像中的偽影,對深度偽造人臉進行分類.在FaceForensics++、Celeb-DF和DFDC[9]數據集上的實驗結果表明,所提出的方法在不同數據集之間具有一定的泛化性.

1 相關工作

1.1 深度偽造生成

深度偽造主要是由生成對抗網絡和自編碼器等深度生成模型實現,對圖像或視頻中的人臉圖像進行篡改,生成逼真的虛假人臉.生成對抗網絡使用生成器和判別器兩個網絡生成虛假人臉,判別器判別接收到圖像的真假,生成器生成逼真的虛假圖像以欺騙判別器.生成對抗網絡在深度偽造領域獲得了可信和逼真的結果,如StarGAN[10]、DiscoGAN[11]和StyleGAN-v2[12]等.自編碼器生成假臉的方法是使用編碼器-解碼器分解和重組兩個不同的人臉圖像,通過交換解碼器對人臉圖像進行篡改.現在深度偽造方法多種多樣,需要具有泛化性的方法進行檢測.

1.2 深度偽造檢測

為了避免深度偽造帶來的安全威脅,研究人員提出了多種深度偽造檢測方法.早期的深度偽造檢測算法主要基于手工制作的特征和可見的偽影進行判別,如頭部姿勢不一致、眨眼、面部偽影等.現有的大多數面部偽造方法會將更改后的面部混合到現有的背景圖像中.因此,現在主要是使用深度神經網絡通過檢測視覺偽影或混合邊界來判別真假.Li等人[13]使用面部X射線檢測偽造邊界來判別圖像真假.Zhao等人[14]為了挖掘更多細微的偽影提出了多注意力機制進行深度偽造檢測,并將深度偽造檢測制定為細粒度分類問題.Qian等人[15]發現深度偽造圖像或視頻中的偽影會被壓縮操作破壞,但是在頻域中仍然可以檢測到,提出了空頻結合的深度偽造檢測方法.Saikia等人[16]利用基于光流的特征提取方法來提取時間特征,通過分析視頻幀內和幀間差異來準確識別真實性.雖然這些檢測方法在同一數據集進行訓練與測試時取得了較高的準確性,但是在其他數據集上進行測試時有效性降低,深度偽造檢測方法的泛化性有待提高.

1.3 Transformer

Transformer[17]是基于多頭注意力機制的模型,具有強大的上下文建模能力.Transformer在機器翻譯、文本分類、問題回答等自然語言處理任務中表現了出色的性能,如BERT[18],BioBERT[19]和GPT-3[20]等.最近Transformer擴展到圖像領域應用于計算機視覺任務,如目標檢測[21]、圖像分割[22]、圖像分類[23]等.ViT(Vision Transformer)[24]將圖像處理成16×16的圖像塊,然后形成圖像片序列,直接輸入到Transformer的編碼器中進行圖像分類.現在研究人員開始使用Transformer進行深度偽造檢測.Khan等人[25]使用ViT進行深度偽造檢測,他們提出了增量學習策略,在較小的數據量上對所提出的模型進行調整,獲得更好的檢測性能.Wodajo等人[26]提出了卷積ViT,使用卷積神經網絡提取特征,并使用ViT對學習的特征進行分類,取得了較好的檢測性能.

2 基于局部和全局特征的深度偽造檢測方法

本文提出了基于局部和全局特征的深度偽造檢測模型,整體框架如圖1所示.本文首先使用RetinaFace[27]從視頻中提取人臉,然后使用Transformer網絡結構和注意力模塊分別提取局部和全局特征,最后通過這些特征對人臉圖像進行分類.

圖1 基于局部和全局特征的深度偽造檢測模型整體框架

2.1 提取視頻幀和人臉

在深度偽造過程中主要是對人臉的面部區域進行篡改,背景區域一般保持不變.去除背景噪聲后基于人臉區域訓練模型,可以降低計算復雜度,提高模型的性能.因此本文從輸入的視頻中隨機提取人臉圖像,然后采用RetinaFace[27]進行人臉檢測,根據五個標記點定位人臉面部矩形.對于圖像中有多張人臉的情況,將檢測到的人臉矩形的中心點與掩碼的中心點進行比較,以確定檢測到的人臉位置.本文將面部矩形放大1.2倍后裁剪每個幀上的面部區域,大小調整為224×224,并使用計算出的標記進行人臉對齊.

2.2 Transformer提取全局特征

在使用Transformer模型分析圖像時,需要把輸入圖像I分成較小的圖像塊IP,然后組成序列.為了保存和學習局部區域的相鄰信息,使用滑動窗口的方式對圖像進行分割,將重疊的圖像塊作為輸入.具體來說,將分辨率為H×W的輸入圖像分成大小為P×P的圖像塊,通道數不變,都為C.滑動窗口的步幅為S,每個相鄰的圖像塊共享一個大小為P×(P-S)的相鄰區域.因此,可以將輸入的圖像分成N個圖像塊:

(1)

將獲得的圖像塊展平并投影到潛在的D維線性空間,先添加上圖像的編碼特征,然后添加可學習的位置編碼保留每個圖像塊的位置信息,如式(2)所示:

(2)

其中:E∈P2×(C·D)是圖像塊編碼,Epos∈(N+1)×D表示位置編碼.

Transformer模型主要包括多頭注意力模塊和多層感知機模塊,具體結構如圖2所示.多頭注意力模塊可以更好地學習全局特征,對輸入X執行三個可學習的線性投影WQ、WK和WV,通過式(3)生成Q(Query)、K(Key)和V(Value):

圖2 Transformer結構圖

Q=XWQ,K=XWK,V=XWV

(3)

然后矩陣Q、K和V通過式(4)進行自注意力計算.

(4)

其中:dK是K中每個輸入向量的維度.

每一層的輸出可以表示為:

(5)

ViT中使用固定大小的圖像塊,只能在小部分區域提取特征.為了更好地從全局中提取信息,提出了多尺度Transformer模塊,有利于提取更細微的面部細節.所提出的多尺度Transformer框架由兩個分支組成,包括小圖像塊分支和大圖像塊分支.這兩個分支的主要區別是圖像塊的大小以及如何從這些圖像塊編碼和位置編碼中構建序列塊編碼.小圖像塊分支從較小尺寸的圖像塊中提取信息,大圖像塊分支從較大的圖像塊中提取更多的全局信息.最后將提取的兩部分特征進行互補對偽造人臉分類.

2.3 EfficientNet提取局部特征

由于真實和虛假人臉圖像之間的差異也存在于局部區域中,在提取全局特征的同時也需要注意局部特征.本文提出了基于注意力機制定位圖像的偽造區域來獲取局部偽造特征,然后使用區域獨立性損失函數[14],允許多個注意力圖聚焦在人臉的不同區域.

給定輸出圖像I,主干網絡用f表示,從第t層提取的特征圖用ft(I)表示,大小為Ct×Ht×Wt,其中:H、W和C分別表示特征圖的高度、寬度和通道數.然后將主干網絡特定層生成的特征圖ft(I)輸入到輕量級注意力模塊.該模塊由一個3×3卷積層、一個1×1卷積層、兩個批歸一化層和兩個ReLU激活函數組成,具體模塊如圖3所示.注意力模塊生成大小為Ht×Wt的多個注意力圖,對應于特定的判別區域.

圖3 注意力模塊

由于不同的注意力圖傾向于集中在圖像中的相同區域,影響網絡捕獲更多的偽造痕跡.本文將Zhao等人[14]提出的區域獨立性損失與交叉熵損失結合,將注意力映射到不同的偽造區域.最終的目標函數見式(6):

L=λ1*LBC+λ2*LRIL

(6)

其中:λ1和λ2是這兩個損失函數的平衡權重,在實驗中設置為λ1=λ2=1.

3 實驗部分

3.1 數據集和評估指標

本文使用三個公開的人臉偽造數據集進行實驗,即FaceForensics++(FF++)[7]、Celeb-DF[8]和DFDC[9].FF++是Deepfake檢測領域最流行的數據集之一.FF++包含1 000個原始視頻和4 000個偽造視頻.原始視頻是R?ssler等人從YouTube收集,偽造視頻是由Deepfakes、FaceSwap、Face2Face和NeuralTextures這四種偽造方法生成.網絡上大多數視頻經過壓縮,為了模擬真實的偽造視頻,使用不同壓縮級別的H.264編碼器進行壓縮,生成高質量(C23)和低質量(C40)視頻.Celeb-DF數據集包括590個不同年齡、種族和性別的受試者的原始視頻,5 639個Deepfakes偽造視頻,總幀數超過230萬.該數據集是一個高質量偽造視頻數據集,對大多數現有檢測方法具有一定的挑戰性.DFDC數據集是由Facebook主辦的Deepfake檢測挑戰賽構建的大規模Deepfake數據集.該數據集包含3 426名付費演員的10萬個視頻,使用多種Deepfake和基于GAN的多種面部操作方法合成.

為了評估本文方法的有效性,采用準確率(ACC,Accuracy)和ROC曲線面積(AUC,Area Under the receiver operating characteristic Curve)進行評估.ACC計算公式如下:

(7)

其中:TP(True Positive)表示真臉預測為真,TN(True Negative)表示假臉預測為假,FP(False Positive)表示假臉預測為真,FN(False Negative)表示真臉預測為假.ROC曲線的橫坐標為TPR(真正例率),縱坐標為FPR(假正例率),從而獲得AUC值.AUC常用于圖像和視頻領域的分類任務,可以更直觀地反應分類模型的優劣程度.ACC和AUC越大表明分類器的性能越好.

3.2 實驗設置

本文提出的模型使用Pytorch深度學習框架實現.為了加快訓練速度并取得更好的分類效果,加載在ImageNet數據集[28]上的預訓練模型.在訓練時使用Adam優化器,學習率為0.001,批量大小為8,epoch設置為50.

3.3 實驗結果

3.3.1 數據集內評估

本文在FaceForensics++數據集不同質量的視頻上進行訓練與測試,并與其他檢測方法進行比較,實驗結果如表1所示.在人臉的局部和全局提取特征使得本文方法在低質量的視頻上ACC達到了90.8%,AUC達到了93.67%,與其他方法相比取得了較好的結果.

表1 FaceForensics++數據集內對高質量和低質量視頻的評估結果

3.3.2 跨數據集泛化性評估

現在的檢測方法在訓練集上取得了較好的檢測性能,但是在其他數據集上測試時性能嚴重下降.為了評估本文方法在不同數據集之間的泛化性,在FaceForensics++數據集上進行訓練,然后在Celeb-DF和DFDC數據集上進行測試,實驗的AUC結果見表2.本文方法在Celeb-DF數據集上測試的AUC結果達到77.3%,在DFDC數據集上達到73.32%,在這兩個數據集上的性能都優異于其他檢測方法.通過與現有的方法比較,證明了本文方法能夠捕獲更多的偽造偽影,具有良好的跨數據集泛化能力.

表2 在Celeb-DF和DFDC數據集上的泛化結果(AUC(%))

3.3.3 不同偽造方法泛化性評估

本文進一步在FaceForensics++數據集的不同偽造方法生成的假視頻中評估泛化性,在FaceForensics++數據集的3種偽造方法生成的數據集上進行訓練并在剩余的偽造方法上進行測試.實驗結果如表3所示,本文方法在4中偽造類型上測試的AUC值都達到了90%以上.本文使用Transformer提取全局特征并使用EfficientNet提取局部特征,更全面的捕捉各種偽造痕跡,因此本文方法可以很好地擴展到以前未見的深度偽造類型.

表3 FaceForensics++數據集上不同偽造方法之間的泛化效果(AUC(%))

3.4 消融研究

本文方法主要是通過Transformer提取全局特征和注意力網絡提取局部特征后對圖像進行分類.為了評估全局特征與局部特征結合的有效性,本節在FaceForensics++數據集上進行消融研究.實驗結果如表4所示,本文方法與僅使用全局特征相比ACC提高了5.57%,AUC提高了4.52%.實驗結果表明將全局特征與局部特征結合能夠提高檢測性能.

表4 在FaceForensics++數據集上的消融實驗結果

4 結語

針對目前深度偽造檢測方法泛化性較差問題,本文提出了基于圖像局部和全局特征進行分類的方法.通過多尺度Transformer模塊從不同尺寸的圖像塊中提取特征,并保存圖像塊間的相鄰信息,更全面的提取全局特征.使用EfficientNet網絡作為骨干網絡,并通過注意力機制提取圖像局部特征.實驗結果表明本文方法能夠比現有檢測方法捕獲更多的偽影,在不同數據集和偽造方法之間表現出更好的泛化性.