?

基于增量學習的深度人臉偽造檢測

2023-12-24 10:34趙澤軍范振峰丁博夏時洪
數據與計算發展前沿 2023年6期
關鍵詞:增量人臉分類

趙澤軍,范振峰,丁博,夏時洪*

1.中國科學院計算技術研究所,北京 100190

2.中國科學院大學,北京 100049

引 言

深度偽造起源于人臉合成技術,2015-2016年,美國程序員圈子開始利用此技術制作“換頭”視頻用于娛樂消遣。2017 年年底,Reddit 網站用戶“Deepfakes”在網上發布了一段經過AI技術篡改的某女星的不雅視頻,這一事件正式標志著人臉視頻深度偽造技術的興起[1]。此后,隨著DeepFake 技術的不斷發展,基于其技術的軟件已經開始普及,如國外Facebook 公司出品的Face Swap Live 軟件、國內陌陌公司出品的Zao軟件等,其能自動快捷地合成人臉圖像和視頻,降低了偽造技術的門檻,使得個人可以輕易地篡改已有圖像和視頻中的內容,尤其是人臉,DeepFake 技術也逐漸從娛樂領域滲透到媒體、體育、政治等各領域。如2016 年,美國大選期間,特朗普支持者制作佩洛西的偽造視頻擾亂選舉秩序;2018 年,美國出現了前任總統辱罵時任總統的偽造視頻;2022 年,俄烏沖突期間,互聯網上出現了與兩國總統發言不實的偽造視頻[2]。鑒于人臉偽造技術帶來的負面影響,先后涌現出大量的人臉偽造檢測方法[3]。

伴隨著深度學習的發展,偽造檢測技術從傳統的機器學習分類模式逐漸演變為利用各種關鍵特征的微小差異來進行真偽檢測?,F有的偽造檢測技術主要包括但不限于以下4類:

(1)基于深度神經網絡特征提取的方法。此類方法將真實樣本和合成樣本直接送入神經網絡中進行有監督訓練,期望網絡學習到正負樣本不同的內在分布,并通過一個二分類器輸出預測結果。這類方法往往依賴于網絡本身,特征提取能力強的網絡通常有更好地分類結果,目前最流行的基礎網絡如ResNet[4]、CapsuleNet[5]、XceptionNet[6]以及EfficientNet[7]等已經被用于人臉偽造檢測任務。這些方法在域內測試了良好的檢測結果,但在域間測試檢測性能大幅下降,表現為泛化性能的不足。因此,很多工作致力于提高網絡的泛化性能,共同思路都是希望通過找到或者強化合成數據存在的偽造痕跡來進行判別。Yu 等[8]提出通過挖掘通道差分圖像和頻譜圖像中的內在特征來改進網絡的泛化能力;Liu 等[9]提出利用全局圖像紋理信息來進行偽造檢測的網絡結構Gram-Net,并改善了泛化能力;楊少聰等[10]提出用多級特征全局一致性的方法提高了網絡的泛化能力。這些工作推進了偽造檢測技術的發展,但還不能較好地解決泛化能力不足的問題。

(2)基于圖像上下文空間的檢測方法。此類方法認為合成圖像只是對圖像中面部區域進行了篡改,而圖像中其他部分(比如背景、軀干)并沒有更改,理論上真實圖像和合成圖像內部存在著必然的不同,真實圖像內部是連續的,而合成圖像內部則是拼接而成,由此可進行真偽檢測。Li 等[11]發現合成的人臉圖像擁有一種融合邊界,而真實圖像沒有這樣的邊界,提出了一種檢測邊界融合痕跡的Face-X-Ray 方法;Dang等[12]提出利用注意力機制來定位人臉圖像中的偽造區域,并用其改進最后的分類任務;蔣小玉等[13]提出了將篡改區域定位、篡改邊緣提取和真偽判別分類融為一體的三分支多任務學習框架,并加粗篡改邊緣輔助最后的分類?;趫D像上下文空間的檢測方法對于只存在局部篡改的圖像有較好檢測性能,并且通常比直接用神經網絡進行特征提取的方法具有更優的泛化性能,但是對于整體合成的圖像,這類方法檢測效果欠佳。

(3)基于視頻時序信息的檢測方法。視頻的本質是幀的快速切換,現有的人臉偽造視頻大多是對每一幀分別進行偽造和處理,再壓縮編碼制成最后的視頻,因此相鄰幀間通常會產生時空差異。Güera 等[14]提出了一種時間感知管道,該管道首先利用CNN(Convolutional Neural Network)提取幀級特征,隨后將特征送入RNN(Recurrent Neural Network)中進行訓練,最后用訓練好的RNN進行判別;Amerini等[15]提出視覺流動向量場的概念,將幀間預測誤差與長短期記憶(Long Short Term Memory,LSTM)網絡結合起來,基于VGG-16得到了不錯的檢測結果;Masi 等[16]提出結合頻率域特征和RGB 圖像(RGB 三通道)特征的雙分支網絡,利用組卷積整合各分支特征并輸入到LSTM 進行檢測;Fei等[17]發現真實和合成視頻中人臉運動的振幅有較大差異,利用InceptionV3 提取特征,結合LSTM 提取時序信息,取得了不錯的檢測效果?;谝曨l時序信息的檢測方法,推進了人臉偽造檢測技術的實用化,共同思路都是利用相鄰幀間人物運動不一致、色彩與紋理不正常抖動等信息進行偽造檢測。

(4)基于生理信號的檢測方法。此類方法認為真實的人具有豐富的生理特征,比如心率、脈搏和眨眼等,而計算機合成的人往往不具備這些特征或者生理特征前后不一致。Li 等[18]針對人眼眨眼具有很強的時間依賴性,提出基于眨眼檢測的方法鑒別偽造視頻;Yang 等[19]提出了監測中心表情和頭部姿勢的方法;Matern等[20]提取眼睛、牙齒以及臉部輪廓等位置的特征來檢測視頻真偽;Ciftci等[21]提出監測脈搏信號的方法;Qi 等[22]提出利用心跳信號來檢測視頻中人物對象真實性的方法?;谏硇盘柕臋z測方法能夠脫離視頻載體(比如頻率、像素等),利用人的持續生理信號進行真偽檢測,在現有的方法中取得了具有競爭力的跨庫測試準確率,但該方法對數據集的要求較高,且易受噪聲和模糊影響,主要用于對重要人物的偽造視頻檢測。

由于DeepFake 技術在不斷進步,不同偽造類型的數據也越來越多?,F有方法在處理新的偽造類型時主要存在以下不足:1)在已知偽造類型的數據上檢測能力優異,但在未知偽造類型的數據上檢測能力欠佳,表現為泛化性能的不足;2)如果要求模型在新數據(未知偽造類型)上有較好的檢測能力,需要使用舊數據(已知偽造類型)和新數據重新訓練模型,這通常需要消耗較大的存儲和計算資源,并且相對來說阻礙了模型實時學習新數據的能力。針對現實場景中不斷出現的未知偽造類型的數據,本文提出一種人臉偽造檢測的增量學習方法,簡言之,本文的檢測網絡在面對新數據時不用重新訓練模型,而是在原模型的基礎上以增量學習的方式學習新數據,最終模型能以較低的訓練代價在新舊數據上達到良好的偽造檢測能力。

增量學習又稱為連續學習(continual learning)或終身學習(lifelong learning),主要有以下特點:1)隨著模型的更新,需要在新舊數據上同時保持良好的識別能力;2)計算能力與內存占用隨著類別數的增加固定或者緩慢增長,原始的訓練數據不允許再被訪問;3)模型可以持續不斷地學習新數據中的新知識。增量學習有多種實現方式,其出發點都是為了避免災難性遺忘,過去幾年里很多方法被提出以解決災難性遺忘問題,主要包括但不限于以下幾類:1)基于回放的方法。Rebuffi等[23]提出基于表征學習的增量分類器(iCaRL),其利用舊數據的代表性樣本和所有的新數據一起訓練,取得了不錯的分類結果;Hu 等[24]提出了一個因果框架來解釋類增量學習(class incremental learning)中的災難性遺忘問題,并提出數據流中存在著增量動量效應,消除它有助于抵抗遺忘;2)基于正則化的方法。Li等[25]提出無遺忘學習策略LwF(Learning without Forgetting),即讓舊模型先在部分新數據上預測,并將預測結果作為這部分數據的標簽,然后將這部分數據視為舊數據與剩下的新數據一起投入訓練,一定程度上緩解了災難性遺忘問題;Kirkpatricka 等[26]提出一種可塑權重鞏固(Elastic Weight Consolidation,EWC)的方法,即在損失函數中增加一個懲罰項來限制模型修改先前任務中的重要權重,以此來緩解遺忘問題;3)基于參數隔離的方法。Mallya等[27]提出一種PackNet的方法,該方法在訓練新數據時固定舊數據的參數,以此來抵抗災難性遺忘;Zhang 等[28]提出一種特征表示和分類器的解耦學習策略,即訓練新數據時只更新分類器,避免了特征表示中的知識遺忘;Yan等[29]提出可動態擴展的增量學習方法DER(Dynamically Expandable Representation),即為新任務構建新的特征提取器,在訓練時固定舊特征提取器的方法取得了具有競爭力的分類結果。Marra 等[30]提出將iCaRL[23]和真偽檢測(真實圖像/GAN(generative adversarial network)生成的圖像)結合起來,取得了不錯的檢測結果,受此啟發,本文在檢測網絡XceptionNet 的基礎上引入了增量學習,模型在遇到新的偽造數據時以增量學習的方式動態地更新其網絡結構,并挑選出代表性樣本存儲在“記憶”中,最終在新舊數據上保持良好的檢測能力,如圖1 所示,其中檢測網絡可以是人臉偽造檢測領域任意流行的檢測網絡。R?ssler等[31]發現在人臉偽造檢測領域XceptionNet相比于其他網絡具有更優的檢測能力,所以本文的檢測網絡選擇了XceptionNet。

本文主要有以下貢獻:1)在已有的增量學習框架DER[29]上進行改進,使其適應人臉偽造檢測任務;2)設計3 種分類學習系統,加強分類器的判別能力;3)在實驗定義的FF++擴充集(包含4 種偽造人臉及相應的真實人臉)和ForgeryNet 擴充集(包含15 種偽造人臉及相應的真實人臉)上進行測試,結果顯示本文方法提高了模型對檢測不斷出現的偽造樣本的有效性,同時能以較低的計算代價達到與現有方法相當的檢測能力。

1 本文方法

在傳統場景中,所有類別的訓練數據在一次訓練中全部出現,而在增量學習場景中,新類別隨著時間的推移不斷出現,這正好與不斷更新的偽造類型的應用場景相吻合,如圖1 所示。本文選擇了一種成功的增量學習算法DER,該算法通過動態地擴展特征提取器來保持模型在新舊類別上的特征提取能力,同時為舊類別設置代表性樣本以便于未來的訓練,其中,代表性樣本是避免忘記舊類的關鍵。算法的主要參數是存儲容量M,它表示可存放的代表性樣本的個數,反映的是現實場景中受限的存儲容量。另外,人臉偽造檢測是一個二分類場景,增量學習是一個多分類場景,為了更好的結合二者,本文設計了3 種分類學習系統,以適應檢測分類問題。

1.1 方法總覽

本文將整個檢測任務視為增量學習中的類增量學習任務。在類增量學習過程的時刻t-1,標簽空間為,模型可以對每一個舊任務Yi中的所有類別進行很好的預測,每一個任務Yi都有一種形式,其中表示任務Yi中第k類的輸入圖像,表示任務Yi中第k類的輸入標簽;在時刻t時,模型觀察到新任務Yt,此時標簽空間為,本文希望模型在中對所有任務中的所有類別都有很好的預測。本文的方法主要分為以下兩個階段:

1)特征提取階段。本文利用DER提出的可動態擴展的特征提取框架在新舊類別上提取特征,最后將這些特征連接起來作為分類器的輸入。

2)分類器學習階段。本文考慮了3 種分類學習方式使增量學習適應偽造檢測場景,分別為二分類學習、多分類學習以及多分支學習,并將三者之一用于最后的真假人臉分類中。

1.2 特征提取階段

增量學習算法DER 的整體框架如圖2 所示。在特征提取階段,對于每個新任務i,模型為該任務新建一個特征提取器Fi,為了快速自適應,Fi的權重參數繼承自Fi-1。在時刻t時,所有舊任務的特征提取器組成舊特征提取器Φt-1,Φt-1和新特征提取器Ft組成超特征提取器Φt,其中,對于輸入x,Φt提取的特征υ為:

圖2 DER[29]網絡結構圖Fig.2 DER[29]network structure

特征υ將輸入到分類器中進行分類。為了減少災難性遺忘,在時刻t時凍結了特征提取器Φt-1,因為它捕獲了先前數據的內在結構。具體來說,時刻t時舊特征提取器Φt-1和批處理歸一化的相關參數沒有更新。

1.3 分類器學習階段

增量學習算法DER的分類器學習階段主要由分類器Ht以及輔助分類器H′t構成。在訓練時,H′t被用來約束網絡重點學習新任務的新特征,標簽空間是|Yt|+1,包括時刻t時新任務Yt中的類別和所有的舊類別,其中所有舊類別被視為一個類別。對于時刻t時的輸入x,H′t作如下預測:

隨后式(2)將參與計算輔助損失LH′t。對于上一階段得到的特征υ,分類器Ht作如下預測:

式(4)中,Ht的參數繼承自Ht-1,以保留舊知識,Ht的輸出維度不斷更新,以匹配不斷增加的類別數目,并對其新添加的參數進行隨機初始化,其中?,表示模型最后的預測類別。

為了將增量學習算法DER更好地應用到人臉偽造檢測任務中,本文對DER 的分類器學習階段進行改進,設計3種分類學習系統進行真假人臉圖像的分類,其中三者之一將用于模型最后的分類,下文將對3 種分類學習系統作詳細描述。

1.3.1 二分類學習

在二分類學習系統中,本文將整個問題視為二分類問題,結構如圖3(a)所示。標簽空間只有真/假兩種標簽,分別代表真實人臉和偽造人臉,由于在訓練時只有真/假兩種標簽無法進行增量學習訓練,所以本文根據不同偽造方法設計了多分類標簽以輔助訓練。具體來說,對于即將到來的新任務Yt,其形式為,其中表示時刻t中第k種偽造方法下的真實圖像和偽造圖像;表示時刻t中第k種偽造方法下的二分類標簽;表示時刻t中第k種偽造方法下的多分類標簽。在訓練過程中,只有二分類標簽參與了損失函數的計算,多分類標簽只用于模型區分新類別和舊類別。二分類學習中,損失函數由二分類器的交叉熵損失LBC及輔助分類器的多分類交叉熵損失LH′t構成:

圖3 分類學習系統.Fig.3 Classification learning system

其中,λa是控制輔助分類器效果的超參數。值得注意的是,在時刻t=1時,λa=0。

1.3.2 多分類學習

在多分類學習系統中,本文將整個問題視為多分類問題,結構如圖3(b)所示,本文根據偽造方法的不同來對不同數據進行多分類。具體來說,對于即將到來的新任務Yt,其形式為,其中表示時刻t中第k種偽造方法下的真實圖像和偽造圖像,表示與之對應的多分類標簽。本文將來自不同數據集下的真實圖像視為不同的類別。在多分類學習中,損失函數由多分類器的交叉熵損失LMC及輔助分類器的交叉熵損失構成:

同二分類學習一樣,λb是控制輔助分類器效果的超參數。

1.3.3 多分支學習

在多分支學習中,本文將二分類學習和多分類學習結合起來,利用多分類指導二分類,結構如圖3(c)所示。同二分類學習,每一個輸入圖像都有兩個標簽,即二分類標簽和多分類標簽,不過它們都由一個多分類器管理。多分支學習是多分類學習的擴展,本文在式(6)的基礎上增加了一個二分類損失約束,形成了多分支學習中的損失函數:

其中,λd是控制輔助分類器效果的超參數;λc則是平衡二分類損失和多分類損失的超參數。

2 實驗設置

2.1 數據集

FaceForensics++數據集擁有來自YouTube的1,000 個真實視頻及由4種偽造方法生成的4,000 個偽造視頻。它由R?ssler 等[31]所制作的FaceForensics數據集擴充而來,是目前偽造檢測領域使用最多的數據集之一。4 種偽造方法分別 為DeepFakes[32]、Face2Face[33]、FaceSwap[34]、NeuralTextures[35]。其中DeepFakes 使用基于Encoder-Decoder 技術來交換源視頻和目標視頻的身份信息;FaceSwap 使用基于圖形學的方法交換源視頻和目標視頻的面部區域;Face2Face 使用一種面部再現系統將源視頻的表情傳輸到目標視頻中;NeuralTextures使用基于GAN的以及神經紋理的方法修改了與口腔區域對應的面部表情。4種類型均在1,000個原始視頻上生成對應的1,000 個假視頻,并對真假視頻均做了H.264 codec 壓縮方式中的C0、C23、C40 壓縮水平的壓縮,總共包含超過180萬張偽造圖像。

ForgeryNet[36]為商湯科技在CVPR2021年公開發表的一個數據集,在數據規模(290 萬張圖像,221,247個視頻)、操作(7個圖像級方法、8個視頻級方法)、擾動(36 個獨立擾動及一些其他的混合擾動)方面是迄今為止最大的公開可用的深度人臉偽造數據集之一。它跨越了4 個任務:1)圖像偽造分類,包括二分類(真/假)、三分類(真/偽造且更換人臉身份信息/偽造且不更換人臉信息)和n分類(真實數據和15種不同偽造方法生成的偽造數據);2)空間偽造定位,基于語義分割尋找圖片中偽造區域;3)視頻偽造分類,重新定義了視頻級別的偽造分類,其中包含隨機位置的操縱幀;4)時間偽造定位,輸入一段視頻,需要定位出偽造以及真實視頻的時間片段用于定位被操縱的時間段。

在大量的人臉偽造公開數據集中,偽造數據的樣本量往往遠大于真實數據,這樣的正負樣本不平衡不利于本文實驗。為了實驗的有效性,由于FaceForensics++數據集已包含一種Real數據,本文在其c23版本基礎上,新增了3種來自不同數據集的Real 樣本,制備方法為隨機選擇該數據集下的10,000 張人臉圖像,并將其隨機對應到FaceForensics++數據集中余下的3 種偽造類型,即FaceForensics++數據集中的一種偽造類型數據和來自另外一個人臉數據集的真實數據構成一對,本文稱其為一個任務,并將擴充后的數據集稱為FF++擴充集;類似地,ForgeryNet 數據集也做同樣處理,新增了14 種來自不同數據集的Real樣本,本文稱其為ForgeryNet擴充集。關于FF++擴充集及ForgeryNet擴充集的詳細信息參見表1、表2。

表1 FF++擴充集Table 1 FF++expansion set

表2 ForgeryNet擴充集Table 2 ForgeryNet expansion set

2.2 評價指標

本文考慮了3 個評價指標來全面評估模型的偽造檢測能力。在二分類學習中,采用ACC和AUC(Area Under roc Curve)來評估模型;在多分類學習中,采用ACC 和F1-Score 來評估模型。表3為在分類任務中常用到的混淆矩陣。

表3 混淆矩陣Table 3 Confusion matrix

2.2.1 ACC

ACC為Accuracy的簡寫,即準確率,指的是正確預測的樣本數占總預測樣本數的比值,它不考慮預測的樣本是正例還是負例,反映的是模型算法的整體性能。計算方式為:

2.2.2 AUC

受試者操作特征(Receiver Operating Characteristic,ROC)曲線的橫軸為假正類率(False Postive Rate,FPR),代表模型預測的真實樣本中實際偽造樣本占所有偽造樣本的比例,計算方式如式(9);縱軸為真正類率(True Postive Rate,TPR),代表模型預測的真實樣本中實際真實樣本占所有真實樣本的比例,計算方式如式(10)。AUC是一種用來度量分類模型好壞的標準,其值是處于ROC 曲線下方的那部分面積的大小,面積越大說明模型的分類性能越好。

2.2.3 F1-Score

F1-Score 又稱為平衡F 分數(balanced F Score),它被定義為精準率(precision)和召回率(recall)的調和平均數,其中precision 計算公式如式(11),recall 計算方式為式(12)。F1-Score指標綜合了precision 與recall 的結果,取值范圍為0到1,越接近1代表模型

的分類能力越好,越接近0則代表模型的分類能力越差,其計算方式如式(13)。

2.3 超參數設置

在處理FF++擴充集時,本文按等時間間隔切出每個視頻中的10 幀,然后使用Retinaface[48]檢測出每一幀中的人臉并進行裁剪。對于每幀中檢測到的多人臉情況,本文選擇其中人臉面積最大的作為最后的訓練樣本,對于檢測不到人臉的幀,則重新進行篩選。最后得到每種偽造類型及與之對應的真實數據下的10,000 張人臉圖像,并按照7∶1∶2 的比例將其劃分為訓練集、驗證集和測試集。在數據預處理階段,為了不引入其他人為的噪聲,本文只使用了隨機水平翻轉作為數據增強,最后網絡的輸入為256×256×3 的人臉圖像。在處理ForgeryNet 擴充集時,本文直接使用了其中的圖像級數據作為訓練樣本,除了不用將視頻轉化為幀外,其他數據預處理方法同FF++擴充集保持一致。在使用增量學習的XceptionNet實驗中,訓練階段,本文使用SGD 優化器迭代模型5 代,學習速率為10-2(10-1、10-2、10-3在ForgeryNet 擴充集上的二分類平均準確率分別為94.21%、94.74%、91.98%),批大小設為128,momentum 為0.9,權重衰減值為0.0005。在訓練階段,新數據的數量要遠大于舊數據,這會造成樣本不平衡,為了解決這個問題,受Rebuffi 等[23]工作啟發,本文選擇herding selection 策略[49],選擇距離該類樣本中心最近的樣本作為該類的代表性樣本,新類的代表性樣本和舊類的代表性樣本構成一個新子集,子集中每個類別的樣本數量一致,之后在新子集上進行微調訓練。微調階段,本文使用SGD 優化器迭代模型20代,批大小設置為128,momentum為0.9,權重衰減值為0.0005,采用warm-up學習率調整策略,初始學習速率為0.1,在第10 代衰減為10-2,直至訓練結束。在使用傳統Xception-Net的實驗中,本文使用SGD優化器迭代模型15代,批大小設為128,momentum為0.9,權重衰減值為0.0005,初始學習速率為10-2,在第10 代衰減為10-3,并保持學習率為10-3直至訓練結束。

3 實驗結果與分析

本文的所有實驗均是在FF++擴充集及ForgeryNet 擴充集上完成。實驗環境采用的是Pytorch深度學習平臺,所有實驗均在2張NVIDIA GeForce RTX 3090上完成。

3.1 超參數λc、λd

為了便于后面的實驗對比,本文首先測試了多分支學習中超參數λc、λd的最佳組合。在FF++擴充集上進行訓練和測試,每次增量為1 個任務,共4個增量時刻,存儲容量M設為2,048。本文固定λd=1,重點關注不同的λc給實驗帶來的影響,實驗結果如表4 所示。結果表明,λc=1 在多分支學習中性能最好,所以,在后面的多分支系統中,本文選用λc=1、λd=1的組合。

表4 FF++擴充集上多分支學習在不同λc下的評價指標結果Table 4 Results of multi-branch learning on FF++expansion set under different λc /%

3.2 分類學習系統

為了比較不同分類學習系統的偽造檢測性能,本文在FF++擴充集和ForgeryNet 擴充集上進行訓練和測試。在FF++擴充集上,每次增量為1 個任務,共4 個增量時刻,設置M為2,048;在ForgeryNet 擴充集上,每次增量為3 個任務,共5 個增量時刻,設置M為2,048。以3 種分類學習系統共有的評價指標ACC 作為評判標準,實驗如果如表5所示。所以,本文選擇多分支學習進行后面的實驗。

表5 FF++擴充集和ForgeryNet擴充集在3種分類學習系統下的平均準確率Table 5 Average accuracy of the FF++expansion set and the ForgeryNet expansion set under the three classification learning systems /%

3.3 有效性

存儲容量M是本文方法的關鍵,不同M往往對模型性能有較大影響。如表6所示,多分類準確率衡量模型對不同樣本的適應能力,二分類準確率則衡量模型對真假樣本的判別能力。當M設為0時,模型的多分類準確率為24.92%,二分類準確率為86.28%;當M設為1,024 時,模型的多分類準確率為88.16%,二分類準確率為93.02%。結果表明,提升M的值可以直接提升模型性能。當M設為無窮大時,模型的多分類準確率為93.91%,二分類準確率為95.99%,此時已達到模型性能瓶頸。所以,合理選取M的值可以在性能和計算及存儲代價間達到較好的平衡。

表6 FF++擴充集上不同存儲容量下的平均準確率Table 6 Average accuracy under different memory budgets on the FF++expansion set /%

為了評估模型在新舊數據上的性能,在FF++擴充集以及ForgeryNet 擴充集上進行實驗。對于FF++擴充集,設置其M為256,每次增量為1 個任務;對于ForgeryNet 擴充集,設置其M為1,024,每次增量為3 個任務,結果如表7 所示??梢园l現在每個增量時刻模型對新舊任務都有良好的判別能力,雖然多分類指標呈現下降趨勢,但二分類指標逐漸趨于穩定,這說明模型在增長過程中,已經學習到了偽造數據存在的共同“痕跡”,從而將真假樣本正確地分開,同時也說明本文提出的利用多分類指導二分類方法的有效性。

表7 FF++擴充集和ForgeryNet擴充集上不同增量時刻下新舊樣本的平均準確率Table 7 Average accuracy of new and old samples at different incremental moments on the FF++expansion set and the ForgeryNet expansion set /%

3.4 資源占用

在人臉偽造檢測任務中,已有的偽造檢測網絡在面對新任務時,如果只在新任務上進行訓練,則在舊任務上的表現通常會顯著下降,這種現象被稱為“災難性遺忘”。本文通過在ForgeryNet擴充集上進行實驗,比較了現有人臉偽造檢測方法和本文方法的表現。實驗設置為每次增加3個任務,共進行5個增量時刻?,F有人臉偽造檢測方法在每個增量時刻下只在新任務上進行訓練,實驗結果如圖4(b~d)所示,結果表明,現有方法雖然在新任務上具有較好的判別能力,但在舊任務上的判別能力急劇下降;而本文方法在實驗中能同時在新舊任務上保持良好的判別能力(其中M為256),實驗結果如圖4(a)所示?,F有方法在新任務上訓練時破壞了網絡在舊任務上的權重,并且在新任務上訓練時舊任務沒有參與訓練。因此,在實際場景中,通常需要重新訓練模型以解決這種災難性遺忘問題。本文比較了在ForgeryNet 擴充集上使用全部新舊數據重新訓練的現有人臉偽造檢測方法和本文提出的方法。實驗首先將模型在ForgeryNet擴充集的前10個任務上進行了訓練,后5個任務視為新任務,然后比較了本文方法和現有人臉偽造檢測方法在檢測準確率、存儲占用和訓練時間方面的表現。其中,本文方法使用的存儲容量為256,存儲占用只考慮訓練數據占用的存儲空間。實驗結果如圖5 和表8 所示。實驗結果表明,本文方法在ForgeryNet擴充集的大部分任務上的檢測結果與現有方法相近。最終,本文方法在平均ACC 方面達到了96.16%,雖然與現有人臉偽造檢測方法相比,在檢測準確率方面略有下降,但本文方法僅使用了70,256張訓練數據和45分鐘的訓練時間,節省了接近3倍的存儲和計算資源。

圖4 ForgeryNet擴充集上本文方法與現有方法在不同增量時刻下的平均準確率Fig.4 Average accuracy of our method and the existing method on the ForgeryNet expansion set at different incremental moments

表8 ForgeryNet擴充集上本文方法和現有方法的平均準確率和計算代價Table 8 Average accuracy and computational cost of our method and the existing methods on the ForgeryNet expansion set

圖5 ForgeryNet擴充集上本文方法與現有方法的平均準確率Fig.5 Average accuracy of our method and the existing methods on the ForgeryNet expansion set

3.5 適應性

在現實場景中,對于未公開的偽造方法,往往難以獲取充足的訓練數據,從而造成對這些偽造類型的檢測困難。為評估本文方法在新偽造類型上的適應性,進行了針對訓練數據匱乏的新偽造類型的比較實驗,并與現有的人臉偽造檢測方法進行對比。實驗采用ForgeryNet 擴充集進行,其中前10個任務已完成訓練,后5個任務被視為新任務,每個任務下每個類別僅包含100張訓練數據。實驗結果如表9所示,本文方法(M為256)在數據匱乏的新任務上的平均檢測準確率優于現有方法,說明本文方法在新任務上具有更強的適應性。

表9 ForgeryNet擴充集后5個任務上本文方法和現有方法的檢測準確率Table 9 The detection accuracy of our method and the existing methods on the last 5 tasks of the ForgeryNet expansion set /%

4 總 結

深度偽造檢測是近年一個研究熱點?,F有工作大多利用偽造圖像存在的某種特定“指紋”來進行圖片或者視頻的偽造檢測。由于Deep-Fake 技術仍在不斷進步,其合成的數據通常有較大的差異,因此,難以在一次訓練中充分學習普遍有效的判別特征。針對這個問題,本文將增量學習引入到了偽造檢測網絡中,通過增量學習來強化和更新偽造檢測網絡,以保持對新出現的DeepFake合成技術的檢測能力。本文采用可動態擴展的增量學習框架,并提出3種分類學習系統以適應偽造檢測任務。實驗結果表明,本文提出的人臉偽造檢測方法通過增量學習的方式提高了模型對檢測不斷出現的偽造樣本的有效性。此外,本文方法使用部分訓練數據達到與使用全部數據訓練的檢測網絡相當的檢測準確率,在保證檢測能力的前提下減少了大量計算代價。同時,在訓練數據有限的情況下,本文方法在檢測準確率上超過了現有方法。

在本文的方法中,當面對新出現的Deep-Fake 技術合成的偽造樣本時,為了保持正負樣本的平衡,需要加入相應的真實樣本來結合訓練,這無疑引入了不必要的訓練數據,增加了訓練負擔。在未來的研究工作中,可以針對正負樣本的平衡進行更多的考慮和設計。

利益沖突說明

所有作者聲明不存在利益關系。

猜你喜歡
增量人臉分類
提質和增量之間的“辯證”
有特點的人臉
分類算一算
“價增量減”型應用題點撥
分類討論求坐標
三國漫——人臉解鎖
數據分析中的分類討論
教你一招:數的分類
基于均衡增量近鄰查詢的位置隱私保護方法
德州儀器(TI)發布了一對32位增量-累加模數轉換器(ADC):ADS1262和ADS126
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合