?

基于Inception3D網絡的眼部與口部區域協同視頻換臉偽造檢測

2021-04-19 12:42韓語晨張海劍
信號處理 2021年4期
關鍵詞:雙流卷積神經網絡

韓語晨 華 光 張海劍

(武漢大學電子信息學院, 湖北武漢 430072)

1 引言

深度偽造(DeepFake),即利用深度學習技術合成虛假圖像、視頻、音頻等多媒體內容,作為新興的多媒體內容篡改方式,是目前受社會各界關注最為廣泛且負面影響深遠的安全隱患之一[1-2]。較傳統手工偽造多媒體(借助Photoshop、Audacity等媒體編輯軟件),深度偽造多媒體具有偽造內容自由度更高、偽造效果更逼真、人眼更難察覺等顯著優勢。深度偽造多媒體往往含有虛假的人物、事件及語音資料,一旦在網絡空間大范圍快速傳播,可被利用于散布虛假信息、誘導輿情發展、制造傳播仇恨、煽動群體行為,對個人、集體乃至國家安全造成嚴重損害。2018年,網絡上出現美國前總統奧巴馬發表不當言論(對其后一任總統特朗普進行人身攻擊)的視頻[3],經證實是利用深度偽造技術產生的虛假視頻。2019年,新華網披露目前微信詐騙科技含量越來越高,已出現通過深度偽造的克隆語音進行成功詐騙的案例[4]。此外,開源的“換臉”、“換聲”等程序層出不窮,且不乏“一鍵式”深度偽造軟件和手機App,使得深度偽造的“門檻”大幅降低,也使深度偽造多媒體內容取證成為亟待研究的世界性課題。

偽造視頻中對面部信息的篡改主要可以分為四種類型[5]:

整臉合成(Entire Face Synthesis):整臉合成指通過深度偽造技術合成現實世界不存在的人臉,主要分為基于生成對抗網絡(generative adversarial network,GAN)[6]和自編碼器(autoencoder)[7]的方法。目前較有代表性的方法為文獻[8]中提出的StyleGAN,2020年11月,韓國MBN電視臺成功運用該技術合成了第一位AI主播,實現了智能新聞播報[9]。

換臉(Identity Swap):換臉偽造將已有視頻中的人臉替換為已知的目標人臉,因視頻的動態特性和口型語音一致性的要求,視頻換臉往往比圖像換臉操作更為精密復雜。目前主要的視頻換臉工具包括開源的FaceSwap[10]、Deep-FaceSwap[11]、Faceswap-GAN[12]、DeepFaceLab[13]等。

屬性篡改(Attribute Manipulation):屬性篡改通過修改或者增減面部的一些屬性達到篡改目的。常見的可篡改屬性包括發型、頭發皮膚顏色、性別、年齡、增減眼鏡等飾物等。此類篡改操作通常是通過GAN來完成,例如文獻[14]中提出的StarGAN。

表情交換(Expression Swap):此類篡改主要目的為改變人的面部表情,比較流行的技術為Face2Face[15]和Neural Textures[16]。

在以上這四種類型中,換臉視頻通過面部替換偽造一個人說出特定的語句或者做出特定的動作,可用于誤導輿論、擾亂社會秩序, 甚至可能會威脅人臉識別系統、干預政府選舉和顛覆國家政權等,已成為當前最先進且危害最大的新型網絡攻擊形式。因此,本文主要研究深度偽造中換臉視頻的檢測問題。

隨著深度偽造的廣泛研究,出現了一些利用深度學習對深度偽造進行檢測的方法[17-26],文獻[17-20]構造了端到端(end-to-end)的深度偽造檢測網絡,包括Mesonet[18]、MISLnet[19]、ShallowNet[20]等,其中MISLnet是一個通用圖像取證網絡,原本用來檢測加噪、中值濾波、高斯模糊、JPEG壓縮等操作。文獻[21]將人臉區域分為了整臉、眼、鼻、口以及剩余區域等5個內容作為Xception網絡的輸入,從實驗結果看,最能幫助檢測的區域為眼和口部,而其他區域效果較差。文獻[22]則指出,一般的深度偽造都包括合成面部和面部融合兩個步驟,現有的方法大多通過捕捉合成過程中可能出現的細微痕跡進行檢測,而文獻[22]提出了一種面部X射線(face X-ray)用于檢測人臉圖像的偽造,面部X射線將輸出一幅灰度圖像,它反映了輸入圖像是否可以分解為來自不同來源的兩幅圖像。然而,以上的方法都是從圖像層面對深度偽造進行檢測,丟失了視頻中的時間和運動信息。為了將時間信息納入考量,文獻[23]提出了利用視頻中光流場(optical flow field)信息檢測深度偽造的思路,將待檢測視頻中的光流信息作為卷積神經網絡(Convolutional Neural Networks, CNN)的輸入,利用網絡提取光流中能分辨深度偽造的深層特征。文獻[24-25]則以循環神經網絡(Recurrent Neural Network, RNN)與卷積神經網絡相結合的方式,利用循環神經網絡捕捉圖像流的時間信息的能力來檢測深度偽造視頻。文獻[26]采用動作識別中的3D(3 Dimension)卷積[27]代替傳統的2D卷積,對比了3D ResNet、3D ResNeXt和I3D(Inception3D)在檢測深度偽造視頻上的能力。

總體來說,現有深度偽造視頻取證方法大多基于對比真實和偽造視頻之間的視覺差異,從而提煉出定量特征描述用于分類,這種研究方式有一定的效果但缺乏針對深度偽造合成原理的探索。此外,循環神經網絡和3D卷積神經網絡雖然可以保留視頻中的時間信息,但是網絡復雜度較高,權值參數數量龐大,且需要大量的訓練樣本進行訓練,對計算資源要求較高。值得注意的是,在視頻換臉深度偽造過程中,主要技術挑戰在于眼部的動態呈現和口型與語音的一致性問題上,這些部位也自然成為更易留下偽造痕跡的地方。因此,本文針對深度偽造的合成過程中容易出現的眨眼不自然痕跡和口型擬合問題,利用基于dlib人臉識別庫[28]的Face-recognition工具庫,提取人臉的眼部和口部位置作為雙流3D卷積神經網絡的輸入。同時,本文提出僅包含兩個Inception模塊的高效I3D網絡,保留了I3D網絡多層次、多維度的特征,去除了原始I3D網絡中存在的冗余部分,在保證一定準確率的同時將訓練速度提升為原來的三倍。下文將詳細介紹本文提出的基于雙流特征的高效I3D網絡模型。

2 基于雙流特征的高效Inception3D神經網絡

現有的一些具有代表性的深度偽造換臉檢測方法的性能和局限性如表1所示,表中Acc.表示正確率(Accuracy),性能評估均取在FaceForensics++上測試的數據。其中,Face X-ray[22]提出提取人臉邊緣融合痕跡、文獻[21]將人臉區域分成五個內容作為輸入,這兩種方法均只利用了深度偽造換臉視頻中的視覺信息,未能充分考慮視頻中的時間信息。為將時間維度的特征納入深度偽造檢測的考慮,文獻[23-25]分別提出了利用光流場和LSTM結構,但均存在一定的局限性。文獻[26]的作者提出利用3DCNN結構檢測深度偽造,取得了一定效果,但缺乏針對性特征處理,且整體復雜度較高。

表1 現有方法評估

針對以上問題,本文提出用眼、口雙流特征捕捉換臉視頻中較明顯的篡改痕跡,通過3D卷積神經網絡提取深層特征,且保留時間維提取運動信息中的篡改痕跡,更進一步改進了原始的I3D網絡,提出更高效的I3D網絡。圖1展示了本文提出的雙流三維卷積網絡模型檢測總體流程。下文將詳細介紹雙流特征和高效I3D網絡。

圖1 雙流3D卷積網絡檢測總體流程圖Fig.1 Two stream 3D CNN detection flowchart

2.1 雙流特征

換臉視頻篡改檢測中,最重要的信息是人臉篡改的痕跡,這種痕跡包括合成人臉操作留下的偽影,以及拼接合成人臉與真實背景時留下的不自然的痕跡。而視頻中這些痕跡只存在于很小的范圍內,大部分的背景是冗余信息,可以去除。去除這些信息將減少操作的復雜度,使網絡集中學習有意義的部分,提高識別準確率、縮短訓練時間。

觀察大量的換臉視頻發現,合成假臉與真實人臉之間存在幾個比較明顯的差異:假臉的眼部通常不能同真臉的眼部一樣靈活的活動,在眨眼頻次、眼球活動等方面存在異常;假臉的嘴部在口型變化時,周圍的皮膚紋理變化較小,與真臉的正常變化相比存在明顯差異。針對這兩個差異,提取出視頻人臉的眼部、口部作為神經網絡的輸入,進行針對性的特征提取和識別,再將兩個部分的結果融合來得到最終的結果。

圖2 眼、口篡改痕跡(圖左為篡改視頻、圖右為真實視頻)Fig.2 The eye, mouth artifacts (left: fake, right: real)

為了定位視頻中的人臉,并準確提取人臉的眼、口部分,本文使用的基于dlib開源庫的Face-recognition人臉識別庫,定義了人臉部區域的68個特征點,包含了臉部輪廓、眉眼、鼻子以及口部等關鍵區域,如圖3所示。為分別提取眼部和口部區域作為雙流網絡輸入,將點18~27、點37~48作為眼部區域關鍵點,并由此定義區域外圍矩形框;將點49~68作為口部區域的關鍵點,也定義相應的外圍矩形框。區別于用于目標識別人物的區域提取,在取證過程中為盡可能保留更多可能產生篡改痕跡的內容,我們將對應區域外圍適當放大,各方向均擴展一定像素。最終提取出的眼部和口部區域作為雙流網絡的輸入。

圖3 人臉特征點及雙流區域提取Fig.3 Face feature points and two stream region extraction

2.2 Inception3D神經網絡及改進

提取出換臉視頻中最有可能留下篡改痕跡的眼部和口部區域后,需要使用深度神經網絡進一步提取深層特征和運動特征。目前針對視頻中動作識別的研究已經得到廣泛開展[29-31],主要思路有三種[25]:第一種是視頻中的RGB幀與其光流在網絡的兩個分支中處理后融合的雙流網絡,利用光流來捕捉時間信息和跨幀運動[29],第二種是由循環卷積層支持的單流神經網絡,訓練好的循環卷積模型處于網絡頂部,用來處理視頻的時間維度,而卷積神經網絡則提取高級語義特征,提取并認識每一幀的內容[30],第三種則是通過3D卷積學習豐富的時空特征[31]。這些方法中,光流的使用在動作識別任務場景中收獲了很好的效果,但其更適用于捕捉微小的跨幀運動,對于捕捉換臉視頻中的篡改痕跡收效甚微。而循環卷積層方面,首先其訓練復雜度較高,對于數據量龐大的視頻內容需要較高的算力支撐。更重要的是,循環卷積層所具備長記憶能力的優勢可能并不完全適用于偽造內容檢測,因后者主要關注時間和空間維度局部區域的不一致性。而3D卷積結構與前兩種思路不同,既能在時域和空域同時感知視頻特征,又能高效計算,因此更適用于換臉視頻的檢測。

2.2.1 標準Inception3D網絡

Inception3D網絡[31]最初被提出用于動作識別領域,是由Google公司在2015年提出的Inception二維卷積神經網絡[32]膨脹成三維而來,原始的卷積核與池化核均擴展為三維,從而可以從視頻中完整提取時間和空間特征,在速度和準確性上都表現出了優異的性能。原始的I3D網絡包含RGB和光流兩個不同的網絡分支,基于前文的分析及現有實驗結果,因光流信息并不能很好的提取換臉篡改痕跡,本文使用I3D網絡檢測換臉視頻時,沒有使用光流分支。

表2 標準I3D網絡參數

當包含時間順序的一系列視頻幀輸入二維的卷積神經網絡時,二維的濾波器將無視時間關系,將三維的輸入處理成簡單的二維特征圖,這破壞了視頻中包含的運動信息。為了保留Inception網絡多尺寸、高深度提取圖像中視覺信息的特性,同時不損失時間信息,可以將二維卷積神經網絡膨脹為三維卷積神經網絡,將原本方形(N×N)的濾波器變為立方形(N×N×N)的,這賦予了濾波器額外的時間維度,從而使輸出的特征圖依然保留時間特征。二維模型處理兩個空間維度(長度和寬度)時,卷積核和步長都是相同的,這表明網絡中較深的特征受到兩個維度越來越遠位置的影響是同等的。然而在時間維上,對稱的濾波器不一定有最佳的效果,而應該取決于幀率和圖像尺寸。如果在時間維上相對于空間增長太快,可能會合并來自不同物體的邊緣,破壞早期特征,而如果增長太慢,就可能不能很好地捕捉場景動態。

I3D網絡參數如表2所示,為了更好的保留時間特征,在前兩個最大池化層(max-pooling)中不執行時間維的池化(pooling),使用1×3×3的內核且步長為1,而在其他最大池化層中使用了對稱的內核和超過1的步長。在整體架構上,除了最后一個卷積層以外,每一個卷積層之后都使用了批標準化(Batch Normalization, BN)層和ReLU激活函數。

在I3D網絡中,大量使用了Inception結構,這是一種利用1×1×1的卷積核擴展網絡深度和廣度的方法。圖4展示了Inception結構的細節內容,可見該結構對上一層的輸入使用多尺度的卷積處理,拓展了網絡的廣度,同時為了減少計算量,使用1×1×1卷積層在提升網絡深度的同時避免參數爆炸式增長。在表2中,每一個Inception層都擁有相同的結構,只是在輸出通道數上略有差別。

圖4 Inception結構Fig.4 Inception submodule

I3D網絡的輸入為上一步雙流預處理模塊提取的按時間順序排列的眼、口圖片序列,每個序列包含100幀圖片,對應幀率為24 Hz的4.2秒視頻流,每張圖像經過重采樣調整為224×224像素。整個網絡一共有27層(包括池化層),在完全連接層(Fully connected, FC)之前,通常還會使用dropout層防止過擬合。在完全連接層之后,使用softmax激活函數作為分類器以及交叉熵損失作為代價函數:

loss=-[ylog(p)+(1-y)log(1-p)]

(1)

其中y代表樣本標簽(正類:輸入視頻為真實視頻,記為1。負類:輸入視頻為虛假視頻,記為0),p代表預測為正的概率。在訓練階段,損失反向傳播促使網絡學習真實視頻與虛假視頻之間的差異。

2.2.2 高效Inception3D網絡

在動作識別問題中通常要對400類以上的動作進行分類,需要捕捉每一個動作之間宏觀上的差別。而換臉視頻的檢測是二分類問題,從分類數量上來看,動作識別問題要提取更加深層的特征,將動作識別領域的I3D網絡直接用于換臉視頻檢測,在特征提取上存在一定的冗余?;诖?本文在標準I3D網絡的基礎上提出了更精簡的高效I3D網絡,一方面保留標準I3D網絡多尺度提取時間和空間特征的特性,另一方面刪減網絡冗余,提升訓練速度。

對于I3D網絡,Inception模塊是增加網絡深度的重要環節,層數較多的網絡能夠捕捉更深層的特征,表達能力更強,同時也會帶來過擬合、計算復雜度過高的問題。原始Inception網絡的提出主要用于400類圖像分類。對于圖像分類問題,深層特征更具表達能力以提升分類效果。但對于深度偽造檢測,其主要思想是通過深度神經網絡提取與偽造痕跡緊密相關的特征,而非內容識別特征。而這種特征往往既不在淺層(紋理特征)也不在深層(宏觀特征),而是在較為適中的網絡層中。同時,換臉檢測是一個二分類問題,已與I3D網絡設計時考慮的任務截然不同。因此,在基于I3D網絡的換臉檢測問題中,考慮總體減少網絡層數和Inception模塊。通過實驗,發現增加Inception模塊對正確率提升的意義不大,但在訓練和檢測速度上卻有比較明顯的影響,最終通過實驗確定了高效I3D的結構。

此外,標準I3D網絡的輸入是224×224大小的圖片,而大部分的眼、口圖片大小僅為100像素以下,因此本文調整了雙流特征的輸入,眼部圖片將調整為80×30的大小,而口部圖片將調整為60×40的大小,幀數不變。隨著輸入圖片大小調整,平均池化層的內核大小也做出了相應調整,不同流的網絡參數如表3所示。與標準I3D網絡相同,除了最后一個卷積層以外,每一個卷積層之后都使用了BN層和ReLU激活函數,在全連接層添加了參數為0.36的dropout層,之后使用softmax激活函數作為分類器以及交叉熵損失作為代價函數。本文設計的高效I3D網絡結構模型如圖5所示。

表3 本文提出的高效I3D網絡參數

圖5 高效Inception3D網絡結構圖Fig.5 The structure of efficient Inception3D network

在整個網絡中使用了三種類型的卷積層,包括如Conv1、Conv2_2的普通卷積層,Inception模塊中用在3×3×3卷積層之前的1×1×1卷積層,以及如Conv5的1×1×1卷積層。普通卷積層主要是為了學習更高層次的篡改特征,每一個卷積層都將學習前一個卷積層輸出的低層特征,得到特征的新表達,需要注意的是,Inception模塊中有兩種1×1×1卷積層,如果是單獨使用,其后不接3×3×3卷積層,這種卷積層也屬于普通卷積層,在Inception模塊中與3×3×3卷積層并行使用,主要目的是拓展網絡的寬度,提取不同尺度的特征。如Conv2_1的1×1×1卷積層在下一層必須是一個普通卷積層,這種卷積層的串聯主要是為了對數據進行降維,例如在Inception3中一個分支的輸入為50×10×15×192,輸出為50×10×15×32,若不使用1×1×1卷積層,直接使用3×3×3卷積層,卷積層的參數為3×3×3×192×32,而在3×3×3卷積層之前先使用16輸出的1×1×1卷積層,卷積層參數則會變為1×1×1×192×16+3×3×3×16×32,減少了大約十倍。如Conv5的1×1×1卷積層只用到了一次,與全連接層類似,可以方便調節分類,對不同的數據集有更多的適配性。

在Inception4之后的網絡可以認為是分類層,對之前一系列卷積層提取出的深度特征進行進一步學習和分類,最終識別輸入圖像是否經過換臉篡改。最大池化層(Max pool)保留滑動窗口鄰域內的最大值,而平均池化層(Avg pool)保留本地鄰域內的平均值。池化層可以降低特征圖的維數,減少訓練的計算成本和過擬合,在本網絡中使用了三個最大池化層和一個平均池化層。

3 實驗結果及分析

3.1 數據集

本文主要使用了目前比較常用的四個數據集[17,33-36]:

Celeb-DF[33]:Celeb-DF旨在生成具有更好視覺質量的假視頻。該數據庫由408個從YouTube上提取的真實視頻組成,對應59位名人的采訪,這些名人在性別、年齡和種族方面分布各異。此外,這些視頻在諸如臉部像素大小、方向、光照條件和背景等方面都有很大的變化。在假視頻方面,該數據集使用DeepFake技術總共創建了795個視頻,對59個受試者中的每一對進行面部交換,最終視頻為MPEG4.0格式。

DFDC[34]:DFDC(DeepFake Detection Challenge)數據集是最新的公開深度偽造數據集之一,由Facebook與其他公司和學術機構(如微軟、亞馬遜和麻省理工學院)合作發布。在本文中使用DFDC預覽數據集,由來自66個付費演員的1131個真實視頻組成,確保性別、膚色和年齡的現實差異。需要注意的是,此數據集與其他流行的數據集相比,沒有使用公開可用的數據或者來自社交媒體網站的數據。在假視頻方面,該數據集使用了兩種不同的未知方法創建了4119個視頻,通過交換具有相似外表(例如膚色、面部毛發、眼鏡)的主體產生。DFDC數據集還考慮了不同的采集場景(如室內和室外)、光照條件(如白天和夜晚)、人與相機的距離以及姿態變化等。

FaceForensics++[17]:FaceForensics++數據庫于2019年發布,作為原始FaceForensics數據庫[35]的擴展,該數據集專注于面部表情操作。FaceForensics++包含來自YouTube的1000個真實視頻,假視頻則是使用計算機圖形學(CG, Computer Graphics)和深度學習方法生成的,每個方法生成了1000個假視頻。在本文中專注于深度學習方法,假視頻采用faceswap方法生成。

DeepFake Detection[36]:DeepFake Detection數據集是谷歌AI實驗室于2019年發布的深度偽造公開數據集。該數據集包含了來自28位自愿和付費演員在不同場景下拍攝的幾百個真實視頻,假視頻則是使用公開的深度偽造生成方法創建的,共包含超過3000個視頻。

現有的數據集都是在已有真實視頻的基礎上,利用一種或多種算法創造出不同的篡改視頻,這導致數據集的真實視頻比較少,而虛假視頻相當多,真假的比例失衡在網絡訓練時可能存在一些影響,因此,實驗過程中調整了這一比例,在篡改視頻中隨機選取一部分,使真假視頻的比例控制在1:1左右。對于DFDC數據集,本論文只采用了預覽數據集,即DFDC preview,并未采用比賽中的全部數據。在本文中,所有數據集都被劃分成訓練集(80%)和測試集(20%)兩部分,實驗結果來自測試集上的檢測結果。

3.2 網絡訓練及實驗結果3.2.1 網絡預訓練

本文采用了文獻[31]的方法在ImageNet數據集上對高效I3D網絡進行預訓練。由于ImageNet是一個圖片數據集,無法直接應用到3D卷積神經網絡上,文獻[31]提出,將一張圖片作為一幀復制多份,擴充為一列幀,即可制作出平凡(boring)的動態數據集對3D卷積神經網絡進行預訓練。在本文中,對于高效I3D網絡,從ImageNet數據集1000類中選取了400類,每一類包含49張圖片,每張圖片擴充成150幀進行預訓練。

3.2.2 數據預處理

數據預處理過程將待驗視頻中的人臉區域提取出來,并進一步提取眼部和口部特征分別作為雙流網絡的輸入。其中,如前文所述及圖6所示,眼部和口部區域分別包含了各自區域內的20個特征點。為包含更多有用信息,眼部區域矩形框長和寬分別拓展了10和5個像素,口部區域各邊緣分別拓展了10個像素。

圖6 眼、口雙流特征示例Fig.6 Examples of two stream characteristics of eye and lip

3.2.3 實驗結果分析

高效I3D網絡在TensorFlow平臺上進行訓練和測試。訓練時,網絡權重由ImageNet預訓練權重初始化,批量大小為4,訓練100個階段。學習率設置為階梯函數下降,每訓練25個階段下降一次,分別為0.001, 0.0008, 0.0005, 0.0001,使用動量梯度下降算法優化。眼部、口部數據分別調整為80×30、60×40的大小作為網絡輸入,網絡兩個分支的輸出平均得到最后的結果,超參數設置情況見表4。本文采用準確率以及受試者工作特征(Receiver Operating Characteristic, ROC)曲線來評估網絡優劣,并與文獻[17]中提到的Xception網絡進行比較。需要注意的是,Xception是針對視頻每一幀進行檢測的,因此在本文討論時,設定一個視頻中如果超過50%的幀都被認定為假,就認為這個視頻是偽造的。

表4 網絡訓練使用的超參數

表5給出了在不同數據集下幾種方法的分類準確度。表中每一行代表一種方法,其中第三行代表高效I3D網絡的眼部流分支,第四行代表高效I3D網絡的口部流分支,第五行代表由眼部和口部結果平均所得到的高效I3D網絡結果。表中每一行展示了不同方法在同一個數據集上的結果。從結果上看,由于Xception網絡是針對FaceForensics++數據集提出且在FaceForensics++上訓練,所以該網絡在FaceForensics++數據集上表現得很好,而在其他數據集上,本文提出的雙流高效I3D則表現出了比較大的優勢。比較第三、四、五行的結果,可以看出大部分情況下,雙流網絡的結果好于眼部或口部單流的結果。從數據集上看,幾種網絡在FaceForensics++數據集上的效果要好于在其他數據集上的,這主要是因為FaceForensics++數據集相較于其他數據集數據量更大,可以使網絡訓練地更加充分。相對應的,DFDC預覽數據集是四個數據集中數據量最小的,在此數據集上的訓練效果也就相對比較差。對比標準I3D網絡和高效I3D網絡,在最終分類準確度相差不大的情況下,標準I3D網絡的訓練速度為0.52秒每批,測試速度為0.36秒每視頻,而高效I3D的訓練速度為0.19秒每批,測試速度為0.07秒每視頻,在測試速度上提升為原來的2.7倍,訓練速度上提升為原來的5.1倍。

表5 不同網絡在各數據集下的分類準確度

圖7 兩種3D網絡在不同數據集下的ROC曲線Fig.7 ROC curves of the two 3D networks under different datasets

進一步,本文所提高效雙流I3D和標準雙流I3D網絡在各數據集上實驗所得ROC曲線如圖7所示。由于兩種網絡的檢測性能比較接近,為方便觀察,將假陽性率設置為對數尺度。在高效I3D網絡具有3倍左右計算速度提升的前提下,由圖可見,對于FaceForensics++數據集,高效I3D網絡性能好于標準I3D網絡,而對于其他三個數據集,后者性能略好于前者??傮w來說,各數據集ROC曲線均接近(0,1)最優點,表明本文所提方法的優越性。

為了檢測在不同數據集上的性能,本文使用在Celeb-DF數據集上訓練的網絡模型對其他三個數據集的測試集進行檢驗,結果如表6所示。表中數據顯示,在DFDC 預覽和DeepFakeDetection數據集上高效I3D的結果要好于標準I3D,標準I3D存在過擬合的現象。在FaceForensics++數據集上,標準I3D的性能略好,可能是由于Celeb-DF數據集與FaceForensics++數據集的換臉篡改算法存在一定的重合。從實驗結果可以看出跨庫性能并不太理想,這與目前大多數深度偽造檢測方法面臨的問題相同。其主要原因在于缺乏有效手段保證網絡學習到的僅為偽造痕跡,而沒有受到其他非相關信息(語義、背景等)的影響。此外,各數據集中所使用的偽造算法的差異,也是導致跨庫性能下降的原因之一。如何改良網絡結構、結合手工與深度特征、改進訓練方式,以最終提升深度偽造檢測算法的跨庫性能,也是以后研究的重點之一。

表6 高效I3D與標準I3D的跨庫檢測正確率

4 結論

本文提出了一種用于深度偽造換臉視頻檢測的眼部和口部雙流高效Inception3D深度神經網絡協同檢測方法。預處理階段,利用dlib人臉識別庫檢測視頻中的人臉并分別提出眼部和口部區域作為網絡輸入。隨后,通過本文設計的高效I3D雙流網絡分別學習眼部和口部在空域和時域的篡改特征。最后利用雙流輸出結果協同判定待驗視頻的真實性。實驗結果顯示,本文所提方法在Celeb-DF、DFDC預覽、DeepFakeDetection等目前常用的數據集上的檢測準確性較Xception網絡分別提升了18.5%、59.5%以及29.2%。而相對于采用了標準I3D結構的雙流網絡,其高效版可在Celeb-DF數據集上保證檢測準確率不變的情況下實現約3倍的處理速度提升。后續工作將關注如何改進雙流特征的融合機制、設計端到端的網絡、優化網絡結構和訓練策略等,以進一步提升檢測性能。

猜你喜歡
雙流卷積神經網絡
四川省成都市雙流區東升迎春小學
基于3D-Winograd的快速卷積算法設計及FPGA實現
雙流板坯側面鼓肚與邊角掛鋼原因與對策
雙流機場一次低能見度天氣過程分析
神經網絡抑制無線通信干擾探究
四川省成都雙流中學實驗學校
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合