?

基于特征級聯融合的圖像篡改檢測方法

2024-01-29 10:47宣高媛楊高明畢飛龍
寧夏師范學院學報 2024年1期
關鍵詞:級聯像素特征

宣高媛,楊高明,畢飛龍

(1.安徽理工大學 人工智能學院,安徽 淮南 232001;2.安徽理工大學 計算機科學與工程學院,安徽 淮南 232001)

隨著數字圖像的普及和應用,利用自動生成技術和圖像編輯工具可以輕松且低成本地進行篡改偽造.數字圖像偽造的盛行對生活產生了很多負面影響,如網絡謠言、保險欺詐、假新聞,甚至學術作弊[1].在這樣的背景下,研究圖像篡改檢測算法[2]是一個十分具有挑戰性和迫切性的課題,已經得到了相當多的關注.在過去的幾十年中,研究者們開展了相關研究并提出各種各樣的篡改檢測算法.但是這些算法受到各種限制,需要不斷改進和提高.由于圖像操作復雜,篡改的形式包括圖像拼接、圖像復制、圖像修復等,因此本文提出一種基于特征級聯融合的篡改檢測方法,試圖提高篡改檢測的精度和魯棒性.

目前主流的圖像拼接偽造檢測方法主要分為2類:傳統檢測方法和基于深度學習的檢測方法.傳統方法主要包括局部不變量特征匹配[3]、基于二維離散小波變換和奇異值分解、自一致性等對圖像是否被篡改進行分類.這些方法通常需要足夠的人工經驗和領域知識,并且往往不能充分利用圖像中的信息.此外,傳統方法的性能在某些情況下會受到限制,對于具有高自相似性或強烈信號腐敗的圖像,傳統算法通常檢測精度較低.

在過去研究中,基于深度學習的方法在解決圖像篡改檢測問題方面已經超過傳統方法并取得重大進展.這些方法通常使用主流深度學習框架卷積神經網絡提取圖像特征,并且可以利用圖像中的上下文信息進行分類和檢測.初期人們將卷積神經網絡方法用于判斷圖像是否被篡改,但這種方法無法定位篡改區域,且檢測到的區域只能用一些粗糙的白色方塊表示.ZHANG等[4]嘗試用神經網絡定位篡改區域,但檢測到的區域只能用一些不準確的粗糙區域表示.之后,R-CNN(Regions with Convolutional Neural Networks)及其擴展包括Fast-RCNN(Fast Regions with Convolutional Neural Networks)、Faster-RCNN(Faster Regions with Convolutional Neural Networks)和Mask-RCNN(Mask Regions with Convolutional Neural Networks)等基于區域的檢測方法取得了驚人的成功.這些方法使用非重疊圖像塊作為輸入,將感興趣的區域邊界框作為輸入以對區域進行分類,再對圖像篡改區域進行選擇性搜索.由于這些方法采用圖像塊作為網絡輸入,丟失了上下文空間信息,容易導致錯誤的預測.

盡管以上基于深度學習的方法在圖像篡改檢測方面取得了顯著的成果,但仍然存在一些問題,如忽略不同像素需要不同上下文依賴性的要求以及淺層網絡特征和深層網絡特征對比聯系,缺乏對全局像素內在聯系建模的能力.為了解決上述問題,提高圖像篡改檢測的準確性和魯棒性,本文提出一種新的網絡模型:FFU-Net(Feature Cascade Fusion Detection Network based on U-Net).FFU-Net模型引入特征級聯融合模塊,可以有效地融合來自不同尺度的特征信息,并優化多層次特征重構,提高特征信息的質量.具體采用與U-Net網絡模型類似的編碼器-解碼器結構,通過編碼器從原始圖像中提取特征信息,在解碼器中引入特征級聯融合模塊,以融合來自不同尺度的特征信息,并優化多層次特征重構,提高特征信息的質量.在CASIA和COLUMB數據集上進行實驗,展示FFU-Net模型的直觀檢測結果.圖1為隨機選擇的測試結果圖像,可以看到該模型能夠精確定位像素級的篡改.

圖1 篡改位置檢測結果示例圖像

實驗結果表明,與原始的U-Net網絡及其一些變種相比,FFU-Net網絡模型在各種圖像篡改檢測數據集上均表現更好.該模型可以有效地捕獲不同尺度的特征信息,降低檢測錯誤的可能性,并具有良好的應用前景.本文的主要貢獻有,構建多層次上下文信息捕獲聚合模塊,通過不斷地集成聚合不同尺度上下文信息,逐漸優化重構多層次特征,進而獲取更高質量的特征信息.提出級聯融合損失,將不同階段的損失函數進行級聯,引導模型向更加準確的預測結果學習.有效地降低模型的過擬合風險,提高模型的泛化能力,進一步提升模型性能.在CASIA2.0和COLUMBIA 2個圖像篡改標準數據集上取得更高的準確率.

1 理論基礎

1.1 深度學習的像素二分類檢測算法

當前的主流研究方法之一是將篡改區域定位視為像素級的二分類問題,采用圖像分割的算法定位篡改區域.在一些圖像分割任務上的一些方法被廣泛關注,并在圖像檢測任務上得到應用.U-Net是一種深度學習網絡結構.該網絡結構在神經元結構分割任務上取得了重大成功,具有突破性的框架,并能夠實現特征在層間的傳播,它可以用很少的訓練圖像實現高精度分割.該結構通過收縮路徑(連續層)捕獲上下文信息,對輸出特征進行上采樣,然后與通過對稱擴展路徑傳播的高分辨率特征結合,減少了細節信息的丟失并實現了精確定位.U-Net的U型對稱的編碼器解碼器結構在圖像篡改定位中相當有效,但U-Net也存在一些局限:只能針對圖像語義和結構相對簡單固定,且在深度網絡結構中會出現梯度退化導致網絡訓練準確性下降的問題.在網絡中加入環形殘差,構建前向反饋和反向計算殘差信息以達到消減梯度退化.LIU等[5]提出一種基于區域損失的 U 型網絡,用于檢測小尺寸圖像篡改區域.該方法通過增強異常區域的特征并采用區域損失增強技術,解決了樣本不平衡問題,并提高了對篡改區域的判別能力.AKRAM等[6]提出一種結合判別魯棒局部二進制模式(DRLBP)和支持向量機的新型圖像拼接檢測方法,以應對日益增長的圖像拼接偽造技術的挑戰.WEI等[7]提出合成對抗網絡和混合密集U-Net,通過擴大數據集并利用空間特征提高檢測精度和魯棒性.SUN等[8]提出一種邊緣增強變壓器,用于精確定位圖像拼接篡改區域,通過集成邊緣線索和特征增強模塊,以提高篡改檢測的準確性和降低誤報.DING等[9]提出一種基于雙通道U-Net的圖像篡改定位方法,對編碼器和解碼器進行2次特征融合,可以更準確地對篡改和非篡改區域進行分類,但是只能檢測拼接類型的圖像篡改操作.即檢測的圖像操作類型過于單一.以上方法的網絡結構相對復雜,訓練和推理需要大量的計算資源,尤其是模型規模較大時,需要更大的計算資源.

1.2 彌合視覺表現和語義理解的差距

由于篡改圖像通常會為了保留大部分高級語義信息而破壞圖像的低級視覺表現,因此一個主要的挑戰是彌合低級視覺表現和高級語義理解之間的差距.傳統的圖像處理技術主要借助固有痕跡,需要特定的篡改類型和簡單的圖像結構才能取得較高的準確性,即缺乏關聯圖像深層特征屬性的,深度學習可以更好地學習圖像特征以及兼顧低級視覺表現和高級語義理解的需求.

一種常見的解決低級視覺表現和高級語義理解之間差距的方法是構建特征金字塔以獲取多尺度特征.深度圖像先驗DIP(Deep Image Prior)是一種基于特征金字塔的方法,它通過在訓練期間隨機初始化輸入圖像,最小化像素差異,以實現篡改檢測.此外,一些研究人員已將神經網絡與特征金字塔結合使用,以獲得更好的性能.另一種方法是使用注意力機制幫助網絡更好地關注重要區域,從而提高網絡性能.一種基于注意力機制的方法使用空間注意力模塊增強網絡對細節的感知.SAM(Spatial Attention Module)基于像素之間的相對位置計算它們之間的相關性,從而增強網絡感知細節的能力.還有其他方法被提出以解決低級視覺表現和高級語義理解之間的差距.例如,一些方法使用多尺度卷積核處理不同大小的對象,從而提高網絡性能;一些方法使用高波濾波器捕獲圖像中的紋理信息,從而實現更準確的篡改檢測;還有一些方法使用GAN(Generative Adversarial Network)合成篡改圖像擴展訓練數據集,提高網絡的泛化能力.

現有的方法在一定程度上提高了網絡性能和準確性,但仍有許多問題需要解決.未來的研究方向包括進一步提高網絡性能,開發更有效的特征表示,探索解決低級視覺表現和高級語義理解之間差距的新方法.此外,需要更多的研究,以解決在使用深度學習方法時面臨的數據不平衡、對抗攻擊和隱私保護等問題.因此,深度學習方法在圖像篡改檢測領域中具有廣泛的應用前景,需要進一步研究以推動其發展.

2 基于U型網絡的特征級聯融合檢測模型

本文提出一種新的FFU-Net網絡模型.該模型將U-Net模型和特征級聯融合模塊相結合,可以有效地融合來自不同尺度的特征信息,優化多層次特征重構,提高特征信息的質量.針對所提取到的不同尺度的上下特征信息,優化重構多層次特征,捕獲高質量的特征信息,降低檢測錯誤的可能性.

2.1 特征級聯融合模塊

本文采用U型結構的網絡模型作為基礎模型進行圖像篡改檢測,為了更加高效、準確地識別篡改區域與未篡改區域的差異,搭建特征級聯模塊,由上一層網絡卷積中獲取的關鍵特征作為參考,指導下一層的網絡學習,不斷集成聚合不同尺度上下文信息逐漸優化重構多層次特征,進而獲取更高質量的特征信息以判斷檢測結果.特征級聯融合模塊結構如圖2所示.

圖2 特征級聯融合模塊

具體來說,給定輸入RGB圖像,在卷積計算獲得的特征集T={d1,d2,…,dn;u1,u2,…,un;f1,f2,…,fn}對于空間上較粗糙的瓶頸層塊的特征fi和特征級聯融合模塊的輸出,以因子fi對空間分辨率進行上采樣.以下1×1卷積運算用于對齊2個輸入要素之間的通道尺寸.然后通過加法和級聯操作,將上采樣的網絡層ui、下采樣的網絡層di和連接的瓶頸層塊的特征fi融合為

fi+1=Conv(fc(ui)+fu(fi))‖fc(ui)‖fc(di),b∈[1,B-1],

(1)

式中,+和‖分別表示加法和級聯運算.fu(·)是上采樣和1×1卷積模塊的函數.fc(·)是1×1卷積模塊的函數,用于對齊2個特征之間的通道數.Conv是一個1×1卷積塊,它融合拼接操作后的特征,并維持特征通道數不變,如圖2所示.重復該融合處理,直到生成最新的特征圖fn.

特征級聯模塊的優勢在于能夠提高特征的多樣性和魯棒性,同時降低模型的參數量和計算量.具體來說,該模塊能夠將低層次的視覺特征和高層次的語義特征結合起來,提高模型對圖像中不同尺度和復雜度的特征的表示能力.

2.2 網絡結構

本文的基礎網絡結構主體是U型網絡結構,由下采樣的壓縮路徑和上采樣的擴展路徑組成.在采樣的網絡層中加入特征融合模塊,在上采樣網絡恢復空間信息的過程中反饋到相應層級的特征提取層進行級聯融合.將篡改圖像RGB輸入U-Net網絡的編碼器部分,經過多個卷積層和池化層提取篡改圖像的特征.在這個過程中,卷積層的卷積核會檢測輸入圖像的局部特征,如邊緣、紋理等.篡改圖像和原始圖像的差異特征會通過瓶頸層傳遞到解碼器部分,其中瓶頸層通常由一些卷積層和激活函數組成,在解碼器部分,通過上采樣和反卷積等操作將低維特征重新映射到高維特征空間中,得到與原始圖像尺寸相同的分割結果.對上一層瓶頸層和特征大小相同的編碼器中的特征、解碼器中的特征通過特征級聯融合模塊形成下一層的輸出,最終得到一個與原始圖像尺寸相同的分割結果.

總體模型框架分為2部分:第一部分以U型網絡分割偽造區域和提取全局特征為基底,主要用于分割偽造區域和提取全局特征,有助于提高網絡的準確性和魯棒性,從而更好地檢測圖像中的篡改和偽造.第二部分為多層次特征級聯融合模塊,旨在實現多層次特征中互補信息的交流學習.該模塊允許多個不同層次的特征參與學習,從而提高了檢測結果的準確性和魯棒性.在這個模塊中,不同層次的特征將被級聯融合,以實現更全面和準確的特征表示.基本網絡結構如圖3所示.

圖3 FFU-Net的網絡體系結構

不同層次特征包含不同信息分布,淺層含空間結構信息但分辨率高,深層含語義信息但分辨率低,全局上下文信息可突出目標區域并減少背景干擾,融合不同特征信息可提高顯著性檢測精準度.由于深層的語義特征信息在自上向下的傳遞過程中逐步淡化,使顯著性目標在層層卷積上采樣后丟失高級別語義信息的指導,導致模型檢測性能下降.因此,FFU-Net在每個網絡塊融合淺層特征信息,瓶頸層和深層特征信息都加入特征級聯融合模塊,可以彌補深層語義信息的淡化,提升淺層網絡檢測能力,有效減少圖像內容的干擾,并在每層卷積實現對篡改區域的精準定位.通過特征級聯融合模塊,可以捕獲到較為細節的空間和語義信息,聯合深層網絡的多層次特征,可以達到更加準確的區域檢測.

2.3 損失函數

在網絡訓練中,本文訓練損失函數的第一個組成部分是最后一層預測掩模un與真實掩模truemask之間的二元交叉熵損失,

LBCE(un,truemask).

(2)

第二個組成部分同樣是對所有其他fn

LBCE(fn,truemask).

(3)

第三個組成部分選用損失函數Lfea,函數是用來平滑正則化的,它通過將輸入樣本的所有特征與最后一個特征之間的誤差作為懲罰項,保持模型的穩定性和準確性.訓練的特征損失函數Lfea的計算公式為

(4)

總損失函數如公式(5)所示,平衡了準確的掩模預測和網絡不同層學習特征一致性之間的重要性.

(5)

式中,超參α、β和γ控制了這些組成部分在整個損失函數中的相對重要性.

3 實驗結果和比較分析

3.1 數據集

在實驗中,本文使用了CASIA V2.0和COLUMB 2個公共標準數據集,對FFU-Net進行了多個實驗以評估其性能和魯棒性.

CASIA數據集有2個版本:1.0版本是一個較小的集合,僅有1725張經過拼接的篡改圖像且圖像格式等相對固定;2.0版本是各種操作具有的大集合,有12323張彩色篡改圖像示例,主要包含拼接和復制移動.COLUMB圖像數據庫由2部分組成.一部分是灰度圖像數據集COLUMB圖像拼接檢測評價數據集.該數據集由933個真實圖像塊和912個拼接灰度圖像塊組成.在CASIA上,偽造區域是物體,小而精細.在COLUMB上,拼接偽造區域是一些簡單的、大的和無意義的區域.這2個數據集均為未壓縮數據,也是現在圖像篡改領域應用最多的公共數據集.

本文從CASIA數據集中隨機選擇715組圖像作為訓練集,并選擇35組圖像作為驗證集.這些圖像都包含原始圖像和篡改圖像.同樣,從COLUMB未壓縮數據集中選擇125組篡改的圖像,其中10組作為驗證集數據、44組作為測試數據.為了防止由于數據樣本較少而導致過擬合,對訓練數據進行擴展,通過隨機高斯噪聲、IPEG壓縮和隨機反轉進行數據增強,使數據集的容量增加了4倍.標準數據集劃分情況如表1所示.

表1 基于CASIA和COLUMB劃分的訓練、驗證和測試集

3.2 實驗設置和評價指標

在CASIA和COLUMB數據集中,實驗將訓練集和驗證集的圖像大小調整為384×256.為了比較和分析圖像拼接偽造檢測方法的魯棒性,本實驗對偽造數據集進行JPEG壓縮和噪聲破壞,以模擬各種攻擊場景.在接下來的實驗中,為了公平,所有實驗圖像均為JPEG格式.

在實驗中,用Python和PyTorch實現所提檢測方法,使用Adam優化器進行訓練,并將學習率設置為0.001.在NVIDIA GeForce GTX 3080 Ti GPU上運行本實驗.

使用以下4個指標評估算法在像素級別上的性能:精確度(Precision)、召回率(Recall)、F度量(F-measure)和正確率(Accuracy).這些評價指標能夠全面地衡量算法的性能,幫助深入了解算法的優缺點,并為后續的算法優化提供重要的參考依據.其中,精確度衡量的是算法檢測到的篡改像素中真實篡改像素所占的比例,

(6)

式中,TP表示算法檢測到的正確篡改像素數量,FP表示算法檢測到的錯誤篡改像素數量.

召回率衡量的是算法能夠正確檢測到的真實篡改像素數量占總體真實篡改像素數量的比例,可表示為

(7)

式中,FN表示未檢測到的真實篡改像素數量.在分類器性能評估中,Precision和Recall指標可能會出現矛盾,這時需要綜合考慮它們,F-measure是最常用的綜合考慮Precision和Recall的指標,F-measure可以被視為Precision和Recall的加權調和平均.具體的計算公式如下:

(8)

當Precision和Recall同時很高,F-measure也會很高.準確率一般用來評估檢測模型的全局準確程度,計算公式為

(9)

在實驗中,精確度、召回率和F-measure都是在測試集上進行平均計算的.除了像素級別的評價指標,還需要考慮算法對于未篡改圖像和篡改圖像的區分能力.也就是說,未篡改圖像不應該被檢測為篡改圖像,反之亦然.為了驗證模型的檢測效果,本文在圖像層次上采用準確率以評估算法的性能.

3.3 對比實驗與分析

本文主要從2個角度進行對比實驗:直觀檢測結果和定量指標評價.

3.3.1 檢測結果

為了評估所提方法的有效性,進行一些基線實驗,并比較了FFU-Net模型與這些基線方法的表現.將所提方法與FCN[10]、DeepLab V3、U-Net和RRU-Net模型的直觀效果做對比.其中,FCN是一種像素級分類方法,自動學習圖像篡改特征用于圖像拼接篡改檢測;DeepLab V3是針對圖像語義分割任務的有效檢測方法;U-Net作為全卷積網絡結構的模型之一,與FCN相比,最重要的改進是增加了跳躍式結構,減少了信息的丟失,在像素級分類檢測上有明顯效果;RRU-Net則在U-Net的基礎上改進了梯度下降的問題,增加殘差結構,讓檢測更加有效.圖4展示了本文所提模型和這些檢測方法的直觀檢測效果,可以看出基礎U-Net方法只對原圖的顯著性目標有較高的識別性,而不只是篡改部分;RRU-Net在檢測篡改區域上誤檢率降低了很多,但是不夠精細;本文的網絡結構相比前面幾種方法,更加準確,非常接近真實標簽.

圖4 FFU-Net與其他篡改檢測方法的比較可視化結果

實驗用上述的4個評價指標對本文模型實驗檢測結果進行了更加客觀的評價,結果見表2和表3.

表2 CASIA數據集評估結果

表3 COLUMB數據集評估結果

表2和表3分別顯示出對CASIA和COLUMB數據的評估結果.從表對像素級分類的評估結果可以看出,NADQ方法4個評價指標的結果相對較低,CFA算法對COLUMB數據中的簡單篡改有一定的檢測效果,在4個評價指標上取得了高于NADQ的分數.綜合來看,基于深度學習的圖像篡改檢測優于傳統檢測算法.C2RNet提出從粗到細的拼接檢測方法,采用聚類算法對檢測結果進行處理,但檢測精度較差.RRU-Net在傳統U-Net網絡的基礎上增加了殘差學習和反饋過程,大大提高了模型的檢測效果.可以看出本文方法在查準率、查全率和F測度都優于其他方法,綜合評估在數據集CASIA上相較于最新的方法F-measure提高了3%,在數據集COLUMB上提高了4%.

3.3.2 魯棒性檢測

為了評估本文所提方法在圖像篡改檢測魯棒性方面的表現,本實驗從CASIA和COLUMB數據集中隨機選取了20%的圖像,并對這些圖像進行了不同程度的篡改處理,包括JPEG壓縮和高斯模糊,并與2種常見的圖像篡改檢測模型做對比實驗.實驗對比結果見圖5、圖6、圖7和圖8,橫軸分別為噪聲強度和JPEG壓縮質量.

圖5 CASIA數據集添加高斯噪聲的實驗結果

圖6 COLUMB數據集添加高斯噪聲的實驗結果

圖7 CASIA數據集中JPEG壓縮攻擊的實驗結果

圖8 COLUMB數據集中JPEG壓縮攻擊的實驗結果

從實驗結果可以看出,隨著高斯噪聲的增加,所有評價指標都出現不同程度的下降。如圖5和圖6所示,當方差為0.002時,CFA和ADQ這2種傳統方法的F-measure 值和精度值幾乎達到了最低點.隨著高斯噪聲的方差從0.002 逐漸增加到0.01,其余基于深度學習的檢測方法的評價指標也逐漸下降.可以看出,噪聲攻擊對深度學習方法有很大的影響,但不存在像傳統方法那樣的檢測失敗.如圖7和圖8所示,在JPEG壓縮攻擊時也有同樣的表現.從檢測指標可以看出,隨著高斯核尺寸的增大和JPEG壓縮質量因子的降低,FFU-Net進一步降低了高斯噪聲的影響,從而獲得與其他方法相比最好的結果,所提出的模型的檢測指標受到的影響最小,其Fmeasure值始終保持在較高的水平.在CASIA和COLUMB數據集上的平均F-measure值最高,表明本文提出的FFU-Net 具有較好的魯棒性.

4 結論

本文提出一種新的基于U型網絡的檢測模型FFU-Net.該模型將U-Net網絡模型和特征級聯融合模塊相結合,可以有效地融合不同尺度的特征信息,優化多層次特征重構,提高特征信息的質量.通過構建多層次特征級聯融合模塊,實現不同層次特征之間的互補信息交流學習,提高顯著性檢測的精準度,在不同類型的圖像篡改任務中均取得了較好的表現.綜合來看,該方法是一種有效的圖像篡改檢測方法,具有較強的實用性和應用前景.同時,測試結果表明FFU-Net模型具有較好的抗噪聲和抗壓縮能力.

猜你喜歡
級聯像素特征
趙運哲作品
像素前線之“幻影”2000
如何表達“特征”
“像素”仙人掌
不忠誠的四個特征
抓住特征巧觀察
級聯LDPC碼的STBC-OFDM系統
基于級聯MUSIC的面陣中的二維DOA估計算法
高像素不是全部
LCL濾波器在6kV級聯STATCOM中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合