?

基于多尺度前饋融合結構的重采樣因子估計算法

2023-12-24 10:34郭靜張玉金江智呈孫冉
數據與計算發展前沿 2023年6期
關鍵詞:殘差像素卷積

郭靜,張玉金,江智呈,孫冉

上海工程技術大學,電子電氣工程學院,上海 201620

引 言

大數據時代下,數字圖像作為最重要的信息載體之一,已然深入到各個領域,數字圖像處理技術高速發展,圖像編輯手段日趨多樣化,如旋轉、裁剪拼接等,這些技術的應用提高了人類的生活生產水平,但也改變了原有圖像的特征信息,某些情況下會造成不良的社會影響,甚至嚴重威脅國家安全,因此,數字圖像取證算法已經成為了當今的研究熱點[1-3]。重采樣是最常見的圖像處理技術,包括上采樣和下采樣過程,重采樣因子估計算法是圖像信息安全、圖像取證以及圖像隱寫分析等領域的重要分支,具有廣泛的應用前景[4-6]。

基于傳統模型的重采樣因子估計算法中,Popescu等人[7]提出重采樣圖像的像素與其鄰域相關,可以采用EM算法來測量圖像像素之間的特定周期相關性,推算出重采樣因子的數值,這種方法依賴于某些初始化參數,這些參數可能會對相同的輸入產生不同的結果;Song等人[8]利用重采樣帶來的周期性,提出了一種基于閾值的峰值檢測方法,在此基礎上使用差分方法分別沿水平、垂直和對角線方向來估計重采樣因子。在JPEG 圖像的重采樣因子估計中,Liu 等人[9]提到圖像經JPEG 壓縮后會產生塊效應網格,其相鄰極值直方圖呈周期性分布,重采樣后極值直方圖周期由重采樣因子決定,利用直方圖峰值周期偏移量可以反推重采樣因子?;趥鹘y模型的算法中,一種是利用空間域之間的像素關系,放大區域像素之間的關聯性,根據圖像的殘差信息捕獲重采樣的痕跡;另一種傳統模型是將圖像轉換到頻域,通過對頻譜特性的分析結合估計算法實現檢測。無論是基于像素域還是頻域的傳統算法很大程度上依賴于先驗知識,這就需要大量的計算資源,并且噪聲等干擾會模糊化重采樣頻譜。

神經網絡的廣泛應用使得重采樣因子的檢測不再局限于周期特征的獲取,克服了人工提取圖像重采樣痕跡的弊端。Liang等人[10]提出了一種基于深度卷積網絡的重采樣檢測算法。該網絡可以根據殘差映射關系自動學習重采樣痕跡,并克服噪聲對重采樣因子估計的影響,具有一定的魯棒性。Peng 等人[11]將每個重采樣參數視為一個不同的類,將其轉化為一個多分類問題,設計了一個基于預處理操作的卷積網絡結構來捕獲特定的重采樣特征并進行分類。Luo等人[12]提出一種雙流卷積網絡來估計灰度圖的重采樣因子,輸入為灰度和頻率,分別從空間域和頻域中獲取重采樣特征?,F代卷積神經網絡(CNN)對重采樣縮放參數估計具有較高的準確率,超出了傳統基于模型的算法極限,特別是在下采樣和JPEG 壓縮方面?;谏窠浘W絡的重采樣因子估計算法多是從空間域或頻域去捕獲重采樣痕跡特征并進行分類,但存在傳輸通道中的信息冗余,感受野范圍小等問題,同時多次卷積過程也會造成特征信息丟失,尤其在下采樣因子的估計中,網絡學習能力急劇下降。

本文算法流程如圖1所示,將重采樣因子估計問題轉換為分類問題,提出一種基于多尺度前饋融合結構的重采樣因子估計算法,在算法的預處理層中,該分類器利用兩個線性高通濾波器,對估計圖像差分得到殘差特征,同時使用低階濾波核分別從垂直、水平和正負對角線上獲取圖像像素之間的關聯性,作為網絡輸入端的特征信息補償。算法的主體結構為CNN,針對卷積和池化過程中的信息丟失問題,根據殘差網絡的優勢[13-14],在網絡分支上提出多尺度殘差融合模塊(MRFM),該模塊在CNN 不同的層級處利用多尺度卷積核提取重采樣痕跡細節特征并進行拼接,通過注意力機制對不同層級中特征信息的重要性進行權重標定,跨層次拼接融合后輸出到網絡后端作為分類特征補償機制,減少殘差信息冗余并補償深度卷積過程中信息丟失,增加長距離下殘差特征之間的相關性,更加精準地實現重采樣因子估計。

圖1 算法流程圖Fig.1 Algorithm flowchart

1 相關知識

1.1 重采樣因子估計分類化

重采樣因子λ∈{λ1,λ2,…,λN,λN+1} ,當λ>1,代表圖像進行上采樣,λ<1,代表下采樣操作。將重采樣因子集合劃分為子集合{k1,k2,…,kN,kN+1},如公式(1)所示:

其中,t∈{1 ,2,…,N} ,xt代表每一個子集合的邊界,x1和xN+1代表了重采樣因子集合的最小值和最大值。根據公式(1)可知,每個λi對應一個子集合ki,即:

從公式(3)可知,子集合覆蓋了所有的采樣因子值域,將每一個子集合ki記為一個類標簽li得到對應關系:

由公式(4)可知訓練集中每一個圖像都有了對應的標簽,重采樣因子就轉換為特征向量表達形式。在網絡訓練過程中學習不同因子的重采樣痕跡特征,并在網絡輸出端以向量q形式表征,從而將重采樣因子估計轉換為多分類問題,如公式(5)所示。

1.2 通道注意力機制

Wang等人[15]提出一種局部跨通道信息交互的通道注意力機制(Efficient Channel Attention block, ECA block),結構如圖2 所示。該結構實現局部通道交互,自動獲取每個通道所含信息的重要性,賦予不同的權重系數,強化重要特征而抑制非重要特征的信息。該結構通過局部信息感知在網絡訓練中自適應地調整不同通道之間的特征響應,減少傳輸通道中信息冗余的同時,將計算資源分配給最有用的部分。該機制所需的計算資源小,可以集成到任何CNN 網絡中。EAC block 克服了SE block[16]中特征通道上“先降維再升維”帶來的對應關系弱化問題,通過一維卷積,用局部信息代替全通道線性組合預測,避免降維帶來誤差的同時,減少參數量。

圖2 ECANet 結構圖Fig.2 ECANet structure diagram

H、W和C分別代表當前輸入特征X的高度、寬度和通道數,首先,將通道上的空間特征編碼為一個全局特征,通過全局平均池化(Global Average Pooling,GAP)將特征圖在H×W的空間維度上進行細節收縮,定義為:

其中,Fsq(·)表示全局平均池化,xc(·)表示特征圖X的第C個通道,得到了全局描述特征yC后,確定局部跨通道信息交互的范圍,卷積核尺寸大小由輸入信息通道數C自適應決定,如公式(7)所示:

其中,K表示卷積核大小,| ·|odd表示取絕對值最近的奇數,γ和b為常數,本文分別將其設置為2和1,卷積權重包含K×C個參數,如公式(8):

其中,σ(·)代表Sigmoid 函數,輸入特征信息的權重矩陣ρ中第C個通道的權值ρi由其相鄰K個通道共同預測產生,如公式(9):

利用卷積核實現權值共享,則公式(10)中的權值相乘可以轉換為一維卷積操作,于是輸入通道權值矩陣表達式為:

Conv1(·)代表一維卷積操作,最后ECA block的輸出特征X′為:

其中,“·”表示權值系數與對應通道各元素相乘。

2 本文算法

2.1 網絡總體結構

本文所提算法采用深度卷積神經網絡作為分類器,輸入特征為6個線性濾波器得到的高通特征信息,將卷積操作+批量歸一化+激活函數作為特征提取模塊的基本結構。提取淺層殘差特征時,采用5×5 卷積核,數量為24,兩次卷積后的輸出經過池化層縮減特征通道的長度和寬度,保留最大值分類特征并減少參數,隨著網絡的加深,卷積核尺寸不變數量增大為32,第二次池化后卷積核尺寸減少為3×3,數量為64,使用細化特征所需的感受野,最后四層卷積的核大小仍為3×3,數量增加為128,以此來捕捉更細小的高階特征,在分支上提出多尺度殘差融合模塊(MRFM),連接池化層的輸出特征信息,經過激活函數Tanh與主通道的輸出分類特征相拼接,通過平均池化操作供全連接層學習分類。網絡的具體結構如圖3。其中,Fi為當前隱藏層的重采樣輸出殘差特征。為了保證重采樣痕跡在通道上的并行,所有卷積操作均采取填充形式保持輸入輸出特征的長度和寬度不變,與Sigmoid 和Tanh 相比,ReLU 具有更快的收斂速度,但在鏈式相乘的作用下,一些輸入可能會落入硬飽和區,導致相應的權重參數無法更新,Tanh具有軟飽和性,輸出均值為0,缺點在于運算速度緩慢,本文所提網絡運用兩種激活函數來滿足需求。在分類模塊中(Classification Module)中,用兩個全連接層和Softmax 函數執行分類,輸出圖像判定為每個重采樣因子類別的概率。

圖3 網絡總體結構圖Fig.3 Overall structure of the network

2.2 預處理層

許多用于檢測圖像重采樣的早期方法基于預測殘差,網絡可以從殘差特征學習到重采樣痕跡,通過差分運算,可以放大圖像重采樣的特征,減少圖像內容帶來的影響,縮小網絡的映射范圍,使網絡預測出殘差分類特征。本文通過兩個線性高通濾波器[17]將圖像映射到殘差像素域,濾波器為:

濾波器H1和H2分別考慮5鄰域和3鄰域內的像素相關性,濾波二值效果如圖4(b)(c)所示,考慮到圖像下采樣過程中,原始圖像丟失了大量的像素值,破壞了原有像素間的相關性,增加提取重采樣特征的難度,本文引入4個低階濾波核,在窗口內計算梯度作為像素低階相關性信息的補充,如公式(14):

圖4 圖像濾波后的二值圖Fig.4 Binary image after image filtering

H3、H4、H5和H6分別在垂直、水平和對角方向上計算梯度,強化單像素之間的關聯性,濾波二值效果如圖4(d)~(g)所示,6個濾波核得到的重采樣痕跡特征作為卷積神經網絡的輸入特征,預處理層的結構如圖5所示。

圖5 預處理層的結構Fig.5 Structure of the preprocessing layer

2.3 多尺度殘差融合模塊

ECA block 能對不同通道上的重采樣特征進行權值重標定,但ECA block的缺點在于只能實現局部信息的標定,即對上層網絡的特征進行選擇。為了豐富網絡的感受野,同時適應高階和低階殘差特征,強化重采樣痕跡在信息通道的有效傳輸,在網絡的分支結構上提出多尺度殘差融合模塊(MRFM)。

3個多尺度殘差融合模塊的結構大致相同,如圖6所示,利用多尺度卷積核分別提取兩個不同層級處的分類特征,經過批量歸一化(BN)和非線性激活函數ReLU 后在空間上拼接,ECA block根據不同通道信息在網絡傳遞中的重要性自適應地賦予通道權值。

圖6 MRFM結構圖Fig.6 MRFM structure diagram

MRFM在神經網絡分支上的連接方式如圖7 所示,Feature1、Feature2、Feature3 和Feature4分別代表網絡不同隱藏層的輸出且依次靠后,這些Feature中包含了不同感受野和非線性擬合得到的重采樣痕跡特征,MRFM 在網絡的不同層級處,將提取到的多尺度殘差信息進行拼接,通過注意力機制的標定和卷積并池化操作后輸出并作為下一個MRFM 的輸入,這種串聯式結構有助于提高重采樣殘差特征的有效性并盡可能壓縮淺層通道信息的冗余性。

圖7 MRFM的連接方式圖Fig.7 Connection diagram of MRFM

MRFM的卷積層參數如表1所示,為了加快網絡的收斂速度,減少所需的計算資源,MRFM1對初級特征分別采用7×7 和5×5 的卷積核,個數為16,擴大感受野,提取大尺度殘差特征,進一步削弱預處理層中像素相關性造成的信息過剩。隨著網絡加深,MRFM2所使用的卷積核尺寸減小為5×5 和3×3,卷積核個數為32,能更好地適應細化的分類特征,而MRFM3將進一步提取細化殘差特征并在通道上進行信息融合,控制輸出通道的數量,這樣的濾波核設計能更好地捕獲不同重采樣因子留下的痕跡并減少網絡待優化的參數量。在不同層級處的多尺度特征提取,確保網絡能自適應獲取不同階次的像素相關性特征,增強網絡的泛化能力。

表1 MRFM的參數設定表Table 1 Parameter setting table of MRFM

多尺度殘差融合模塊解決如下幾個問題:(1)在分支上擴大了映射學習范圍,該結構將當前輸入特征與卷積提取后的特征,分別用大卷積核和小卷積核重提取并拼接,讓網絡自適應地對痕跡特征進行重要性選擇,可以實現重要特征的重利用;(2)擴大網絡的傳輸通道,建立長距離下像素點之間的相關性,優化網絡表征能力;(3)3 個MRFM 迭代標定的重要性特征在網絡的后端進行拼接,可以補償卷積過程中分類特征的丟失;(4)MRFM 有著殘差模塊的優勢,保留各階信息的同時,抑制網絡深度帶來的梯度消失現象。同時,因其將不同層級的特征直接輸出到網絡末端,克服了殘差網絡計算成本過高的缺點,加速網絡的收斂。多尺度殘差融合模塊的計算過程如公式(15)~(17)所示。

其中,Iin表示網絡不同層級處的重采樣因子殘差特征圖,Iout表示MRFM 的輸出特征,ω和b分別表示卷積層的權重系數和偏置,NB(·) 表示批量歸一化處理函數,δ(·) 表示激活函數ReLU,Pool表示平均池化,“⊕”表示特征信息在通道上拼接,ε(·) 表示激活函數Tanh,X′i表示經ECA block后的輸出特征。

3 實驗與結果分析

3.1 數據集的選擇

本次實驗的訓練集、驗證集和測試集來自公開數據集BOSS Database[18]、UCID Database[19]和Dresden Database[20],從3 個數據庫中獲取4,000 幅未壓縮的RGB 圖像,分別進行參數為λ(λ∈{0 .5,0.6,1,1.1,…,1.6} ),共48,000 幅彩色圖像作為網絡訓練集,其中,λ=1 表示不進行重采樣操作,從BOSS Database 和UCID Database獲取另外1,000 幅RGB 圖像,從Dresden Database 獲取800 張RGB 圖像,利用同樣的方式分別作為驗證集和測試集,上述重采樣過程分別使用最鄰近插值(Nearest interpolation)函數、雙線性插值(Bilinear interpolation)函數和雙三次插值(Bicubic interpolation)函數。

3.2 損失函數的選擇

本文所提算法是為了實現目標特征的多分類,分類模塊的輸出函數為Softmax,用來表示當前圖像屬于不同類別的概率,采用交叉熵損失函數來最小化概率分布之間的差異,得:

其中,n表示樣本批次大小(batch size),M代表類別數,yi,j表示第i個樣本在第j類上的真實標簽,pi,j表示第i個樣本在第j類上的預測概率。

3.3 實驗環境及參數設置

由于從數據庫直接取出的圖片分辨率不同,同時為了加快網絡運行速度,對訓練集隨機讀取64個256×256 大小的像素區域,通過批量歸一化形成批量樣本供網絡學習映射關系,特征提取模塊(Feature Extraction Module)的節點參數如表2 所示。訓練過程中采用隨機梯度下降(SGD)[21]來最小化交叉熵函數,權重衰減設置為0.0005,動量設置為0.9,初始學習率為0.1,前10 萬次迭代中,學習率保持不變,而后每迭代100 次,學習率乘以0.995,共訓練50 萬次,實驗操作系統為Win10,顯卡為英偉達GeForce GTX-2080Ti,顯存11G,實驗平臺為Pycharm,深度學習框架為tensorflow1.13.1。

表2 網絡參數表Table 2 Network parameter table

3.4 實驗結果分析

為了驗證網絡結構中預處理層和MRFM的作用,本次實驗將傳統CNN、CNN+預處理層(No MRFM)和本文所提算法做對比實驗,在雙線性插值函數的重采樣下,實驗結果如表3 所示。從各算法的準確率可以看出,傳統CNN 在估計重采樣因子,尤其是估計下采樣因子時,準確率過低;不使用MRFM時,網絡的分類準確率雖然保持在66%以上,但明顯低于本文所提算法,在估計下采樣因子時,算法的性能差距明顯變大。本次實驗說明,在預處理層使用了額外的低階高通濾波器來做單鄰域信息的相關性補充,經過MRFM的多層次融合連接后,網絡的輸出端損失函數充分利用了信息的有效部分,沒有過多的信息冗余。

表3 不同結構下重采樣因子估計的準確性(%)Table 3 Accuracy of resampling factor estimation for different structures(%)

Bayar 等人[22]提出一種基于傳統CNN 的重采樣因子檢測算法,Liang 等人[10]提出了一種改進的殘差網絡來估算重采樣因子,Peng等人[11]提出一種基于雙濾波殘差學習的重采樣因子估計算法,將上述3 種現有算法分別稱為S1、S2 和S3。為保證實驗數據的可靠性,3種對比算法與本文所提算法均在相同的環境配置下進行實驗。表4為使用3種插值函數時,不同算法下重采樣因子估計準確率的平均值??梢缘贸?,S1、S2、S3 和本文算法的平均準確率大約為80.6%、91.8%、92.3%和95.7%。當λ>1,即對上采樣因子估計時,S1 的分類準確率要略低于S2、S3 以及本文算法,其原因是S2 的殘差結構可以補償信息,S3的預處理層可以減少不必要的干擾,而本文所提算法對上采樣因子估計的準確性最高,都處在99%以上。當λ<1,即對下采樣因子估計時,由于下采樣過程中大量圖像像素被丟棄,像素間原有的相關性被破壞,前3 種算法的性能急劇下降,尤其當λ=0.5 和λ=0.6,準確率下降幅度更大,而本文算法的準確性都遠高于其余算法,能將準確率保持在80%以上,說明預處理層和MRFM能強化下采樣分類特征的信息提取??傮w而言,本文算法在重采樣因子的估計中具有優異的性能,即便是在下采樣過程中丟失大量像素的情況下,也具備優異的估計能力。

表4 不同算法的估計準確性(%)Table 4 The detection accuracy of different algorithms(%)

表5~7 展示了本文算法在不同重采樣插值方式下的預測混淆矩陣,從3種插值函數的估計結果可以出來,當下采樣因子λ越小時,網絡對估計因子從類別中區別的能力減弱,算法的準確性隨著下采樣因子減小而降低;而在上采樣因子映射學習中,算法表現優異。出現這種情況的主要原因在于上采樣和下采樣的過程不同,上采樣利用插值函數增加原有圖像的像素數量,新增像素強化了相鄰像素之間的相關性,這些潛在的分類特征可以被網絡捕獲學習,但下采樣過程是對圖像尺寸的縮減,圖像像素值丟失,新插入的像素值破壞了原有圖像之間的關系,潛在特征減弱,無法被網絡學習??傮w上,本網絡在3 種插值函數下的估計準確性都達到了75%以上,實現了較好的下采樣因子估計,而這也是預處理層使用4 個低階高通濾波器作為補充信息的結果。

表5 最鄰近插值重采樣因子估計的混淆矩陣Table 5 Confusion matrix for resampling factor estimation with nearest interpolation(%)

表6 雙線性插值重采樣因子估計的混淆矩陣(%)Table 6 Confusion matrix for resampling factor estimation with bilinear interpolation(%)

表7 雙三次插值重采樣因子估計的混淆矩陣(%)Table 7 Confusion matrix for resampling factor estimation with bicubic interpolation(%)

3.5 抗噪聲測試

為了驗證本文所提網絡是否滿足數字圖像取證領域的需要,是否具有一定的魯棒性,本次抗噪聲實驗的檢測目標為使用Bicubic 插值函數的下采樣因子。數據集同3.1,不同的是λ∈{0 .5,0.55,0.6,…,0.9} ,并給圖片加30dB 的高斯白噪聲來破壞像素之間的聯系?;谇懊嫠宫F的實驗結果,S1 相比S2 和S3,分類能力較弱,因此選取S2 和S3 作為對比實驗。實驗結果如表8 所示,可以看出,當使用雙3 次插值函數的下采樣因子區間細化后,高斯噪聲破壞了原有的像素特征,幾種算法的性能均出現下降,S2和S3在λ=0.5、λ=0.55 和λ=0.6 時,多次出現準確率低于50%的狀況,這說明網絡提取分類特征后產生了錯誤的判別。隨著λ的增大,網絡中可供學習的殘差特征增加,各類算法的準確率均有所提升,而本文所提算法在強高斯噪聲干擾的情況下,依然保持對下采樣因子檢測的準確性在67%以上。并且,根據圖8所示的混淆矩陣,本文算法在下采樣因子估計中具有魯棒性,將輸出概率最大化分布在對角線上,保持估計能力的穩定性。

圖8 高斯噪聲下不同算法的預測混淆矩陣。Fig.8 Predicted confusion matrices for different algorithmsunder Gaussian noise.

4 總 結

本文所提基于前饋融合結構的重采樣估計算法采用多個濾波核并行提取殘差特征和像素相關性,盡可能保留重采樣痕跡的同時,避免圖像內容帶來干擾,減小映射的學習范圍,加速網絡收斂;提出多尺度殘差注意力融合模塊,豐富網絡的感受野,篩選預處理層拼接的特征,并將多個模塊串聯,建立網絡的淺層和高維特征之間的聯系,改善信息流通的方式。網絡主體結構采用CNN,卷積核尺寸和數量較小,所需計算資源較少,符合實際應用需要。經過驗證,本文所提算法不僅在上采樣因子中具有優異的表現,在下采樣因子中也具有較高的準確率,同時網絡還具備一定的抗干擾能力,在下一步的研究中,可以優化本文算法對包含大量噪聲圖像的下采樣因子估計,更快更準確地實現參數估計。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
殘差像素卷積
趙運哲作品
像素前線之“幻影”2000
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
基于殘差學習的自適應無人機目標跟蹤算法
“像素”仙人掌
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合