基于注意力機制的單幅雨滴圖像增強

2020-09-09 03:09鄭顧平李金華曹錦綱

計算機應用與軟件 2020年9期

鄭顧平李金華曹錦綱

(華北電力大學控制與計算機工程學院河北保定 071003)

0 引言

所觀測到的雨圖像O∈RM×N可以被建模為期望背景層B∈RM×N和雨層R∈RM×N的線性疊加[1-2]，用數學公式可以表示為O=B+R[3]。對因雨滴或雨條紋造成的圖像模糊，其增強目的是從輸入的雨圖像O中分解出無雨背景B，其中雨滴層疊加在包含真實場景內容的背景層上，可以將干擾雨滴或雨條紋去除表示為層分解問題，由此可去除圖像中的雨滴或雨條紋，增強圖像的可見性。

現已經提出了一些方法來解決圖像中雨條紋的去除，如文獻[2]使用雙邊濾波器將圖像分解成低頻部分和高頻部分，然后通過基于稀疏編碼的字典學習將高頻部分分解為“雨分量”和“非分量分量”，繼而從圖像中去除雨水部分，但由于雨水的退化是復雜的，雨水模型不能很好地覆蓋真實雨水圖像中的一些重要因素，容易造成背景圖像過度平滑。文獻[1]采用從矩陣到向量結構的低秩模型來捕獲時空相關的雨，由于雨和背景紋理圖案之間的內在重疊，導致區域過度平滑。文獻[4]通過分析每個像素位置處的橢圓核的旋轉角度和縱橫比來檢測雨區域，檢測到的雨區域使用非局部均值濾波來去除雨條紋，但該算法在檢測不同的密度和大小的雨條紋時不夠準確。雨滴雖不如雨條紋在圖像中分布密集，但雨滴在圖像中的覆蓋面積較大，雨滴圖像增強相對困難。圖像去除雨滴的研究相對較少，Tanaka等[5]通過用由視差參考獲得的相應圖像區域的紋理替換雨滴區域來從圖像中去除雨滴，但容易造成圖像加入更多噪聲。文獻[6]采用運動和強度時間導數來檢測雨滴，在檢測到雨滴后，通過使用時間強度導數對檢測到的部分被雨滴遮擋區域求解混合函數來恢復圖像，對于完全遮擋區域，使用視頻完成技術恢復，但不適用于單幅雨滴圖像。文獻[7]提出了一種特殊形式的卷積神經網絡來學習如何將雨滴覆蓋的圖像塊映射到干凈的圖像塊上，以實現圖像增強，但只適合處理小雨滴類圖像。文獻[8]將視覺注意力注入生成和辨別網絡，更加關注雨滴區域和周圍結構，并使用對抗性訓練端到端地直接輸出處理后的圖像。

本文提出了一種基于注意力機制的單幅雨滴圖像增強模型，采用多尺度擴張卷積進行特征提取，引入注意力機制來關注圖像中雨滴區域的細節，實現端到端的雨滴類模糊圖像增強。

1 相關技術

1.1 擴張卷積

擴張卷積(Dilated Convolutions)又稱膨脹卷積或空洞卷積，與其他卷積方式不同的是擴張卷積引入了擴張率參數，即擴張因子(Dilation rate)，來表示擴張的大小。

擴張卷積的結構[9]如圖1所示。設F0,F1,…,Fn-1:Z1→R為離散函數，令K0,K1,…,Kn-2:Z2→R為離散3×3濾波器，考慮應用指數增加膨脹的濾波：

Fi+1=Fi×2iKii=0,1,…,n-2

(1)

將Fi+1中像素p的像素感受野區域定義為在F0基礎上修改Fi+1(p)值的像素值，假設Fi+1中的像素p的感受野大小為這些像素的數量，可以將像素在擴張卷積下的感受野大小表示為：

Fi+1=(2i+2-1)×(2i+2-1)

(2)

圖1 擴張卷積結構圖

圖1中的點為卷積核，卷積核大小皆為3×3，陰影區域為像素的感受野。在圖1(a)中，擴張因子的值為1，即F1是由F0進行擴張率為1的擴張卷積產生，可以看到像素的感受野與卷積核為3×3的普通卷積感受野相同。圖1(b)是建立在圖1(a)的基礎上，擴張因子的值為2，即F2是由F1進行擴張率為2的擴張卷積產生，其感受野為7×7，與卷積核為5×5的普通卷積感受野相同。圖1(c)是建立在圖1(b)的基礎上，擴張因子的值為4，即F3是由F2進行擴張率為4的擴張卷積產生，其感受野為15×15，與卷積核為9×9的普通卷積感受野相同。

由此可以看出，在卷積核的參數不變的情況下，像素的感受野隨著擴張因子的增加而成指數增長。擴張卷積可以對像素進行加權和聚合信息，從而能夠在不失去分辨率的情況下增強其感受視野，獲得更多的特征信息，并可以保證輸出的特征映射的大小不發生變化。本文采用不同擴張因子的多尺度擴張卷積進行特征提取。

1.2 注意力機制

視覺注意力機制是人類大腦中特有的視覺信號處理機制，注意力機制思想的本質類似人類的視覺注意力，主要意義是對大量的信息進行篩選，選擇與當前任務相關的關鍵性高價值信息。注意力機制思想最早被應用于計算機圖像視覺研究，近些年越來越多的研究者使用注意力機制思想與神經網絡相結合進行相關問題研究。Mnih等[10]在RNN模型上引入了注意力機制來進行圖像分類；Bahdanau等[11]將注意力機制應用到了自然語言處理方面；Gregor等[12]將深度遞歸神經網絡結合了一種新穎的空間注意機制，模仿人眼的動態，采用順序變分自動編碼框架，實現復雜圖像生成。

2 模型設計

2.1 模型框架

本文提出的基于注意力機制的雨天模糊圖像增強模型的整體結構如圖2所示。采用不同擴張因子的多尺度擴張卷積增強其感受視野，以獲得更多的特征信息；引入注意力機制構造注意力機制模型來關注圖像中雨滴區域，以此更好地去除雨滴，實現雨滴模糊類圖像細節的恢復。

圖2 基于注意力機制的雨天模糊圖像增強模型

圖2中：Conv、dia_c和convTranspose分別代表卷積層、擴張卷積層和反卷積層；ReLU是激活函數。本文提出的基于注意力機制的雨天模糊圖像增強模型包含：

1) 初步提取特征。輸入的圖像進行兩次卷積核尺寸為7×7×64、5×5×128且步長為1的卷積處理，得到初步提取到的特征。

2) 多尺度擴張卷積提取特征。采用卷積核3×3×256的擴張卷積，即dia_c1、dia_c2、dia_c3，擴張因子的值分別為2、4、6，三種擴張卷積處理后得到三種特征。

3) 生成注意力圖。將三種特征分別輸入注意力機制模型，輸出結果為三種注意力圖，將三種注意力圖與原圖像做特征融合。

4) 輸出圖像。依次進行3次卷積核尺寸為3×3×256且步長為1的卷積處理，2次卷積核尺寸為4×4×128、4×4×64且步長為2的反卷積操作，卷積核尺寸為3×3×64且步長為1的卷積處理，最終輸出除雨后的圖像。

2.2 注意力機制模型

本文引入注意力機制幫助對雨滴圖像的特征提取。注意力機制可以使網絡關注雨滴區域，能夠更好地實現雨滴圖像增強，設計的注意力機制模型如圖3所示。

圖3 注意力機制模型

可以看到，本文設計的注意力機制模型由三層殘差網絡(ResBlock)、長短記憶神經網絡(LSTM)和卷積層(Conv)組成。

1) 殘差網絡：由于歸一化層會忽略圖像特征間的絕對差異，我們所用的殘差網絡為傳統殘差網絡結構中去掉歸一化層，具體結構如圖4所示。

圖4 殘差網絡

2) 長短記憶神經網絡(LSTM)：選用文獻[13]提到的結構。

3) 卷積層：采用卷積核大小為3×3、步長為1的普通卷積。

圖像經注意力機制模型的輸出是注意力圖，它是一個0到1的矩陣，也是一個非二元圖，其值越大代表它表示的注意力越大。圖5為原圖和可視化注意力圖。

圖5 原圖與注意力圖

2.3 損失函數

本文使用的損失函數由兩部分構成：注意力機制模型損失Latt和感知損失Lp。

(3)

Lp=LMSE(VGG(0),VGG(T))

(4)

使用VGG16對網絡進行預訓練，提取高層的特征進行監督來保證生成圖像的質量。式中：At為注意力機制模型在時刻t時產生的注意力機制圖；M為二進制掩碼；N取4；θ取0.8；O為模型處理后輸出的去雨滴圖像；T為雨滴圖像對應的原清晰無雨滴圖像。

本文模型的總體損失函數為：

L=Latt+Lp

(5)

3 實驗

3.1 數據樣本選取及評價指標

在現有公開的圖像訓練集中，并沒有專門的雨滴類圖像訓練集，本文通過從網絡圖片庫和圖像公開數據集等搜集了1 500對圖像，每一對圖像包含一幅雨滴模糊圖和與之對應的無雨滴清晰圖像，樣例圖像如圖6所示。本文選取其中1 000對圖像作為實驗的訓練集，剩余500對作為測試集。在進行網絡訓練之前，本文統一將圖片分辨率的大小處理為720×480。

圖6 樣例圖像

本文采用客觀評價中常用的兩種圖片質量評價指標：峰值信噪比(PSNR)和結構相似度(SSIM)，實驗結果數據取平均值。

3.2 模型訓練

本文實驗模型是建立在Pycharm平臺上，采用深度學習TensorFlow框架實現，選用自適應矩估計(ADAM)算法來優化損失函數。模型通過訓練數據集不斷更新神經網絡權重，經過多次訓練調優，學習率α定為0.000 1，β1=0，β2=0.9，在訓練過程中，我們將注意力圖的值初始化為0.5。

實驗的步驟如下：

1) 對數據集圖片的分辨率大小進行統一處理，劃分出訓練集和測試集。

2) 建立基于注意力機制的雨滴模糊圖像增強模型，并對網絡的參數進行初始化。

3) 利用劃分出的訓練集對模型進行訓練，通過損失函數進行反向傳播不斷更新模型參數，使計算出的損失最小，以使得模型性能效果最優。

4) 每50對圖片為一次訓練，設置最大迭代次數為3 000，保存模型參數，使用測試集測試模型。

3.3 多尺度參數設定

本文算法采用具有不同擴張因子的多尺度擴張卷積進行特征值的提取，為研究多尺度參數的設置對實現去雨效果的影響，在實驗中設置了具有不同卷積核n的擴張卷積，n取3、4、5，采用統一的擴張因子即為2、4、6，圖7為采用不同的卷積核提取特征后得到的注意力圖。圖片質量評價結果如表1所示。

圖7 不同尺度下的注意力圖

表1 圖片質量評價結果

由圖7可以看出，在卷積核大小為3時，得到的可視化注意力圖的細節更加細膩，模型能夠很好地注意到圖像上更多的細節部分。由表1可以看出，在n=3時具有最高的峰值信噪比(PSNR)和結構相似度(SSIM)，分別為28.37和0.909 1。因此，采用的擴張卷積的卷積核大小為3×3。

3.4 模型性能對比

為說明本文模型的優越性，在3.1節建立的數據集上，與文獻[5]及文獻[7]模型進行對比實驗，圖片質量評價結果如表2所示，圖8為測試集中3幅圖片的實驗效果圖。

圖8 實驗結果對比圖

由表2可以看出，文獻[5]模型的峰值信噪比為26.84，文獻[7]模型的峰值信噪比為27.41，而本文模型的峰值信噪比達到了28.37，同時本文提出的模型的結構相似度達到了0.909 1高于另外兩個模型的結構相似度。由圖8可以看出，文獻[5]模型不能去除較密集的雨滴，給圖像引入了較多的噪聲，文獻[7]模型處理得到圖片的細節不夠豐富，出現失真現象，而經本文模型處理后的圖片在主觀的視覺感受方面取得了較好的效果。因此，本文算法模型無論是從峰值信噪比還是從結構相似度上來看都要優于其他的算法。

4 結語

基于注意力機制思想，本文提出了一種單幅雨滴圖像增強模型。首先采用具有不同擴張因子的多尺度擴張卷積對輸入含雨滴圖片進行特征值提取。其次，引入注意力機制關注圖像中雨滴區域的細節，以更好地去除雨滴，恢復圖像的細節。最后，實現端到端的雨滴類模糊圖像增強。實驗結果表明，本文模型可以有效地去除圖片上的雨滴，增強雨滴類模糊圖像，使圖像細節更加豐富，具有較好的圖像視覺效果。