?

混合階通道注意力網絡的單圖像超分辨率重建

2020-10-18 12:58宋慧慧張開華
計算機應用 2020年10期
關鍵詞:二階殘差分辨率

姚 魯,宋慧慧,張開華

(1.江蘇省大數據分析技術重點實驗室(南京信息工程大學),南京 210044;2.南京信息工程大學大氣環境與裝備技術協同創新中心,南京 210044)

(*通信作者電子郵箱songhuihui@nuist.edu.cn)

0 引言

近年來,隨著深度學習的重大發展,圖像超分辨率重建領域得到廣泛關注。單幅圖像超分辨率(Single Image Super-Resolution,SISR)任務是個不適定的(ill-posed)逆問題,旨在從低分辨率(Low-Resolution,LR)圖像中恢復出高分辨率(High-Resolution,HR)圖像。目前主要算法是基于學習的將LR 圖像經過非線性映射得到HR 圖像[1]。以下簡要回顧與本文相關的基于卷積神經網絡的(Convolution Neural Network,CNN)超分辨率算法和通道注意力機制。

Dong 等[2]首先將CNN 引入圖像超分辨率重建領域,提出基于卷積神經網絡的超分辨率(Super-Resolution using CNN,SRCNN)。殘差網絡[3]解決了網絡深度和模型退化之間的矛盾,使超分辨率網絡逐漸往更深更寬方向發展。Kim等[4]提出了使用非常深的卷積網絡構建準確的圖像超分辨率(accurate image Super-Resolution using Very Deep convolutional networks,VDSR)。此網絡深度達20層,采用殘差網絡和梯度裁剪解決梯度爆炸問題。Zhang 等[5]提出了非常深的殘差通道注意力超分辨率(image super-resolution using very deep Residual Channel Attention Network,RCAN)算法。此算法以殘差網絡為基礎構建了深度達400層的網絡。

人類感知的關注通常指人類視覺系統能自適應處理視覺信息關注于顯著區域[6]。近年來,學者已提出將多種注意力處理算法嵌入CNN 用于各種任務。Hu 等[7]提出壓縮和擴張網絡(Squeeze-and-Excitation Network,SENet)利用通道間相互關系提升分類性能;Zhang 等[5]提出全局平均池化(Global Average Pooling,GAP)構建的一階通道注意力以自適應縮放通道間特征;Dai等[8]提出采用二階通道注意力網絡的圖像超分辨率(Second-order Attention Network single image superresolution,SAN),采用二階通道注意力模塊解決之前超分辨率算法忽視對于CNN 內部層特征相互關系的研究,主要利用二階統計特征構成的全局協方差池化(Global Covariance Pooling,GCP)自適應縮放通道間特征進行特征表達和特征相互性學習。

深度網絡在圖像超分辨率性能上取得重大提升,而現有SISR 算法對于通道間特征的研究算法只考慮一階通道信息(RCAN)或二階通道統計信息(SAN),并沒有將一、二階通道信息進行優勢互補。此外,已有通道注意力算法采用升降維破壞了每個通道和其權重的直接對應關系,不利于通道間特征相互性學習,影響網絡性能的提高。

因此,本文提出一種混合階通道注意力網絡的單幅圖像超分辨率重建(Mixed-order Channel Attention Network for single image super-resolution reconstruction,MCAN)進行更強大的特征表達和相互性學習。本文的工作總結如下:

1)針對先前不同階通道注意力破壞權重預測與通道不對應問題,本文首先改進先前一、二階通道注意力模型,提出有效一階通道注意力(Efficient First-order Channel Attention,EFCA)模型和有效二階通道注意力(Efficient Second-order Channel Attention,ESCA)模型,這樣能對應預測通道權重,使得特征加權更合理,具體可見1.2.1節和1.2.2節。

2)針對之前一、二階通道注意力模型沒有綜合考慮將不同階通道注意力優勢互補的問題,本文將改進后的一、二階模型融入殘差網絡構成基本組件混合階殘差通道注意力組(Mixed-order Residual Attention Group,MRAG),具體可見1.3節。

在一系列測試數據集上結果表明,與SRCNN[2]、RCAN[5]、SAN[8]等相比,本文算法無論在客觀評價標準還是主觀視覺效果上結果都更好,具體可見2.2.2節。

1 本文算法MCAN

本文算法采用生成對抗網絡,生成器如圖1~2 所示,包括4 個部分:1)淺層特征提取網絡;2)共享資源的混合階殘差注意力網絡(Shared-resource Mixed-order Residual Attention Group,SMRAG);3)上采樣模塊;4)重建模塊。判別器結構如圖3。

1.1 生成器

本文算法首先使用一個卷積從輸入的低分辨率圖像ILR提取淺層特征,可表示為:

其中:F0表示卷積后的淺層特征;HSF()表示卷積操作。再將淺層特征輸入SMRAG網絡以提取深層特征,增強網絡非線性表達能力,可表示為:

其中:FDF表示深層特征;HSMRAG()表示提取深度特征模塊SMRAG,由G個混合階殘差注意力組MRAG 組成。再將提取到的深層特征進行上采樣,可表示為:

其中:H↑()是上采樣操作;F↑是上采樣后特征。本文上采樣算法采用亞像素卷積[9]。最后上采樣后特征經過一個卷積映射到放大4倍的重建后圖像,此過程可表示為:

其中:HR()表示重建模塊;ISR表示重建后圖像。

1.2 共享資源的混合階殘差注意力網絡SMRAG

如圖1 虛線部分即為所提出的共享資源的混合階殘差注意力網絡SMRAG,由G個混合階殘差通道注意力組MRAG(圖2(a))和一個最長范圍共享資源的跳躍連接(Shared-Source skip Connection,SSC)結構組成。每個MRAG 包括M個有效一階殘差注意力模型(EFCA)、一個中等長度的跳躍連接結構以及一個二階通道注意力模型(ESCA)。此二階模型使得網絡更關注于信息量大的特征,增強了網絡判別能力[8],提升了圖像恢復質量。

簡單重復堆疊殘差網絡雖然能構建非常深的網絡,但由于梯度消失和爆炸問題導致訓練困難和性能瓶頸,因此本文使用MRAG模塊作為基本單元。而重復堆疊MRAG網絡不能取得更好的性能,本文又引入最長范圍共享資源的跳躍連接結構(SSC)。這樣不僅能促進深層網絡的訓練,還能將LR 圖像信息逐層向后傳遞大量低頻信息,減少信息丟失。SMRAG網絡中的第g個MRAG可表示為:

對每個MRAG 模型,首先將改進后的一階模型EFCA 模型嵌入殘差塊,構建改進后一階殘差注意力(Efficient Firstorder Residual Attention,EFRA)模塊,多個(M個)EFRA 級聯和最后的二階通道注意力模型(ESCA)構成MRAG。最后以MRAG 為基本單元構成SMARG 模型。SMRAG 模型利用改進后的一、二階通道模型EFCA 和ESCA 使得通道權重預測與每個通道直接對應,權重預測更準確合理,網絡判別能力得以提高;同時混合使用不同階通道注意力以進行優勢互補,這樣使得重建后圖像紋理細節得到更好的恢復。

1.2.1 有效一階通道注意力模型(EFCA)

如圖2(b),對于每個EFCA 模型,前一層輸出特征z首先經過全局平均池化HGAP(),再經大小為k的一維卷積WC,最后再將sigmoid 函數所產生的權重向量和此模塊輸入的每個特征通道做點乘。和RCAN 中的通道注意力所不同的是,這里的通道特征在經過全局平均池化后,直接經過參數為k的一維卷積[10],而不是原來的二維卷積升降維,這避免了權重向量與通道特征不直接對應問題,使得通道注意力預測更準確。權重可表示為:

其中:σ()是sigmoid函數;WC是一維卷積。

圖1 生成器框架Fig.1 Framework of generator

圖2 生成器的子圖Fig.2 Submodules of generator

1.2.2 二階通道注意力模型(ESCA)

如圖2(d),與以上EFCA 相比,本文二階模型采用全局協方差池化HGCP()而非全局平均池化HGAP(),其余均相同。受Dai等[8]啟發,本文采用全局協方差池化以增強網絡判別能力的學習。以下闡明此模型如何利用二階信息。

協方差歸一化:

對于H×W×C特征圖F=[f1,f2,…,fC],首先改變其維度,得到S=W×H,C維特征。則樣本協方差矩陣可表示為:

其中:I、1 分別是S×S的單位矩陣和數字1 的矩陣。之后再對協方差矩陣進行歸一化。由于協方差矩陣Σ是半正定矩陣,有如下特征值分解:

其中:U是正定矩陣;Λ=diag(λ1,λ2,…,λC)是對角陣。則協方差歸一化可轉化為特征值的冪運算,即

其中:α是正實數,本文中α取1/2。則

全局協方差之后是核為k的快速一維卷積WC。之前的一階模型采用升降維操作,本文改為一維卷積實現。原本的升降維破壞了每個通道與其對應權重之間的直接對應關系,且利用這種方式的通道注意力也不高效。因此本文采用局部跨通道交互作用策略預測通道權重,即改為核為k一維卷積。這不僅讓通道注意力預測更直接,且是局部作用,計算也更高效。具體來說此二階模型對于每個通道考慮其相鄰的k個通道以捕捉局部跨通道的相互作用。k即局部跨通道的范圍,即有多少相鄰通道參與一個通道注意力預測,顯然k會影響模型效率。由于相互作用范圍與通道數有關,本文設計核大小由自適應通道函數φ()決定,即

其中:|y|odd是最接近y的奇數。這種改變避免升降維,使得通道注意力預測更高效合理

最后,將sigmoid()函數產生的權重向量和原始輸入特征做點乘。通過2.2.1 節消融實驗部分可以看出,改進后的直接對應式權重預測方式比之前升降維方式對于感知效果提升確實有一定效果。

1.3 判別器網絡結構

訓練判別器以區分真實圖像GT(Ground Truth)和生成的超分辨率(Super-Resolution,SR)圖像。如圖3,首先,將GT或SR送入4 個基本模塊構成的判別器。每個模塊包含兩組卷積、批歸一化和Leady ReLU 激活函數。這4 個模塊通道數逐級遞增,分別是64、128、256 和512。最后利用兩個全連接層構成的二分類器判斷網絡輸入圖像的真假。

圖3 判別器框架Fig.3 Framework of discriminator

1.4 損失函數

按照Vu等[11]設計,生成器和判別器分別以各自目標函數LG、LD進行迭代更新訓練。

其中:LFRG是結合焦點損失(focal loss)的相對生成對抗網絡(Generative Adversarial Network,GAN)損失;LC是內容損失;LTV是總方差損失;αFRG、αC、αTV是每個子函數對應權重。

2 實驗與分析

2.1 數據集

本文算法在DIV2K[12]數據集上訓練。此數據集包括800個訓練圖像、100 個驗證圖像和100 個測試圖像。測試采用6個基準測試集Set5、Set14、BSD100(Berkeley Segmentation Dataset)、Urban100、DIV2K 驗證集(DIVerse 2K resolution image dataset)和PIRM(Perceptual Image Restoration and Manipulation)自驗證集。定量評估模型采用Blau 等[13]提出的感知質量評估標準。

其中:NRQM是非參考質量評估方法(Non-Reference Quality assessment Method)[14]的評估指標;NIQE是自然圖像質量評估器(Natural Image Quality Evaluator)[15]的評估指標。

1)數據集和預處理。

實驗首先對真實圖像雙三次下采樣4 倍,再減去DIV2K的RGB 均值預處理所有圖像。最后對訓練集進行隨機旋轉90°、180°、270°和水平翻轉的數據增強。本模型也用于放大2倍、3 倍情形,需調整卷積核個數,本文只針對更具有挑戰性的4倍情景。

2)訓練設置。

實驗時,為提高計算效率,每個小批中將16 個低、高分辨圖像分別裁剪為48× 48和196 × 196的小塊。為控制變量以便和相對生成對抗網絡的感知增強圖像超分辨(Perception-Enhanced image Super-Resolution via relativistic generative adversarial networks,PESR)算法[11]公平比較,設置MRAG 數量G=4,M=8。EFCA、ESCA 模型之外卷積和通道數設置為3× 3和256。

2.2 實驗設置

本文算法采用Adam 優化器,設置動量β1=0.9,β2=0.999。批量大小為16。L1 損失初始化生成器迭代2 × 105次,再用全損失函數式(13)、(18)交替優化生成器和判別器2 × 105次。損失函數權重參數設置為αFRG=1,αC=50,αTV=10-6。

預訓練學習率初始化為10-4;GAN 訓練學習率初始化為5×10-5,每1.2×105次批更新后減半,采用Pytorch 框架,使用一塊Nvidia 2080 Ti訓練30 h左右,少于RCAN和SAN所需約7 d訓練時間。

2.2.1 消融實驗

為探究將通道注意力升降維改為一維卷積以及混合不同階通道注意力對MCAN 影響,以下采用升降維一階通道注意力模型(RCAN)、二階模型(SAN)與本文快速一維卷積實現的一階模型(EFCA)、二階模型(ESCA)分別在BSD100 數據集上做對比實驗。為保持參數一致,設置G=4,M=8,結果如表1所示,評價指標為感知指數(Perceptual Index,PI),PI 值越小越好。①和②是訓練時分別采用升降維的一、二階模型,③和④是分別采用改進后一、二階模型EFCA、ESCA。①和③,②和④對比表明,將一階或二階通道注意力由升降維改為一維卷積,通道預測權重和每個通道特征一一對應,注意力預測更準確;⑤和⑥對比表明,改進后一階(EFCA)二階(ESCA)通道模型融入殘差塊混合使用相比單獨采用一階或二階模型性能更好。這表明采用改進的通道注意力模型不僅權重預測更準確合理,更關注于信息量大的特征,還提高了網絡判別性學習能力,故比其他算法結果更優。

表1 BSD100數據集上不同通道注意力模型的對比實驗Tab.1 Comparative experiments of different channel attention models on BSD100 dataset

2.2.2 和其他算法相比

本文算法MCAN 與現有超分辨率算法Bicucic[16]、SRCNN[2]、增強深度殘差網絡的單幅圖像超分辨(Enhanced Deep residual networks for single image Super-Resolution,EDSR)[17]、RCAN[5]、SAN[8]、生成對抗網絡的單幅逼真圖像超分辨率(photo-realistic single image Super-Resolution using a GAN,SRGAN)[18]算法、自動紋理合成實現的單幅圖像超分辨率(Enhancenet: single image super-resolution through automated texture synthesis,ENET)[19]以及PESR[11]相比,利用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和感知指數PI對放大4 倍重建結果進行評估,結果如表2 和圖4。從表2 可以看出,MCAN 在Set5、Set14 等數據集上PI 均超過其他超分辨率算法;且從圖4(j)可以看出,相較于圖4(i)等其他算法,本文算法恢復出的圖像總體效果如雜草和木橋紋理更清晰直觀。這表明直接進行通道注意力預測以及二階統計信息的利用能增強網絡判別性能力的學習,提升網絡性能。

表2 放大4倍時不同算法在基準測試集上的比較Tab.2 Comparison of different methods on benchmark test sets at 4x magnification

圖4 不同算法定性比較(PI/PSNR)Fig.4 Qualitative comparison of different methods(PI/PSNR)

3 結語

本文提出混合階通道注意力網絡的單幅圖像超分辨率算法以增強網絡判別能力恢復出高分辨率圖像。首先網絡去除先前一、二階通道注意力模型升降維改為一維卷積,使得通道注意力預測更直接準確且簡單;再結合一、二階通道注意力特別是二階統計信息,以增強網絡判別性學習能力使得重建后圖像具有更多紋理細節。與其他算法相比,本文算法不論是客觀評價標準還是主觀感覺都有所提高,重建出圖像具有更高的質量且能顯示更精細的紋理。下一步打算添加一些符合原圖的先驗信息,使得恢復出的圖像更接近真實圖像。

猜你喜歡
二階殘差分辨率
基于生成對抗網絡的無監督圖像超分辨率算法
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
二階整線性遞歸數列的性質及應用
基于殘差學習的自適應無人機目標跟蹤算法
基于深度卷積的殘差三生網絡研究與應用
二階矩陣、二階行列式和向量的關系分析
二次函數圖像與二階等差數列
ARM發布顯示控制器新品重點強化對分辨率的支持
非線性m點邊值問題的多重正解
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合