?

層次信息自適應聚合的圖像超分辨率重建算法

2024-03-12 08:58陳偉杰黃國恒林俊宇
計算機工程與應用 2024年5期
關鍵詞:尺度注意力卷積

陳偉杰,黃國恒,莫 非,林俊宇

1.廣東工業大學計算機學院,廣州 510006

2.虹軟科技股份有限公司,杭州 310052

圖像超分辨率(super-resolution,SR)是一個經典的圖像處理問題,它的目標是從降質退化的低分辨率(low-resolution,LR)圖像中恢復原本的高分辨率(highresolution,HR)圖像。因為給定的LR 圖像可以由不同的HR圖像退化而來,所以圖像超分辨率是個有挑戰性的課題。同時,圖像超分辨率在醫療、遙感、安防等領域具有廣泛的應用前景,因此吸引了很多研究人員深入研究。

近年來深度卷積神經網絡因其強大的建模能力受到很多研究者的青睞。Dong 等人[1]開創性地將卷積神經網絡(convolutional neural network,CNN)引入圖像超分辨率重建任務,提出了SRCNN(SR convolutional neural network)。Kim 等人[2]則是在殘差網絡的啟發下,在網絡末端中引入全局殘差,進一步加深了模型的深度,提出了VDSR(very deep SR network)。Lee等人[3]提出的EDSR(enhanced deep SR network)則是移除批歸一化層,節約顯存的同時提高了網絡的重建性能。Zhang 等人[4]則是引入注意力機制,利用通道信息對特征重新校準。此外,Zhang 等人[5]提出的RDN(residual dense network)將殘差學習與密集連接結合,以最大化利用不同層次的特征。Dai等人[6]則是在網絡中使用了二階通道注意力機制,利用二階統計信息提高特征的表征能力。然而這些超分模型的參數量和計算復雜度較高,不利于在實際場景中使用。

輕量級超分辨率重建算法受計算資源限制,往往會更注重參數量和模型性能的平衡。近幾年來主流的輕量級超分辨率重建方法[7-8]通常采用在網絡中嵌入注意力模塊,以挖掘特征之間的關聯信息。Hui等人[7]采用在通道注意力機制中引入對比度信息,提出CCA(contrastaware channel attention)機制。Liu等人[8]利用大感受野的空間注意力[9]獲得更多像素信息。Zhao等人[10]通過像素注意力機制直接生成三維的注意力分數,指導判別性特征的學習。盡管這些方法注重利用注意力機制提高局部模塊的特征表征能力,但它們基本上忽略了區分利用不同層次的特征。網絡不同層次學習到的特征不同,聚焦于圖像不同的特征細節。這些不同層次的特征對圖像重建質量的貢獻程度不同,應該區分利用。然而,現有的方法大多僅使用最后一層的層次特征或是簡單將所有層次的特征直接拼接聚合以作為重建特征,這不利于充分利用特征。

針對上述問題,在這項工作中提出了一種輕量級的層次信息自適應聚合網絡(hierarchical informative adaptive aggregation network,HⅠAAN)。首先,為了更有效地利用不同層次的特征,提出了多層次信息精煉機制(multi-level information refinement mechanism,MⅠRM)。該機制同時利用不同層次的特征自身的通道和空間信息,使網絡自適應地調整層次特征,并在此基礎上執行特征融合策略,以實現層次特征的有效利用。其次,為了提高模型基本塊的特征表征能力,提出了多尺度信息聚合塊(multi-scale information aggregation block,MⅠAB)。該模塊采用細粒度的多尺度特征提取模塊降低多尺度特征提取的代價,并利用注意力機制對不同尺度的信息進行調整聚合,從而提高特征的表征能力。最后,為了以較小的代價同時利用特征的通道和空間信息,實現對特征的自適應調整,提出對比度增強的重組注意力塊(contrast-enhanced recombinant attention,CRA)。該模塊在SA[11](shuffle attention)模塊的基礎上,在其通道分支上引入通道標準差統計量,目的是引入有利于增強圖像細節(與SSⅠM[12]相關)的關于結構、紋理和邊緣的信息。

本文提出了新穎的層次信息自適應聚合網絡(HⅠAAN)以解決現有方法存在的問題。具體貢獻如下:

(1)與現有的先進方法相比,所提的方法在模型復雜度和性能之間取得更好的平衡。

(2)提出了多層次信息精煉機制(MⅠRM),該機制能夠對不同層次的特征區分利用,提高了模型的重建能力。

(3)提出了多尺度信息聚合塊(MⅠAB),該模塊能以較小的代價獲取多尺度特征。同時,與注意力機制的結合使用,有效提高了特征的表征能力。

(4)提出了對比度增強的重組注意力塊(CRA),該注意力機制通過在SA[11]的通道分支引入標準差信息,增強網絡對圖像結構和紋理信息的關注,以較低的代價同時利用了特征的通道和空間信息,用以指導特征的自適應校準。

1 相關工作

圖像SR 主要分為基于插值的方法[13]、基于重建的方法[14]和基于學習的方法[15-20]。由于深度學習的引入,基于學習的方法取得了較大的突破和性能提升。本章主要闡述深度學習方法方面的工作,包括基于CNN 的圖像超分辨率技術、多尺度特征提取和注意力機制。

1.1 基于CNN的圖像超分辨率技術

SRCNN[1]首次將卷積神經網絡引入SR 任務,并取得了優于傳統方法的效果。自此,基于CNN 的圖像超分辨率方法開始得到研究者的深入研究。Kim等人[2]借助殘差學習和梯度裁剪策略,減輕網絡訓練難度,提高了模型的性能。DRCN[21](deeply-recursive convolutional network)采用共享卷積層參數的方式減少模型的參數量。DRRN[22](deep recursive residual network)則是進一步共享包含多層卷積的模塊參數,并引入殘差學習提高SR 效果。但這些方法都采取插值后的LR 圖像作為網絡的輸入,不可避免地造成模型的計算量較大。此外,預先插值的LR 圖像沒有帶來解決恢復原始HR 圖像問題的額外信息。因此,現在的SR方法[23-24]基本在網絡末端恢復圖像的尺寸,這能有效減少模型的計算成本。Zhang 等人[5]將密集連接和殘差連接結合,以便最大化利用不同層次的特征。許嬌等人[25]利用并行的多空洞率的卷積獲取不同尺度的特征,并通過級聯多個殘差塊充分挖掘圖像的信息。盡管這些方法取得了不錯的效果,但它們是以參數量大和模型復雜度高為代價,難以在實際中運用。

Ahn等人[26]利用組卷積和精心設計的級聯機制,提出了CARN(cascading residual network),雖然實現了輕量化的目標,但SR 效果較差。Tian 等人[27]利用一維非對稱卷積結構突顯局部關鍵點信息,減少信息的冗余。Hui 等人[28]利用通道分裂操作,對部分粗糙的特征進一步提煉,以較低的代價得到更精細的特征,所提出的ⅠDN(information distillation network)通過融合長短路徑的信息增強了局部特征的表征能力。ⅠMDN[7](information multi-distillation network)是在ⅠDN 基礎上,采用多步提煉的方式,獲取了更多層次的不同精細特征。Liu 等人[8]則是在ⅠMDN 的基礎上進一步減少參數量,并采用大感受野的空間注意力機制學習更具判別性的特征。Qin等人[29]提出了新的層次特征融合策略以最大化利用層次特征。盡管如此,這些工作[26-29]基本都將不同層次的特征等同對待,這不利于充分利用層次特征。為此,本文提出了多層次信息精煉機制(MⅠRM),旨在對不同層次的特征有區分性的利用。

1.2 多尺度特征提取

近些年來,多尺度特征在很多高級視覺任務的性能表現已經證明了多尺度特征有助于提高模型性能。Li等人[30]在殘差分支使用不同大小的卷積核獲取不同尺度的特征,取得了一定的效果提升。Feng等人[31]則是同時運用了不同深度的路徑和不同大小的卷積核獲取更為豐富的多尺度特征。然而這些方法獲取的多尺度特征所需要的參數量和計算量較大。最近的工作[32-33]開始探索用更小的成本獲取豐富的特征表示。文獻[33]研究在殘差模塊內利用通道分裂操作和通道拼接操作獲取多尺度特征,在模型復雜度和性能之間取得了較好的平衡。受文獻[33]啟發,本文提出了多尺度信息聚合塊(MⅠAB),并在多尺度殘差塊中引入層歸一化技術和注意力機制,以增強局部特征的表征能力。

1.3 注意力機制

注意力機制是受啟發于人類視覺,它能夠對不同的輸入進行不同的響應,重新調整參數的權重。近年來,注意力機制得到廣泛的研究與探索,廣泛應用在各種任務上,如圖像分類[34]、圖像復原[4,35]、視覺問答[36]等。Hu等人[34]首次利用通道間的相關性來重新校準特征。Woo等人[37]則是同時考慮通道和空間上的信息,用以指導重新縮放特征權重。Zhang 等人[4]首次在SR 領域引入通道注意力調整特征的學習。Liu 等人[9]則是利用大感受野的空間注意力增強特征的表征能力。文獻[29]則是同時使用了空間注意力和通道注意力用以增強網絡的性能。然而,更復雜的注意力機制雖然能帶來更高的性能,但也增大了模型的計算開銷,這與本文的設計理念不符。Zhang 等人[11]利用特征分組和通道混洗操作,有效利用了特征之間的通道和空間信息相關性。受文獻[11]啟發,本文提出了對比度增強的重組注意力塊(CRA),在SA[11]的通道分支引入標準差統計量,以較低的代價從通道和空間維度上重新校準特征權重。

2 層次信息自適應聚合網絡

在本章中,首先介紹所提網絡的整體框架。其次闡述局部信息精煉塊(local information refinement block,LⅠRB)。其中局部信息精煉塊是由幾個多尺度信息聚合塊(MⅠAB)和多層次信息精煉機制(MⅠRM)構成。最后,敘述對比度增強的重組注意力塊(CRA)。

2.1 網絡框架

在本節中,本文詳細展示了所提出的層次信息自適應聚合網絡(HⅠAAN),該網絡的整體結構如圖1 所示。整個網絡由初步特征提取模塊,深層特征投影模塊和圖像重建模塊組成。用ILR、ISR、IHR分別表示低分辨率圖像、重建圖像、高分辨率圖像。

圖1 層次信息自適應聚合網絡(HⅠAAN)架構Fig.1 Architecture of hierarchical informative adaptive aggregation network(HⅠAAN)

像大部分SR 方法所做的那樣,使用初步特征提取模塊提取圖像的特征,將其作為后續層次的特征輸入。其過程如下:

式中,MPFE(·)表示初步特征提取模塊,具體來說是一個3×3的卷積操作,FPFE表示圖像的初步特征。

然后,將獲得的特征FPFE傳入深層特征投影模塊。深層特征投影模塊具體是由三個局部信息精煉塊(LⅠRB)和多層次信息精煉機制(MⅠRM)組成。第n個LⅠRB的輸出可以表示為:

式中,表示第n個LⅠRB 的輸出特征,MLIRB(·)則為局部信息精煉塊代表的函數映射,N表示LⅠRB的數量,這里N=3。因此,深層特征投影模塊的輸出可以表示為:

式中,FDFP表示深層特征投影模塊的輸出,MMIRM(·)表示多層次信息精煉機制相應的操作。由于多層次信息精煉機制在全局上的使用方式和在局部上的使用方式相同,因此將在第2.2.2小節中介紹。同時,為了減輕網絡的訓練難度,將提取到的初步特征FPFE和深層特征投影模塊的輸出FDFP整合,最后送入圖像重建模塊,其過程可以表示為:

式中,MREC(·)表示重建模塊的操作,它具體包含一個普通卷積和一個亞像素卷積。

為防止生成圖像過于平滑,損失函數采用L1 損失而不是L2損失。損失函數L(Θ)可以表示為:

式中,MHIAAN(·)表示層次信息自適應聚合網絡(HⅠAAN)相應的映射函數,Θ表示整個網絡中的可更新參數。

2.2 局部信息精煉塊

局部信息精煉模塊(LⅠRB)是由幾個多尺度信息聚合塊(MⅠAB)和多層次信息精煉機制(MⅠRM)構成,具體如圖1左下方虛線框所示。多尺度信息聚合塊(MⅠAB)是用來提取更具判別性的多尺度特征,提高局部特征的表征能力。多層次信息精煉機制(MⅠRM)是對不同層次的特征有區分性選擇利用,增強網絡的學習能力。

2.2.1 多尺度信息聚合塊

普通的多尺度特征一般采用多個不同大小的卷積核并行獲取,參數量和計算量較大。所提出的多尺度信息聚合塊是在更細粒度層面上提取多尺度特征,綜合使用通道分裂和通道拼接操作,獲取豐富的多尺度信息。同時,使用注意力機制對多尺度特征進行校準學習,獲得更具表征性的局部特征。具體做法是將普通的殘差模塊中間部分的卷積層替換成細粒度的多尺度特征提取模塊,并采用層歸一化技術[38](layer normalization,LN)和對比度增強的重組注意力塊(CRA),增強模塊的表征能力,具體如圖2所示。

圖2 多尺度信息聚合塊(MⅠAB)Fig.2 Multi-scale information aggregation block(MⅠAB)

首先,對多尺度信息聚合塊的輸入特征使用LN 處理,目的是為了穩定模塊的輸入,使訓練過程更加平穩。這里以第n個LⅠRB 中的第m個MⅠAB 為例,假設輸入為,則處理過程可表示為:

式中,MLN(·)表示LN層的具體操作,表示LN層的輸出特征。

其次,將得到的采用1×1卷積進行特征升維處理,目的是允許更多淺層的信息通過,使淺層的低級特征更容易傳播到網絡的末端,以此獲得更好的像素值預測。其過程可以表示為:

式中,flrelu(·)表示Leaky ReLU 激活函數,M1×1(·)代表1×1卷積,表示升維后的特征輸出。

表1 測試集介紹Table 1 Ⅰntroduction to test datasets

接著,將經過維度變換后的特征傳入多尺度信息提取部分(multi-scale information extraction,MⅠE),以便獲得不同感受野的信息,借此提高網絡預測的精度。多尺度信息提取部分(MⅠE)使用通道分裂操作將分成4組,本文將這些劃分后的特征分組記為Si(i∈{1,2,3,4}),其中Si表示第i組特征。多尺度信息提取部分具體過程可以表示為:

式中,CB(·)表示卷積激活模塊(具體包含一個3×3卷積和Leaky ReLU 激活函數),Ri表示第i組特征中保留下來的部分特征,Ci表示第i組特征中將進一步融合淺層特征的另一部分特征。經過通道分裂和通道拼接操作的結合使用,淺層的粗糙特征能夠得到更多保留,進而傳播到后面層次,同時網絡能以較低的代價獲得不同尺度的特征Ri(i∈{1,2,3,4)。當i越大時,特征Ri擁有更大的感受野和更多的特征數目。更大感受野的Ri能看到更多的像素信息,也擁有更多的通道信息,這有助于準確恢復圖像。

然后,將不同通道數量的Ri(i∈{1,2,3,4)按通道維度進行拼接后,使用對比度增強的重組注意力塊(CRA)(見第2.3 節介紹)對這些特征進行自適應增強,增強多尺度特征的判別性,并使用1×1卷積降維聚合得到融合特征。

式中,MCRA(·)表示對比度增強的重組注意力相應的特征變換,表示經過通道和空間信息增強后的多尺度特征,表示得到的融合特征。

最后,在多尺度信息聚合塊(MⅠAB)內添加殘差連接以使梯度傳播更為順暢。因此,第n個LⅠRB 中的第m個MⅠAB的最終輸出可以表示如下:

2.2.2 多層次信息精煉機制

網絡不同層次學習到的特征不同,聚焦于圖像不同的特征細節,應該有區分性的利用。不同于之前的層次特征利用方法[28-29],提出的多層次信息精煉機制(MⅠRM)是對不同層次的特征有區分性的利用。所提出的多層次信息精煉機制采用注意力機制對不同層次的特征進行自適應校準,通過利用層次特征本身的通道和空間信息自適應校準層次特征,最后進行特征融合,借此實現層次特征的區分性利用。

如圖1左下方的陰影部分所示,這里以多尺度信息聚合塊(MⅠAB)為例。從第2.2.1小節可以得知,第n個LⅠRB 中的所有MⅠAB 的輸出為,這里M=3。多層次信息精煉機制對這些層次特征采用對比度增強的重組注意力塊(見第2.3 節介紹)進行校準,校準后的特征表示為,對這些校準后的特征采用1×1卷積逐步融合,得到融合特征輸出。最后,對融合特征采用3×3 卷積進一步精煉,并在LⅠRB內使用殘差連接,其過程表示為:

式中,和分別表示第n個LⅠRB的輸入和輸出。

2.3 對比度增強的重組注意力

目前流行的圖像超分辨率重建方法一般會在模型中引入注意力機制來調整學習到的特征,以提高圖像重建效果。但大多數的方法沒有利用好特征的通道維度和空間維度之間的關聯,導致效率較低。由于SA[11]的高效性,本文決定采用SA 以增強特征的表征能力。但原始的SA中的通道注意力分支是采用全局平均池化獲得通道統計量,統計信息較為粗糙,缺乏有利于增強圖像細節(與SSⅠM 相關)的關于結構、紋理和邊緣的信息。在文獻[7]的啟發下,在原始的SA的通道注意力分支引入通道標準差信息,引導模型聚焦于更多的信息特征,提高鑒別學習能力,進而提高圖像重建質量。本文將修改后的注意力機制稱為對比度增強的重組注意力(CRA)。如圖3 所示,CRA 的結構由4 部分組成,分別為特征分組、通道注意力分支、空間注意力分支和特征聚合。

圖3 對比度增強的重組注意力(CRA)模塊Fig.3 Contrast-enhanced recombinant attention(CRA)module

特征分組假定輸入F∈RC×H×W,其中C,H,W分別代表特征圖的通道數、高度和寬度。將其分為g組,[F1,F2,…,Fg],其中Fk∈RC/g×H×W(1 ≤k≤g)。然后將各組特征傳入注意力模塊,獲取相應的通道權重系數和空間位置權重系數。具體來說,特征Fk將分成Fk1和Fk2兩部分,Fk1是通道注意力分支的輸入;而Fk2是空間注意力分支的輸入。

通道注意力分支不同于原始SA[11]僅用全局平均池化獲取通道平均值統計量,本文在通道注意力分支中引入了通道的標準差信息,統計量S∈RC/2g×1×1的計算公式如下:

式中,xc(i,j)表示Fk1的第c個通道中第i行第j列的特征取值,SGAP和SCSD分別表示對應通道的平均值和標準差。然后,通過簡單的線性函數和sigmoid 激活函數獲得通道權重系數。

式中,σ表示sigmoid激活函數,Wc和bc則代表線性函數的參數,表示通道注意力分支的輸出。

空間注意力分支將輸入映射Fk2通過組歸一化技術以獲得空間統計信息,然后通過簡單的線性函數和sigmoid激活函數獲得空間位置權重系數。其過程可以表示如下:

式中,Ws和bs表示線性函數的參數,表示空間注意力分支的輸出。

特征聚合將和沿通道維度拼接,恢復分組特征的維度。最后,將所有的分組特征聚合,并采用通道混洗操作,實現分組信息的相互交流。

3 實驗結果與分析

3.1 數據集和評價指標

像近年來大部分工作[6,9]做的那樣,本文選擇DⅠV2K[39]中800 張高分辨率圖像作為訓練集,其內容場景包括人、手工制品、環境、風景等[40]。測試集則是選擇5 個廣泛使用的基準數據集,包括Set5[41]、Set14[42]、B100[43]、Urban[44]和Manga109[45],具體內容場景如表1 所示。評價圖像質量選用的客觀指標是峰值信噪比(PSNR)和結構相似性(SSⅠM[12]),它們都是在YCbCr 空間的亮通道上進行評估。此外,本文使用Multi-Adds 作為評估模型復雜度的指標,其具體計算是假定HR 圖像大小為1 280×720。

3.2 實現細節

對DⅠV2K 的800 張高分辨率圖像進行雙三次下采樣處理,得到不同尺度(×2、×3、×4)的LR 圖像。訓練時,小批量大小設為64。模型的輸入則是在每張LR圖像上隨機裁剪48×48的圖像塊,每個圖像塊輸入網絡前會隨機旋轉90°、180°、270°和進行水平翻轉。網絡的總迭代次數100萬次。選擇Adam[46]作為模型的優化器,初始學習率為1×10-3,在20萬次迭代后學習率衰減為原來的1/10。另外,Adam優化器的其他參數為默認設置,其中,β1=0.9,β2=0.99,ε=10-8。模型設計方面,LⅠRB數量和MⅠAB 數量都固定為3 個;CRA 中分組特征的通道數量固定為2 個;網絡的基本通道數設置為64 個,MⅠAB 中設置激活前的特征通道數為96 個。文中的所有實驗結果均是在Nvidia 2080ti平臺上使用Pytorch框架訓練和測試獲得。

3.3 與先進算法的對比

為了驗證所提方法的有效性,將其與其他先進的超分算法進行比較,包括SRCNN[1]、FSRCNN[23]、LapSRN[47]、VDSR[2]、DRCN[21]、DRRN[22]、MemNet[48]、ⅠDN[28]、CARN[26]、CFSRCNN[16]、LESRCNN[17]、ⅠMDN[7]、MADNet[35]、ACNet[27]。下面分別從定量指標和視覺效果兩方面進行分析。

(1)定量分析。表2展示了不同尺度下(×2、×3、×4)各個算法在5 個基準測試集上測得的PSNR 和SSⅠM 指標。每個尺度下最好的結果用加粗表示,次優的結果用下劃線表示??梢钥吹?,放大因子為2 時,所提方法在Urban100 數據集上表現最好,PSNR 比次優的ⅠMDN 高0.07 dB。5個數據集中所提算法僅在Set14和Manga109上表現略遜于ⅠMDN。放大因子為3 時,本文方法與ⅠMDN 的差距進一步縮小,5 個數據集中僅在Set14 數據集上表現略遜于ⅠMDN,PSNR 低0.02 dB。放大因子為4時,所提方法在5個基準數據集上均取得最優效果,特別是在Urban100 數據集上,所提方法比次優的方法PSNR 高了0.1 dB。從表1 可以看出,隨著放大倍數的增大,本文方法能夠獲得更大的優勢。此外,所提的方法在恢復難度較高、結構紋理信息豐富的Urban100 數據集的不同尺度上均能取得最優結果。這也證明了所提方法的有效性,能夠有效恢復擁有豐富結構紋理信息的圖像。除此之外,本文也可視化了在Set5(×4)上各個方法的PSNR 指標和參數量的關系圖。如圖4 所示,可以看出,與其他方法相比,所提方法在模型參數量和圖像重建質量方面取得了更好的平衡。

圖4 在Set5數據集(×4)上PSNR與模型參數量的比較Fig.4 Comparison results of PSNR and model parameters on the Set5 dataset

(2)定性分析。如圖5 展示了本文方法與次優的ⅠMDN 算法在數據集Urban100 部分圖像的重建圖像效果對比??梢钥吹?,對于Urban100 數據集中編號為“img092”和“img093”的圖像,ⅠMDN在恢復所對應的圖像塊時無法準確預測線條和斑馬線的方向,而所提方法恢復的圖像塊更接近原始HR圖像。在對編號為“img012”的圖像進行恢復時,ⅠMDN錯誤預測了建筑物的結構方向。相比之下,所提方法恢復的圖像更為精準且基本不產生偽影,視覺效果更好。這說明了所提方法的有效性,能夠更為準確地恢復結構紋理信息豐富的圖像。

圖5 重建效果對比Fig.5 Comparsion of reconstruction effects

3.4 消融實驗分析

為了研究網絡中不同組件對模型性能的影響,本文對網絡的不同組件分別進行消融實驗,具體包括對比度增強的重組注意力(CRA)、多尺度信息聚合塊(MⅠAB)和多層次信息精煉機制(MⅠRM)。

(1)CRA。本次消融實驗中多尺度信息聚合塊(MⅠAB)中激活前的特征數目設置為64。為了直觀展示在SA 中引入通道標準差統計量的運算成本,本文在100張尺寸大小為256×256的測試圖像上統計平均推理時間,實驗結果如表3 所示??梢钥吹?,引入通道標準差統計量確實會增加額外的運算成本,推理時間增加不到0.003 s。此外,本文將模型中的CRA 模塊分別替換成原始的SA[11]模塊和CCA[7]模塊,執行相應的消融實驗,實驗結果如表4 所示??梢园l現,僅使用通道平均值的SA的模型雖然參數較少,但性能明顯比使用CCA的模型差。而使用CRA 的模型保持較低參數的同時,取得了比使用CCA的模型更好的性能。綜合表3和表4的實驗結果,可以發現,雖然引入通道標準差統計量會額外增加一些推理時間,但它確實能有效提高模型的重建性能。

表3 推理時間對比Table 3 Comparison of inference time

表4 不同的注意力機制的定量對比Table 4 Quantitative comparison of different attention mechanisms

(2)MⅠAB。為了探究多尺度信息聚合塊(MⅠAB)中激活前的特征通道數對模型性能的影響,本文通過控制LN層后1×1卷積核的個數來改變激活前的特征通道數目。實驗中將多尺度信息聚合塊中激活前的特征通道數量分別設為64、96、128,實驗結果如表5 所示。從表5 中可以看到,隨著激活前的特征通道數增加,模型的性能得到提高。但與此同時,模型的參數量和計算復雜度也隨之增加。當激活前的特征通道數量為128時,模型的參數量最多,復雜度最高,但并未在五個基準數據集上取得最好的性能指標,如在Urban100數據集上,PSNR比激活前的特征通道數量為96的模型低0.05 dB。因此,綜合考慮模型復雜度和性能表現,模型最終選擇使用激活前的特征通道數量為96。

表5 激活前特征通道數對模型性能的影響Table 5 Effects of number of pre-activation feature channels on model performance

另外,為了探究多尺度信息聚合塊各組成部分對模型性能的影響,本文進行了相關的實驗,消融結果如表6所示。對比表6 中的第一行和第二行,可以發現,使用多尺度信息提?。∕ⅠE)能夠有效減少模型的參數量,模型的參數量減少了約40%。同時,使用多尺度信息提?。∕ⅠE)在一些數據集上能取得與使用普通卷積相近甚至更優的性能指標,如B100、Set5等。這證明了采用多尺度信息提取能有效重建圖像。對比表6 中的第二行和第三行,可以發現,由于所提出的CRA 模塊的高效性,模型僅需增加少量的參數量(不到100)即可取得明顯的性能提升。加入CRA 后,模型在Urban100、Set14、Manga109數據集上PSNR均能取得至少0.1 dB的增益,SSⅠM指標也得到明顯提升。這證明了在MⅠAB中采用CRA 確實能提高模型的表征能力,提高圖像重建質量。對比表6 中的第三行和第四行,可以發現,引入層歸一化技術(LN)后,模型在基準數據集上各個指標均取得一定的提升。特別是在Set5 數據集上,PSNR 取得0.11 dB 的增益,SSⅠM 也提升了0.001 3。這表明LN 層的引入有利于提高模型的重建能力。這些消融實驗證明了所提MⅠAB組成部分的有效性,能夠提高模型的重建能力。

表6 不同組件對模型性能的影響Table 6 Effects of different components on model performance

(3)MⅠRM。為了探究所提的多層次信息精煉機制(MⅠRM)對模型性能的影響,本文對多層次信息精煉機制(MⅠRM)進行消融實驗。將多層次信息精煉機制(MⅠRM)中的注意力模塊移除作為對照組,實驗結果如表7 所示。從表7 中可以看出,使用多層次信息精煉機制的模型,即采用對比度增強的重組注意力對不同層次進行自適應校準后再執行特征融合,模型的參數量增加不到100,用較小的代價取得了明顯的效果提升。使用MⅠRM 的模型在5 個基準數據集上的PSNR 均能取得0.02 dB的增益,SSⅠM也得到明顯提升。這表明對層次特征進行區分利用,即利用層次特征的通道和空間信息指導網絡的學習能有效利用不同層次的特征,增強模型的重建能力。

表7 多層次信息精煉機制對模型性能的影響Table 7 Effects of multi-level information refinement mechanism on model performance

4 結束語

本文提出了新穎的層次信息自適應聚合網絡(HⅠAAN),用于有區分性地利用層次信息,提高模型的重建性能。通過引入多層次信息精煉機制(MⅠRM),網絡能夠有效地利用層次信息。同時,提出的多尺度信息聚合塊(MⅠAB)和對比度增強的重組注意力塊(CRA)能夠有效利用多尺度信息、特征的通道和空間信息,進一步增強特征的表征能力。大量的實驗證明了所提方法的有效性,能在模型復雜度和圖像重建能力方面取得較好的平衡。

猜你喜歡
尺度注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
財產的五大尺度和五重應對
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合