?

基于參考圖像的超分辨率重建算法綜述

2024-01-05 02:01張東曉
關鍵詞:紋理分辨率損失

張東曉,唐 妮

(集美大學理學院,福建 廈門361021)

0 引言

圖像超分辨率重建(super-resolution reconstruction,SR)是指從一張或多張低分辨率(low-resolution,LR)圖像重建出高分辨率(high-resolution,HR)圖像的過程[1],是一類典型的不適定性問題,也是計算機視覺和圖像處理領域中重要的研究方向。圖像SR在實際生活中有著豐富的應用,如智能安防[2]、醫學影像[3]、無人機偵察[4]、大氣遙感[5]等。

圖像SR可分為多幀圖像超分辨率重建(multiple image super-resolution reconstruction,MISR)和單幀圖像超分辨率重建(single image super-resolution reconstruction,SISR)兩大類。MISR[6-9]通常針對同一場景不同角度、不同方位的圖像序列,利用這些序列之間存在的互補信息進行重建。但在某些場景中MISR并不適用,如在提升老舊照片分辨率時,對同一場景往往無法再次成像,所以無法獲得存在互補信息的LR圖像序列,此時MISR通常會失效。針對這種只有單張LR圖像的情形,SISR通常通過學習的方法來重建出HR圖像。本文主要關注SISR方面的進展。

在經典的SISR方法中,基于圖像自相似的方法[10]和基于稀疏表示的方法[11]均取得過優異的重建效果。近年來,由于深度學習具有強大的特征表達能力,基于深度學習的圖像SR勝過了經典SISR方法,成為了研究的熱點。該方法通過神經網絡直接學習LR圖像到HR圖像即端到端的映射,從而重建出HR圖像。

自從Dong等[12]首次將卷積神經網絡(convolutional neural networks,CNN)用于圖像超分辨率重建以來,基于深度學習的圖像SR得到快速發展,不斷涌現出新的網絡結構,重建效果也是逐步提升。如基于SRCNN(super-resolution CNN)[12]的改進算法[13-14]、基于殘差網絡的重建方法[15-17]、基于密集連接的重建方法[18-20]等。

近期,在SISR的研究中,一部分學者繼續關注設計更好的網絡結構、更優秀的損失函數;另一部分學者則開始關注SISR的新思路:將已有的HR圖像作為參考,利用參考圖中豐富的紋理來補償LR圖像缺失的細節信息,從而緩解圖像SR的不適定性。這種基于參考圖的超分辨率重建(reference-based super-resolution reconstruction,RefSR),其重建過程如圖1所示。與普通的SISR不同,RefSR的輸入除LR圖像外,還需額外輸入一張或多張與LR圖像內容或紋理相似的HR參考圖像。眾多實驗結果表明,在Ref圖像的幫助下,RefSR能夠重建出更多真實的細節和紋理信息,其結果優于SISR。

盡管RefSR的相關研究開展時間較短,但也涌現出了很多先進的重建思想和算法,因此急需對此做一個全面的梳理。在現有SISR的綜述性論文中,鮮有專門介紹RefSR。如Wang等[21]從有監督、無監督和典型應用領域三個方面,全面闡述了基于深度學習的SISR技術;唐艷秋等[22]從模型類型、網絡結構、信息傳遞方式等方面對SISR方法中各種算法進行了詳細評述;曲延云等[23]將基于深度學習的SISR方法劃分為有監督SISR方法和不成對SISR方法,并進行了深入分析等。這些關于超分辨率重建的綜述性論文均未曾提及RefSR方法,更未對其進行詳細闡述。因此,本文在分析和借鑒了若干圖像RefSR研究成果的基礎上,從基于圖像對齊的方法和基于圖像塊匹配的方法入手,對近年來的RefSR方法進行綜述性的介紹,以期拋磚引玉,為該領域的后續研究提供有益參考。

1 RefSR的主要方法

在RefSR算法設計過程中,需要考慮如何更好地使用Ref圖像。通用的做法是在Ref圖像中尋找LR圖像對應的高頻信息,盡可能利用Ref圖像的紋理和細節信息來幫助LR圖像重建。如圖2所示,依據Ref圖像與LR圖像的對應方式,可以將RefSR分為兩大類:基于圖像對齊的方法和基于圖像塊匹配的方法?;趫D像對齊的RefSR方法是利用光流、可變形卷積等模型將輸入的LR圖像與Ref圖像進行全局配準,再將對齊后的Ref圖像的紋理用于LR圖像重建,其代表模型有SSEN、CrossNet。而基于圖像塊匹配的RefSR方法則是將輸入圖像分割為若干個塊,對每個塊進行相似度匹配,再利用匹配后的LR/Ref圖像進行重建。該方法代表模型有SRNTT、TTSR、MASA等。

在Ref圖像和LR圖像是同一個場景的情況下,基于圖像對齊的方法能夠取得優異的重建效果,但是當它們的場景不相同時,基于圖像對齊方法的重建效果則不理想。相較而言,基于圖像塊匹配的方法對參考圖像要求不是很高,因此成為了目前該領域的研究熱點。

1.1 基于圖像對齊的RefSR方法

由于Ref圖像與LR圖像存在差異,若直接將Ref圖像中的紋理信息融入到LR圖像中,則重建出的HR圖像的效果不佳,所以將兩幅圖像對齊顯得尤為重要。這種基于圖像對齊的RefSR方法的核心是圖像對齊操作,其框架如圖3所示。

1.1.1 CrossNet

基于圖像對齊方法的代表是Zheng等[24]的研究,他們提出了一個跨尺度端到端的圖像SR網絡(CrossNet),其中圖像對齊使用了光流法。該網絡利用SISR方法對LR圖像進行上采樣,得到與Ref圖像相同大小的上采樣圖,再分別提取出上采樣圖和Ref圖像的多尺度特征;然后,利用改進的FlowNetS模型[25]學習不同尺度LR/Ref圖像特征的光流信息來更新Ref圖像,從而實現圖像對齊操作;最后,通過融合操作重建出HR圖像。該方法假設兩幅圖像具有較強的相似性,所以當LR/Ref圖像相關性不強時,效果會有所下降。

1.1.2 SSEN

由于CrossNet中光流對齊的成本高,且使用其他預訓練好的網絡進行光流估計是不準確的,所以Shim等[26]提出了基于可變形卷積的網絡結構SSEN(similarity search and extraction network,SSEN)。SSEN利用可變形卷積來尋找LR/Ref圖像的對應關系,且用動態偏移估計器對可變形卷積的偏移量進行估計。同時,為了捕獲特征內部和特征之間的全局相關性,Shim等[26]在動態偏移估計器中加入了非局部塊。該方法能夠處理非剛性變換的圖像,計算量較小,但是無法解決長距離對應問題。

1.2 基于圖像塊匹配的RefSR方法

由于對圖像進行全局配準要求圖像具有較強的相似性,當Ref圖像與LR圖像只是紋理相似或者內容相似時,基于對齊的RefSR方法的效果將直線下降。針對以上問題,一些學者開始研究用圖像塊匹配的方式來尋找Ref圖像與LR圖像的對應關系。這種基于圖像塊匹配的RefSR方法的核心是圖像塊匹配模型的構建以及如何處理好匹配后的不對齊問題,其框架如圖4所示,其中圖4a為LR/Ref圖像塊匹配示意圖,圖4b為基于圖像塊匹配的RefSR方法的流程圖。

1.2.1 圖像塊匹配

基于圖像塊匹配的方法可以追溯到Boominathan等[27]的研究。他們在提高光場(light field,LF)成像的分辨率和景深時,將單反數碼相機捕獲的HR圖像作為Ref圖像,指導LF圖像的恢復。其算法核心是Ref圖像的使用方式:Ref圖像下采樣后,計算其一階、二階梯度,利用歐式距離在梯度特征圖中尋找與LR圖像最相鄰的9個塊,然后加權平均得到融合結果。在后續研究中,該方法常被稱作塊匹配(patch match),它的匹配過程是在原始像素空間上進行的,操作簡單,但匹配過程中沒有充分利用高頻信息,在融合階段也只是簡單地加權平均,導致高頻信息沒有得到很好地融合。

1.2.2 CC-Net+SS-Net

針對圖像塊匹配方法的問題,Zheng等[28]使用CC-Net(cross-scale correspondence network)模塊,通過卷積神經網絡提取LR/Ref圖像特征,利用內積計算相似度,選擇相似度最高的圖像塊作為匹配對,然后,將匹配好的圖像塊送入到SS-Net(super-resolution synthesis network)模塊進行多尺度融合,最后得到SR圖像。相對于圖像塊匹配方法中的梯度特征,該方法使用CNN提取的特征進行匹配,其準確度更高;但是在融合階段是對每個圖像塊單獨進行重建,所以該方法容易產生塊狀效應。

1.2.3 SRNTT

受圖像風格遷移的啟發,Zhang等[29]將RefSR作為紋理遷移問題,設計了一個端到端的SRNTT(super-resolution by neural texture transfer)模型:首先,對提取的圖像特征進行密集塊匹配,然后將匹配后的Ref圖像進行紋理遷移,從而使得重建的SR圖像擁有豐富的紋理信息。與圖像塊匹配方法不同,SRNTT方法是在特征空間進行匹配,雖然該方法促進了多尺度的紋理遷移,允許模型從語義相關的角度實現圖像塊匹配,但是其計算量大,不利于實際應用。

1.2.4 TTSR

Yang等[30]指出SRNTT忽略了全局信息,這使得現有方法對某類LR圖像重建效果不佳。針對此問題,他們提出了一個包含注意力機制的SR網絡架構TTSR(texture transformer network for image super-resolution)。該網絡通過使用注意力機制挖掘深層次的特征對應關系,再將匹配好的特征送入跨尺度融合模塊,最后得到SR圖像。TTSR的特征匹配由4個模塊組成,包括紋理特征提取模塊、相關性嵌入模塊、用于紋理遷移的硬注意力模塊和用于紋理合成的軟注意力模塊。而在相關性嵌入模塊,他們將LR圖像中提取的特征作為轉換器中的查詢(query),將Ref圖像中提取的特征作為轉換器中的鍵(key),以獲得硬注意力矩陣和軟注意力矩陣。由于作為鍵的Ref圖像是經過下采樣后再上采樣的圖像,該操作無法避免信息丟失,從而導致匹配精確度下降,特別是在細節區域下降得較為明顯。

1.2.5 MASA

目前,雖然密集圖像塊匹配方法的效果最好,但其計算量巨大且耗費存儲空間;所以,Lu等[31]提出了一個粗-細對應匹配方案,稱為MASA(matching acceleration and spatial adaptation for RefSR):首先對LR/Ref圖像進行一個大尺度的圖像塊匹配,再利用圖像的局部相似性,對大尺度圖形塊分塊進行小尺度匹配。該方法可以大幅減少計算量。同時,雖然Ref圖像與LR圖像具有相似的內容或紋理,但其顏色和亮度可能不一樣,若直接進行融合操作則效果不佳。所以他們在進行特征融合之前,加入了空間自適應模塊,對得到的Ref特征圖重新映射,使得模型對顏色和亮度更具有魯棒性。

1.2.6 AMSA

雖然MASA方法的計算量有所下降,但是其計算復雜度仍是圖像尺寸的平方級;所以,Xia等[32]對2009年Barnes等[33]提出的圖像塊匹配方法進行了改進,提出了CFE-PatchMatch(coarse-to-fine embedded patch match)快速匹配方法,并將其應用于RefSR中,使LR/Ref圖像的匹配計算量從平方級降到了接近線性級。為了避免尺度不對齊問題,Xia等[32]提出了AMSA(accelerated multi-scale aggregation network)模型。其中,針對小規模的不對齊問題,提出了動態融合模塊;針對大尺度不對齊問題,提出了多規模融合模塊。這兩個融合模塊相互配合,產生了很好的融合效果。

1.2.7 C2-Matching

Jiang等[34]認為由于在輸入LR圖像與Ref圖像之間存在兩個差距——變換差距(如旋轉、縮放等)和分辨率差距,使得執行局部遷移變得較為困難。針對這些問題,他們提出了C2-Matching(cross transformation and cross resolution matching)技術,用于跨變換和跨分辨率的關系匹配。對于變換差距,利用對比網絡拉近匹配對之間的距離,疏遠不匹配對之間的距離;對于分辨率差距,提出教師-學生關系蒸餾網絡,與傳統的知識蒸餾網絡不同,此網絡用HR-HR匹配來指導相對困難的LR-HR匹配。然后,通過設計的動態融合模塊來解決潛在的錯位問題。該技術在目前常用的數據集中,都顯現出了極強的泛化能力,以及對大尺度和旋轉變換的魯棒性。

2 損失函數、數據集與評價標準

2.1 損失函數

損失函數在提升模型性能方面起著關鍵作用,常用于計算模型生成的HR圖像與原始基準圖像的差異,從而引導RefSR網絡重建出更好的HR圖像。損失函數的選擇也尤為重要,一個好的損失函數能夠幫助模型更優和更快地收斂,同時得到具有高精度,且與真實HR圖像接近的HR圖像。在RefSR方法中常用的損失函數主要有以下幾種:

1)重建損失(reconstruction loss) 重建損失是圖像SR中最常用的損失函數,一般可分為L1損失和L2損失,其表達式分別為:

其中:h,w和c分別表示圖像的長、寬和通道數;ISR表示生成的HR圖像;I表示真實圖像。

2)感知損失(perceptual loss) 感知損失已被證明可用于提升視覺質量,并在圖像SR中廣泛應用。感知損失的核心思想是增強預測圖像和目標圖像在特征空間中的相似性,其公式為:

Lper=||φi(ISR)-φi(I)||2。

其中:φi表示某種特征提取網絡的第i層。

3)對抗損失(adversarial loss) 在圖像SR領域中,只需將SR模型作為一個生成器,再定義一個鑒別器來判斷輸入圖像是否由生成器產生,就可以構造出一個對抗學習網絡。而對抗損失能夠有效地使模型產生更加真實的圖像,其具體表達式為:

Lgan_ce_g=-lgD(ISR)

,

Lgan_ce_d=-lgD(I)-lg(1-D(ISR))。

其中:D(·)表示判別器;Lgan_ce_d是鑒別器的對抗損失;Lgan_ce_g是SR模型生成器的對抗損失。

4)紋理損失(texture loss) Zhang等[29]將紋理損失引入到RefSR方法中,來減少參考圖像與生成圖像的紋理差異,其表達式為:

2.2 數據集

在RefSR研究中,最常用的數據集為CUFED5,該數據集是Zhang等[24]創建的,包含1個訓練集(11 871個160 px×160 px的圖像對)和1個測試集(126組圖像)。在測試集中,每組圖像包含1張HR圖像和5個不同相似度的參考圖像,如圖5所示。

由于CUFED5數據集中占比最重的為室內、人、室外類型的圖像,其他類型的圖像較少,最近Jiang等[34]給出了一個新的數據集WR-SR,該數據集包含了80個圖像對。相比于CUFED5數據集,WR-SR數據集還包含了動物、地標、建筑等圖像類,其內容更加豐富,如圖6所示。除此之外,常用的測試集還有Sun80[35](80張自然圖像且有一些參考圖像)、Urban100[36](100張建筑圖像,無參考圖像但圖像有自相似性)、Manga109[37](109張漫畫,無參考圖像)。

2.3 評價標準

圖像質量評價主要包括主觀評價和客觀評價兩類。在RefSR研究中,常用的客觀評價指標有峰值信噪比(peak signal to noise ratio,PSNR)和結構相似性(structural similarity index,SSIM)[38];主觀評價一般采用主觀質量評分法(mean opinion score,MOS)[39]。在圖像SR中,使用對抗損失、感知損失等會獲得更好的視覺效果,但是客觀指標PSNR和SSIM會有所下降;所以,在使用PSNR/SSIM評價RefSR方法時,不僅要考慮基于所有損失(感知損失、對抗損失、重建損失等)的模型評價,還要單獨評價只由重建損失訓練的模型。

3 幾種SR方法對比

自從卷積神經網絡被引入圖像SR以來,各種基于深度學習的圖像SR方法不斷涌現。近年來,RefSR方向吸引了大批學者,他們基于深度神經網絡開展了很多卓有成效的研究。本文通過比較總結上述具有代表性的RefSR方法,概括了不同RefSR方法的網絡特點及算法優點,詳情如表1所示。

表1 RefSR方法對比

續表

如前所述,不管是基于圖像對齊的RefSR方法,還是基于圖像塊匹配的方法,都關注著LR圖像與Ref圖像的對應問題;但是它們又各有側重,如表1所示,這些方法各具特色,各有優點。具體歸納如下:

1)在方法的選擇上,基于圖像塊匹配的方法是RefSR中的主流方法,其對圖像的相關性要求沒有基于圖像對齊的方法高。此外,現有部分學者也開始研究多參考圖的圖像SR方法,如Yan等[40]提出的CIMR-SR模型等。

2)在參考圖像的選擇上,參考圖像與LR圖像內容越相似,RefSR方法重建出的HR圖像效果越好。表2為不同方法在不同相似度的參考圖像的幫助下,重建出的HR圖像的PSNR和SSIM。其中:L1到L4表示輸入相似度依次遞減的參考圖像,即L1是與LR圖像相似度最高的HR圖像,L4為相似度最低的HR圖像;LR表示用LR圖像作為輸入的參考圖像。由表2可以看到,算法的重建效果與參考圖像的選擇是有關系的,參考圖像與LR圖像相似度越高,重建效果越好。圖7為圖5展示的兩幅CUFED5測試集圖像基于不同相似度參考圖像的細節重建結果,GT表示真實HR圖像,可以看到,參考圖像與LR圖像相似度越高,重建出的HR圖像的細節恢復得越好,這也證明了參考圖像對RefSR重建的結果有一定的影響。

表2 不同相似度的參考圖像對PSNR和SSIM的影響

3)從客觀評價標準來看,RefSR方法的效果要優于現有的SISR方法。表3為不同的圖像SR方法在CUFED5、Sun80、Urban100、Manga109測試集上的實驗結果,實驗結果均取自相關文獻。這里除了比較RefSR不同算法的效果,也比較了主流的SISR算法。RefSR方法不僅比較了原始模型的PSNR和SSIM,還對比了只采用重建損失訓練模型(用-rec表示)的PSNR和SSIM。由結果可見,與現有的SISR方法相比,RefSR方法的結果有大幅提升。

表3 不同SR方法的PSNR和SSIM

4)從視覺效果上看,在RefSR方法中,Ref圖像為LR圖像提供了更多的細節紋理信息。圖8為目前效果最好的幾種圖像SR方法的效果(實驗結果均取自相關文獻),并展示了每張圖像的低分辨率圖及其參考圖像,以及兩種SISR方法(ESRGAN和BankSRGAN)和三種RefSR方法(MASA、C2-Matching、AMSA)對某個細節的重建效果。從圖8可以看到,RefSR方法在人臉、字母等細節信息的恢復上效果更好,恢復出的細節信息更真實,其中AMSA模型效果是5種方法中最好的。

5)在RefSR方法中,模型中加入注意力機制、非局部塊等,能大幅提升圖像SR的效果。復雜的網絡帶來了好的重建效果,但也出現了計算量大、存儲空間不足等問題。針對這些問題,研究者們對網絡的設計不僅會考慮圖像重建效果,還會考慮模型的計算量、參數量,使得模型更有利于實際應用。表4列出現有模型的參數量、計算量,可以看到AMSA模型的計算量是最小的,且其效果也是目前最好的。

表4 RefSR中各模型參數量和計算量

4 未來研究展望

圖像SR作為計算機視覺領域底層視覺部分的經典問題,一直以來受到人們的廣泛關注。目前,基于深度學習的RefSR方法取得了不錯的效果。盡管如此,但仍存在一些問題有待解決:

1)現有的RefSR方法中,LR圖像通常是由HR圖像下采樣得到的,以此模擬自然情況下圖像退化過程,而在實際應用中圖像的退化過程還包括噪聲、模糊、壓縮等。如何學習得到可以處理復雜退化圖像的網絡還有待探討。

2)輕量化的RefSR方法。受算力的限制,現有RefSR方法無法在手機、平板等移動設備上直接使用,所以,如何將現有的RefSR方法輕量化,在保證效果的同時,降低參數量和模型復雜度是RefSR研究的熱點。

3)在SISR方法中,現有的網絡模塊(如遞歸學習、密集連接等)和學習機制(如多路徑學習、非局部相似性等)對SISR精度有很好的提升。在RefSR方法中,能否運用這些模塊來進一步提升算法的性能,值得進一步去探討。

猜你喜歡
紋理分辨率損失
胖胖損失了多少元
基于BM3D的復雜紋理區域圖像去噪
EM算法的參數分辨率
使用紋理疊加添加藝術畫特效
玉米抽穗前倒伏怎么辦?怎么減少損失?
原生VS最大那些混淆視聽的“分辨率”概念
TEXTURE ON TEXTURE質地上的紋理
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
消除凹凸紋理有妙招!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合