?

空間感知通道注意力引導的高動態圖像重建

2022-12-21 03:23唐凌峰黃歡張亞飛李凡
中國圖象圖形學報 2022年12期
關鍵詞:鬼影重構細節

唐凌峰,黃歡,張亞飛,李凡

昆明理工大學信息工程與自動化學院,昆明 650500

0 引 言

高動態范圍(high dynamic range,HDR)成像旨在有效地捕捉和顯示自然場景的照明。由于標準數碼相機受限于設備傳感器的性能,只能捕獲有限動態范圍內的光強,導致拍攝圖像中出現過亮或過暗的區域,不能很好地反映出人眼在自然場景中感知到的明亮或黑暗區域的細節。雖然利用專業成像設備可以直接獲取HDR圖像,但這些設備通常十分昂貴,大多數用戶無法負擔。因此,利用HDR重建算法(范逵和周曉波,2014;朱雄泳 等,2018),即從傳統數碼相機捕獲的圖像中恢復出HDR圖像的方法十分流行。

一些研究者試圖利用單幅低動態范圍(lour dynamic range,LDR)圖像生成HDR圖像(Eilertsen等,2017;Liu等,2020)。由于照相機傳感器在捕獲信息時存在量化誤差和飽和工作區間,只利用單幅圖像的信息難以達到較好的重建效果。具有不同曝光度的LDR圖像分別包含了不同動態區間下的信息。因此,融合同一場景下的多幅不同曝光LDR圖像可以重建出更高動態范圍的圖像。然而,現實生活中拍攝一組圖像通常會存在相機位置的偏移、前景物體的移動以及飽和等現象。由于待融合圖像的像素在空間位置上未對齊,會造成重建HDR圖像出現鬼影、噪聲和模糊的現象。為了解決這些問題,一些傳統方法(Zimmer等,2011;Xu等,2010)試圖使用光流法(Kang等,2003)先對LDR圖像進行預先配準,然后進行融合。Gallo等人(2009)先檢測運動區域,再預測由物體運動而導致的信息不一致區域,并將其摒棄來解決空間信息誤對齊的問題?;谏疃葘W習的HDR重建方法(Liu等,2020;Yan等,2019b)通常具有更強的恢復細節能力,但由于缺少對輸入圖像特征的有效挖掘和利用,阻礙了HDR圖像質量的進一步提升。如Kalantari和Ramamoorthi(2017)利用光流法將輸入圖像與參考圖像進行對齊,然后通過一系列卷積層對圖像直接進行融合。Wu等人(2018)先利用單應性變換(homography transformation)對圖像進行整體對齊,然后用基于U-Net或ResNet的網絡架構來融合LDR圖像。Yan等人(2020)僅從單一維度建立特征的相互關系,沒有充分突出特征中的有效信息?,F有基于注意力機制的方法雖然有一定效果,但由于沒有充分考慮特征空間維度和通道維度的相互關系,因此在抑制鬼影、保持和恢復細節信息方面仍然存在很大的提升空間,如圖1所示。

圖1 不同HDR重建方法成像結果對比Fig.1 Comparison results of different HDR methods

本文方法著重解決因圖像像素的未對齊而導致融合結果出現的“鬼影”、過曝光/欠曝光區域細節信息難以恢復以及融合過程中源圖像邊緣細節容易丟失的問題。為了解決上述問題,提出了一種空間感知通道注意力引導的HDR重建方法。

本文方法充分考慮了圖像特征的空間相關性和特征通道的相關性,設計了空間感知通道注意力機制。這樣一種集成式的設計,在挖掘通道上下文關系的過程中,通過提取特征通道維度的全局信息和顯著信息, 進一步強化特征的空間關系,實現對誤對齊區域信息的進一步抑制以及有效信息的增強。此外,為強化網絡挖掘輸入圖像中有益信息的能力,本文提出了多尺度信息重建模塊,在增大網絡感受野的同時,凸顯了特征空間維度的顯著信息,充分利用了不同尺度特征的上下文信息。這不僅有助于保留輸入LDR圖像的更多細節,還有助于恢復飽和區域丟失的信息。如圖1所示,本文模型能構建出更高質量的HDR圖像。為了評估本文方法的性能,在公開HDR數據集上將本文方法與其他HDR重建方法進行了比較,實驗結果證明了本文方法的有效性和優越性。綜上所述,本文的主要貢獻包括:

1)提出一種全新的空間感知通道注意力機制。該機制在空間注意力的基礎上,通過提取特征通道維度的全局信息和顯著信息,進一步增強了有效區域信息在重構HDR圖像中的作用,充分考慮了不同位置和不同通道特征之間的相關性和差異性。在抑制鬼影的同時增強了特征中有效信息的作用。

2)設計多尺度信息重建模塊。該模塊有助于增大網絡感受野,強化特征空間維度的顯著信息,還能充分利用不同尺度特征的上下文語義信息,來重構最終的HDR圖像。實現保留圖像細節的同時,有效恢復出飽和區域丟失的信息。

3)構建端到端HDR重建框架。該框架無需對圖像進行預先配準,并在公開HDR數據集上取得了有競爭力的性能,充分證明了本文方法的有效性和優越性。

1 相關工作

1.1 基于對齊的方法

基于對齊的方法通常在進行多曝光圖像融合之前,對LDR圖像先進行對齊處理。Ward(2003)提出通過二值圖計算整體像素偏移量來對齊偏移的圖像。Zimmer等人(2011)提出基于光流的方法來對齊圖像,但沒有很好地利用未對齊部分的HDR內容。為增強融合結果中的圖像細節,Sen等人(2012)提出通過優化基于圖像塊(patch-based)的能量最小化函數(energy-minimization formulation),來解決對齊問題。這類方法通常在復雜場景以及圖像之間存在目標物的大幅度移動時,對齊效果并不理想,導致融合結果中仍然有鬼影的存在。

1.2 基于運動檢測的方法

基于運動檢測的方法假定多幅LDR圖像可以在最終的HDR圖像中配準,并把LDR中的像素劃分為偏移的像素和未偏移的像素來分別處理。Jinno和Okuda(2008)提出通過馬爾可夫隨機場預估出現的位移、遮擋和飽和的區域,并將這些區域的信息在最終的HDR圖像中排除掉。Raman和Chaudhuri(2011)提出利用超像素分組(superpixel grouping)來檢測場景的變化,并將信息不一致的塊舍棄掉,以緩解HDR重建過程中可能出現的鬼影。Zheng等人(2013)提出使用模板匹配和空洞填充來檢測和消除出現偏移的像素,以達到消除鬼影的目的。這類方法在運動區域處重構出的信息通常是低動態范圍的,因為它們只是摒棄掉運動區域的內容,而沒有充分利用運動區域所包含的信息。

1.3 基于深度神經網絡的方法

深度學習技術通過端到端的訓練讓網絡學習如何重建HDR圖像?;谏疃壬窠浘W絡的方法通常包括兩類實現HDR圖像的方式:1)從單幅LDR圖像中重構出HDR圖像。2)通過融合多幅具有不同曝光水平的LDR圖像重構HDR圖像。在第1種方法中,Eilertsen等人(2017)設計了一個深度自編碼器網絡,旨在恢復出飽和區域丟失的信息,增強重構圖像的細節表現。由于相機成像過程中有些步驟會造成信息丟失,Fotiadou等人(2020)通過稀疏自編碼器從圖像塊的特征中建模不同的曝光條件,再利用模擬出的不同曝光水平從單幅LDR圖像重建出HDR圖像。

在第2種方法中,Kalantari和Ramamoorthi(2017)提出先用光流法對齊輸入的圖片,再用深度神經網絡來預測重建的HDR圖像。然而,這種方法需要對圖像進行預處理,并且難以消除由于光流方法的局限性帶來的誤對齊。Wu等人(2018)從圖像轉化角度提出利用深度編碼解碼網絡恢復出HDR圖像的細節。但網絡對抑制鬼影的魯棒性不強。為進一步消除鬼影帶來的影響,Yan等人(2019a)通過簡單注意力機制構建特征空間位置關系,沒有考慮特征通道間的關系。Yan等人(2020)又提出利用特征的空間相關性引導網絡恢復出被遮擋區域的細節。但重建網絡恢復圖像細節能力有限。這些方法雖然能有效提升重構圖像的質量,但在對飽和區域丟失細節的恢復或大尺度移動而引入的鬼影抑制方面,仍然存在較大的提升空間。

2 方 法

本文方法框架如圖2所示,主要包括特征提取網絡、空間感知通道注意力網絡、多尺度信息重建網絡。其中,特征提取網絡主要負責從輸入的圖像中提取出包含不同層次信息的特征;空間感知通道注意力網絡用于凸顯有助于提升圖像質量的信息,避免鬼影效應對融合結果的影響;多尺度信息重建網絡利用特征在空間層面的重構來增大提取特征的感受野,這有助于在更大的感受野內提取有效信息,并實現過/欠曝光和運動區域丟失細節信息的恢復。

圖2 本文方法框架Fig.2 The framework of the proposed method

2.1 數據預處理與模型概述

給定一組動態場景下多曝光LDR圖像{x1,x2,x3}。HDR圖像重構的目標是根據輸入的非參考圖像{x1,x3},重構出一幅與選定的參考圖像x2對齊的HDR圖像,并且該圖像包含了非參考圖像{x1,x3}的細節信息。在待融合圖像{x1,x2,x3}輸入網絡之前,本文根據Kalantari和Ramamoorthi(2017)方法的設定,先用gamma校正函數對LDR圖像{x1,x2,x3}預處理,得到對應的HDR圖像{H1,H2,H3},其中Hi可表示為

(1)

式中,γ>1表示gamma校正參數,ti為LDR圖像xi的曝光時間。根據Kalantari和Ramamoorthi(2017),設γ=2.2,并將xi和Hi在通道上拼接起來,得到一個6通道的張量Xi=[Hi,xi],i∈{1,2,3}作為網絡的輸入。

2.2 特征提取網絡

如圖2所示,特征提取網絡由4個3×3卷積層組成,每個卷積層輸出的特征均為16通道。對于輸入Xi∈RH×W×6(i=1,2,3),第l個卷積層的輸出可以表示為

(2)

式中,Conv表示卷積,k表示卷積核的尺寸,l∈{1,2,3,4}表示卷積層的序號。特征提取網絡最后輸出的特征Fi∈RH×W×64可表示為

(3)

式中,concat表示特征間的拼接操作。

2.3 空間感知通道注意力網絡

圖3 空間感知通道注意力機制結構示意圖Fig.3 The structure of our spatial aware channel attention mechanism

(4)

式中,⊙表示哈達瑪積。

(5)

(6)

(7)

Li等人(2021)提出通過計算特征圖與圖像的高級語義表示之間的關系來探索空間上下文。由于圖像的高級語義表示不能保留原始特征圖的像素級信息,因此在HDR重建任務中,高維特征圖與圖像的高級語義表示之間的關系無法充分表達原始特征維度的空間依賴。與Li等人(2021)使用的通道上下文模塊不同,本文方法提出一種集成式的設計,在預測通道間的相互依賴關系時,通過提取特征的全局信息和顯著信息進一步強化特征的空間關系,增強鬼影抑制能力。這一機制不僅可以有效抑制由于嚴重飽和以及物體運動造成的鬼影,還有助于突出與參考圖像互補的特征,重建高質量的HDR圖像。

2.4 多尺度信息重建網絡

由于LDR圖像中存在移動物體的遮擋和飽和區域,HDR圖像一些局部區域在重建時無法從源圖像對應位置的相鄰區域獲得充分的有用信息。所以需要增大網絡感受野來捕獲更多HDR重建時所需要的細節信息。為此,本文提出了多尺度信息重建模塊(multiscale information reconstruction module,MIM)。該模塊的具體結構如圖4所示。該模塊通過對特征分別進行全局平均池化和全局最大池化操作,在提取全局信息和顯著信息的同時,增大重建網絡的感受野,并捕獲不同尺寸特征中包含的上下文信息。上采樣操作則可以讓網絡將全局上下文信息傳播到更高分辨率的特征中去。高層特征有助于削弱鬼影,而低層次特征中則包含更豐富的細節信息。因此,為了避免淺層特征中細節信息的丟失,在多尺度信息重建模塊中還加入了跳躍連接,將下采樣層的特征傳遞到對應上采樣層的輸入位置。

Fl1=Conv(concat(Fg1,Fh1),k=1)

(8)

圖4 多尺度信息重建模塊結構示意圖Fig.4 The structure of our multiscale information reconstruction module

特征Fl1∈RH/2×W/2×C分別經過全局平均池化和全局最大池化操作后得到的特征可表示為Fg2∈RH/4×W/4×C和Fh2∈RH/4×W/4×C。將得到的特征拼接,經過1×1卷積后可得到

Fl2=Conv(concat(Fg2,Fh2),k=1)

(9)

對Fl2∈RH/4×W/4×C經過雙線性插值上采樣到Fl1相同的尺寸后,與經過3×3卷積層進一步特征提取的特征Fl1進行逐元素相加,即

(10)

FMIM=Upsample(F′l1)+F′SACA

(11)

2.5 損失函數

(12)

(13)

結構相似度(structural similarity,SSIM)可以度量兩幅圖像之間的結構信息的相似性,其數值越大表示兩幅圖像結構信息就越相似。為保證重構圖像與標簽圖像具有較強的結構相似性,防止結構信息的丟失,使用如下的結構相似度損失來對模型進行優化,即

(14)

綜上,總的損失函數可以表示為

L=Lpixel+LSSIM

(15)

3 實 驗

3.1 數據集

1)訓練數據。當前已提出了一些HDR數據集,如Kalantari dataset(Kalantari和Ramamoorthi,2017)、Tursun dataset(Tursun等,2016)和Sen dataset(Sen等,2012)。為了達到更好的性能,選擇使用帶標簽的數據集Kalantari來訓練本文網絡。Kalantari包括拍攝于不同場景下的74組訓練樣本和15組測試樣本。每組樣本中包含同一場景下的3幅LDR圖像和對應的曝光偏差,以及該場景下的標簽HDR圖像。樣本中每一幅圖像的尺寸都為1 500×1 000像素。實驗中設定具有中等曝光程度的圖片作為參考圖像,其余的2幅為非參考圖像。由于該數據集的訓練集僅包含74個樣本,在訓練階段將訓練樣本中的圖片隨機裁剪成512×512像素,并對裁剪好的圖像塊使用水平翻轉和垂直翻轉來避免過擬合。

2)測試數據。在測試階段使用了3個測試集對模型性能進行評估。包括Kalantari數據集的測試集、Sen數據集和Tursun數據集。其中Kalantari測試集的15組測試樣本包含標簽,用該數據集計算模型的定量指標。Sen數據集和Tursun數據集不包含標簽圖像,這兩個數據集場景下的圖像用于定性評估,同時進一步驗證模型的泛化性能。

3.2 評價指標

為評價不同方法得到結果的質量,采用PSNR-L(peak signal to noise ratio-linear domain),SSIM-L(structural similarity-linear domain),PSNR-μ(peak signal to noise ratio-tonemapped domain),SSIM-μ(structural similarity-tonemapped domain),HDR-VDP-2(Mantiuk等,2011)作為重構結果客觀評價指標。PSNR-L表示線性HDR域中標簽HDR圖像與網絡輸出之間的峰值信噪比。PSNR-μ表示μ-law域中標簽HDR圖像與網絡輸出之間的峰值信噪比。SSIM-L與SSIM-μ則分別表示線性HDR域與μ-law域中標簽HDR圖像與網絡輸出之間的結構相似度。HDR-VDP-2(Mantiuk等,2011)用來度量不同亮度條件下重構的HDR圖像的可見性和質量。

3.3 實現細節

使用PyTorch實現提出的網絡框架,訓練和測試實驗環境為Ubuntu20.04,實驗設備搭載 Nvidia GeForce RTX 3090和64 GB內存。訓練階段,使用Adam優化器優化網絡,優化器參數β1 =0.9,β2 =0.999。批大小設置為2。采用使用warm-up學習率調整策略,初始學習率設置為10-3,持續到第1 500代衰減為10-4,到第2 500代衰減為10-5,并保持學習率為10-5直至訓練結束。模型總共訓練5 900代。

3.4 方法比較

為驗證本文方法的有效性,將本文方法與當前最新的幾種方法在Kalantari測試集(Kalantari和Ramamoorthi,2017)、Sen數據集以及Tursun數據集上進行了實驗對比。對比方法包括3種流行的HDR重建方法:基于補丁的方法Sen(Sen等,2012);基于單幀重建的方法HDRCNN(Eilertsen等,2017)和SingleHDR(Liu等,2020);基于深度神經網絡的方法Kalantari(Kalantari和Ramamoorthi,2017)、DeepHDR(Wu等,2018)、AHDRNet(Yan等,2019a)和NHDRRNet(Yan等,2020)。需要說明的是,Kalantari的方法在圖像輸入網絡前需要使用光流法對圖像進行對齊預處理,DeepHDR需要先用單應性變換(homography transformation)對齊輸入圖像的背景。AHDRNet、NHDRRNet以及本文方法在測試時則不需要對圖像進行任何預處理。本文中所展示的HDR圖像均使用Photomatix(Wu等,2018)進行色調映射。

3.4.1 定量分析

在有標簽圖像的Kalantari測試集下對不同方法進行了定量評估。各方法所有結果在各項評價指標下的平均值如表1所示。各項指標數值越高表示重構圖像的質量越好。從表1定量評價結果可以看出,本文SCAMNet更具優勢。雖然DeepHDR和NHDRRNet也采用了多尺度特征融合,但集成空間感知通道注意力的SCAMNet獲得了更好的性能。而Sen和Kalantari方法通常會在圖像局部區域引入鬼影。HDRCNN和SingleHDR易在過飽和區域引入噪聲。

3.4.2 標簽數據集融合結果的視覺效果分析

圖5和圖6展示了不同方法在Kalantari測試集上的重構結果。兩組測試樣本均存在大范圍前景目標物的運動以及局部區域的過/欠曝光。其中,圖5(a)—(c)和圖6(a)—(c)為LDR圖像。圖5(d)—(k)和6(d)—(k)為不同方法得到的HDR圖像(色調映射后)的效果比較。為了便于觀察,將每幅圖像的對應標記區域進行了放大,并將其置于每幅圖像的右上角和右下角。從圖5(d)可以看出,融合結果不僅細節恢復不理想,而且還引入了畸變(如紅色和綠色標注區域所示),這主要是因為基于塊的方法在對飽和區域進行塊關系匹配時出現了誤差。從圖6(d)可以看出,雖然Sen方法能夠重構出質量較高的HDR圖像,但在部分區域(如樹枝、手臂汗毛)對細節信息的恢復仍然不夠理想。

表1 Kalantari測試集上不同HDR重建方法評價指標結果Table 1 Results of different methods for Kalantari testing dataset

圖5 不同方法在Kalantari測試集中Parking-one場景下所得結果的視覺效果展示Fig.5 Visual effect display of results obtained by different methods on scene Parking-one in Kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

圖6 不同方法在Kalantari測試集中Parking-two場景下所得結果的視覺效果展示Fig.6 Visual effect display of results obtained by different methods on scene Parking-two in kalantari testset((a)LDR1; (b)LDR2; (c)LDR3; (d)Sen; (e)HDRCNN; (f)SingleHDR; (g)Kalantari;(h)DeepHDR; (i)AHDRNet; (j)NHDRRNet; (k)ours; (l)ground truth)

基于單幀重建的方法HDRCNN和SingleHDR雖然能在一定程度上避免鬼影和畸變信息的引入,但無法從非參考圖像中獲取必要的信息來重構邊緣細節,且存在著較為明顯的顏色扭曲。從圖5(g)的紅色和圖6(g)紅色、綠色標注區域可以看出,基于光流法的Kalantari輸出結果出現了鬼影以及細節信息的丟失,這是由于Kalantari的卷積神經網絡(convolutional neural network, CNN)結構過于簡單,不能很好地解決因為光流法引入的誤對齊。

雖然DeepHDR和NHDRRNet產生的結果整體效果較好,但從圖5(h)(j) 綠色框標注的區域可以看出,手臂處出現了輕微的鬼影。同時,在圖6(h)(j)的綠色標注區域沒有很好地恢復出飽和區域物體的細節。AHDRNet和NHDRRNet雖然引入了注意力機制,在一定程度上緩解了鬼影現象,但由于沒有考慮特征通道維度的相關性,不能充分突出有效信息的作用,因此重建的結果中仍然存在過飽和區域。在圖5(i) 的紅色框標注區域和圖6(i)的綠色框標注區域內依然存在輕微的模糊和過飽和現象。與這些方法相比,由于本文方法從空間和通道兩個維度同時突出了有益信息作用,并充分挖掘了多尺度特征信息,因此本文方法不僅能有效抑制鬼影的產生,而且還更有效地恢復出了清晰的圖像細節。

3.4.3 無標簽數據集融合結果的視覺效果分析

為驗證模型的泛化能力,本文在Sen和Tursun兩個無標簽的數據集上對不同方法的性能進行了對比。每一個數據集展示了兩個場景下的融合結果。圖7和圖8為Sen數據集兩個場景下不同方法融合結果比較。從圖7(a)紅色放大區域可以看出,融合結果沒能有效地恢復出清晰的圖像細節。同時,該方法在圖8(a)的紅色和綠色放大區域內,在眼鏡和下頜處引入了輕微噪聲。這是因為基于塊(patch)的方法Sen無法準確找到與飽和區域信息對應的塊。

基于單幀重建方法HDRCNN和SingleHDR,因無法綜合其他LDR圖像的信息,導致其恢復的圖像局部細節不清晰并且沒有呈現較好的高動態范圍效果。由于Kalantari在預先進行的光流對齊步驟中出現的偏差導致圖8(d) 標注區域內引入了鬼影。此外,從圖7(e)(g)的標注區域可以看出,DeepHDR和NHDRRNet不僅沒能實現丟失細節的恢復,還導致了顏色的畸變和輕微鬼影。這是因為DeepHDR和NHDRRNet沒能充分突出有效信息在圖像重建過程中的作用。圖7(f)中AHDRNet重建結果對局部細節的恢復并不理想,這是因為AHDRNet沒能充分挖掘不同尺寸特征中包含的上下文信息,導致細節信息流失。相比而言,本文方法通過空間感知通道注意力機制有效增強了非參考圖像中的有效信息,識別并抑制了誤對齊區域的信息,因此能重構出無鬼影的HDR圖像。

圖9和圖10給出了不同方法在Tursun數據集的兩個場景下的重構結果。從這些結果可以看出,基于塊匹配的方法Sen在圖9(a)和圖10 (a)中均引入了輕微鬼影,影響了重構結果的視覺效果。這是因為塊匹配的過程中可能無法準確找到與飽和區域信息對應的塊。方法HDRCNN和SingleHDR均造成了重構結果顏色的畸變和細節信息的損失。如圖9(d)和圖10(d)所示,Kalantari方法的重構結果出現了輕微的鬼影,原因是該方法不能很好地解決因為光流法引入的誤對齊。雖然DeepHDR、AHDRNet和NHDRRNet等基于深度學習的方法能取得不錯的效果,但依然會在局部區域引入鬼影,并且對細節信息的恢復也有提升空間。這是因為這些方法沒能充分凸顯對重構圖像有益信息的作用和挖掘不同尺度特征中的上下文語義信息。從圖9(h)和圖10 (h)中可以看出,本文方法較為真實地重構了場景的結構,并清晰地恢復出了圖像的細節,有效地避免了鬼影的產生。

圖7 不同方法在Sen數據集中BabyOnGrass場景下所得結果的視覺效果展示Fig.7 Visual effect display of results obtained by different methods on scene BabyOnGrass in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

圖8 不同方法在Sen數據集中LadyEating場景下所得結果的視覺效果展示Fig.8 Visual effect display of results obtained by different methods on scene LadyEating in Sen dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

圖9 不同方法在Tursun數據集中Plants場景下所得結果的視覺效果展示Fig.9 Visual effect display of results obtained by different methods on scene Plants in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

圖10 不同方法在Tursun數據集中Museum1場景下所得結果的視覺效果展示Fig.10 Visual effect display of results obtained by different methods on scene Museum1 in Tursun dataset((a)Sen; (b)HDRCNN; (c)SingleHDR; (d)Kalantari; (e)DeepHDR; (f)AHDRNet; (g)NHDRRNet; (h)ours)

3.5 消融實驗

本文通過消融實驗驗證了不同模塊的重要性。實驗中,把去除了SACAM和MIM的模型作為“Baseline”。將Baseline中添加了通道注意力的模型命名為“Baseline+CA”, 將“Baseline+CA”中的CA替換成SACAM的模型稱之為“Baseline+ SACAM”, “Baseline+ SACAM”中添加了MIM的模型稱之為“Baseline+SACAM +MIM”。圖11給出了模型在不同設置條件下得到結果的局部視覺效果對比。

3.5.1 通道注意力的有效性

由圖11(b)可以看出,與Baseline相比,Baseline+CA一定程度上減輕了鬼影現象,這得益于通道注意力調整了LDR圖像的不同通道在重構HDR時的作用,并且通過提取特征通道維度的全局信息和顯著信息,增強了有效區域信息在重構HDR圖像中的作用。

圖11 本文各模塊對HDR圖像重建的視覺效果影響Fig.11 The influence of each module on the visual effect of HDR image reconstruction((a)Baseline; (b)Baseline+CA; (c)Baseline+ SACAM; (d)Baseline+SACAM +MIM)

3.5.2 空間感知通道注意力機制的有效性

Baseline+SACAM在Baseline+CA的基礎上加入了空間注意力。對比圖11(c)相對圖11(b)的變化,可以發現鬼影現象進一步被削弱,這是因為空間感知通道注意力能同時從空間維度和通道維度挖掘特征圖中對重構圖像有益的信息。并且通道注意力可以在空間注意力的基礎上進一步凸顯有效區域信息在重構HDR圖像中的作用,從而進一步抑制鬼影。從表2所示的客觀評價結果來看,當把通道注意力換成空間感知通道注意力之后,所有評價指標的性能均得到了進一步提升,這驗證了本文所設計的空間感知通道注意力的有效性。

表2 本文模型中不同模塊消融研究結果Table 2 The ablation results of different modules in our model

3.5.3 多尺度信息重建模塊的有效性

為證明多尺度信息重建模塊的有效性,比較了Baseline+SACAM與Baseline+SACAM+MIM產生結果的變化。如圖11(d)所示,Baseline+SACAM+MIM的結果與Baseline+SACAM相比,鬼影得到了更加有效地抑制,并且局部細節(如欄桿、建筑)也得到了恢復。這是因為該網絡有助于增大網絡感受野,強化特征空間顯著信息和充分利用不同尺度特征的上下文語義信息,來重構最終的HDR圖像。這樣不僅能充分保留圖像細節信息,還能有效恢復出飽和區域丟失的信息。相比之下,表2中的客觀評價指標也得到了提升,這表明了多尺度信息重建模塊的有效性。

4 結 論

本文提出了一個空間感知通道注意力引導的多尺度HDR圖像重建網絡(SCAMNet)。在一個框架內集成了空間感知通道注意力機制和多尺度信息重建模塊,有效地解決了在拍攝過程中因目標運動而導致融合結果出現的“鬼影”和飽和區域缺失細節重建的問題。提出的空間感知通道注意力機制建立了特征在空間、通道維度的相互關系。在挖掘特征通道間相互依賴關系的同時,通過提取特征空間維度的全局信息和顯著信息, 進一步強化空間注意力特征的空間關系,凸顯對重構圖像有益的信息。SCAMNet還集成了多尺度信息重建模塊。該模塊充分利用不同尺度特征的上下文語義關系,進一步挖掘輸入圖像中的有益信息來重建HDR圖像。強化特征空間顯著信息的同時,還提升了感受野,增強了網絡恢復細節信息的能力。定性和定量的評估都驗證了本文方法與同類方法相比的優勢。

猜你喜歡
鬼影重構細節
視頻壓縮感知采樣率自適應的幀間片匹配重構
長城敘事的重構
以細節取勝 Cambridge Audio AXR100/ FOCAL ARIA 906
北方大陸 重構未來
留心細節處處美——《收集東·收集西》
北京的重構與再造
如何消除膠印“鬼影”?
細節取勝
基于單應性矩陣的圖像拼接方法的對比分析
實時的靜止目標與鬼影檢測及判別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合