?

紅外與可見光圖像漸進融合深度網絡

2023-02-18 03:06邱德粉胡星宇梁鵬偉劉賢明江俊君
中國圖象圖形學報 2023年1期
關鍵詞:編碼器尺度紅外

邱德粉,胡星宇,梁鵬偉,劉賢明,江俊君

哈爾濱工業大學計算機科學與技術學院,哈爾濱 150001

0 引 言

身處信息爆炸時代,各種成像技術飛速發展??梢姽獬上窦夹g雖然具有更高的空間分辨率、更豐富的細節和更少的噪聲,且更符合人類的視覺感知。但是,由于可見光波段受限,可見光成像在夜間工作的效果比較差,對霧、霾等惡劣天氣的適應性也比較差。而紅外熱成像技術利用紅外傳感器對物體的紅外輻射進行探測成像,具有較強的環境適應性,可在夜間和惡劣天氣下工作,但是由于紅外波段輻射波長較長,紅外圖像的空間分辨率較可見光圖像低。因此,紅外與可見光圖像融合可以較好地挖掘被融合圖像中的互補信息,得到更符合人眼或機器視覺特性的融合效果。紅外與可見光圖像融合在許多實際問題中有廣泛的應用,包括監控(Bhatnagar和Liu,2015)、遙感(Eslami和Mohammadzadeh,2015)和農業(Bulanon等,2009)等。

紅外與可見光圖像融合最近幾年發展迅速,越來越多的學者開展了研究工作。然而,紅外與可見光圖像融合仍然面臨一些挑戰,例如如何有效地從不同模態中提取信息,以及如何設計融合規則來更好地利用不同模態的互補信息。許多研究人員針對這個問題提出了不同的解決方案,大致可分為傳統方法和基于深度學習的方法兩類。

傳統方法首先對紅外圖像和可見光圖像進行圖像變換以得到各圖像分解后的系數表示,然后對這組系數表示按一定的融合規則進行融合處理。Burt和Adelson(1985)提出了第1個基于拉普拉斯金字塔變換的圖像融合算法,并取得了良好的性能。之后,出現了一系列基于多尺度分解的算法。Li等人(1995)提出了基于離散小波變換的圖像融合算法,離散小波變換在提取圖像低頻信息的同時,還可以獲得水平、垂直以及對角3個方向的高頻細節信息。在理論上,與傳統的基于金字塔變換的圖像融合算法相比,具有更好的融合效果。Yang等人(2007)提出了一種基于非下采樣輪廓波變換的融合方法,它是離散小波變換的擴展,可以用更少的系數更好地表示邊緣信息。Yang和Li(2010)首次將稀疏表示作為圖像融合的顯著特征。然后,Yu等人(2011)使用基于聯合稀疏表示的方法提取共同的特征和獨有的特征。Liu等人(2016)使用卷積稀疏表示解決基于塊的稀疏表示方法帶來的缺點。最近,基于多尺度分解的方法有了新進展?;粜堑热?2021)利用顯著性分析和空間一致性提出了新的雙尺度圖像融合方法。劉明葳等人(2021)為了解決細節“光暈”和偽影現象,利用各向異性的導向濾波對圖像進行更好的分解以及權重優化。

傳統方法通常對源圖像進行假設,然后手動設計圖像分解方法來提取特征,然而這些特征并不全面,可能會導致對高頻或主要成分的敏感性,從而產生圖像失真或偽影。近年來,深度學習成為解決計算機視覺和圖像恢復問題的有吸引力的工具,基于數據驅動的深度學習的圖像融合方法成為普遍采用的方法?;谏疃葘W習的方法可以分為兩類。第1類主要采用卷積神經網絡進行融合;第2類采用生成對抗網絡(generative adversarial network,GAN)產生融合圖像。Liu等人(2018)使用一個卷積網絡來融合紅外和可見光圖像并產生了良好的效果。Li和Wu(2019)通過將源圖像分解成兩部分然后設計適當的基于深度學習的融合策略來融合它們,進而得到融合結果?;诰矸e神經網絡的方法中,中間層提取到的信息大都沒有得到充分利用。Li和Wu(2019)通過使用自編碼器網絡來融合源圖像并且通過密集塊結構來利用中間層提取到的信息。一般來說,在圖像融合任務中很難獲得真值,這就意味著使用GAN解決這個無監督問題是一個不錯的選擇。Ma等人(2019)首先將GAN應用于紅外與可見光圖像融合,但是基于GAN的方法在充分保留圖像細節方面仍面臨著挑戰。

在具有良好表現的同時,DenseFuse(Li和Wu,2019)網絡在編碼器的最后一層輸出特征上進行特征融合,解碼器對融合特征進行重建來獲得最終的重建圖像。DenseFuse沒有下采樣算子,無法提取多尺度特征,因此沒有充分組合利用圖像的局部與全局信息、空間與灰度信息。不同尺度的圖像表示包含著特有信息,這對圖像處理是非常有用的。因此,本文提出一個基于U-Net(Ronneberger等,2015)的融合模型ProFuse(progressive fusion),該模型可以提取源圖像的多尺度信息,并將提取到的多尺度特征進行逐層融合、重建,最終得到融合圖像。與DenseFuse相比,本文方法是在不同尺度、不同空間分辨率上分別進行的,這有利于細節恢復和小尺度特征的保留,因此可以獲得更好的融合效果。

1 ProFuse模型結構設計與分析

1.1 ProFuse結構

本文提出的ProFuse是一種漸進式紅外與可見光圖像融合方法,網絡結構主要包含編碼器、融合模塊(feature module,FM)和解碼器3部分,如圖1所示。

圖1 ProFuse網絡結構

編碼器和解碼器的網絡架構是基于U-Net進行設計的。由于基于U-Net的模型在訓練階段收斂速度較慢,參考R2U-Net(Alom等,2018)的結構,在模型中增加了循環殘差卷積單元(recurrent residual convolution unit,RRCU)來加速網絡的收斂以及增加網絡的穩定性,如圖2所示。

圖2 循環殘差卷積單元

(f1,f2,…,fK)=FE(X)

(1)

(2)

式中,FD代表解碼器。多尺度自編碼器網絡逐步恢復清晰的圖像,具有更少的偽影和更精細的細節。與簡單的單尺度圖像融合方法相比,基于多尺度的圖像融合方法可以更好地保留融合圖像中源圖像對的像素強度和梯度信息。

RRCU是提出的深度學習模型中一個重要的組成部分。循環和殘差操作不會增加網絡的參數量,但是它們對訓練和測試性能有著積極的影響。網絡中增加RRCU之后,網絡在訓練階段更容易收斂。循環操作則幫助網絡具有更好和更強的特征表示能力。因此,RRCU有助于提取更多對圖像融合任務至關重要的信息。

1.2 訓練階段

在訓練階段只考慮編碼器和解碼器。由于紅外與可見光圖像數據集不足且質量參差不齊,參考以前的圖像融合方法,使用大型自然圖像數據集COCO(common objects in context)(Lin等,2014)進行訓練。訓練階段旨在通過最小化重建損失來準確重建原始圖像。即重構誤差越小,提取的特征越具有代表性,重構圖像的質量越好。輸入的訓練數據調整為256 × 256像素并轉換為灰度。批量大小設置為4。學習率設置為1×10-4。本文方法是在NVIDIA RTX 2080Ti GPU上實現的,網絡架構基于Pytorch進行編程。

1.3 損失函數

訓練階段的目標是獲得對源圖像進行多尺度分解的編碼器和能夠重建融合圖像并很好地保留源圖像信息的解碼器。為了實現訓練階段的目標,采用像素損失和結構相似性(structural similarity,SSIM)損失作為重構損失,具體為

LTotal=αLPixel+LSSIM

(3)

式中,LTotal、LPixel和LSSIM分別代表重建損失、像素損失和結構相似性損失(Wang等,2004),α是超參數,在實際中設置為1。SSIM損失可以描述為

(4)

(5)

1.4 融合策略

經過訓練,得到了一個能夠提取多尺度特征的編碼器和一個能夠重構的解碼器。在測試階段,主要探索3種融合方法,分別是通道注意力方法(Fu和Wu,2021)、平均方法和空間注意力方法。測試過程如圖3所示,本文主要介紹基于空間注意力的融合方法。

圖3 測試過程

Li和Wu(2019)使用基于空間注意力的融合方法處理圖像融合任務?;诳臻g注意力的融合方法通過計算每個像素的活動水平處理融合。

(6)

然后,利用 softmax 操作計算最終的融合權重ωir和ωvis,具體為

(7)

然后,有

(8)

2 實驗與性能評估

2.1 模型評價指標

為了評估本文方法的融合性能,在公開可用的TNO(Toegepast Natuurwetenschappelijk Onderzoek)和INO(Institut National D’optique)數據集上進行實驗,并與其他先進融合方法進行比較。由于很難以直接方式區分最佳或最差融合方法,因此,在主觀評價中與其他方法一起評價本文方法,并使用信息熵(entropy,EN)(Roberts等,2008)、結構相似性(SSIM)(Wang等,2004)、邊緣保存度Qabf(Piella和Heijmans,2003)、互信息(mutual information,MI)(Qu等,2002)、標準差(standard deviation,STD)(Rao,1997)以及差異相關性總和(sum of the correlations of differences,SCD)(Aslantas和Bendes,2015)等6項定量指標來客觀評價融合性能。

參考FusionGAN(generative adversarial network for infrared and visible image fusion)等方法將SSIM應用于圖像融合問題,具體為

(9)

SSIM用于對圖像失真進行建模,衡量源圖像和融合圖像之間的結構相似性。SSIM主要由相關性損失、亮度失真和對比度失真3部分組成,將3個分量的乘積作為融合圖像的評估結果。

(10)

2.2 消融實驗

為了驗證RRCU模塊和多尺度特征的有效性,分別進行消融實驗,對比結果如表1和圖4所示。

表1 消融實驗的對比結果

2.2.1 RRCU模塊

在RRCU模塊的消融實驗中,一個網絡保持原始網絡結構,另一個網路不包含RRCU模塊,其他部分與本文網絡結構保持一致。在訓練階段,相較不包含RRCU的網絡,本文網絡更早收斂。在測試階段,如圖4所示,沒有RRCU的網絡的結果比較暗、對比度差,本文方法可以保持紅外圖像中的熱輻射信息,并且結果看起來更自然。這說明RRCU可以確保更好和更強的特征表示。表1的客觀對比結果也證明了RRCU模塊的有效性。

2.2.2 多尺度分解

在多尺度特征的消融實驗中,一個網絡保持原狀,另一個網絡沒有多尺度策略,即不包含池化操作,也不會將特征通道數加倍。從圖4第1、3、4行可以看出,實驗組沒有很好地保留紅外圖像的熱輻射信息,沒有多尺度特征網絡的結果對比度差,而本文方法可以很好地保留紅外圖像的熱輻射信息和可見圖像的像素強度,例如第2行人圖像對的結果。表1的定量結果也顯示了多尺度策略的普遍優勢。

2.3 與其他方法對比

為了更直觀地說明融合效果,在TNO和INO數據集中分別選擇5個典型圖像對,將本文融合方法與現有的紅外與可見光圖像融合方法DenseFuse(Li和Wu,2019)、基于小波變換的多傳感器圖像融合方法DWT(discrete wavelet transform)(Li等,1995)、用于紅外和可見光圖像融合的生成性對抗網絡FusionGAN(Ma等,2019)、基于低通金字塔比率的圖像融合方法RP(ratio of low-pass pyramid)(Toet,1989)、具有多分類約束的紅外與可見光圖像融合生成對抗網絡GANMcC(generative adversarial network with multiclassification constraints for infrared and visible image fusion)(Ma等,2021)和基于曲線變換的遙感圖像融合方法CVT(curvelet transform)(Nencini等,2007)進行主觀對比評價,不同模型在TNO和INO數據集上的融合結果如圖5和圖6所示。

從圖5可以看出,與其他方法相比,本文方法最大程度地保留了可見光和紅外輻射的詳細信息。同時,結果中引入的噪聲和偽影非常少。例如,紅框內的廣告牌、樹枝和樹葉就特別清晰;第2行中人的輻射信息本文方法也保存得更好。相比之下,DWT產生的結果具有塊狀偽影,而RP產生的結果受到噪聲的嚴重破壞。本文方法在保存紅外圖像的熱輻射信息和可見光圖像的紋理細節方面比其他融合方法具有更好的性能。

從圖6可以看出,本文方法的融合結果明顯具有更高的對比度、更多的細節和更清晰的目標。如圖6所示,本文提出的ProFuse與其他方法相比,融合結果更清晰且具有更少的噪聲,與基于GAN的方法FusionGAN和GANMcC相比,融合結果包含更少的偽影。

對于客觀評價,選擇EN、SSIM、Qabf、MI、STD和SCD作為客觀指標,在TNO數據集中選擇20個圖像對,對本文提出的方法與DenseFuse、DWT、FusionGAN、RP、GANMcC和CVT等6種圖像融合方法的融合性能進行比較,結果如表2所示??梢钥闯?,本文方法在EN、Qabf、MI和STD上取得了較大的值。較大的EN值表明本文方法比其他競爭對手保留了更豐富的信息。Qabf是一種新穎的融合圖像的客觀質量評估指標,Qabf的值越高,融合圖像的質量越好。標準差STD是衡量圖像信息豐富程度的客觀評價指標,該值越大,表示圖像灰度分布越分散,圖像承載的信息越多,融合后的圖像質量越好。MI值越大,從源圖像中獲得的信息越多,融合效果越好。本文網絡在大多數質量指標上都有較好的表現,表明本文方法是紅外與可見光圖像融合任務的有效方法。

表2 不同模型在 TNO 數據集上的融合結果的客觀比較

3 結 論

針對DenseFuse的不足,以及傳統基于多尺度分解的圖像融合方法的啟發,本文提出了一種改進的基于U-Net的漸進式紅外與可見光圖像融合框架ProFuse。ProFuse可以進行從高層到低層、從小尺度到大尺度逐步進行多層次多尺度的圖像融合,克服了 DenseFuse僅在單層特征單一尺度上進行圖像融合的限制,使得紅外圖像和可見光圖像特征相互融合更加充分,進而達到了比較好的效果。在TNO和INO數據集上的實驗結果表明,本文方法在多項指標上已經超越許多現有的紅外與可見圖像融合方法,主觀視覺效果也更好,驗證了本文方法的有效性。

雖然只在紅外與可見光圖像融合任務上進行了測試,但是本文方法的原理依舊適用于其他圖像融合任務。因此,對于未來的工作,擬將本文方法進一步擴展到其他圖像融合任務,例如多聚焦圖像融合、醫學圖像融合。此外,還將探索基于神經結構搜索(neural architecture search)的多層次多尺度圖像融合網絡,自動設計和優化網絡結構,從而更加高效地進行多源信息融合和圖像重建。

猜你喜歡
編碼器尺度紅外
融合CNN和Transformer編碼器的變聲語音鑒別與還原
網紅外賣
閃亮的中國紅外『芯』
財產的五大尺度和五重應對
8路紅外遙控電路
TS系列紅外傳感器在嵌入式控制系統中的應用
基于雙增量碼道的絕對式編碼器設計
應用旋轉磁場編碼器實現角度測量
宇宙的尺度
基于數字信號處理的脈沖編碼器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合