?

深度學習時代圖像融合技術進展

2023-02-18 03:06左一帆方玉明馬柯德
中國圖象圖形學報 2023年1期
關鍵詞:鑒別器神經網絡函數

左一帆,方玉明*,馬柯德

1.江西財經大學信息管理學院,南昌 330013;2.香港城市大學計算機學院,香港 999077

0 引 言

由于硬件和成像機理限制,視頻圖像采集系統往往需要使用不同設備和配置對真實場景進行多次采集,以捕捉特定視覺場景更多更全的細節。針對以上方式獲取的不同圖像描述,圖像融合旨在綜合各個圖像中的優勢信息表征,形成高質量的單圖像描述,為各類計算機視覺任務提供助力,例如計算攝影(Petschnigg 等,2004)、圖像復原(Deng和Dragotti,2021)、圖像分割(Minaee 等,2022)、目標跟蹤(Zhu 等,2019)、醫學診斷(Bhatnagar 等,2013)和遙感監測(Ghassemian,2016)等。

圖像融合技術研究屬于底層計算機視覺任務,其研究起步較早,但始終是熱門研究領域。傳統圖像融合的主要應用場景包括以下4個方面。1)多聚焦圖像融合。將同一場景聚焦區域不同的多幅圖像融合成一幅全清晰圖像。2)多曝光圖像融合。將不同曝光圖像的有效信息結合起來,拓展曝光成像的細節及動態范圍。3)高光譜圖像融合。將低空間分辨率高光譜圖像與同一場景高空間分辨率的多光譜圖像結合,提高高光譜圖像空間分辨率。4)多模態圖像融合。將不同模態(醫學)圖像互補信息融合,實現對成像場景更全面的描述。

深度學習出現以前,傳統圖像融合技術的研究主要經歷了兩個時期,即基于數學理論的預定義模型和基于數據驅動的淺層學習模型。具體來說,由于數據匱乏,圖像融合技術的研究首先基于嚴謹的數學理論構造模型,并在空域和變換域調整融合程度和策略。該時期的主流技術包括:邊緣濾波(Li 等,2013;Liu等,2021b)、層次分解(Son和Zhang,2016)、多尺度變換(Wang 等,2014;Yang 等,2010)、成分編輯(Vivone,2019;Yokoya 等,2012)和變分優化(Meng 等,2019;Ballester 等,2006)等。然而,由于以上模型的構建依據特定假設,故當假設與實際情況不符時,模型的泛化能力明顯受限,導致其在實際場景應用中性能不盡人意。一個典型的問題是預定義模型對不同來源的圖像使用相同的函數提取和融合特征,未綜合考慮各類圖像的數據分布特點。隨著采集數據的逐步豐富,圖像融合技術的研究逐漸由模型驅動方式轉向數據驅動方式,其主流機器學習模型為:稀疏編碼(Zhu和Bamler,2013;Wei 等,2015;王麗芳等,2019)、低秩先驗(Li等,2020a;Wang等,2021)等。雖然引入數據驅動思想有效提升了模型表征能力,然而,以互斥特征學習為主旨的淺層特征表示無法高效地擬合真實場景中復雜的數據分布。

與上述傳統方法不同,深度學習通過端對端模型構建,旨在實現特征的逐步提取、抽象,從而學習到與當前任務最相關的表征。早期的研究往往將傳統模型的部分結構神經網絡化,并根據設計的損失函數自適應調整特征融合方式(Li等,2020b;Jin等,2022)。隨著研究的深入,現代深度學習模型廣泛采用端對端的學習范式,可同時考慮特征提取和融合,實現各步驟的流水線協同優化。相比傳統方法,基于深度學習的圖像融合模型顯著提升了融合性能(Yang等,2017;Xu等,2021)。

目前,在圖像融合研究領域廣泛使用的深度學習模型包括卷積神經網絡(convolutional neural networks,CNN)、生成對抗網絡(generative adversarial network,GAN)等。其中,作為計算機視覺基礎框架的CNN,主要通過對分級式卷積核的學習以實現特征提取和圖像重建(Xu等,2020;Xie等,2022)。而基于GAN的網絡框架使用鑒別器學習特定域的數據分布流形,以提升融合圖像的主觀質量(Guo 等,2019;Ma 等,2020a)。另外,由標準GAN模型演化而來的多鑒別器結構對融合的每個域均使用一個鑒別器,以促使生成器學習多個域的數據分布流形(Xie等,2021;Liu 等,2021a)。同時,深度學習時代的另一個特點是通用框架的構建。傳統方法往往在圖像融合各子問題領域都有獨特的模型設計,然而,深度神經網絡的出現使相同的模型框架可用于多個圖像融合子任務。該類通用框架的訓練可通過設置特殊的訓練集對每個任務獨立訓練(Dudhane 等,2022),也可在單模型訓練中統一考慮多個相關任務,即多任務學習(Li 等,2021)。

隨著深度學習理論研究的不斷深入,一些新穎的網絡結構和訓練技巧促進了圖像融合技術的發展,例如,視覺Transformer結構。視覺Transformer受自然語言處理領域啟發,該新型結構是對CNN模型的一種補充,其弱化了模型偏置,并強化了遠距離依賴建模能力(Su等,2022;Qu等,2021)。相關基于深度神經網絡的一些代表性工作出現的時間線如圖1所示。

圖1 基于深度神經網絡的代表性工作

以上圖像融合的應用領域共享相同的問題建模,即參與融合的各圖像分量地位對等,融合的目標為綜合所有信息生成更細致的圖像表示。事實上,還有一些特殊任務可看成選擇性圖像融合問題,即參與融合的各圖像間具有不同的物理背景含義。如果不加限制融合,會導致結果出現歧義,與場景真實情況不符。在這類問題中,還有一類變體,即待融合圖像之間存在明確的目標域和指導域標簽,其通過選擇性融合指導域信息增強目標域圖像質量,例如,基于高分辨率紋理圖融合的低分辨率深度圖增強等(Ye 等,2020;Kim 等,2021)。此外,一些低級和高級視覺任務也可以建模為圖像融合問題(Zheng等,2020;Tang等,2022a;Xiao等,2022)。

目前,已有的綜述類文獻未全面從模型設計和訓練技巧層面給出基于深度學習的圖像融合研究現狀。同時,由于深度學習技術迭代更新快,有部分新技術未得到深入分析。為厘清基于深度學習的圖像融合技術的最新進展,本文從數據集生成、神經網絡構造、損失函數設計、模型優化和性能評估等方面分析圖像融合任務的最新進展。此外,不同于上述圖像融合問題,本文還討論了選擇性圖像融合及其變體定向選擇性圖像融合等衍生問題建模。另外,本文回顧了一些基于圖像融合實現其他視覺任務的代表性工作。

1 基于深度學習的圖像融合進展

從數據集生成、神經網絡構造、損失函數設計、模型優化和性能評估等方面分析基于深度學習的圖像融合領域最新進展。

1.1 數據集生成

根據監督學習和非監督學習的類別,分別闡述數據集生成技巧。

1)監督學習。對于監督學習范式,訓練集的組成顯式包含Ground-truth。然而,絕大多數圖像融合任務存在Ground-truth難獲取的問題。因此,在監督學習的范式下,如何高效準確地獲取大量Ground-truth融合圖像是任務成功的關鍵。以多曝光圖像融合為例,Cai等人(2018)通過對13種多曝光融合算法生成的圖像進行主觀實驗,挑選出當前場景感知質量最好的融合圖像作為Ground-truth。該過程因需要依賴人類標注難以規?;?。以多聚焦、多光譜圖像融合為例,Ground-truth圖像的獲取往往依賴昂貴精密的硬件設備,如光場相機(light-field cameras),機載傳感器(airborne sensors)等,這極大地限制了訓練集的規模。再以多模態醫學圖像融合為例,Ground-truth圖像甚至沒有清晰明確的定義。不少文獻(Hermessi 等,2021)以對比度作為Ground-truth圖像選取標準。然而,對比度與計算機輔助診斷(computer-aided diagnosis)的精度并非線性相關。鑒于此,無監督學習范式逐漸受到圖像融合領域學者重視。

2)無監督學習。無監督學習范式的成敗則極大地取決于輸入圖像序列的質量。當然,不同圖像融合應用對“質量”的定義有所不同。以多曝光圖像融合為例,僅依賴于極端欠曝光和過曝光兩幅圖像作為輸入的算法(Li和Wu,2019)難以在富有挑戰性的高動態范圍場景取得好的結果。Gupta等人(2013)提出基于斐波那契數列的多重曝光值選擇,以期在融合算法固定的情況下達到最佳融合效果。Wang等人(2020)則引入強化學習的思想進行多重曝光值選擇。以多聚焦圖像融合為例,輸入圖像序列大多來源于對一幅清晰圖像的不同局部區域進行不同程度的高斯模糊。眾所周知,失焦模糊與景深密切相關。因此,基于光場圖像(Jin 等,2020)和合成失焦技術(Barron 等,2015)的多聚焦圖像序列生成值得重新關注。以光譜圖像融合為例,研究者一般根據空域和光譜域觀察模型對高分辨率高光譜圖像下采樣,得到低分辨率高光譜圖像和高分辨率多光譜圖像(或對應的全色圖像),作為網絡模型的輸入。而多模態圖像融合任務的輸入由于受到硬件采集設備的限制,需選取構建具有互補信息的圖像序列,如紅外圖像(用于捕捉低照度下的發熱源)和可見光圖像(用于捕捉物體顏色和結構)融合(Ma 等,2019;劉明葳 等,2021);CT(computed tomography)圖像(用于描述硬組織結構)、MRI(magnetic resonance imaging)圖像(用于描述軟組織結構)、PET(positron emission tomography)圖像(用于描述臟器功能和新陳代謝)和SPECT(single-photon emission computed tomography)圖像(用于描述臟器血液循環情況)融合(Zhang 等,2020b)。最后,值得指出的是,圖像融合往往依賴于圖像配準。在大多數圖像融合任務的源圖像序列生成過程中,圖像欠配準問題一般不大,可用經典的基于空域或特征域的全局匹配算法進行粗到精的配準。RFNet(Xu等,2022b)則提出了配準與融合聯合優化的方法,是將配準任務直接服務于融合任務。

1.2 神經網絡構造

神經網絡構造分為非端對端模式和端對端模式。

1)非端對端神經網絡。一般模型將圖像融合建模成源圖像間的加權和。早期基于深度神經網絡的圖像融合方法僅使用CNN監督學習該加權系數圖,而非直接對最終融合圖像進行約束。一個典型的例子是將多聚焦圖像融合建模成二分類任務(Liu 等,2017)。因此,該類模型采用非端對端訓練方式,典型的網絡框架如圖2所示(Li等,2020b;Liu等,2017)。

圖2 圖像融合任務的非端到端方式CNN網絡

為促進加權系數圖更貼近真實情況,如增加加權系數圖邊緣與源圖像邊緣耦合性等,Guo 等人(2019)引入了鑒別器用于區分生成器偽造的加權系數圖和高質量的Ground-truth系數圖。該類方法的通用框架如圖3所示。

圖3 圖像融合任務的非端到端方式GAN網絡

雖然,神經網絡工具的引入極大地促進了圖像融合研究的進步,但是,受傳統模型的限制,非端對端訓練的神經網絡無法對特征提取與融合各階段協同優化,限制了性能的持續提升。再者,Ground-truth系數圖的構造沒有統一標準,缺乏基于人類視覺或機器視覺的目標函數指引。

2)端對端神經網絡。為克服非端對端模型的弊端,國內外研究者提出了大量的端對端神經網絡。該類模型大致分為3類,相應的框架如圖4所示。第1類網絡僅將輸入的多幅源圖像在通道維度上合并后直接送入神經網絡中(Xu等,2022a;Xu和Ma,2021),屬于源圖像像素域早期融合。第2類網絡采用雙頭分支,首先分別對所有源圖像進行特征提取,然后在學到的特征空間實現后期融合,最后將融合的特征經過重構模塊映射至圖像像素域空間。通常而言,這種先分后總的設計有利于神經網絡學習到高階特征,提升其特征融合效率,進而擴展模型的泛化性。根據源圖像是否跨域,上述神經網絡的特征提取分別采用參數共享(Jung 等,2020;Li和Wu,2019;Zhang等,2020b;Xie等,2022)和非參數共享(Fu 等,2019;Qu等,2018;Zheng等,2021;Zhao等,2021;Jin等,2022)方式,以優化特征提取效果并兼顧計算復雜度。此外,該類框架還存在一類變體,即在特征提取階段獲得的各源圖像特征之間引入通信機制?;谝延械奶卣鞅硎?,該設計有利于增強各源圖像特征的差異性表達,提升特征提取的質量(Tang等,2022b;Yao 等,2020;Zhang等,2020b)。第3類網絡采用總分總結構,即在第2類網絡框架的基礎上新增分量分解子網絡。該步驟將通道維度上合并的源圖像作為分量分解子網絡的輸入,例如,低頻高頻分解(Yang等,2017;Hu 等,2021)、空域光譜分解(Xu等,2021)等。然后采用第2類框架針對各類分量特點設計特征提取模塊,并銜接特征融合和像素域反映射實現圖像融合。

圖4 圖像融合任務的主流端到端CNN網絡結構

在上述3類框架上,研究者還顯式地在特征提取階段和特征融合階段分別引入或同時引入多尺度、漸進式的特征融合策略,以提升特征質量(Zhao 等,2019;Xu等,2020;Zhang等,2021b),對應的框架示意圖如圖5所示。圖3—圖5中特征提取、融合網絡用到的核心技術包括可導聯合引導濾波(Ma 等,2020c)、殘差連接(Xu 等,2022a)、參數共享(Jung 等,2020)、多尺度結構(Hu 等,2021)和低秩分解(Xie 等,2022)等。

圖5 多尺度和漸進式的融合策略

最近,由于受到自然語言處理領域的影響,除了以上基于CNN的框架,研究者還提出了一些基于Transformer的圖像融合框架(Qu等,2021;Su等,2022)。特別地,基于當前主流Swin Transformer,SwinFusion提出一種通用的圖像融合方法,可以有效解決多模態、多聚焦和多曝光等各種圖像融合任務(Ma 等,2022)。

目前,Transformer能表現出比CNN框架更好效果的原因尚不明確,現在普遍被接受的分析主要體現在:1)Transformer具有強大的遠距離依賴建模能力,即感受野比傳統CNN要大。特別地,全局Transformer(Dosovitskiy 等,2021)的感受野是整個圖像,局部Transformer(Liu 等,2021b)中的窗口尺寸也大于CNN常用的3×3卷積核。雖然,隨著大量3×3卷積核的堆疊可在理論上增加感受野,但實際感受野距離理論值具有顯著的差距(Ding 等,2022)。2)Transformer的計算方式與低通濾波器相似,可實現模型集成學習機制。相對地,CNN的工作機理更偏向于高通濾波器。從這個角度說,綜合CNN和Transformer的優勢是一個值得探索的新方向(Park 和Kim,2022)。

與非端對端神經網絡類似,端對端神經網絡中也可引入鑒別器,形成生成對抗網絡,其目標為引導融合圖像數據分布向真實圖像數據分布流形靠近。相應方法的通用框架如圖6所示,其設計可分為傳統的單鑒別器(Ma 等,2019;Liu等,2021a;Xie等,2021)和多鑒別器(Ma 等,2020a,b)兩類。其中,多鑒別器可使融合圖像最大限度地保留各源圖像信息,其典型應用為可見光圖像與紅外圖像的融合、高光譜圖像融合和醫學圖像融合等。

圖6 圖像融合任務的端到端生成對抗網絡

1.3 基于感知的損失函數設計

本節討論面向圖像融合的損失函數設計,其分為通用部分和問題相關的特殊部分。特別說明,為防止過擬合的參數正則化等技巧不在本節討論范圍。一般來說,圖像融合領域的損失函數往往包含多項,各項之間采用加權和方式結合。

1)通用損失函數。一些常規的損失函數使用L1范數、L2范數和結構相似性(structural similarity,SSIM)(Wang等,2004)等評價融合圖像If與參考圖像Ig在像素域的相似度(Xu和Ma,2021;Fu 等,2019;Tang等,2022a;Xu等,2022b;Li和Wu,2019;Yang等,2017)。其中,L2范數家族包括峰值信噪比(peak signal-to-noise ratio, PSNR)、均方根誤差(root mean square error,RMSE)和均方誤差(mean square error,MSE)等價準則。參考圖像在監督學習中是Ground-truth,在無監督學習中設計靈活,例如,自監督中輸入的紅外圖像和可見光圖像等。值得注意的是,在非端對端網絡架構下,監督信息需針對加權系數圖設計損失函數(Liu等,2017)。

隨著研究的深入,研究者發現單獨使用上述基礎損失函數易導致過度模糊的融合圖像。為提升融合圖像的主觀質量,研究者還嘗試在損失函數中附加對梯度域(Li等,2020b,2021;Zhang等,2020a;Xu等,2022b)、深層特征域(Zhang等,2020b)的評價,其對應的相似度評價函數一般使用L1范數、L2范數構建。其中,深層特征使用預訓練模型前向傳播獲取特定層的輸出特征,例如VGG(Visual Geometry Group)網絡(Simonyan和Zisserman,2015)。此外,通過聯合監督網絡輸出和中間特征狀態,損失函數可基于上述通用設計對多尺度、多階段的特征深度監督(Su等,2022;Zhao 等,2019)。

進一步地,通過引入鑒別器D,上述生成網絡G可擴展為生成對抗網絡。其中,鑒別器的常規設計為分類器,以區分生成器輸出的偽造圖像和Ground-truth,即促進生成器學習真實圖像數據分布流形。從這個角度出發,整個對抗網絡中需要新增一個分類器損失函數LGAN,常用設計為交叉熵函數,如式(1)所示(Ma 等,2020a;Liu等,2021a;Guo 等,2019)。

Ey~preallog(1-D(G(y)))

(1)

式中,Gθ和Dθ分別為生成器G和鑒別器D的可學習參數集合,preal和pfake是真實圖像數據分布和待融合圖像輸入的數據分布。

2)先驗損失函數。除了以上生成網絡通用損失函數設計外,一些工作顯式地考慮了傳統圖像先驗,以輔助網絡學習真實圖像數據分布流形,例如,全變差(total variation, TV)范數損失函數(Qu等,2021)、結構張量損失函數(Jung 等,2020)。該結構張量先驗屬于梯度域先驗變種,具體定義參看Di Zenzo(1986)文獻。

另外,在光譜圖像融合任務中,高光譜圖像和多光譜圖像之間的豐度稀疏性先驗Labs和基于皮爾遜相關系數的光譜相似度度量Lspec都可作為損失函數項,其定義如式(2)(3)所示(Zheng等,2021;Yao 等,2020;Hu 等,2021;Xu等,2021)。

(2)

(3)

式中,h和w是多光譜圖像的高度和寬度。If和Ig分別代表融合圖像和參考圖像。

在生成對抗網絡損失函數設計中,研究者嘗試了其他變種,例如,最小二乘生成對抗損失LLSGAN(Xie等,2021;Ma 等,2020b,2019)。最小二乘生成對抗為

(4)

式中,lreal和lfake分別代表真實樣本和生成樣本的標簽。

上述LLSGAN有利于推動生成器生成的樣本落在分類決策面附近,且能提供穩定的梯度,提升訓練魯棒性。

3)基于感知的損失函數。對于多曝光、多聚焦等圖像融合任務,生成圖像的質量好壞最終由人眼判定。因此,驅動神經網絡學習的損失函數需盡可能滿足人眼感知特性,即計算的函數值與人類主觀偏好一致。目前,該方向研究乏善可陳。Ma等人(2018,2020c)將SSIM拓展到多曝光圖像融合領域,并成功將其用于多曝光圖像融合的感知優化。類似地,Rahman等人(2017)將視覺信息保真度(visual information fidelity,VIF)指標擴展到多曝光圖像融合領域,提高了融合圖像感知質量預測性能。上述兩種指標對圖像細節、對比度均有所度量,因此也有希望在多聚焦圖像融合任務的感知優化上有所建樹。對于多模態、高光譜圖像融合任務,生成圖像的質量好壞往往由下游機器學習任務判定。因此,驅動神經網絡學習的損失函數需滿足機器感知特性,亦即下游機器學習任務的精度。目前,SeAFusion(Tang 等,2022a)和TarDAL(Liu 等,2022)是以提升下游任務精度為目標的圖像融合領域的開創性工作。SeAFusion選擇動態調整底層任務和下游任務損失函數間的加權系數。而TarDAL則通過引入兩級優化設計了以檢測為目標的紅外—可見光圖像融合模型,并公開了跨域圖像目標檢測的首個數據集。

1.4 模型訓練

針對通用模型訓練方法和訓練方法進展兩方面展開闡述。

1)通用訓練方法。單生成網絡訓練的通用方法由優化器選擇和學習率調整兩個方面組成。廣泛采用的優化器包括SGD(stochastic gradient descent)、SGD+momentum、Adam、RMSProp,學習率調整包括均勻減半(Jung 等,2020)、線性衰減(Zheng等,2021)、指數衰減(Zhang等,2020b)和余弦退火(Loshchilov和Hutter,2017)。值得一提的是,Adam優化器還存在一個變種AdamW,其目的為提升Adam對具有weight decay正則的損失函數訓練穩定性。此外,對于較難優化或計算開銷較大的部分損失函數項,一些工作采用多階段課程學習訓練方式,即先預訓練容易優化的損失項,然后對模型微調以聯合訓練所有項(Zhang等,2020b;Li等,2021)。一些工作提出的復合網絡包含多個單網絡,其主流訓練方式為序列化依次進行(Tang等,2022b;Xu等,2021;Yang等,2017)。

針對由生成器和鑒別器組成的生成對抗網絡包括多個網絡優化的特點,相關工作一般采用交替訓練每個網絡的方式。其中,鑒別器往往優先被訓練更新,且對生成器和鑒別器的訓練次數不一定均衡,訓練次數比依據具體問題而異(Ma 等,2019;Liu等,2021a;Xie等,2021;Guo 等,2019)。

一些工作采用了多任務學習框架,其主流工作采用聯合訓練和序列訓練。聯合訓練是把所有任務的訓練數據糅合在一起,每次迭代隨機選取所有任務的部分訓練樣本。隨著任務數量增加,此種方法對運算資源和存儲資源都提出了較大挑戰。序列訓練是按一定順序依次訓練每個任務。該設置雖然可降低資源開銷,但隨著訓練的進行,模型會遺忘相對靠前任務學習的參數,導致訓練的模型在近期訓練任務上表現良好,而在早期訓練任務上性能大幅度下降。

2)訓練方法進展。針對互補多任務學習框架序列訓練的難點,一些工作創新性地利用元學習,先聯合訓練多任務模型,而后凍住其他任務支路。針對主任務調整損失函數,對該任務支路模型做適當微調(Li 等,2021;Xu 等,2022a)。此外,一些工作提出伴隨不同任務中模型的訓練,在對應已學習的所有模型參數之間引入加權平均。其中,參數權重體現所有參數在對應任務模型中的重要程度,即重要的參數抑制“遺忘”,相對不重要的參數可賦予更大的靈活度,以適配新的任務特點(Xu等,2022a)。

訓練方法另一個方面進展體現在生成對抗網絡的訓練。一些代表性工作簡述如下。與傳統固定生成器和鑒別器訓練次數比不同,該比例可自適應設置(Ma等,2020a),即當鑒別器已區分不出生成器的偽造數據時,可提高鑒別器的訓練次數,反之亦然。此外,對于包含多鑒別器的特殊生成對抗網絡,一些工作將訓練問題拆分成一系列標準生成對抗網絡訓練子問題,即每次子問題均交替訓練公共的生成器和一個特定的鑒別器(Ma 等,2020b)。

1.5 評價指標

從圖像融合多個應用出發,總結其中的全參考評價指標和無參考評價指標。在下述指標公式中,統一使用If和Ig分別表示融合圖像和參考圖像,μ和σ代表圖像均值和標準差。參考圖像可為真實Ground-truth,也可以是輸入圖像。

1)全參考評價指標。當參考圖像可用時,融合圖像可通過與對應的參考圖像進行相似度比較實現質量評價。相關的評價指標為RMSE、PSNR、SSIM、線性相關系數(correlation coefficient,CC)、互信息(mutual information, MI)、邊界相似度(edge-dependent fusion quality index, QE)等。部分公式定義如下

(5)

式中,hIf Ig為參考圖像和融合圖像聯合直方圖,類似地,hIf和hIg分別是融合圖像和參考圖像邊緣直方圖。該評價指標一定程度上減弱了圖像整體亮度差異、配準誤差對相似度評估的影響,側重考慮線性映射關系假設下的相似度。

(6)

式中,ω為各像素邊界評估的權重圖,Qg和Qa分別表示參考圖像和融合圖像邊界強度和方向的相似度評估圖。該評價指標重點評價與人眼視覺系統相關的圖像邊界相似性。

其他評價指標還包括視覺信息保真度(VIF)(Han 等,2013)、信息傳輸量(universal quality index,UQI)(Alparone 等,2008)和光譜角度相似度(spectral angle mapper, SAM)(Alparone 等,2007)等。

2)無參考評價指標。當參考圖像不可用時,一些無參考評價準則可對融合圖像自身給出不同方面的質量評價。相關的指標包括信息熵(entropy, EN)、梯度域強度(spatial frequency, SF)等。具體公式定義為

(7)

式中,K代表灰度級個數,hk是對應的歸一化直方圖中的第k個分量。該評價指標在一定程度上體現了融合圖像所攜帶的信息量。但是,需要指出的是,該指標極易受噪聲影響。

(8)

最后,本文認為有必要討論1.3小節損失函數和本小節評價指標的關系。一個合理的損失函數一定能作為評價指標對比不同融合算法的性能;然而,一個合理的評價指標卻并一定能勝任損失函數的角色。其根本原因是端對端優化(或感知優化)任務的難度比質量評價任務的難度大很多。融合算法在感知優化過程中會生成一系列失真各樣的過渡圖片,這便要求損失函數準確捕捉并度量這些失真程度,從而引導算法最終生成感知質量好的融合圖片。評價指標則只需要根據不同融合圖像的相對質量對其進行排序,該過程設計的失真類型、大小相對單一可控。

2 其他圖像融合任務及應用

首先引入選擇性圖像融合問題建模,并以基于高質量紋理圖融合的深度圖增強任務為例,闡述該技術進展。此外,還闡述了部分基于圖像融合的其他視覺任務進展。

2.1 選擇性圖像融合問題建模

第1節考慮了一般性圖像融合問題,即通過融合不同設備、不同設置下獲取的多幅圖像信息表征優勢,實現高質量的單圖像展示。事實上,圖像融合還有一些其他的變體建模,例如,選擇性圖像融合。通常,當待融合的圖像具有不同的物理背景含義或具有語義分歧時,信息的融合必然具有選擇性,否則融合后的圖像將具有明顯歧義,與場景真實情況不符。更進一步,在多種不同物理背景含義圖像之間,一般圖像質量并不均衡,故一類特殊的選擇性圖像融合問題還可能具有方向性,即定向選擇性圖像融合。一個典型的應用是基于高分辨率紋理圖融合的深度圖增強。具體地,彩色紋理圖的獲取成本較低,甚至可以使用手機等移動設備拍攝高分辨率的紋理圖像。然而,作為場景幾何信息表征的深度圖相對較難獲取。一般而言,雖然同一場景獲取的紋理圖和深度圖在一定層次的語義層面具有相似性,例如,物體輪廓,但由于它們不同的物理背景含義,導致這兩類圖像的數據分布流形具有明顯區別,例如,貼圖紋理不應出現在深度圖中。

為避免錯誤的信息融合,國內外研究者往往設計模型挖掘高質量紋理圖的可用信息,并選擇性融入深度圖中,旨在提升深度圖質量的同時抑制融合贗像,包括貼圖紋理拷貝和深度圖邊界模糊等。Hui 等人(2016)提出了這類問題的一個基礎監督學習框架??蚣茉O計上,它采用了雙向特征提取,即紋理圖通過編碼器逐步抽象,深度圖則通過類似解碼器過程逐步增強細節。多尺度的深度特征和紋理特征通過直接通道合并后學習特殊卷積核實現選擇性特征融合。為進一步提升網絡訓練魯棒性,研究者引入了一些改進,包括殘差學習、批歸一化等(Zuo 等,2020)。隨著注意力機制研究進展,一些工作通過結合注意力機制,自適應定向融合上述跨域特征,這個時期的工作大多基于黑盒端對端模型訓練的方式,故模型解釋性方面存在一定挑戰,其限制了性能的進一步提高。

為給模型設計提供明確的方向,國內外研究者充分回顧了傳統模型,并基于深度神經網絡工具重塑經典先驗。模型驅動時代,馬爾可夫隨機場是該方向的主流選擇。所以,一類網絡設計以直接學習馬爾可夫隨機場數據項和正則項為目標(Riegler 等,2016),該設計結合了傳統模型的解釋性和神經網絡在特征提取方面的優勢。其他嘗試還包括多尺度卷積核學習(Wen 等,2019)。

此外,站在傳統模型視角考慮紋理圖和深度圖的數據分布流形差異,一些網絡從設計角度深入結合傳統模型中抑制不合理紋理拷貝和模糊邊界的設計。其主旨是對紋理指導特征進行篩選,以提升指導特征與相應深度特征的相關性,例如,從頻率成分分解角度提升高頻紋理特征與深度特征的相關性(He 等,2021)、從引導性濾波的仿射變換角度強化紋理邊界與深度邊界的一致性(Zuo 等,2021)。

除了采用分量分解方式,另一條研究分支受傳統非線性濾波影響,例如,雙邊濾波器、三邊濾波器等,其致力于從卷積濾波方式上變革,實現內容敏感的卷積核推斷和特征提取。該研究思路的首個工作(Li等,2016)并沒有提供精細化模擬傳統三邊濾波器的方法,仍然采用通道合并作為特征融合手段,其僅在網絡宏觀結構上模擬了三邊濾波器。受到該工作的啟發,其他代表性工作通過預定義內容感知卷積核生成函數(Su等,2019)、獨立推斷所有像素濾波器感受野和卷積核(Kim 等,2021)等方式模擬傳統三邊濾波器。

2.2 基于圖像融合的其他視覺任務進展

針對各類圖像融合任務特點,闡述基于圖像融合技術在其他視覺任務的進展。

1)基于圖像融合的低級視覺應用。作為低級視覺任務,圖像融合還可促進其他低級視覺任務的發展,例如,圖像去噪(Mildenhall 等,2018)、圖像去模糊(Shang 等,2021)、圖像超分辨(Bhat 等,2021)、圖像去霧(Schechner 等,2001)以及低光照圖像增強(Lu和Zhang,2021)等。這類圖像增強問題面臨的一個主要挑戰是增強后的圖像在亮度、色彩表現和對比度等方面與真實圖像相比存在一定程度的失真。為解決該缺陷,一些學者顯式地將圖像增強問題建模成一組圖像融合問題。以低光照圖像增強為例,相關工作通常生成準多曝光方式采集圖像序列,比如使用伽馬校正、空間色彩飽和度線性變換等預處理方法。多曝光圖像融合可提供高對比度且飽和度均勻的初始增強圖像,有利于抑制極端暗部分的信息丟失和邊界失真(Zhu等,2020;Lu和Zhang,2021)。

2)基于圖像融合的高級視覺應用。除了上述低級任務中的應用,圖像融合對下游計算機視覺任務同樣具有指導意義,例如,目標跟蹤。傳統的目標跟蹤方法往往僅針對單模態圖像和視頻定位感興趣目標。相應地,基于可見光的目標跟蹤技術在夜間和低光照情況下的性能很難得到保障。相反,基于紅外成像的目標跟蹤技術缺乏充分的紋理信息,因此其性能亦不魯棒。為解決上述矛盾,研究者提出基于可見光和紅外成像融合技術的目標跟蹤算法。該研究方向的核心技術之一即為高效的可見光和紅外成像融合問題,其顯著影響算法的性能(Zhang等,2016;Lan 等,2019)。

3 開放挑戰與技術展望

深度學習工具的引入對圖像融合各類任務起到了明顯的推動作用。特別地,基于數據驅動的分層特征表達和端對端模型訓練,相應的深度模型比傳統方法表現出顯著的性能增益。近年來,一些新的網絡結構和訓練技巧進一步豐富了深度學習理論的內涵,給圖像融合領域持續注入了新的活力。然而,基于深度學習的圖像融合算法研究仍面臨一些挑戰,本文以列舉筆者認為重要的挑戰結束,期待領域學者們在這些方向上取得重要突破:

1)從數據集生成角度出發,如何清晰明確地定義不同融合應用的Ground-truth融合圖像,是大規模公平比較融合算法的前提。在此基礎上,如何高效準確生成Ground-truth是訓練泛化性強的基于深度神經網絡的融合算法的保證。進一步地,如何準備源圖像序列是進一步提升融合算法性能的關鍵。

2)從神經網絡構造角度出發,一個有前景的方向是設計輕量的、可解釋的和泛化性好的模型組件。如,在高光譜圖像融合領域,不同傳感器對應不同的觀察模型,這便要求融合算法具有跨觀察模型泛化性能。如圖4所示,現有主流框架分為早期融合和后期融合兩種策略。針對不同應用場景的最佳融合策略值得深入研究。最后,在探索單個神經網絡實現多個融合任務的過程中,合理地進行參數共享和參數隔離,讓不同融合任務相互促進而非相互限制,是追求融合算法統一框架的現實意義所在。

3)從損失函數設計角度出發,一個亟待驗證的問題是現階段大量使用的對不同損失函數加權求和得到的最終損失函數是否(人類視覺或機器視覺)感知相關。驗證方式有很多,如,直接以該損失函數在圖像域進行感知優化(Ding 等,2021),觀察優化中的過渡圖像序列,或直接在帶有人類視覺(或機器視覺)標簽的數據集進行驗證。與此同時,設計感知相關的、數學性質良好的以及計算復雜度低的損失函數是圖像融合領域的首要(也是終極)任務。這是因為感知最優的融合算法是對該損失函數進行感知優化的直接產物。

4)從模型訓練角度出發,對抗學習現今是圖像融合領域的標配。然而,選取哪些類型的圖片作為判別器的輸入在不同融合應用背景下值得深入思考。再者,在融合算法測試過程中,對其基于測試序列進行微調,有一定可能進一步提升融合性能。該過程在機器學習領域稱為測試期間訓練(test-time training),已廣泛運用于各種圖像處理、計算機視覺任務中(Sun 等,2020;Mohan 等,2021)。

5)從評價指標角度出發,由于現有的評價指標并不能真實有效地反映融合算法的感知表現,如何高效地、去偏地進行主觀質量評價(Cao 等,2021)需要重新得到重視。

猜你喜歡
鑒別器神經網絡函數
基于多鑒別器生成對抗網絡的時間序列生成模型
基于雙鑒別器生成對抗網絡的單目深度估計方法
二次函數
第3講 “函數”復習精講
二次函數
函數備考精講
神經網絡抑制無線通信干擾探究
基于神經網絡的中小學生情感分析
陣列天線DOA跟蹤環路鑒別器性能分析
基于神經網絡的拉矯機控制模型建立
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合