?

MIRNet-Plus:基于豐富特征學習的低光圖像增強改進方法

2024-03-05 01:41余聯想鄭明魁
小型微型計算機系統 2024年3期
關鍵詞:空間信息圖像增強卷積

羅 林,余聯想,鄭明魁,2

1(福州大學 先進制造學院,福建 泉州 362200)

2(福州大學 物理與信息工程學院,福州 350108)

0 引 言

從低光圖像中恢復出高質量的明亮圖像是業界正在攻克的問題,大量的應用場景需要有效的低光圖像恢復,如計算攝影、監控、自動駕駛汽車和遙感等領域.近年來,以卷積神經網絡為主導的圖像恢復技術取得了重大進展.在圖像分類、目標檢測、3D視覺以及軍事探測等高級視覺任務的預處理中起著十分重要的作用.一般說來,圖像增強可以被看作是對圖像進行恢復的一種任務,其目的是對低質量圖像進行增強.

近年來,基于深度學習的圖像增強方法顯示出了很強的優越性,在推理上時間上超過了傳統的基于先驗的方法.特別是卷積神經網絡(CNN)的出現幾乎主導了目前所有的圖像增強方法.

現有的CNN圖像增強方法通常遵循3種架構設計:1)編碼器-解碼器結構;2)高分辨率(單尺度)特征處理;3)多尺度跨分辨率結構.在編碼器-解碼器模型中[1-4],首先將輸入圖像逐步映射到高維空間(低分辨率)中表示,然后對高維特征進行逐步解碼,反向映射到原始分辨率.通過這種方法,模型能夠充分獲取圖像中的背景信息和語義信息,但是這種方法會導致空間信息細節丟失,使得在后期很難恢復,從而影響圖像恢復質量.在第2種方法中,高分辨率(單尺度)[5,6]不采用任何下采樣操作,因此可以很好的恢復空間細節.但是這種方法網絡的感知域有限,對于上下文信息缺乏足夠的理解.為了克服上述兩種方法的缺點,在整個網絡中保持空間精確的高分辨率表示,并從低分辨率表示中接收互補的上下文信息成為一種新型的做法.多尺度跨分辨率結構[7-9]被提出,這種結構的網絡克服了上述兩種方法的缺點,網絡能夠同時結合空間細節信息以及上下文信息,對網絡的特征信息進行足夠的探索,從而獲得更好的結果.

Huang等人[7]首次在醫學圖像分割領域提出了多尺度的信息交換,取得了非常顯著的成就.Zamir等人[8]在2020年ECCV上提出了MIRNet,采用多尺度跨分辨率的信息交換來實現圖像增強,在當時取得了最領先的成績.但是這種信息交換是不徹底的,依然遺漏了很多上下文信息以及空間細節信息.

基于Zamir等人[8]的工作,Fan等人[4]使用他們提出的SKFF以及DAU模塊提出了HWMNet,同樣得到了不錯的結果.同時Zamir等人[9]在2022年的TPAMI期刊上進一步更新了他們的成果,提出MIRNet-V2,優化了原來的網絡.但是上述的方法并沒有解決跨分辨率信息交換有遺漏的問題,網絡仍需進一步改進.

本方法采用的技術路線是多尺度跨分辨率網絡結構,該網絡結構能夠在充分探索圖像上下文信息的同時保留足夠的空間細節信息,從而實現更好的圖像增強效果.本文的主要貢獻可以總結為以下幾個部分:

1)采用Double SKFF,增強網絡中間層對不同分辨率的信息交流能力,獲得更多的上下文信息,增強網絡空間信息以及上下文信息聚合能力.

2)設計了Depthwise Attention Module,用來共享特征張量中的信息,補充原有特征,增強網絡中特征表現能力.

3)解決多顏色空間神經修飾模塊不能進行多批次訓練問題,并將其用于主干網絡之后,提升網絡健壯性.

4)構建了一個端到端的低光圖像增強系統.

1 相關工作

近年來,隨著計算機視覺領域的快速發展,卷積神經網絡顯示出了不可替代的優越性能,越來越多的學者對此展開了深入研究.

低光圖像增強一直是計算機視覺領域中的基礎任務,對于各方面的行業發展具有重要意義.許多學者注意到卷積神經網絡的優越性能,并將其用于低光圖像增強領域,涌現出了很多優秀的方法.

Chen等人[1]提出使用全卷積網絡的端到端訓練,對低光圖像進行增強,取代了許多傳統的圖像處理方法.Zhang等人[2]利用Retinex 理論與CNN,將圖像分解為兩個組件,一個組件(照明)負責調節光線,而另一個組件(反射率)負責去除退化,取得了不錯的結果.Wang等人[10]同樣將Retinex理論與CNN相結合,構造了分解模塊、注意力降噪模塊和亮度調整模塊來對低光圖像進行增強.這兩種方法雖然取得了一定程度上比較好的結果,但是這些方法對于圖像特征的探索程度還是會欠缺很多.

在使用CNN進行圖像增強時,許多學者采用的網絡架構是編碼器-解碼器模型,這種網絡模型容易導致不同分辨率的上下文信息以及空間信息出現缺失,不利于對圖像進行恢復和增強.例如工作CURL[3]和HWMNet[4].CURL[3]雖然提出了多顏色空間神經修飾模塊,但是由于網絡結構的限制,在特征編碼解碼的過程中,缺乏對上下文信息和空間細節信息的關注,因此得到的結果并不足夠理想,同時,在訓練過程中,也只能使用單張圖片進行訓練而不能多張一起訓練.HWMNet[4]的工作提出在網絡中使用半小波注意塊來豐富小波域的特征,取得了不錯的結果,但是網絡仍然缺乏對不同分辨率之間特征信息交流的關注.

低分辨率上可以獲取到可靠的語義信息但缺乏空間信息,而高分辨率則相反,能夠獲得精確的空間信息但是上下文信息不太健壯.MIRNet[8]使用單獨的CNN網絡,探索了在獲取更加豐富的特征對圖像增強任務的影響,同時,他們還提出了對不同分辨率的特征信息之間進行交換,關注不同分辨率之間的上下文信息以及空間信息.這種做法取得了非常不錯的效果,但是他們的信息交換不夠徹底,對上下文語義信息和空間信息仍然有一定程度的遺漏.

針對上述方法的缺點,本文提出了改進型的方法MIRNet Plus,通過增強網絡中間層對不同分辨率的信息交流能力,補充原有的特征信息,實現了更加細致的不同分辨率的特征信息交流,得到了更加準確的低光圖像增強結果.通過實驗,本文提出的方法優于其他基于MIRNet進行改進的方法.

2 改進策略

本文提出的方法改進主要是對Zamir等人[8]在2020年ECCV上提出的MIRNet的改進,本文將其稱之為MIRNet Plus.本文提出的方法改進如下所述.

本文的網絡的整體結構如圖1所示,圖2展示了本文所使用的多顏色空間神經修飾塊.

圖1 網絡結構圖Fig.1 Network structure

圖2 多顏色空間神經修飾塊示意圖[3]Fig.2 Schematic diagram of multi-color spatial neural modification block[3]

2.1 Double SKFF

本方法采用了Double SKFF模塊來獲取更加豐富的上下文信息以及空間信息.Zamir等人[8]提出跨分辨率信息交換,同時捕獲上下文信息以及空間信息,但是這種捕獲是不徹底的,為了獲得更加健壯的上下文信息同時實現更加充分的空間細節信息獲取,本文采用雙重選擇融合交換和殘差機制實現這一目的.單層的SKFF能夠對上下文信息和空間信息進行一定程度上的交換,但是交換的特征信息不夠徹底、精煉.

SKFF的網絡[8]的示意圖如圖3所示,該模塊能夠對來自多個卷積流的特征進行操作,并基于自我關注進行聚合.網絡的具體細節見[8].在融合部分,模塊接收3個并行的特征輸入,3個特征的分辨率并不相同,因此網絡首先采用元素求和來組合這些不同分辨率的特征L=L1+L2+L3,然后在L∈RH×W×C的空間尺度上對其進行全局均值池化(GAP)來計算通道信息s∈R1×1×C,接下來使用通道下采樣卷積操作來生成一個緊湊的特征表示z∈R1×1×r,其中r=C/8.最后,特征通過3個并行的通道上采樣卷積層得到3個特征v1,v2,v3,其大小為1×1×C.在選擇部分,首先對v1,v2,v3使用softmax激活函數,得到s1,s2,s3,然后自適應的分別與L1,L2,L3進行特征映射,特征重新校準與聚合定義為U=s1·L1+s2·L2+s3·L3.

圖3 SKFF網絡示意圖[8]Fig.3 Schematic diagram of SKFF network[8]

2.2 DWM

Zamir等人[8]認為在使用SKFF模塊獲取上下文信息與空間信息的同時,還需要對張量中的空間和通道維度信息進行共享,因此設計了DAU模塊,其網絡示意圖如圖4所示,該模塊的通道注意力與空間注意力機制相互獨立.

圖4 DAU模塊網絡示意圖[8]Fig.4 Schematic diagram of the DAU module network[8]

DAU模塊對輸入M首先采用卷積、ReLU激活、卷積操作得到輸入雙重注意力機制的特征.在空間注意力(Spatial Attention)網絡中,對特征采用全局均值池化與全局最大值池化,之后再將池化后的特征拼接起來,經過卷積之后使用sigmoid激活,然后與輸入空間注意力網絡的原特征相乘,得到空間注意力映射特征圖.而對于輸入通道注意力(Channel Attention)的特征,首先采用全局均值池化,再進行卷積、ReLU激活、卷積、sigmoid激活,再與輸入通道注意力機制之前的特征相乘,得到通道注意力映射特征圖.將空間注意力映射特征圖與通道注意力映射特征圖拼接之后經過卷積,再與輸入M相加,即可得到DAU最后的輸出.

在DAU模塊中,輸入特征首先要經過卷積、激活、卷積操作,之后才會對其使用雙重注意力機制,且通道注意力與空間注意力相互獨立,這種操作破壞了空間信息與通道信息之間的聯系,不利于特征信息的空間信息與通道信息共享.通道信息中也有空間信息,二者并不是相互獨立的,因此本方法提出DWM(Depthwise Attention Module),在同一支干網絡上使用通道注意力機制與空間注意力機制,共享張量中的空間和通道維度信息.本文提出的DWM網絡示意圖如圖5所示.

圖5 DWM示意圖Fig.5 Schematic diagram of DWM

在DWM中,輸入特征需要經過3個部分運算,分別是Depthwise(DW)卷積、最大池化、均值池化.DW卷積網絡示意圖如圖6所示,DW卷積分為兩部分,第1個部分是以卷積核為3的卷積,用來提取特征信息,第2部分為以卷積核為1卷積,用來對提取的特征張量進行維度匹配,卷積操作完成之后,都會進行BatchNorm和使用ReLU進行激活.在使用DW卷積的同時,本文也對輸入特征使用GMP(Global Max Pooling)與GAP(Global Average Pooling)操作,提取原有特征中的主要信息,之后與DW卷積得到的特征相融合.之后融合特征首先被輸入到通道注意網路中,生成通道注意特征映射圖,通道注意特征映射圖與原模塊輸入特征相加,輸入空間注意網絡,生成空間注意特征映射圖.通過這種操作,通道注意力特征圖與空間注意力特征圖相互作用,特征信息與原有特征之間相乘進行自適應的特征修正,在特征輸出之前,首先要對進行層歸一化再與輸入特征相加,產生最后的輸出.通過上述設計,網絡可以達到共享空間信息與通道信息,對DAU模塊進行補充的目的.

圖6 DW卷積網絡結構圖Fig.6 DW convolution network structure

2.3 多顏色空間神經修飾塊

為了提升網絡的健壯性,同時調整圖像的全局屬性,如顏色、飽和度和亮度等,本方法同時引入了Moran等人[3]提出的多顏色空間神經修飾塊.將已經估計出的增強圖像,依次對其再次處理,在Lab、RGB、HSV 3種顏色空間中進行聯合訓練,進一步增強圖像的質量.Lab顏色空間具有感知均勻性,網絡在該顏色空間中能夠學習到更多的亮度信息以及色彩平衡信息.RGB顏色空間通過3個顏色通道的顏色強度來對不同顏色進行表示,在該顏色空間中學習,能夠提升網絡對顏色深度的敏感程度.HSV顏色空間能夠更加直觀地表達顏色的色調、鮮艷程度和明暗亮度,在該顏色空間中學習,網絡能夠學習到顏色的定位以及圖像明度、飽和度等信息.

需要說明的是,本方法僅僅使用了Moran等人[3]提出的多顏色空間神經修飾模塊,而沒有使用他們提出的多顏色空間損失函數.本方法依然使用工作[11]提出的Charbonnier損失函數,因為使用Charbonnier損失函數作為網絡的損失函數能夠對一些異常值有更好的處理,同時也能夠提升網絡的收斂速度與魯棒性.而采用其他的損失函數會造成生成的圖像過于平滑,圖像缺乏真實感,在感官上會給人造成一種不真實的感覺.損失函數如下所示:

(1)

3 實驗仿真與測試

3.1 實驗細節

本文采用端到端的訓練方式,不需要對網絡中任何模型進行預訓練,在實驗過程中,網絡包含3個RPG模塊,每個RPG模塊包含2兩個MRB模塊,每個MRB模塊包含64,128,256這3個維度的特征信息.訓練過程中使用Adam優化器,初始學習率為0.00016,采用余弦退火策略來穩定的下降初始學習率,最小值設定為0.000001,總共對模型進行70次迭代.

3.2 實驗細節

本文在MIT-Adobe FiveK數據集上驗證了本文提出的方法,該數據集包含5000張用單反相機在不同光照條件下拍攝的各種室內和室外場景的圖像.所有圖像的色調屬性由5名不同的訓練有素的攝影師(被稱為專家A~E)手動調整.與[3,4,8,9]一樣,本文將專家C的增強圖像視為真實值.此外,前4500張圖像用于訓練,后500張用于測試.訓練中圖像的分辨率大小為256×256.

3.3 評價指標

本文采用峰值信噪比PSNR、結構相似性SSIM、平均亮度AB和視覺信息保真度VIF來對本文提出的模型進行評價.

PSNR:峰值信噪比,圖像處理領域常用評價標準,數值越大,圖像失真越小.

SSIM:結構相似性,兩幅圖像相似度評價指標,分別從亮度、對比度和結構3方面度量,數值越大,兩幅圖像越相似.

AB:圖像平均亮度,用來衡量圖像的明亮程度.

VIF:視覺保真度,是一種結合自然圖像統計模型、圖像失真模型和人眼視覺系統模型的圖像質量評估參數,數值越高,圖像質量越好.

3.4 實驗分析

在表1中,將以文獻[8]的工作為基線所發展出來的方法用粗體標識.本方法在MIT-Adobe FiveK[12]所得到的結果如表1所示,最優的PSNR、SSIM、VIF結果使用粗體標出,其中測試所用的500張圖片的真實情況平均亮度AB為128.141.

表1 在MIT-Adobe FiveK上實驗數據表Table1 Experimental data on MIT-Adobe FiveK dataset

通過表 1 的實驗結果可以看出,本文提出的方法在與其他以文獻[8]為基線發展的方法對比時,在PSNR上取得了最好的結果.根據方法[8]開源的官方模型測試結果,實測出其SSIM為0.887,與文獻中的0.925不一致.

圖7顯示了本文提出的方法與其他的方法在MIT-Adobe FiveK數據集上的可視化定性對比結果.在圖7中,第1列圖像為輸入圖像,第2列圖像為真實圖像,接下來分別是表1中方法CURL[3]、MIRNet[8]、MIRNet-V2[9]、MIRNet-Plus(本文方法)對輸入圖像的處理結果,局部放大圖像位于圖像右上角.從圖7中的結果可以看出,CURL對暗光圖像的增強效果與其他方法相比具有較大差距,增強效果遠遠弱于其他方法.本文提出的方法與MIRNet和MIRNet-V2相比,更接近原始真實圖像,色彩更加自然、柔和.對第1張人像圖像進行處理時,MIRNet與MIRNet-V2的圖像存在對人臉過度增強的問題,與真實值相比,人臉膚色明顯泛白;在對第2張車輛圖像處理時,MIRNet在引擎蓋上偽造出了并不存在的陰影,MIRNet-V2的圖像顏色存在曝光現象,與真實圖像顏色有著一定差異;在對第3張圖像進行處理時,MIRNet對于椅子上存在的干擾并不能很好的處理,使得出現了大片陰影.

圖7 在MIT-Adobe FiveK[12]數據集上的圖像增強視覺效果對比Fig.7 Comparison of image enhancement visual effects on the MIT-Adobe FiveK[12]dataset

本文提出的MIRNet-Plus方法能夠有效增強低光圖像的顯示效果,圖像的亮度和噪聲抑制方面都能得到有效提升,同時,本方法的可視化結果明顯更加接近真實圖像,顯示更加清晰,圖像紋理更加自然、柔和.

4 總 結

針對低光圖像增強任務,本文在分析MIRNet方法以及相關衍生方法的缺陷基礎上進一步提出了MIRNet Plus網絡.MIRNet Plus通過采用Double SKFF、Depthwise Attention Module以及多顏色空間神經修飾模塊,通過充分交換不同分辨率的特征信息,實現了更好低光圖像增強效果.本文在MIT-Adobe FiveK數據集上與最近的其他突出算法進行了比較,實驗結果表明本文提出的方法在PSNR和VIF上達到了更好的結果,明顯優于其他的方法,同時,在直觀上可視化比較實驗中,MIRNet Plus也能夠輸出更加接近真實圖像的結果,圖像更加真實,這說明了MIRNet Plus的有效性.

猜你喜歡
空間信息圖像增強卷積
結合多層特征及空間信息蒸餾的醫學影像分割
基于3D-Winograd的快速卷積算法設計及FPGA實現
圖像增強技術在超跨聲葉柵紋影試驗中的應用
水下視覺SLAM圖像增強研究
虛擬內窺鏡圖像增強膝關節鏡手術導航系統
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
基于圖像增強的無人機偵察圖像去霧方法
《地理空間信息》協辦單位
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合