?

聯合語義分割與邊緣重建的深度學習圖像修復

2022-12-21 03:23楊紅菊李麗琴王鼎
中國圖象圖形學報 2022年12期
關鍵詞:掩膜集上邊緣

楊紅菊,李麗琴,王鼎

1. 山西大學計算機與信息技術學院,太原 030006; 2. 山西大學計算智能與中文信息處理教育部重點實驗室,太原 030006

0 引 言

近年來,圖像修復已成為計算機視覺中的一項重要任務,在圖像編輯、文物保護和老照片修復(Zhang和Chang,2021;Wan等,2020)等工作中有著廣泛應用。成功修復的圖像在缺失區域應該與其他區域表現出結構和紋理的一致性,然而當缺失區域較大時,現有方法通常難以產生看起來自然且與其他區域一致的圖像結構(強振平 等,2019;Elharrouss等,2020)。

圖像修復方法可分為傳統方法和深度學習方法兩類。傳統方法使用低級特征修復圖像,包括基于擴散和基于補丁的技術?;跀U散的方法通過求解偏微分方程,將梯度等關鍵信息從已知區域傳播到未知區域(Ballester等,2001;Bertalmio等,2000;張桂梅和李艷兵,2019);基于補丁的方法從鄰域中搜索相似的補丁,然后將這些補丁復制到缺失區域并融合(Kwatra等,2005)?;谘a丁的方法在計算補丁之間的相似度時通常消耗大量計算資源,因此,Barnes等人(2009)提出一種快速最近鄰搜索算法PatchMatch,以降低計算成本。傳統方法雖然可以生成逼真的紋理,但由于無法理解圖像的高級語義,面對復雜修復任務時,往往不能產生合理的結果?;谏疃葘W習的圖像修復方法可以從大量數據中學習到圖像的高級語義信息,這是傳統修復方法難以做到的。Pathak等人(2016)首次將生成式對抗網絡(generative adversarial network, GAN)(Goodfellow等,2014)應用于圖像修復任務,使用一個編解碼器網絡作為生成器,從原始圖像中提取特征填充缺失區域。該方法能夠利用高級語義信息產生有意義的結構與內容,但是修復結果包含視覺偽影。Iizuka等人(2017)提出使用聯合的全局和局部鑒別器提高圖像修復結果的一致性,通過添加膨脹卷積層增加感受野,并使用泊松融合細化圖像,從而產生更清晰的結果。然而,這種方法嚴重依賴后期的泊松融合,且訓練比較耗時。Liu等人(2018)和Yu等人(2019)設計了特殊的卷積層,使網絡能夠修復不規則掩膜遮擋的圖像。Wadhwa等人(2021)將超圖卷積引入空間特征,學習數據之間的復雜關系。包括上述方法在內的很多基于端到端的深度學習圖像修復方法直接預測完整的圖像,在面對復雜的結構缺失時,由于缺乏足夠的約束信息,往往會產生邊界模糊和結構扭曲的圖像,無法獲得令人滿意的修復結果。

圖像邊緣包含豐富的結構信息。對此,人們提出了多種利用邊緣信息改善圖像修復質量的方法。Nazeri等人(2019)提出以邊緣預測信息為先驗,指導生成最終的圖像。Li等人(2019)提出通過漸進方式不斷修復缺失區域的邊緣信息,提高邊緣預測的準確性。然而,邊緣結構丟失了大量的區域信息,且邊緣與語義結構之間不明確的從屬關系往往導致生成錯誤的邊緣結構,從而誤導圖像的最終修復。

針對這個問題,本文提出利用語義分割信息指導邊緣重建,從而減少邊緣重建錯誤,并利用語義分割結構與邊緣結構聯合指導圖像紋理細節的修復,進一步提高圖像修復質量。具體地,將圖像修復分解為語義分割重建、邊緣重建和內容補全3個階段,這與繪畫時先繪制輪廓,然后繪制更細致的邊緣,最后補全紋理和色彩的思路是一致的。在CelebAMask-HQ(celebfaces attributes mask high quality)(Liu等,2015)和Cityscapes數據集(Cordts等,2016)上將本文方法與其他先進方法進行對比實驗,結果表明,當修復任務涉及復雜的結構缺失時,本文方法具有更高的修復質量。

1 模 型

圖像修復是指輸入受損圖像Iin,其受損區域表示為二值掩膜M(1表示缺失區域,0表示非缺失區域),目的是預測完整的圖像Ip,使其與真實圖像Igt盡可能相似。本文設計了一個3階段生成對抗網絡來實現受損圖像的修復,模型整體框架如圖1所示。模型包含語義分割重建模塊、邊緣重建模塊和內容補全模塊,每個模塊都由一對生成器和鑒別器組成,其中GS、GE和GI分別為3個模塊的生成器,DS、DE和DI分別為3個模塊的鑒別器。首先,語義分割重建模塊預測受損圖像的完整語義分割結構。然后,邊緣重建模塊在重建的語義分割結構指導下,預測受損圖像的完整邊緣結構。最后,前兩階段重建的語義分割結構和邊緣結構聯合指導內容補全模塊,修復缺失區域的紋理與色彩。

1.1 語義分割重建模塊

語義分割可以使圖像簡化,其結果能夠很好地表示圖像全局語義結構?,F有的很多基于深度生成模型的修復方法由于沒有利用語義分割結構來約束對象形狀,通常導致邊界上的模糊結果。語義分割重建模塊通過重建缺失區域的語義分割信息來指導后續的圖像修復,有助于語義不同的區域之間生成更清晰的恢復邊界。

圖2為語義分割重建模塊的網絡結構圖,邊緣重建模塊和內容補全模塊的網絡結構與之類似。如圖2所示,語義分割重建模塊的網絡結構基于生成式對抗網絡,包括生成器和鑒別器兩部分。其中生成器網絡使用編解碼器結構,從左到右依次為兩次下采樣的編碼器、8個殘差塊(He等,2016)和將圖像上采樣回原始大小的解碼器。在殘差層中,使用膨脹系數為2的膨脹卷積代替普通卷積,從而在最終殘差塊處產生205×205像素的感受野。鑒別器網絡使用70×70像素的PatchGAN(patch generative adversarial networks)結構(Isola等,2017;Zhu等,2017),它決定了70×70像素的重疊圖像補丁是否真實。譜歸一化(Miyato等,2018)通過將權重矩陣按其最大奇異值進行縮放來進一步穩定訓練,有效地將網絡的Lipschitz常數限制為1。雖然譜歸一化最初提出時僅用于鑒別器,但Odena等人(2018)的研究表明,生成器也可以通過抑制參數和梯度值的突然變化從譜歸一化中獲益,因此本文將譜歸一化應用于生成器和鑒別器。

圖2 語義分割重建模塊的網絡結構圖Fig.2 Network structure diagram of the semantic segmentation reconstruction module

真實圖像Igt對應語義分割結構為Sgt,語義分割生成器GS輸入受損圖像Iin=Igt⊙(1-M)、受損圖像的語義分割結構Sin=Sgt⊙(1-M)和不規則掩膜M,輸出預測語義分割結構Sp,⊙表示哈達瑪乘積。生成器GS的預測過程具體為

Sp=GS(Iin,Sin,M)

(1)

(2)

(3)

(4)

1.2 邊緣重建模塊

邊緣是圖像發生變化最顯著的部分,邊緣兩側灰度、亮度、顏色和紋理等特征會發生突變,因此邊緣包含豐富的結構信息。正確的邊緣結構可以有效指導圖像修復,然而現有模型直接預測缺失區域的邊緣信息,往往會生成錯誤的邊緣結構,最終誤導圖像修復。邊緣重建模塊通過引入語義分割結構來指導邊緣結構重建,可以提高邊緣重建的準確性。

真實圖像Igt對應邊緣結構為Egt,邊緣生成器GE輸入受損圖像Iin、第1階段預測的語義分割結構Sp、受損圖像的邊緣結構Ein=Egt⊙(1-M)和不規則掩膜M,輸出預測邊緣結構Ep。生成器GE的預測過程為

Ep=GE(Iin,Sp,Ein,M)

(5)

(6)

(7)

(8)

1.3 內容補全模塊

前兩個階段重建的語義分割結構和邊緣結構作為全局結構信息,可以有效指導圖像缺失區域的補全。結構與內容分階段修復,使內容補全模塊只需要專注顏色紋理等細節信息的補全。

生成器GI輸入受損圖像Iin、預測的語義分割結構Sp和邊緣結構Ep以及不規則掩膜M,輸出預測圖像Ip。生成器GI預測過程可以表示為

Ip=GI(Iin,Sp,Ep,M)

(9)

(10)

重建損失表示為

(11)

生成對抗損失表示為

(12)

感知損失通過定義預先訓練的網絡特征圖之間的距離度量,對感覺上與標簽不相似的結果進行懲罰。感知損失定義為

(13)

式中,Φi(I)表示圖像I在預訓練網絡第i層的輸出特征圖,在本文中對應于在ImageNet數據集(Russakovsky等,2015)上預訓練的VGG-19網絡relu1_1、relu2_1、relu3_1、relu4_1和relu5_1層的輸出特征圖。這些特征圖也用于計算風格損失,風格損失測量特征圖協方差之間的差異。給定大小為Cj×Hj×Wj的特征圖,風格損失定義為

(14)

2 實 驗

2.1 數據與預處理

實驗采用的圖像數據集為帶語義分割標簽的CelebAMask-HQ和Cityscapes數據集。CelebAMask-HQ數據集是從CelebA(celebfaces attributes)數據集中選擇了30 000幅高分辨率面部圖像進行像素級標注,共19個類別,包括背景、眼睛、帽子、眼鏡、耳環等。本文將30 000幅圖像隨機劃分為27 000幅訓練圖像和3 000幅測試圖像。Cityscapes數據集是交通視圖的語義分割圖像數據集,包含50個城市的街道場景中駕駛視角的高質量像素級標注圖像,共35個類別,包括道路、建筑、天空、人、車輛等,實驗使用其中2 975幅訓練圖像進行訓練,500幅驗證圖像進行測試。

本文使用從Liu等人(2018)工作中獲得的不規則掩膜數據集,部分掩膜如圖3所示。掩膜根據其相對于整個圖像大小的面積比(例如0-10%、10%-20%)進行分類,共包含55 116幅訓練圖像和12 000幅測試圖像。

圖3 掩膜數據集示例樣本Fig.3 Samples of irregular mask dataset

圖4為數據集的預處理結果,從左到右依次是原始圖像、受損圖像以及受損圖像的語義分割結構和邊緣結構。如圖4所示,將不規則掩膜遮擋在原始真實圖像及其語義分割圖像上,獲得待修復受損圖像和受損語義分割圖像,使用Canny邊緣檢測器獲得受損圖像的邊緣結構圖像。Canny邊緣檢測器的靈敏度由高斯平滑濾波器σ的標準差控制,從Nazeri等人(2019)的研究可知,σ≈2可以產生較好的結果。

圖4 數據集預處理Fig.4 Dataset preprocessing

2.2 訓練細節

實驗基于深度學習框架pytorch實現,GPU為NVIDIA1080Ti顯卡,批處理大小為8,使用Adam優化器優化目標函數。為了與現有的先進方法進行公平比較,采用256×256像素的圖像。3個模塊單獨進行訓練,首先設置生成器的學習率為10-4,鑒別器的學習率為10-5,使用圖像的語義分割標簽訓練語義分割重建模塊,使用Canny算子生成的邊緣標簽訓練邊緣重建模塊,使用真實圖像標簽訓練內容補全模塊,直至損失平穩。然后調整生成器的學習率為10-5,鑒別器的學習率為10-6,繼續微調模型直至損失平穩。

3 結 果

3.1 結構重建定量分析

3.1.1 語義分割重建結果定量分析

使用語義分割中常用的像素精度(pixel accuracy,PA)和平均交并比(mean intersection over union,MIoU)來評估語義分割重建模塊的性能。其中,PA為標記正確的像素占總像素的百分比,MIoU為真實語義分割與預測語義分割結果之間的交并比,兩個指標值越高,表示重建的語義分割結構與真實語義分割結構越相似。

表1是語義分割重建模塊在兩個數據集上重建語義分割結構的定量結果??梢钥闯?,在兩個數據集上,隨著掩膜比例的增大,重建結構的PA和MIoU均呈下降趨勢,但依然保持較高的預測性能。該實驗的目的不是為了獲得最佳的指標性能,而是為了展示語義分割重建模塊的重建結果與真實語義分割結構的相似程度。需要注意的是,與一般語義分割解決識別分類任務不同,語義分割重建模塊是預測缺失區域的像素級語義分割,因此二者的指標性能之間不具有可比性。

表1 語義分割重建的定量結果Table 1 Quantitative results of semantic segmentation reconstruction

3.1.2 邊緣重建結果定量分析

通過實驗驗證本文關鍵假設:語義分割結構有助于提高邊緣結構重建的準確性。

表2為有、無語義分割結構指導情況下,重建的邊緣結構在兩個數據集上的準確率和召回率比較??梢钥闯?,有語義分割指導的邊緣重建性能明顯優于無語義分割指導,說明相較于直接預測邊緣結構的方法,本文方法在語義分割結構的指導下預測邊緣結構,可以有效減少邊緣重建錯誤。

表2 邊緣重建結果定量比較Table 2 Quantitative comparison of edge reconstruction results

3.2 階段修復定性分析

本文設計的3階段生成對抗網絡的3個階段層層遞進,前一階段的修復結果會直接影響后續階段的修復效果,所以3個階段都必須能夠完成各階段設計的相應任務,本文模型的各階段修復效果如圖5所示。

圖5(a)為模型第1階段修復效果,從左到右依次是受損語義分割結構、重建語義分割結構和真實語義分割結構??梢钥闯?,對于結構簡單的人臉圖像,眼睛、鼻子和嘴巴等部位在絕大部分遮擋情況下,重建的結構在視覺上依然合理。在結構復雜的街景語義圖像上也成功重建出缺失的道路、行人和汽車等語義分割結構。語義分割重建模塊可以重建圖像缺失區域的合理語義分割結構,重建的語義分割結構在視覺上都較為合理,且與真實語義分割結構相似。

圖5(b)為模型第2階段修復效果,從左到右依次是受損邊緣結構、重建邊緣結構和真實邊緣結構??梢钥闯?,對于人臉圖像,邊緣重建模塊可以重建出遮擋區域較為合理的人臉邊緣、眼睛邊緣和頭發邊緣等信息,并且在第1階段重建語義分割結構指導下,生成了與圖5(a)中語義分割結構相一致的邊緣結構(如臉的輪廓、耳環和牙齒等)。在邊緣結構復雜的城市景觀邊緣缺失圖像上也重建出了合理的街道、汽車和樹等的邊緣結構。邊緣重建模塊可以重建出較為真實合理的邊緣結構,指導第3階段的內容補全。

圖5(c)為模型第3階段修復效果,從左到右依次是受損圖像、最終修復結果和原始圖像??梢钥闯?,對于人臉圖像,在語義分割結構與邊緣結構的指導下,內容補全模塊生成的圖像與第1、2階段的修復結果結構上保持一致,并且較為真實地補全了缺失的圖像內容(如眼睛、鼻子和人臉皮膚等)。補全的圖像與原始圖像相比,眼袋消失、增加了沒有露出的牙齒,但在視覺上仍然自然合理。對于復雜的城市景觀圖像,內容補全模塊同樣生成了真實合理的汽車、影子和建筑等內容,沒有產生結構缺失和過于模糊的結果。在語義分割結構和邊緣結構的聯合指導下,內容補全模塊能夠對缺失區域的紋理色彩等細節做出合理預測,產生視覺上真實的修復結果。

圖5 各階段的修復效果Fig.5 Inpainting effects of each stage ((a) the first stage;(b) the second stage;(c) the third stage)

由上述分析可知,本文設計的3個階段都能夠按照模型設計的階段任務,生成相一致且真實合理的結果。

3.3 定性比較

將本文模型與PC(partial convolutions)(Liu等,2018)、RFR(recurrent feature reasoning)(Li等,2020)、EC(edge connect)(Nazeri等,2019)和HC(hypergraphs convolutions)(Wadhwa等,2021)等4種先進模型進行定性比較。

圖6是各模型在CelebAMask-HQ數據集上的比較結果??梢钥闯?,第1行中,對于較小的掩膜,各模型都能完整修復出缺失區域的內容,但本文模型生成的圖像在眼睛等細節上更加自然真實。第2-5行中,對于中等或較大的掩膜,PC無法完成合理的修復,生成的圖像結構扭曲、視覺上不真實;RFR生成的圖像邊界模糊、存在偽影;EC生成的圖像視覺上不自然,例如生成的眼睛左右不對稱;HC生成圖像結構合理,但眼睛、耳朵等內部細節不真實;本文模型生成的圖像不僅邊界清晰,而且在細節上更加真實自然。

CelebAMask-HQ數據集中的人臉大多為正臉,且具有左右對稱、結構相似的特點。而Cityscapes數據集中的街景構造復雜并且差異較大、標簽類別多,所以圖像修復較為困難,具有挑戰性。

圖6 CelebAMask-HQ數據集上修復結果比較Fig.6 Comparison of inpainting results on CelebAMask-HQ dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)

圖7是各模型在Cityscapes數據集上的比較結果,各列代表的模型與圖6相同??梢钥闯?,本文模型的修復結果較其他模型明顯減少了不一致性,視覺上也更加自然真實??梢钥闯?,在第1行右邊汽車和左邊窗戶等缺失區域細節修復上,本文模型的結果更加清晰完整。第2行中,本文模型可以修復出正確的路肩細節,而其他模型修復結果在語義上不正確。第3、4、5行中,PC和RFR生成的圖像(如第3行的大客車、第4行的行人以及第5行的建筑等)結構缺失且模糊;由于街景圖像邊緣復雜,不同對象的邊緣相互交錯,導致EC生成的圖像結構錯誤且邊界模糊;HC的修復效果較EC有了很大改善,但由于缺少明確的結構指導,生成的圖像邊界模糊;相比于HC,本文模型在語義分割結構的指導下進行邊緣重建,有效減少了邊緣重建錯誤,生成的圖像邊界清晰、結構合理,視覺上更加真實。

總的來說,在CelebAMask-HQ和Cityscapes數據集上,PC和RFR由于缺少有效的結構指導,生成的圖像邊界模糊、存在大量偽影且不真實。EC在邊緣結構的指導下生成的圖像邊界清晰,但由于缺少語義分割結構的指導,往往會生成錯誤的邊緣結構,最終導致生成的圖像視覺上不自然。HC缺少明確的結構指導,雖然語義大致正確,但生成的圖像邊界不清晰。本文模型的修復結果明顯優于其他模型,生成的圖像結構更加合理,具有較少偽影,紋理細節也更加真實。

3.4 定量比較

使用圖像修復中常用的平均絕對誤差(mean absolute error,MAE)、峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似性(structure similarity index measure,SSIM)指標(Wang等,2004)評估各模型的修復效果。表3和表4分別為PC、RFR、EC、HC以及本文模型在CelebAMask-HQ和Cityscapes數據集上不同比例不規則掩膜的定量比較結果。

從表3可以看出,在CelebAMask-HQ數據集上,各模型的性能均隨掩膜比例的增加逐漸變差。在掩膜比例為10%-20%時,本文模型的結果略差于HC和RFR。而在掩膜比例較大時,本文模型表現出了最優的性能。這可能是因為面對較小的掩膜遮擋時,人臉圖像結構相對簡單,沒有出現結構缺失現象,所以HC和RFR取得較好的結果。

圖7 Cityscapes數據集上修復結果對比Fig.7 Comparison of inpainting results on Cityscapes dataset((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)

表3 不同方法在CelebAMask-HQ數據集上的定量比較Table 3 Comparison of results of different methods on CelebAMask-HQ dataset

從表4可以看出,在Cityscapes數據集上的定量比較結果表現出與CelebAMask-HQ數據集相似的趨勢,各模型的性能同樣隨掩膜比例的增加逐漸變差。在Cityscapes數據集上,3項指標數據都較CelebAMask-HQ數據集差,這是因為城市景觀圖像結構復雜,較小的掩膜遮擋就會導致圖像結構缺失,所以修復具有挑戰性。本文模型在3項指標上均優于其他模型,表明面對復雜結構的受損,本文的多階段修復模型展現出了明顯的優越性,能夠合理修復出缺失的結構信息,視覺上更加真實。

表4 不同方法在Cityscapes數據集上的定量比較Table 4 Comparison of results of different methods on Cityscapes dataset

總的來說,本文模型的定量比較結果整體上優于其他對比模型,這也對應了定性分析中各模型的視覺比較結果。

4 結 論

本文針對現有圖像修復方法存在的生成圖像邊界模糊和結構扭曲問題,提出了一種基于深度生成模型的3階段圖像修復方法,并在CelebAMask-HQ和Cityscapes數據集上與多種先進方法進行對比實驗。結果表明,本文方法生成的圖像結構更加合理,紋理細節更加真實。本文方法將圖像修復任務解耦為語義分割重建、邊緣重建和內容補全3個階段。一方面,首先進行語義分割重建可以有效減少后續結構重建中的錯誤;另一方面,在語義分割結構和邊緣結構的雙重約束下能夠實現圖像紋理細節更加精細的修復。

本文方法存在以下不足,有待繼續研究。1)在網絡模型設計上,受限于物理設備,3個階段均為結構簡單的網絡,如果使用更加復雜的網絡模型,可以進一步提高圖像修復質量。2)本文方法很大程度上依賴于語義分割結構和邊緣結構的預測準確性,如果設計神經網絡能夠更好地理解圖像的結構信息,可以進一步做出更準確的結構預測。

本文提出的3階段解耦方法使用戶可以與圖像修復系統交互,能夠很容易地擴展到其他圖像任務,包括條件圖像生成、圖像編輯、圖像去噪和圖像超分辨率等,這也是本文方法未來的實際應用方向。

猜你喜歡
掩膜集上邊緣
利用掩膜和單應矩陣提高LK光流追蹤效果
寬周期掩膜法HVPE側向外延自支撐GaN的研究
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
R語言在統計學教學中的運用
國內首條G11光掩膜版項目在成都高新區啟動
光纖激光掩膜微細電解復合加工裝置研發
一張圖看懂邊緣計算
幾道導數題引發的解題思考
在邊緣尋找自我
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合