?

基于Transformer 的文物圖像修復方法

2024-03-23 08:04王真言蔣勝丞宋奇鴻畢秀麗
計算機研究與發展 2024年3期
關鍵詞:紋理文物損失

王真言 蔣勝丞 宋奇鴻 劉 波 畢秀麗 肖 斌

(圖像認知重慶市重點實驗室(重慶郵電大學) 重慶 400065)

文物是國家的瑰寶,其蘊含著一個民族獨有的精神價值、思維方式和想象力,具有極高的歷史、藝術與科學研究價值.由于材質的特殊性,文物極易受到潮濕發霉、蟲蛀鼠咬、人為破壞等威脅.紙張的自然老化也會產生破洞、碎裂、褪色等問題.如果不及時修復,文物的價值就會下降.傳統破損文物修復技術經過數代人繼承和發展已經逐漸成熟,但現有修復技術都會對文物本身造成一定的損害.此外,傳統文物修復行業還面臨供需不平衡、人才緊缺、技能門檻高等一系列問題.因此,國內外博物館都傾向使用數字圖像修復技術對文物進行虛擬化修復,該技術已成為當前的研究熱點[1-4].

目前主要的文物圖像修復技術都是基于傳統的圖像處理算法.例如:陳永等人[5]針對敦煌壁畫裂紋修復問題提出了一種改進曲率驅動擴散的修復算法;Criminisi 等人[6]提出的基于塊匹配的方法,以及Barnes等人[7]提出的基于隨機采樣的塊匹配方法PatchMatch,在文物修復領域也有很廣泛的應用[8-9].這類方法的主要思想是通過迭代地執行待修復樣本塊相似度計算、最佳匹配樣本塊搜索、待修復樣本塊填充3 個步驟來完成修復任務.但是這類方法把圖像的局部特征作為修復的主要依據,忽視了上下文的特征信息.

深度學習技術通過對大規模數據進行自監督訓練,并使用學習到的高維特征映射修復缺失區域,能結合語義信息來恢復圖像,具有較強的生成泛化能力.目前,使用深度學習技術進行文物圖像修復成為一種趨勢.例如,2022 年Yu 等人[10]使用現代計算機視覺和機器學習技術對敦煌文化遺產進行修復.但是,大多數方法都使用自然圖像修復中常見的卷積神經網絡(convolutional neural network, CNN).同時,網絡框架也大多采用編解碼器的結構.這類方法能夠結合上下文語義信息進行修復.但是,由于卷積操作的局部相關性和平移不變性,網絡難以利用圖像的全局結構.因此,重復的紋理和偽影經常出現在被修復的區域中.近年來, Transformer[11]在計算機視覺領域取得了極其優異的成績.與CNN 相比,它克服了卷積的局部相關性,通過自注意力模塊來獲取圖像的全局信息,其應用在文物圖像修復任務中可更好地恢復出圖像的完整結構.同時,使用多頭注意力機制可以實現修復結果的多元化輸出.但是,Transformer也存在著計算量過大的問題.

值得注意的是,自然圖像修復與文物圖像修復存在一定的區別,如圖1 所示.從破損結構而言,自然圖像的破損大多具有固定的結構,而文物圖像的破損多是不規則且連續的.雖然有針對不規則破損圖像補全的方法,并已實現了良好的補全效果,但并沒有運用到圖像修復領域中;從破損面積而言,自然圖像破損面積更大且破損區域往往并不連續,而文物圖像的破損面積都較??;從紋理復雜程度而言,文物圖像的紋理比自然圖像更加復雜.同時,基于深度學習的方法大多以數據驅動,但目前國內外并沒有高質量的大型文物數據集,導致網絡模型無法學習到足夠的文物圖像特征.因此,從自然圖像修復領域直接遷移的模型并不能很好地實現對文物圖像的修復.

圖1 破損圖像對比Fig.1 Comparison of damaged images

綜上所述,針對文物圖像修復任務,本文結合文物圖像的特點和藝術家工作時“先結構后細節”的工作流程提出了一種基于Transformer 的文物圖像修復方法,將文物圖像修復工作分為2 個步驟:第1 步使用Transformer 進行多元化結構修復;第2 步使用卷積神經網絡進行上采樣并恢復缺失區域的紋理,方法流程圖如圖2 所示.實驗結果表明,在符合現實場景的破損文物修復實驗和文物大面積破損修復實驗中,本文方法的修復結果視覺效果更好,客觀指標也高于代表性方法.同時,支持多元化輸出,為修復人員提供了多樣化的參考,在文物修復領域具有較高的價值.

圖2 基于Transformer 的文物圖像修復方法Fig.2 Transformer-based image restoration method for cultural relics

1 相關工作

本節主要介紹圖像修復領域的相關工作及其在文物修復領域的應用,并討論這些方法的優缺點.圖像修復方法可以分為傳統方法和基于深度學習的方法.

1.1 傳統的圖像修復方法

傳統的圖像修復方法主要包括基于擴散的修復方法和基于樣本塊匹配的修復方法.目前主要的文物圖像修復都是基于這2 類修復技術.

基于擴散的修復方法通過設計的擴散函數將相鄰區域的像素塊傳遞到缺失區域內[12-14].陳永等人[5]針對壁畫裂紋修復問題提出了改進曲率驅動擴散的敦煌壁畫修復算法,使曲率擴散的擴散項更合理.

基于樣本塊匹配的修復方法是從同一幅圖像的相似區域選擇關聯度高的樣本塊并填充到缺失區域[6,15-16].其中,2004 年提出的PatchMatch[6]通過使用快速最近鄰算法可以很好地完成圖像修復任務.然而實現這種方法的前提是能夠在圖像的已知區域找到缺失區域的相似紋理,但并不是所有待修復圖像都能滿足這樣的條件.在文物圖像修復領域,2019 年Yao[9]在修復唐卡圖像的過程中,在Criminisi 算法的基礎上引入結構信息對匹配策略進行優化,盡可能避免了錯誤匹配的問題.2019 年Wang 等人[17]針對敦煌壁畫修復問題提出了結合多個候選區的稀疏模型來保證紋理的相似性和結構的連續性.

基于擴散的修復方法和基于樣本塊匹配的修復方法主要依賴單張圖像的局部特征,很難恢復出符合上下文特性的缺失區域.

1.2 基于深度學習的修復方法

深度學習技術通過對大規模數據進行自監督訓練,并使用學習到的高維特征映射修復缺失區域,相較于傳統方法其能夠學習到更高維度的特征[18],并且能夠在缺失的區域生成連貫的結構.基于CNN 的方法占主導地位,可以分為基于編解碼結構的單階段修復模型和提供先驗信息的修復模型.

最先使用基于編解碼結構的單階段修復模型是2016 年提出的Context Encoder[19],編碼器映射圖像缺失區域到低維特征空間,解碼器用來構造輸出圖像.然而,輸出圖像的恢復區域通常包含視覺偽影且模糊.2018 年Liu 等人[20]為解決普通卷積特征提取不足的問題創造了“部分卷積”,把傳統卷積層替換為部分卷積層,將編碼器層的深層和淺層特征作為CNN的輸入,使得修復后的圖像紋理更加一致.2021 年,Zeng 等人[21]提出一種使用可學習的損失函數替代注意力機制的2 階段模型.基于上下文重建損失,無注意力機制的生成器也能學習到從已知區域匹配特征進行修復的能力.在文物圖像修復領域,2021 年Zhang等人[22]針對古代石刻碑文保護的問題提出了一種基于多尺度特征融合的石刻圖像去噪與修復方法.

提供先驗信息的修復方法[23-24]在單階段方法的基礎上加入了先驗信息,因此效果更好.2018 年Contextual Attention[25]采用的策略為:第1 階段使用簡單的膨脹卷積網絡粗略地恢復缺失內容;第2 階段的細化網絡使用上下文注意力機制來優化結果.2018 年Shift-Net[26]受樣本塊匹配思想的啟發,在UNet 模型的基礎上增加了Shift 連接層,可以計算每個缺失區域樣本塊與已知區域的相似度系數,并在編碼器特征上引入了引導損失,提升了修復的精度.2020年Zeng 等人[27]利用深度卷積神經網絡對破損圖像進行粗略修復,然后利用最近鄰像素匹配進行可控制的再次修復,使得修復的圖像更具真實感.2021 年Qin 等人[28]提出了基于多尺度注意力網絡的修復模型,通過引入多尺度注意力組來提高修復后圖像的真實性.在文物圖像修復領域,2019 年曹建芳等人[29]針對古代壁畫起甲、脫落等問題提出一種基于增強一致性生成對抗網絡的圖像修復算法,提高了壁畫修補區域與全局的一致性.

將文獻[23-29]所述的方法直接應用到文物圖像修復領域雖然能夠修復大面積破損的圖像,但由于文物的破損往往存在細節丟失、特征不足等問題[5,30],難以恢復連貫結構[28-29].同時卷積的局部連接和平移不變性導致其對圖像的全局結構很難把握,也容易產生重復的紋理.隨著深度學習理論的發展,Transformer 在計算機視覺領域內的廣泛應用,一些初步的工作[31-33]也證明了它在自然圖像合成方面有非常強的能力.如2021 年ICT(image completion transformer)[33]采用Transformer 的輸出作為結構先驗以實現高保真度的圖像補全.此外,Transformer 中的多頭注意力機制可以實現結果的多樣化輸出.但是,由于自注意力機制每次都要計算所有塊之間的注意力,計算復雜度為輸入長度的平方,因此處理高分辨率圖像較為困難[34].

2 文物圖像修復方法

本文受到提供先驗信息的深度學習方法的啟發,為避免卷積操作難以恢復全局結構的缺點,先采用Transformer 模型來恢復整體的結構信息,再通過一個具有上采樣功能的修復網絡進行紋理修復,使得修復后的文物圖像整體結構連貫,同時避免出現偽影、模糊等現象,并且使修復結果更加逼近原始圖像.文物圖像修復的目的是將有缺失像素的輸入圖像ID=I⊙(1-M)通過預測轉化成完整圖像IC.因此,本文方法將文物圖像修復任務分成多元化結構修復和上采樣紋理修復2 個階段,網絡結構分別如圖3、圖4 所示.第1 階段中,Transformer 模型將輸入圖像ID變換為具有連貫結構的中間修復結果IR,此過程可表示為p(IR|ID).第2 階段中,IR通過CNN 模型學習到IC的特征映射,將IR進行上采樣的同時修復精細紋理,并在特征層次進行融合得到輸出圖像IC,實現對文物圖像的修復,此過程可表示為p(IC|IR,ID).綜上,整個修復過程可表述為

圖3 多元化結構修復網絡結構圖Fig.3 Diversified structure repair network structure diagram

圖4 上采樣紋理修復網絡結構圖Fig.4 Upsamping texture repair network structure diagram

2.1 多元化結構修復網絡

Transformer 摒棄了CNN 的局部相關性和平移不變性,通過多個自注意力模塊來獲取圖像的全局信息[11],其應用在文物圖像修復任務中可更好地恢復出圖像的完整結構.

本文使用的Transformer 模塊結構如圖3 所示,與GPT-2 模型[35]的做法相同,僅使用Transformer 的解碼器,其計算過程可表述為

其中LN,MSA,MLP分別代表層歸一化、多頭自注意力模塊、全連接層.其中,MSA可表示為

其中n代表注意力頭的個數;Q,K,V代表3 個可學習的映射矩陣;dK為K的特征維度;MLPO是一個連接不同自注意力模塊的全連接層.

由于GPT 模型是通過單向注意力預測缺失區域的元素,僅能關注到前序序列的信息.為了使每個樣本塊都能關注到所有位置的信息,本文采用與BERT[36]類似的遮蔽語言模型(mask language model, MLM)來優化Transformer 模型,確保生成像素可以捕獲所有可用的上下文信息,從而使生成內容與已知區域相一致.具體來說,讓Π =(π1,π2,...,πm)表示離散化輸入中標記為掩膜的索引,其中m是被屏蔽的標記數量.MLM 的目標是使所有觀察區域條件下XΠ的負對數似然最小,用公式表示為

其中 θ代表Transformer 模型所學習到的參數.MLM和雙向注意力機制相結合,確保了網絡可以利用所有位置的信息來預測缺失區域的內容.

在輸入到Transformer 之前,圖像首先被編碼成為一個離散化的序列,表示為Ir=(i1,i2,…,ilen),其中len代表Ir的長度.為了對圖像的空間信息進行編碼,將一個可學習位置的特征選擇器添加到每個位置的標記特征中,然后再將這個離散化序列通過預學習編碼映射到一個高維的特征向量中,最后再組成Transformer 模型的輸入.考慮到Transformer 的計算復雜度與輸入長度的平方成正比,且多頭注意力機制[11]的計算復雜度與輸入長度的4 次方成正比,如果采用正常的RGB 像素表達矩陣,那么計算量將過于巨大.為了降低計算成本,采用與ICT 相似的做法,使用原始文物圖像對應的低分辨率版本來表示其連貫結構的先驗,即使用大小為32×32 的塊來表示原始圖像的結構信息和粗略的紋理.為了進一步降低維度,本文還使用K-Means 聚類算法在文物圖像數據集上構造大小為512×3 的RGB 像素詞表.可以通過搜索這個詞表來重建每個連貫結構的先驗信息.

2.2 上采樣紋理修復網絡

由于Transformer 中多頭注意力機制的存在使IR可以很容易地輸出多種合理的結果,針對每一種結果,在重建低維結構先驗信息之后,本文方法還學習了一個確定的映射將低維圖像IR放大為輸入圖像的大小,并且沒有改變空洞區域和非掩碼區域的邊緣結構信息.為了盡可能恢復圖像的紋理細節和高頻信息,本文使用了傳統CNN 卷積及殘差結構,并使用聯合感知損失函數對細節修復的結果進行約束,在上采樣的過程中盡可能恢復高頻細節.

在上采樣紋理修復網絡中,雙層殘差結構在保證輸入先驗結構信息不被篡改的同時,使修復結果更加符合上下文語義信息.然后利用PixelShuffle 像素重組技術對圖像進行上采樣,在不損失清晰度與真實細節信息的前提下對圖像進行超分辨.

為達到這個目的,本文方法的第2 階段訓練了前饋式CNN 的生成網絡Gθ,網絡結構如圖4 所示.其中生成器網絡的訓練過程可以表示為

其中聯合損失函數lSP是若干損失函數的加權組合以模擬恢復圖像的不同特征.θG={W1:L;b1:L}代表第N層網絡通過聯合損失函數lSP優化后的權重和偏置.為恢復更加逼真的紋理細節,在網絡訓練階段將生成器參數和辨別器參數進行交替優化,優化表達式為:

其中IH為高分辨率圖像,IL為低分辨率圖像.

2.3 聯合感知損失函數

為了更好地完成基于結構先驗的修復任務,本文在Ledig 等人[37]的基礎上設計改進了更適用于文物圖像修復任務的聯合感知損失函數,其表達式為

聯合感知損失函數由3 部分組成:內容感知損失lcontext、生成對抗損失ladv、全變分損失lTV.無論是在像素層面還是感知層面都能很好地提升修復圖像的質量.

2.3.1 內容損失函數

內容損失lcontext主要分為2 部分,即像素層面的均方差損失和特征層面上提出VGG 損失.像素層面的均方差損失的表達式為:

其中R,W,H分別表示圖像縮放系數、圖像寬度、圖像高度.這是圖像修復領域運用最廣泛的損失函數.然而實驗結果表明雖然修復結果具有較高的峰值信噪比(peak signal noise rating, PSNR)指標,但使用其進行優化往往會導致修復結果缺乏高頻細節,喪失圖像原本的真實性.因此前人在特征層面提出VGG損失為:

其中VGG/i,j中的i,j代表本文所選用的卷積層,φi,j為第i個池化層前的第j個卷積層,Wi,j和Hi,j表示VGG 網絡中特征圖的寬度與高度.這種方法得到的PSNR 較高,紋理也相對真實.

2.3.2 對抗損失函數

本文方法在訓練階段還額外添加了一個對抗損失來產生更加真實的紋理:

其中D是參數為 ω的辨別器.交替共同訓練生成器網絡F和辨別器D來求解優化問題:

其中l?1為L1損失函數, α1=1.0, α2=0.1.

2.3.3 全變分損失函數

使用2.3.2 節的損失函數能夠產生較好的修復結果,但在文物圖像破損區域仍然存在部分失真與不平滑的區域.因此,本文引入了全變分損失函數lTV[38],使修復圖像和掩膜的邊緣更加平滑.其表達式為:

其中u為支持域, β=2.0.

3 實驗結果與分析

為了討論和驗證本文提出的修復方法,并將其與已有的修復方法進行對比和分析,本節將從5 個角度進行實驗.首先,對比各方法在現實場景下的破損修復效果;然后對比各方法對大面積破損的修復效果、驗證本文方法在不同數據集上的修復效果、驗證本文方法在自然圖像上的修復效果;最后討論多元化文物圖像修復的優點.

3.1 實驗數據庫

目前文物圖像修復領域并沒有高質量的大型公開數據集,而大多數基于深度學習的方法均以數據為驅動,如果訓練集過小則會導致網絡性能不佳、修復效果不理想等問題.為解決文物圖像數據庫過小的問題,本文對中國臺北故宮博物館官網提供的5 000張分辨率為3 000×4 000 的文物圖像進行處理,最終得到的88 000 張分辨率為256×256 的文物圖像作為本次實驗的基礎數據集.具體處理過程為:首先將5 000張分辨率為3 000×4 000 的圖像進行人工篩選,剔除顏色過于單一、無關內容太多的圖像;然后通過隨機剪裁分成分辨率為256×256 的圖像;再進行一次人工篩選,最終構成包含山水畫、人物畫像、壁畫、花鳥畫4 類共計80 000 張的大型文物圖像數據集.此外,為了降低數據集原始樣本的影響,本文在訓練樣本中隨機抽取8 000 張圖像進行數據增廣,詳細的數據集劃分與增廣操作如表1 所示.

Table 1 Statistics for Using Datasets表1 使用數據集的統計信息

3.2 評價指標

在圖像修復領域,目前最常用的評估指標有峰值信噪比和結構相似性(structural similarity index measure,SSIM).近年來,為更深層次地評價修復圖像的質量,常使用學習感知圖像塊相似性[39](learned perceptual image patch similarity, LPIPS)來作為評估指標.

3.3 實驗細節

本文實驗的硬件環境為Intel?Xeon?Platinum 8255C 和2 塊Tesla V100.實驗平臺的軟件環境為Pytorch 1.8.0,CUDA 11.1.1.訓練過程中采用Adam 優化器對參數進行優化,學習率為1×10-4,1 階動量為0.5,2 階動量為0.1.

3.4 實驗對比與分析

本節在符合現實場景破損和大面積破損2 種情況下,與基于塊匹配的傳統方法代表PM[6]、結合先驗信息的深度學習方法代表Shift-Net[26]、雙階段修復模型CRF[21]和EC[23]、使用不同類型卷積的單階段深度學習方法代表PC[20]、基于Transformer 和CNN 的雙階段修復方法代表ICT[33]和EC[33]進行對比,以驗證本文方法的有效性.

3.4.1 符合現實場景破損的修復實驗

本節將對比各種方法在符合現實場景的皸裂山水畫的修復效果.結合現實中文物破損面積小、破損不規則、破損區域連續等特點,本文專門設計了大小在10%~15%且破損區域連續、大小依次遞增的5 張掩膜,表示為Ms-1~5.本節實驗均采用這5 張特定的掩膜.同時,由于山水畫更加強調結構的連貫性與紋理的細膩性,修復難度更高,因此實驗在本節與3.4.2節均在山水畫中進行對比.

圖5 展示了各方法的修復結果.由圖5(c)可見,PM 整體表現優異,但修復區域缺乏上下文的語義信息.在已知區域無法提供足夠多的先驗信息時尤為明顯.由圖5(d)(e)所示,PC 和Shift-Net 的修復結果在連貫結構的恢復上并不合理,存在重復的紋理和偽影.由圖5(f)(g)所示,EC,CRF 的修復結果較為優秀,但在某些特定掩膜下會出現嚴重的偽影.相對這些方法,本文的2 階段修復模型的圖像處理效果均比較理想,階段性的修復過程更加適用于文物圖像修復任務.圖5(h)的ICT 與本文方法的修復質量相對較高,由此可見,基于Transformer 的修復方法可以給模型提供更好的先驗信息.但ICT 未將上采樣和修復過程結合,導致其在上采樣過程中丟失的關鍵像素無法被修復,部分區域仍存在顏色失調的現象.而本文方法先使用Transformer 進行結構先驗,再結合圖像超分辨的思想,把上采樣和修復的過程結合起來,增強了網絡上采樣的能力,使網絡在上采樣的過程中能保留更多的關鍵信息.同時在聯合損失函數的約束下,文物圖像修復的質量得到極大提升,修復結果語義連貫、偽影和重復的紋理較少,取得了較好的指標和視覺效果.

圖5 不同算法對現實破損場景的修復結果對比Fig.5 Comparison of repair results of different algorithms for realistic damaged scenes

各種方法的修復指標如表2 所示,本文方法在PSNR,SSIM 上表現均為最優.相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標分別提升了13.2 個百分點、11.7 個百分點、11.9 個百分點、1.3個百分點、2.7 個百分點、0.8 個百分點;PSNR 指標分別提升了14.4 個百分點、14.5 個百分點、22.3 個百分點、9.7 個百分點、6.0 個百分點、11.5 個百分點.隨著掩膜逐漸增大,PSNR,SSIM 這2 項指標均有所下降,但本文方法相較于其他方法下降趨勢更加平穩.

Table 2 Results of Our Method and Other Methods for Repairing Real-Life Damaged Scenes表2 本文方法與其他方法針對現實破損場景修復的結果

3.4.2 針對大面積破損的修復實驗

3.4.1 節實驗中使用的是特定的掩膜.為進一步驗證本文方法對大面積破損文物修復的有效性,本節使用3 張20%~25%的隨機掩膜進行測試,表示為ML-1~3.

各種方法的修復結果如表3 所示.可以看出,PM,PC,Shift-Net 這三者的指標相較于3.4.1 節實驗中的值出現了比較明顯的下降,而基于Transformer 的2種修復方法在面對大小不同的掩膜時,指標下降的趨勢相對平穩,由此可以驗證基于Transformer 的模型的泛化性、魯棒性更好.本文方法相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標分別提升了27.8 個百分點、30.9 個百分點、30.9 個百分點、3.2 個百分點、2.0 個百分點、1.0 個百分點;PSNR 指標分別提升了21.1 個百分點、20.7 個百分點、32.6 個百分點、17.8 個百分點、15 個百分點、11.6 個百分點.由表4 左側可以看出,在破損區域較為集中時,得益于Transformer 模型提供的先驗信息和上采樣修復模型的約束,本文方法可以很好地恢復文物圖像的底色和山的輪廓,局部紋理也清晰可見,偽影較少.由表4 右側中可以看出,在破損區域較為隨機時,本文方法恢復的結構很好地把握了全局的信息,局部紋理也非常逼真.

Table 3 Results of Our Method and Other Methods for Repairing Large Areas of Damage表3 本文方法與其他方法針對大面積破損修復的結果

表3 和表4 表明本文方法對大面積破損文物的結構恢復能力突出,紋理、顏色的恢復也較為合理,具有很好的修復效果.

在實驗過程中發現,少部分指標較高的圖片卻存在修復區域模糊的現象,而符合人類視覺感知的修復結果其指標反而更低,如圖6 所示.

圖6 異常指標對比圖Fig.6 Comparison chart of abnormal indicators

本文認為利用單一損失函數約束的回歸模型在PSNR,SSIM 兩個指標上能得到提升,但其修復結果并不是人類視覺感知上最好的結果.并且損失函數的部分約束計算和PSNR,SSIM 這2 個指標計算類似,因此會影響網絡的訓練環節,導致部分文物圖像修復結果出現輕微模糊、但其圖像指標頗高的現象.為進一步驗證本文方法的有效性,本文引入更深層次衡量修復圖像質量的指標LPIPS[39].初步實驗結果證明,LPIPS 指標更符合人類的視覺感知,其值越低表示2 張圖像越相似,結果如圖7 所示.本文方法相較于基于深度學習的Shift-Net,PC,EC,CRF,ICT 這5 種方法,LPIPS 指標分別下降了41.1 個百分點、70.7 個百分點、27.1 個百分點、1.8 個百分點、17.2 個百分點.

圖7 不同掩膜的LPIPS 值對比Fig.7 Comparison of LPIPS values of different masks

綜上所述,本文方法在PSNR,SSIM,LPIPS 這3種指標上表現均優于其他具有代表性的方法.

3.4.3 數據庫中其他類型圖片的修復實驗

本節將驗證本文方法在人物畫像、壁畫、花鳥畫中的修復效果.人物畫像、壁畫、花鳥畫繪畫技法都以線為主勾勒表現繪畫對象,對整體結構的連貫性要求比較小,顏色的層次更少,紋理相較于山水畫更簡單.因此本節實驗中分別使用數據集中的人物畫像、壁畫、花鳥畫進行訓練,實驗細節與3.4.1 節、3.4.2 節完全一致.表5 中,對于花卉修復結果,無論掩膜區域相對集中還是隨機,本文方法都能恢復出連貫的結構和合理的顏色;人物畫像修復結果主要結構相對集中,在主體結構缺失的情況下,本文方法恢復的結果語義相對連貫,輪廓、細節都能得到很好的恢復;壁畫的結構相對簡單,顏色相對單一,本文方法恢復的結果偽跡較少,具有良好的視覺效果;但由于根據類別劃分的數據集樣本較少,以及Transformer 多元化輸出的特點,本文方法在修復大面積破損圖像時會出現輕微失真的情況.對于此現象帶來的優缺點,本文將在3.6 節中對多元化修復作進一步闡述.

以上結果表明在對不同類別文物圖像的修復中,本文方法在主觀和客觀指標上都具有較好的修復效果.

3.5 常規圖像修復

由于目前大多數基于深度學習的圖像修復方法針對的都是常規圖像,因此本文也驗證了所提方法對自然圖像的修復效果.由表6 可見,針對缺失面積較大的圖像,本文方法恢復的圖像結構連貫,與原圖相對一致,輪廓清晰,局部紋理逼真.針對缺失面積較小的圖像,本文方法恢復的圖像結構連貫且符合上下文語義信息.

Table 6 Conventional Image Restoration Renderings表6 常規圖像修復效果圖

3.6 多元化修復

文物修復往往需要將修復人員的主觀認知和原始參照物結合起來.但在實際的文物修復任務中,存在無對照樣本的情況,導致修復結果無法驗證合理性.針對此問題,本文方法通過多頭注意力機制實現多樣化輸出.多元化的修復結果如表7、表8 所示.值得注意的是,本文方法雖然在進行大面積修復時偶爾會出現輕微失真、模糊的情況,但可以為專家提供多種修復參考,為后序修復提供決策依據,在降低文物修復的主觀性、隨機性的同時加強修復的準確性,極大地提升了文物修復效率.

3.7 階段性子網絡分析實驗

本節通過討論2 階段網絡的修復結果,分析論證各階段子網在文物修復任務中的不同作用.在實際修復任務中,文物圖像常常會因老化而產生破洞、裂痕等問題,使圖像整體結構受到破壞,如圖8 所示.第1 階段利用Transformer 對破損文物圖像進行整體結構先驗信息修復的結果如圖8(b)所示;第2 階段利用多重殘差卷積網絡對第1 階段輸出圖像進行紋理修復的結果如圖8(d)所示.

圖8 各階段文物修復效果Fig.8 Effect of the various stages of cultural relics restoration

本文方法從文物圖像的特性出發,在修復過程中充分考慮了圖像的整體結構與局部紋理.如果在文物圖像修復任務中僅僅使用第1 階段的子網絡,雖然可以生成連貫且符合語義的整體結構,但為減少計算量的降維操作往往會導致修復結果較為模糊、缺乏相應的細節語義信息,如圖8(b)所示;如果在文物圖像修復任務中僅僅使用第2 階段的子網絡,雖然可以生成有效的局部紋理,但修復的圖像會缺乏正確的上下文語義信息,如圖8(d)所示.

綜合上述對階段性子網絡的分析表明,本文方法只有在2 階段網絡共同作用下才能實現最優修復效果.

4 總 結

在文物圖像補全領域,長期存在著既要實現足夠的多樣性又要求修復效果逼真的困境.本文針對文物圖像修復任務提出了一種基于Transformer 的修復方法,該方法將Transformer 和CNN 的優點結合;利用Transformer 的全局結構理解能力和多元化輸出以及CNN 較強的局部感知能力,本文方法實現了對文物圖像的高質量修復.同時,本文提出了一個新的高質量文物數據庫,解決了國內外缺乏相關數據庫的問題.大量實驗表明,本文方法在主客觀效果上均優于現有方法,并實現了多元化輸出,提升了文物修復效率.本文方法仍有需要深入研究與改進的方面,如圖8 的修復結果在原始缺損區域附近產生模糊等問題.此外,本文設計的2 階段網絡能夠生成多元化的結果,最大程度地為文物修復提供指導與參考,但在修復大面積破損圖像時也會產生與原始圖像不一致的結果.最后,由于評估指標的缺陷,實驗中會出現高指標、低主觀感知質量和低指標、高主觀感知質量的修復結果,對網絡訓練的非線性回歸產生影響.后續工作考慮在第2 階段子網絡設計方面對圖像進行多尺度特征融合與去噪[25];探索更能反映文物圖像修復質量的評價指標,加強對網絡的約束并提升文物圖像修復質量.也可借助門控卷積[40]網絡的設計思想對第2 階段進行改進,使其更能適應缺損面積較大的文物圖像修復任務.還可以進一步提高文物圖像數據集的數量與質量,將各類文物圖像進行更加細致地劃分,以適應更加復雜的修復場景;更新專項訓練策略,提高修復結果的分辨率和觀賞價值.

作者貢獻聲明:王真言負責部分實驗開發任務、數據整理分析并提供論文修改意見;蔣勝丞完成部分實驗開發任務、數據集的創建并撰寫論文;宋齊鴻提供論文修改意見;劉波、畢秀麗和肖斌提供實驗開發思路,給予工作支持和指導意見.

猜你喜歡
紋理文物損失
文物的棲息之地
胖胖損失了多少元
基于BM3D的復雜紋理區域圖像去噪
文物的逝去
文物超有料
使用紋理疊加添加藝術畫特效
玉米抽穗前倒伏怎么辦?怎么減少損失?
TEXTURE ON TEXTURE質地上的紋理
消除凹凸紋理有妙招!
一般自由碰撞的最大動能損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合