?

基于多光譜數據和融合像素差卷積的壁畫線稿提取

2024-03-05 08:15張換換王慧琴王可王展甄剛賀章
液晶與顯示 2024年2期
關鍵詞:壁畫尺度邊緣

張換換, 王慧琴*, 王可, 王展, 甄剛, 賀章

(1.西安建筑科技大學 信息與控制工程學院, 陜西 西安 710055;2.陜西省文物保護研究院, 陜西 西安 710075;3.陜西省考古研究院, 陜西 西安 710054)

1 引言

壁畫作為我國最古老的繪畫藝術形式之一,存世數量巨大、色彩瑰麗、內容豐富,具有極高的藝術和研究價值,是中國文化遺產的重要組成部分。這些珍貴的壁畫在數千年時間里受到了人類和自然的嚴重破壞,需要得到及時的保護和修復。壁畫的線稿決定了其主要結構以及內容,是保護和修復的關鍵環節。

傳統的壁畫線稿提取方法多為手工繪制,效率較低,只能繪制肉眼所看到的壁畫信息,無法獲取可見光之外的隱藏信息。光譜成像技術可以得到更為寬廣光譜范圍的圖像,從而獲得更加豐富的信息[1]?,F階段基于光譜數據提取線稿的方法大都將光譜反射率相近的像素聚類從而分出屬于線稿顏色的邊緣,最常用的有光譜角分類[2]和支持向量機分類[3]。這類方法需要選擇純凈像元作為參考與光譜庫光譜曲線進行對比,對人工干預的依賴度較高。針對壁畫數字化保護問題,需要探索研究一種更加高效且準確的數字化壁畫線稿自動提取技術。

壁畫圖像線稿的提取可以作為圖像邊緣檢測問題進行處理。目前基于邊緣檢測的線稿提取主要分為傳統邊緣檢測方法和基于深度學習的方法。傳統的邊緣檢測基于圖像梯度,通過方向導數掩碼(梯度方向導數)求卷積得到圖像的邊緣,如Sobel算子[4]、Prewitt算子[5]和目前最常用的Canny算子[6]。由于只基于梯度計算,易受噪聲影響,其淺層結構不太明顯,會丟失梯度不明顯的線條,導致提取出的邊緣不連貫。Kang等人[7]提出了一種基于流的高斯差分(Flow-based Difference of Gaussians, FDoG)濾波框架構建邊緣正切流,提高了線條的連續性和平滑程度,但是容易受噪聲影響。由于大多數古代壁畫經過人為和自然等因素的破壞,導致壁畫圖像存在大量的噪聲。使用現有的邊緣檢測算法大多對壁畫的線條進行視覺上的增強,如果忽略圖像本身的噪聲,很難從壁畫中提取出線稿草圖。

近年來,深度學習在邊緣提取方面逐漸顯示出優勢,可以從原始像素點到抽象的語義概念逐層提取信息,目前基于學習的邊緣檢測方法如RCF[8]、BDCN[9]、DexiNed[10]等都有出色的邊緣提取性能。Su等人[11]提出了一種用于高效輪廓檢測的像素差網絡(PiDiNet),將經典的輪廓檢測算子引入深度神經網絡,邊緣檢測的效果較好。但將深度學習技術應用于壁畫線稿提取也面臨著巨大的挑戰,目前邊緣檢測模型的訓練和評估都是基于公開的自然圖像數據集進行,沒有可以用于進行壁畫邊緣檢測的公開數據集。

壁畫本身的病害及殘損情況使壁畫線稿的提取難度加大。本文提出了一種基于像素卷積平衡的壁畫多光譜圖像線稿提取方法,對壁畫多光譜數據進行最小分離噪聲變換選取最優波段,根據壁畫線稿的梯度方向分布,采用像素差卷積提取感興趣區域的邊緣特征。在側輸出層引入尺度增強模塊(Scale Enhancement Module,SEM)利用膨脹卷積生成多尺度特征。設計損失函數解決CNN提取出的線稿邊緣模糊以及存在大量陰影的問題,獲取線稿清晰邊界。使用訓練后的模型可以提取出較為完整且清晰的壁畫線稿。

2 相關原理及方法

2.1 最優主成分波段選擇

由于多光譜壁畫數據量大,波段數目多且波段之間相關性高,存在數據冗余的問題,因此將最小噪聲分離變換(MNF)應用到提取壁畫特征信息中,去除噪聲以及對數據進行降維。MNF本質上是兩次主成分變換。第一次變換用于分離和重新調節壁畫數據中的噪聲,并去除各個波段之間的相關性;第二次變換通過各波段的特征值判斷壁畫數據內在維數。通過兩次變換將壁畫數據中有效信息與噪聲分離,并按照信噪比形成新的波段排列。在MNF變換后輸出的波段中,壁畫數據的主要信息都集中在特征值大的波段,后面特征值小的波段主要以噪聲為主,因此選擇特征值大且圖像清晰的波段作為最優主成分波段進行線稿提取。

2.2 網絡總體模型

線稿提取的網絡結構如圖1所示,整體框架由主干網絡和側輸出層組成。主干網絡分為4個階段進行壁畫圖片特征提取,每個階段由像素差卷積塊(PDC)和最大池化層組成,直接將梯度信息提取的過程集成到卷積運算中,捕獲有利于邊緣檢測的圖像梯度信息,從豐富的壁畫數據中提取感興趣的特征圖學習。側輸出層是在每組卷積層結束時連接一個尺度增強模塊(SEM),使用膨脹卷積增加網絡神經元的感受野,更好地捕捉輸入特征圖的局部信息,進一步豐富多尺度特征。然后經過1×1卷積層進一步將特征體積縮減為單個通道映射,將其插值到原始大小,再使用Sigmoid函數創建邊緣映射,最終預測的邊緣圖融合了4個階段的單通道特征圖與拼接層、卷積層和Sigmoid函數創建。該網絡的輸入和輸出分別是壁畫最優主成分波段圖像和相應的線稿。

圖1 本文算法網絡結構圖Fig.1 Architecture of the proposed network

2.3 基于梯度知識的像素差卷積

在深度學習中,使用卷積運算提取特征來降低圖像的維數,將卷積核的權值與對應區域的圖像矩陣中的像素值進行點乘累加,即:

式中:xi是輸入像素,wi是k×k卷積核中的權重。卷積運算的本質是提取圖像的強度信息[12-13],在運算過程中根據損失函數的梯度下降來更新卷積核的權值,從圖像中獲得部分梯度信息,但是梯度信息所占的比例太小,無法提取到較完整的邊緣結果。傳統的圖像濾波算子在對圖像域進行運算時,由于算子是固定的,相當于對圖像域內的像素值進行差分運算,因此可以很好地提取圖像的重要梯度信息。所以,卷積方法定義為差分卷積,在卷積運算中,將卷積核覆蓋的圖像域中的像素替換為像素差,如式(2)所示:

式中:xi和x'i是當前局部patch中的像素,wi是k×k卷積核中的權重。是從圖像中選取的像素對集合,m≤k×k。

壁畫輪廓的梯度在各個方向上分布,所以像素差卷積(Pixel Difference Convolution ,PDC)的差速方向為各個方向。為了獲取豐富的壁畫梯度信息,每個像素差卷積塊采用3個殘差塊構成,從而避免退化以及通道數的增加。殘差塊內部使用可分離的深度卷積結構[14-15]進行輕量化,每個深度可分離卷積依次采用中心PDC(CPDC)、角PDC(APDC)和徑向PDC(RPDC)這3種方向上的差分卷積。如圖2所示,APDC是對鄰域特征進行順時針方向的兩兩差分;CPDC是對鄰域特征進行中心差分;RPDC是對更大感受野鄰域的外環和內環進行差分。差分卷積在保留了壁畫圖像強度信息的同時獲得了更明顯的梯度信息,使提取到的壁畫紋理信息更加明顯。

圖2 3種不同策略的差分卷積實例Fig.2 Instance of differential convolution with three different strategies

差分卷積提取線稿特征圖的過程由圖1(b)所示,首先將差分運算生成的梯度矩陣M與大小相同的權核w進行卷積,從豐富的壁畫數據中提取感興趣的特征圖學習。

然后對yPDC1的結果進行ReLU激活函數和1×1卷積運算,對線性單元進行校正。

式中,wij和bij是常規卷積運算在第i~j層的權重和偏差。

最后,采用剩余學習策略創建快捷連接,實現快速推理和易于訓練。

式中:X表示整個輸入圖像,yPDC2是X經過像素差卷積后的殘差結果,yPDC表示RPDC層的最終輸出。

2.4 尺度增強模塊

不同的卷積層描述不同的尺度。為了在網絡中實現不同尺度的邊緣檢測,使用尺度增強模塊(Scale Enhancement Module,SEM)增強每個卷積層中學習的多尺度表示。在每組PDC層結束時的側輸出層插入尺度增強模塊,其網絡架構如圖1(c)所示。該模塊由多個并行的不同膨脹率的卷積組成。使用膨脹卷積在不降低特征圖分辨率或增加參數的情況下,擴大了神經元的感受野,通過融合具有不同膨脹率的空洞卷積層的結果來豐富圖像的多尺度特征。尺度增強模塊不同于特征金字塔提取多尺度特征,避免了更深層次的網絡以及重復的特征融合。

在SEM模塊中,給定一個卷積濾波器w∈Rh×w的二維輸入特征圖為x∈RH×W,在(i,j)上特征圖的膨脹卷積輸出y∈RH'×W'可以表示為:

其中,r為膨脹率,表示輸出特征圖的步長。對于每個SEM,應用K個不同擴張速率的擴張卷積。對于第k個膨脹卷積,將其膨脹率設為rk=max(1,r0×k) 。

2.5 基于圖像相似度的損失函數

線稿圖像的生成是一個像素級分類任務(圖像中所有的像素分類為邊緣像素和非邊緣像素)。目前解決二元分類問題常用到交叉熵損失。由于圖像的邊緣和非邊緣像素在數量方面非常不平衡,因此直接使用交叉熵損失函數將無法訓練網絡?,F階段較好的基于深度學習的邊緣檢測方法中基本都采用加權交叉熵損失策略[16],即在邊緣和非邊緣像素上設置權重來平衡交叉熵損失,在加權交叉熵中加入了閾值η。若某個像素為邊緣像素的概率小于閾值η,則認為這個像素為非邊緣像素,否則為邊緣像素:

但是加權交叉熵通常會不可避免地將邊緣附近的像素錯誤分類,忽略了像素級別不平衡的問題,導致提取出來的線稿不理想,出現假邊(假陽性像素)、缺少真邊(假陰性像素)以及在紋理區域中形成暗陰影。受Dice系數[17]可以解決類別不平衡[18]問題的啟發,在線稿提取模型中引入Dice系數。Dice系數(公式(9))是兩個集合之間重疊的度量,范圍在0~1之間。如果兩個集合P和G完全重疊,則DSC將其最大值設置為1;如果兩個集合根本不重疊,則將其最小值變為0。

因此,使用1-Dice系數作為Dice損失(公式(10))以最大化兩組之間的重疊,其中pi和gi分別表示預測和標簽的相應像素值。在線稿提取的場景中,標簽邊緣像素和預測邊緣像素可以視為兩組。通過Dice損失,兩組像素值被訓練得逐漸重疊,其中分母為全局尺度的邊緣像素總數,分子為局部尺度上兩個集合之間的重疊。

本文提出一種基于圖像相似度的損失函數組合的策略,將Dice損失和加權交叉熵損失相結合。加權交叉熵損失是每個對應的像素對之間預測與標簽的距離之和,集中于像素級間的差異。Dice損失可以被認為是圖像級的,關注兩組圖像像素的相似性,使兩組像素值在訓練數據上的距離最小化。因此,組合損失能夠逐級地最小化從圖像級到像素級的距離,獲得較為清晰的圖像邊緣。最終的損失函數定義為交叉熵損失函數和Dice損失函數的組合:

3 實驗結果與分析

3.1 數據集

本文使用公開數據集BIPED和標定的壁畫數據集測試所提模型的可用性和有效性。其中,BIPED數據集包含250對自然圖像和邊緣標簽,標定的壁畫數據集包含50對不同場景的高清彩繪壁畫。為了避免模型訓練過程中出現過擬合現象,通過裁剪、旋轉、平移、縮放等策略增加兩組數據集中的數據量。

訓練階段分為兩部分,首先使用BIPED數據集對模型進行預訓練,然后利用標定的壁畫數據集對模型進行微調。這樣不僅可以利用自然圖像中形狀、紋理等低級特征,也解決了壁畫數據集稀缺的問題。另外,采集到5組天津獨樂寺壁畫不同場景的光譜圖像來進行模型的評價。

3.2 實驗設置

本文所有實驗均在NVIDIA GTX 3090 GPU上進行。采用Pytorch實現網絡模型的訓練,訓練階段輸入的圖像尺寸為512 pixel×512 pixel。選擇Adam優化器,具體參數如下:初始學習率為0.005,以多步方式衰減(在epoch8和12,衰減率為0.1)。在預訓練階段,模型經過30次迭代收斂;在微調階段,模型經過20次迭代收斂。

3.3 實驗結果分析

將提出的壁畫線稿提取模型與目前較好的邊緣檢測方法FDoG[7]、RCF[8]、DexiNed[10]、PiDiNet[11]進行對比,同時采用結構相似指數(SSIM)、均方根誤差(RMSE)、峰值信噪比(PSNR)對不同方法提取的線稿進行評價。此外,對基于光譜信息提取線稿的方法SVM[2]、SAM[3]和CNN也進行了實驗對比。

3.3.1 評估指標

針對壁畫線稿的提取結果,結合圖像質量評價指標:均方根誤差(RMSE)[19]、結構相似性[19](SSIM)和峰值信噪比(PSNR)[19]進行評價。

(1)結構相似性

SSIM是一種符合人眼視覺特性的圖像客觀評價指標,主要從亮度、對比度和結構3方面衡量兩幅圖像的相似度,如式(12)所示:

其中:x表示標定圖像,y表示預測的線稿圖像,σx和σy為對應圖像的方差,σxy為協方差。SSIM取值范圍為[0,1],其值越大表示線稿提取的效果越好。

(2)均方根誤差

RMSE是衡量預測的線稿圖像Yi與標定的線稿f(xi)之間的偏差,通常情況下較低的均方根誤差優于較高的均方根誤差,如式(13)所示:

(3)峰值信噪比

PSNR用來衡量處理后圖像噪聲情況與失真程度的客觀準則。其值越大,表示預測的線稿相對于原圖像噪聲越小、質量越高。具體表達式如式(14)所示:

式中,n為決定圖像灰度級的像素比特數,其值一般取8,即灰度級為256。MSE的表達式如式(15)所示:

式中:H、W分別代表圖像的高和寬,x(i,j)代表圖像像素點所在位置的坐標。

3.3.2 與現有的圖像邊緣檢測方法對比

本文所提方法與上述幾種算法的壁畫線稿提取結果如圖3所示。FDoG算法無法有效抑制噪聲的干擾,如圖3(b)所示,提取的線稿中存在大量的噪點且線條連續性較差;基于深度學習的RCF對噪聲抑制力較強,提取的線稿連續但邊緣模糊,同時壁畫中細小的特征則完全丟失,如圖3(c)所示;DexiNed提取的線稿相對完整,但對噪聲抑制能力較差,如圖3(d3)所示,在壁畫背景有一定的損壞情況下,該方法在提取線稿的同時也提取出了壁畫的損壞部位;PiDiNet提取出的線條連續性較好,對噪聲的魯棒性較好,但線條都有一定程度的缺失且提取的圖案邊緣存在大量的模糊,如圖3(e)所示;而本文方法提取出來的線條具有較好的連續性且信息比較完整,同時獲得了較為清晰的邊緣,如圖3(f)所示。實驗結果證明,本文方法提取的線稿結果明顯優于其他幾種方法。

圖3 壁畫光譜圖像線稿提取方法對比Fig.3 Comparison of sketch extraction methods for mural spectral images

為了驗證模型的有效性,采用SSIM和RMSE指標來定量評價壁畫線稿提取效果,結果如表1所示,其中粗體表示最佳結果。從指標上看,本文方法在SSIM和RMSE方面均優于文獻[7-8]、[10-11]中的方法,SSIM和RMSE指標分別提高了2%~22%、2%~16%,與PiDiNet方法相比提高了2%~10%、2%~4%。實驗表明,該模型提取出來的線稿結構完整性較好。從評價指標的結果來看,基于深度學習的方法優于某些傳統方法,本文所提方法優于其他基于深度學習的線稿提取算法,在一定程度上證明了所提方法在提取壁畫線稿上的可行性。

表1 與其他方法的定量比較Tab.1 Quantitative comparison with other methods

3.3.3 關于改進有效性的討論

本文通過實驗來驗證線稿提取模型各模塊的有效性。本文主要提出采用像素差卷積(PDC)、尺度增強模塊(SEM)以及組合損失函數獲取清晰完整的線稿圖像。為了驗證各模塊的有效性,在壁畫數據集上對模型進行了消融實驗,采用數據集的最佳數據集尺度(ODS)和最佳圖像尺度(OIS)作為模型的指標。定量結果見表2,可視化結果見圖4。在消融實驗中,PDC層被標準卷積層取代,組合損失函數被加權交叉熵函數代替。

表2 本文方法在不同模塊下的ODS和OIS比較Tab.2 Comparison of ODS and OIS for the methods in this paper under different modules

圖4 消融實驗的可視化結果Fig.4 Visualization results of the ablation experiment

從表2可以看出,在原始模型中加入PDC、SEM模塊以及組合損失函數,模型的ODS和OIS分別提高了0.027和0.02。圖4(a)是去除PDC層后提取出的壁畫線稿,其ODS和OIS分別下降了0.012和0.014,線條連續清晰但大量細節丟失,壁畫上的山體以及浪花花紋并未完整提取出來。實驗證明PDC層與普通卷積層相比,可以更好地捕捉圖像中的梯度信息,有利于邊緣檢測。圖4(b)是去除SEM模塊后提取出的壁畫線稿,線條清晰但是丟失小部分細節,其ODS和OIS分別下降了0.011和0.01。圖4(c)是未使用組合損失函數策略提取出的壁畫線稿,線稿基本完整,其ODS和OIS分別下降了0.002和0.007,驗證了PDC層和SEM模塊的有效性,但提取出的線條仍存在線條不清晰及紋理區域形成陰影的情況,證明提出的損失函數策略可以生成清晰的線條。

3.3.4 與基于光譜信息提取線稿的方法對比

以上對比方法僅使用壁畫多光譜數據的最優主成分波段,多光譜圖像系統采集的反射率光譜未得到充分利用。目前最常用的基于光譜信息提取線稿的方法是將光譜反射率相近的像素聚類,將整個壁畫分成代表不同光譜反射率的區域,以線稿顏料為主的像素會聚集在一起從而提取出線稿區域。為了驗證本文所提線稿提取方法的效果,與目前常見的3種方法:基于光譜角分類[2]、基于向量機分類[3]和基于CNN的線稿顏料分類進行對比,對比結果如圖5所示。采用峰值信噪比法(PSNR)和結構相似性(SSIM)對結果進行分析,定量結果如表3所示。

表3 基于光譜信息提取線稿的定量結果對比Tab.3 Comparison of ODS and OIS for the methods in this paper under different modules

表4 在BIPED數據集中不同算法的定量結果對比Tab.4 Comparison of quantitative results of different algorithms in the BIPED dataset

圖5 壁畫線稿提取對比實驗Fig.5 Comparison experiment of Mural sketch extraction

圖5(b)是采用光譜角分類提取的壁畫線稿,可看出屬于線稿的黑色顏料部分被提取出,并且衣裙上顏料也被誤當成線稿顏料,導致提取出的線稿信息不完整。這主要是這類方法需要選擇純凈像元,像素值的光譜曲線越接近線稿光譜曲線的值,該像素點越會被分為線稿。由于線稿上的純凈像元較少同時部分顏料色彩相近,沒有辦法完全將線條剝離出來從而導致線稿的錯誤提取。圖5(c)使用SVM來提取壁畫線稿,提取出的線稿噪聲較小,但包含了較多不屬于線稿本身的錯誤信息。圖5(d)采用CNN方法對線稿顏料進行分類,提取出的線稿相比于SAM較為完整但是也沒有將線稿完全剝離出來。由表3定量結果可見,本文方法的PSNR和SSIM均優于其他3種方法,這也在一定程度上表明,依靠像素聚類分離的方法雖然充分利用了光譜信息,但是由于壁畫表面成分復雜且顏料變質等原因,難以得到純凈的端元,分離出真正的線稿成分。

3.4 BIPED數據集測試

為了驗證所提模型的性能,本文在BIPED公開數據集上進行模型訓練與驗證。

本文所提模型與其他算法相比的定量結果如表2所示??梢钥闯?,本模型的ODS值為0.839,相較PiDiNet提高0.005;OIS值為0.857,較PiDiNet提高0.007。與PiDiNet輸出的邊緣圖像對比結果如圖6所示??梢钥闯?,PiDiNet提取出的邊緣圖像部分線條模糊。本文所提方法提取出的邊緣清晰且部分細節突出,較好地解決了邊緣陰影模糊的問題。

圖6 PiDiNet與所提方法結果對比Fig.6 Comparison of the results of PiDiNet and the proposed method

4 結論

本文研究了現有針對光譜壁畫數據進行線稿提取的方法,分析了壁畫線稿提取的難點,并提出一種基于多光譜成像與深度學習結合的壁畫線稿提取方法。為了提取清晰的壁畫線稿以及感興趣邊緣特征,將像素差卷積引入模型中,加入SEM模塊豐富多尺度特征,同時在損失函數中引入Dice系數解決非邊緣像素點的錯誤分類問題從而提取出清晰的線稿。與對比實驗方法相比,本文所提方法針對有損壞的多光譜成像壁畫提取出的線稿圖像SSIM和RMSE分別提高2%~10%、2%~4%,可以提取出較為完整且清晰的線稿圖像。在BIPED數據集中對模型進行了驗證,其ODS和OIS較PiDiNet分別提高0.005和0.007。

猜你喜歡
壁畫尺度邊緣
敦煌壁畫中的消暑妙招
財產的五大尺度和五重應對
壁畫上的數學
北朝、隋唐壁畫
一張圖看懂邊緣計算
幫壁畫“治病”
宇宙的尺度
9
室外雕塑的尺度
在邊緣尋找自我
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合