?

深度學習漢字生成與字體風格遷移綜述

2022-12-21 03:23王晨吳國華姚曄任一支王秋華袁理鋒
中國圖象圖形學報 2022年12期
關鍵詞:印刷體風格特征字體

王晨,吳國華,姚曄,任一支,王秋華,袁理鋒

杭州電子科技大學網絡空間安全學院, 杭州 310018

0 引 言

漢字作為一種信息交流工具,在人們工作生活中發揮著不可替代的作用。與大多數語言不同,中文漢字字符的數量遠多于英文、法文、德文等語言的字符數量。多樣的中文漢字字符增加了所傳達信息和情感的豐富程度。目前最低標準的漢字編碼字符集GB2312-80國標碼選入了6 763個漢字。漢字結構復雜多變,筆畫(stroke)是漢字的基本單位,每個漢字由一個或多個筆畫構成的偏旁部首(radical)按照一定的拼字法,在2維矩形空間中排列組合而成。字體設計工作一般借助字體設計軟件,對人工設計的偏旁部首等基本組件變形和組合構造完整的漢字。由于漢字具有數量龐大和風格多樣的特性,字體設計是一項耗時耗力的工作。因此,如何處理并更高效地設計一套風格化漢字,成為漢字字體制作工作中急需解決的任務。

漢字字體風格遷移是對漢字字體進行轉換的技術,即在漢字字符代表的語義內容不變的前提下,對漢字的字形做相應改變。Ma等人(2019)從基于計算機圖形學和基于深度學習兩個方面對漢字字體風格遷移技術進行綜述。將漢字字體風格遷移分為基于傳統方法的漢字字體風格遷移和基于深度學習的漢字字體風格遷移兩大類。其中,基于深度學習的漢字字體風格遷移技術是當前該領域的主要研究方向。按照是否需要對漢字的筆畫進行拆分和組合,可以將基于深度學習的漢字字體風格遷移技術分為筆畫生成和漢字生成兩類。筆畫生成技術主要利用生成對抗網絡(generative adversarial network,GAN)和循環神經網絡(recurrent neural network,RNN)生成所需的目標風格筆畫,通過預定義好的一套規則組合筆畫,進而形成一個完整的漢字。漢字生成技術則是利用卷積神經網絡(convolutional neural network,CNN)、自編碼器(auto-encoder,AE)和GAN設計漢字生成網絡,提取并學習漢字圖像的特征,然后生成一個完整的漢字。

對于漢字圖像來講,基于深度學習的漢字生成技術借鑒圖像風格遷移思想,將風格遷移表現在漢字筆畫的變化上。因此,漢字圖像的風格遷移本質是對漢字的字體風格進行轉換,生成目標風格的漢字圖像。從漢字圖像的角度對字體風格進行轉換與對筆畫的局部風格化不同。一方面,將漢字看做一個整體,省略掉人工拆分偏旁部首的預處理工作,漢字生成網絡可以更全面地獲取字體風格特征;另一方面,從漢字的組成成分來看,漢字由語義內容和字體風格兩部分組成。語義內容是漢字字符所表征的含義,具體指詞性、釋義等。字體風格是漢字筆畫的一種印刷或個人風格表示,表現在漢字骨架結構和筆畫的變化上,如部首間距、筆畫傾斜程度、書寫力度、筆畫開始和結束形狀等。對漢字圖像的風格遷移可以很好地做到漢字語義與風格的區分,更符合對漢字進行字體屬性轉換的目標。

基于深度學習的漢字生成與字體風格遷移技術是漢字字體風格遷移領域中一個熱門研究方向。近年來越來越多的學者在該領域開展研究工作,并且提出了若干種方法。本文對當前基于深度學習的漢字生成與字體風格遷移方法進行綜述。首先根據不同的網絡結構將現有方法分為3大類,即基于CNN、GAN和AE的方法,如圖1所示,分別介紹代表性的漢字生成與字體風格遷移方法;然后對這些漢字圖像字體風格遷移方法進行對比分析,并展示部分生成的漢字圖像;最后對本領域的研究進行總結和展望。

圖1 基于深度學習的漢字生成與字體風格遷移方法分類Fig.1 Chinese characters generation and font transfer methods based on deep learning

1 現有方法介紹

1.1 基于CNN的方法

CNN具有自動提取圖像高維特征的能力,在圖像分類、目標識別和風格遷移等任務中表現出色。CNN在不改變數據維度的同時提取圖像特征,避免了維度重構過程中的信息丟失。

Gatys等人(2016)首次提出一種基于深度神經網絡的圖像風格遷移方法,使用VGG-19(Visual Geometry Group-19)網絡提取圖像不同層的特征,引入深層卷積層特征和卷積層之間的相關性分別作為圖像的內容和風格約束,將普通圖像的內容與藝術圖像的風格相結合,生成一幅新的藝術圖像。

針對漢字圖像的字體風格遷移,Tian(2017)設計了由多個包含批量歸一化、激活函數和最大池化的卷積層構成的字體風格遷移網絡Rewrite。采用L1像素級損失和總變差損失(total variation loss)作為目標優化函數,但生成的漢字圖像整體美觀性欠佳。對于筆畫較細的印刷體漢字,容易出現筆畫模糊的現象;對于筆畫較粗的印刷體漢字,由于多層卷積丟失了筆畫細節信息,因此往往導致生成的漢字筆畫扭曲。

Perarnau等人(2016)提出了實現人臉細節(頭發、表情和性別等屬性)變換的IcGAN(invertible conditional GAN)。借鑒此網絡模型,Chang和Zhang(2017)改進了Rewrite的網絡結構并提出Rewrite2。雖然生成的漢字圖像受一定的噪聲干擾,但改進后的方法提高了漢字圖像的可識別性。

Yu和D-miracleAce(2018)將漢字圖像應用于Gatys等人(2016)設計的圖像生成網絡,嘗試生成融合指定非漢字圖像風格的漢字圖像。但是,該方法僅在漢字圖像的背景和漢字筆畫的紋理上體現了非漢字圖像的風格,并沒有實現真正意義上的漢字字體風格轉換。

1.2 基于AE的方法

AE是圖像生成任務中經典的深度學習模型(史丹青,2018),利用深度神經網絡對數據的多層抽象能力,學習真實樣本的數據分布特征,并生成逼真的偽樣本。

針對自然場景圖像下的文字編輯問題,Wu等人(2019)設計了文本風格保持網絡SRNet(style retention network),構成該網絡的文本轉換、背景修復和文本背景融合模塊均采用AE結構框架,在保持文本圖像原有風格的同時,替換其中的文字內容,達到與原文本圖像風格一致的可視化效果。

肖奮溪(2018)將獨熱編碼(one-hot encoding)的標簽引入U-Net(Ronneberger 等,2015)結構控制字體類別,采用平均絕對值誤差損失,增強生成圖像的銳度和清晰度,實現一對多的漢字字體風格遷移。針對標簽控制字體風格特征的局限性,設計了人為控制字體風格和語義內容特征的遷移網絡。

Kingma和Welling(2014)利用變分自編碼器(variational auto-encoder, VAE)提取字體風格特征,并與作為語義內容特征的字體類別標簽融合。通過對編碼器進行分布約束,為小樣本的風格遷移提供了可能,但生成的漢字圖像不如自編碼器結構生成的清晰。

Sun等人(2018b)在VAE框架下設計了字體風格遷移網絡SA-VAE(style-aware variational auto-encoder),根據漢字的結構和偏旁部首等信息,定義了一套字符編碼規則,每個漢字可被編碼為一個133 bit的二進制字符串,為漢字內容提取網絡補充結構細節信息。漢字風格提取網絡的輸入是一組相同風格不同內容的參考漢字集。將提取的內容特征和風格特征進行融合,生成目標字體漢字圖像。該方法適用于印刷體—印刷體和印刷體—手寫體的字體風格轉換任務。

利用文本圖像風格和內容之間的條件依賴性,Zhang等人(2018,2020b)采用提取和組合漢字風格及內容特征的思想,設計了漢字字體遷移網絡EMD(encoder mixer decoder)。該方法從數量有限的風格圖像集(相同風格不同內容)和內容圖像集(相同內容不同風格)中分別提取圖像集共有的字體風格和語義內容特征。然后,通過雙線性函數的混合器融合這兩類特征,并送入解碼器生成指定字體風格和內容的漢字圖像。該方法依賴特定數量的圖像集實現字體風格的轉換,無需收集大量的源—目標字體漢字圖像對。

為了更有效提取文本風格和內容特征,Zhu等人(2020)設計內容編碼器對目標文本圖像去風格化后的內容圖像進行編碼獲得內容特征,然后將去風格化后的源字體和目標字體的內容圖像分別送入風格編碼器提取風格特征,提取的特征之間的距離構成相似性矩陣(similarity matrix,SM),源字體文本圖像經過風格編碼器和矩陣運算得到最終的風格特征,并與內容特征一起送入解碼器。該方法適用于英文字母和少量漢字的生成,對于數量龐大、風格復雜的漢字,生成效果還有待提高。

1.3 基于GAN的方法

GAN的核心思想來源于博弈論的納什均衡,體現在生成器和判別器的不斷優化過程中(Goodfellow 等,2014)。生成器的任務是學習真實的數據分布,生成偽造的圖像誘導判別器做出錯誤決定;判別器則是盡量正確地判別輸入數據是真實數據還是來自生成器。通過雙方的博弈對抗,判別器最終難以區分真實圖像與生成器生成的偽造圖像。

GAN提出后,在漢字字體風格遷移領域研究中掀起了熱潮。按照生成器學習漢字字體風格特征的方式,基于GAN的方法分為自學習漢字風格特征、外部輸入漢字風格特征和網絡提取漢字風格特征 3類,如圖2所示。

圖2 基于GAN的漢字字體風格遷移方法分類Fig.2 Chinese characters font transfer methods based on GAN ((a) self-learning font style features;(b) external font style features;(c) extractive font style features)

1.3.1 自學習漢字風格特征的字體風格遷移方法

Isola等人(2017)設計了基于條件生成式對抗網絡(conditional generative adversarial nets, CGAN)(Mirza和Osindero,2014)的圖像風格遷移網絡pix2pix,可以實現如草圖—實物圖、灰度圖—彩色圖等成對圖像數據集的風格轉換,生成器的編碼器和解碼器采用U-Net結構的跨層連接(skip connection)方式,將各層編碼后的特征連接到解碼器對應層的特征上。pix2pix采用L1像素級損失和對抗性損失作為目標優化函數,生成的圖像清晰,較出色地完成了圖像風格遷移任務。

Chang和Gu(2017)在圖像風格遷移網絡pix2pix的基礎上,設計了漢字字體風格遷移網絡Unet-GAN,通過增加卷積層數量,將生成器的網絡結構擴展到16層,在保留漢字結構和筆畫細節信息的同時,實現了印刷體—手寫體的字體轉換。

Lei等人(2018)在Unet-GAN基礎上,增加了分類網絡實現手寫體漢字的風格轉換。預訓練好的分類網絡將識別的字體風格信息提供給生成器和判別器。生成器和判別器共同訓練,將源字體漢字圖像轉換成目標字體漢字圖像。該方法能夠從少量的樣本中學習和生成完整的個人手寫體字庫。

Sun等人(2018a)提出基于pix2pix的漢字字體風格遷移網絡PEGAN(pyramid embedded generative adversarial network),在生成器的編碼器中引入級聯細化連接(cascaded refinement connection),采用預訓練的VGG-19計算感知損失,與L1像素級損失、字體類別損失和對抗性損失加權構成目標優化函數。

Lu和Hsiang(2018)制定了訓練集的選擇標準,基于偏旁部首,對漢字進行筆畫分解,選擇包含最大漢字部首數的漢字集作為訓練集。編碼器分別提取源字體和目標字體漢字的特征,這些特征分別作為特征遷移網絡的輸入和輸出。同時,通過對特征遷移網絡輸出的特征進行解碼,得到目標字體漢字圖像。該方法只需使用少量目標字體漢字進行學習即可生成剩余部分的目標字體漢字,得到一個完整的字庫。

Chang等人(2017,2018b)和常杰(2019)設計了一種多層結構的字體風格遷移網絡HAN(hierarchical adversarial network)。階段解碼器利用低層和高層的特征圖刻畫漢字全局的骨架和局部的筆畫細節,生成相應的中間層漢字圖像,并與最終生成的目標漢字圖像一起送入判別器。生成的漢字圖像與真實的漢字圖像之間的像素級損失以及中間層漢字圖像產生的對抗性損失有助于提高生成器擬合真實圖像的能力。HAN生成的漢字筆畫比EMD更完整清晰。

受圖像生成任務中表現優越的自注意機制(self-attention mechanisms)的啟發(Vaswani 等,2017),Ren 等人(2019)提出由風格遷移網絡和判別器構成的漢字字體風格遷移網絡SAFont(self-attention font),使用自注意力塊計算漢字特征在遷移前后的注意力變化,在總體損失函數上額外設計了邊緣損失函數,使生成的漢字圖像筆畫邊緣更清晰,漢字圖像的生成質量高于zi2zi和HAN。

區別于草圖—實物圖、灰度圖—彩色圖這種配對的圖像數據集,CycleGAN是在不配對數據集上進行的圖像風格遷移網絡。由于在現實生活中找到成對的數據集是非常困難的,CycleGAN解決了圖像數據集不配對的問題,以無監督學習的方式,實現了兩種毫無關聯圖像的雙向風格遷移。

Chang等人(2018a)針對印刷體到手寫體的風格轉換提出了DenseNet-CycleGAN。由字體A遷移到字體B再遷移到字體A的兩個映射網絡(mapping network)循環構成。該方法在AE結構的生成器中引入了DenseNet(dense convolutional network)以提高生成圖像的質量,采用對抗性損失和循環一致性損失對網絡進行優化,誘導判別器對生成的圖像做出錯誤判斷。由于CycleGAN自身的局限性,生成的漢字圖像中存在較多的筆畫錯誤。

在CycleGAN的基礎上,Li等人(2019)采用SSD(single shot multibox detector)目標檢測方法提取表示漢字字形結構的關鍵點,利用圖匹配方法計算輸入圖像和生成圖像的字形結構損失。該方法改善了漢字圖像字形結構的生成效果,適用于印刷體漢字的字體風格轉換,但對行書和草書等筆畫不分明的連筆字體,由于節點檢測相對困難,生成效果較差。

張藝穎(2019)提出了基于改進的特征匹配算法的字體風格遷移網絡OFM-CycleGAN(optimized feature matching cycleGAN)。該方法在CycleGAN的正向與逆向映射過程中引入改進的特征匹配算法,匹配判別器提取的真實圖像與生成圖像的特征,以學到更多真實數據的分布信息,有效提升手寫體漢字的生成質量,實現印刷體漢字到手寫漢字之間的轉換。

從漢字筆畫的角度,Zeng等人(2020)引入筆畫編碼的思想設計了漢字字體風格遷移網絡Stroke-GAN,對基本的32種漢字筆畫進行編碼,生成器根據輸入的源字體漢字和對應的筆畫編碼生成目標字體漢字圖像。隨后,生成的漢字圖像送入還原網絡以恢復對應的源字體漢字。判別器對輸入的漢字圖像辨別真假,并重構筆畫編碼。該方法定義了筆畫編碼重構損失優化網絡參數,更好地保留漢字的筆畫細節,生成的漢字圖像更真實。除了漢字字體生成,筆畫編碼的思想也適用于日韓文等其他語言的字體生成任務。

1.3.2 外部輸入漢字風格特征的字體風格遷移方法

在圖像風格遷移pix2pix網絡結構的基礎上,Rewrite的提出者設計了適用于中韓文字體的字體風格遷移網絡zi2zi(Tian和Chong,2017)。該網絡在AE的中間層(embedding)連接了代表目標字體的類別標簽,并使用Odena等人(2016)提出的基于條件圖像合成模型的輔助分類器。該分類器的兩個全連接層分別輸出對圖像真偽和字體類別的鑒別結果。zi2zi設計字體類別損失函數和語義一致性損失函數(constant loss)約束網絡參數的優化。對于結構簡單、筆畫較粗的印刷體漢字,生成的漢字效果較好。

Wu等人(2020)提出了一種基于特定內容的風格化漢字圖像生成網絡CalliGAN,將漢字語義內容進一步拆分成字典序列和編碼器提取的字形特征,并與字體風格標簽轉換的獨熱向量(one-hot vector)拼接解碼得到生成的指定書法體漢字圖像,實現印刷體—手寫體的風格遷移。

StarGAN(Choi 等,2018)最初被用來對人臉圖像進行風格遷移,用一個統一的框架實現人臉的頭發、眼睛、皮膚、年齡和表情等多個域之間的轉換,解決了圖像風格遷移的一對多問題。Chen等人(2019b)、陳杰夫等人(2019a)、陳杰夫(2020)在StarGAN的基礎上引入了字體風格指定機制,生成器可以同時學習多種不同的字體風格。該方法將漢字圖像與字體風格標簽的獨熱向量合并送入生成器,設計字體類別損失函數和語義一致性損失函數來約束網絡參數的優化,可以一次性生成多種不同字體風格的漢字,還可以融合不同的字體風格特征設計全新的字體。

滕少華和孔棱睿(2019)將CGAN與Wasserstein生成式對抗網絡(Wasserstein GAN, WGAN)(Arjovsky 等,2017)相結合,利用殘差網絡能夠有效學習漢字空間結構間的微小差異的優勢,由下采樣塊、殘差網絡和上采樣塊構成漢字生成網絡的基本結構。不同數字作為不同字體風格間的遷移條件,在一定程度上改善了漢字的生成效果,有效實現了印刷體和手寫體的雙向遷移,可以完成一對一和多對多的字體風格遷移任務。

Gao和Wu(2020)提出了一種三階段(ENet-TNet-RNet)的漢字字體風格遷移網絡。其中,漢字骨架提取網絡(skeleton extraction network,ENet)利用一組掩碼矩陣和指定的字體風格標簽提取源字體漢字的骨架結構,在漢字骨架遷移網絡(skeleton transformation network,TNet)和漢字筆畫生成網絡(stroke rendering network,RNet)中輸入表示字體風格標簽的獨熱向量。TNet將提取的源字體漢字骨架轉換成目標字體漢字骨架結構。RNet學習目標字體的筆畫信息,在目標字體漢字骨架上渲染筆畫細節以生成目標字體漢字圖像。該方法也適用于印刷體—手寫體風格轉換,但生成圖像的質量不如印刷體—印刷體的風格轉換。與CycleGAN相比,該方法漢字生成效果更穩定,能夠學習多種漢字字體的共性。

Zhang等人(2020a)提出了由語義模塊、結構模塊和遷移模塊構成的漢字生成模型SSNet(structure-semantic net)。其中,語義模塊的編碼器作為語義特征提取器,結構模塊提取源字體漢字圖像的筆畫(橫豎撇捺折)特征并還原,用隨機高斯噪聲初始化目標字體風格特征。遷移模塊將語義、結構和風格特征解碼生成目標字體漢字圖像。SSNet設計了感知損失、層次對抗損失、風格損失和Dual-masked Hausdorff距離等多個損失函數作為遷移模塊的目標函數。生成效果在漢字圖像質量和準確度上都有顯著提高,并且保留了漢字的骨架結構信息。

1.3.3 網絡提取漢字風格特征的字體風格遷移方法

Lyu等人(2017)提出由監督網絡和遷移網絡構成的書法體風格遷移網絡AEGN(auto-encoder guided GAN)。其中,監督網絡重構目標書法體圖像,其解碼器輸出尺寸為16×16-128×128像素的特征圖(feature map),為遷移網絡解碼器對應大小的特征圖提供漢字筆畫細節信息。遷移網絡引入殘差模塊實現編碼器與解碼器的信息共享,學習源字體與目標書法體圖像之間空間結構的細微差別。

Jiang等人(2017)設計了一種端到端的漢字字體風格遷移網絡DCFont(deep Chinese font),利用預訓練好的VGG-16(Visual Geometry Group-16)網絡提取漢字圖像的字體風格特征,并與字體風格遷移網絡提取的漢字語義內容特征進行特征融合。隨后,通過由多個包含批量歸一化、激活函數的卷積層構成的5個殘差模塊,以跨層連接的方式解碼得到生成的目標字體漢字圖像。判別器對目標字體漢字圖像的真假以及字體類別進行判別。

Zheng和Zhang(2018)設計了漢字字體風格遷移網絡CocoAAN(coconditional autoencoding adversarial network),該網絡由編碼和對抗兩個子網絡構成。編碼網絡通過交替優化策略將源字體和目標字體漢字圖像分別映射為內容和風格特征;對抗網絡將這兩種特征拼接送入生成器中得到生成的漢字圖像。CocoAAN還設計了漢字標簽與輸入漢字圖像合并的方法,在編碼網絡中的兩個編碼器和對抗網絡中的判別器前3個卷積層后增加FC-Add(fully connect-add)操作。實驗表明,CocoAAN在設計全新風格化漢字上具有強大的泛化能力。

針對生成藝術字體的漢字風格遷移網絡,Yang等人(2019)設計了集成漢字風格化和去風格化為一體的漢字藝術字體風格遷移網絡TET-GAN(texture effects transfer GAN)。該方法首先建立由837個字符(包括漢字、數字和英文字母)和64種藝術字體風格組成的圖像數據庫,然后對藝術字體圖像的語義內容特征和字體風格特征進行提取并組合,完成漢字風格化和去風格化的任務。去風格化可以為網絡提供語義內容特征明顯的漢字骨架圖像,以實現漢字語義內容特征的無監督學習。

Gao等人(2019)提出了由一個生成器和多個判別器構成的藝術字體風格遷移網絡AGIS-Net(artistic glyph image synthesis network)。為了分離漢字的字體風格和語義內容,該方法從一組字體風格一致的藝術字體圖像集中提取共有的風格特征,并與源字體漢字圖像的內容特征融合。字形、紋理判別器和局部判別器分別對解碼器生成的字形圖像、紋理圖像以及局部紋理區域判別真偽。AGIS-Net定義了上下文損失和局部紋理損失,進一步提高了生成圖像的筆畫紋理精度。該方法生成的漢字圖像保留了源字體漢字的語義內容,具有藝術字體圖像集共有的藝術字體風格。

Liu等人(2021)將漢字的風格化和去風格化集成到統一框架中,提出了漢字字體風格遷移網絡FontGAN。該方法引入字體一致性模塊(font consistency module,FCM)和內容先驗模塊(content prior module,CPM),解決了去風格化過程中筆畫丟失問題。將源字體和目標字體漢字圖像分別送入內容編碼器和風格編碼器,經過特征融合解碼生成指定內容和風格的漢字圖像。

Xiao等人(2020)針對不配對的漢字數據集提出了漢字風格遷移的多重映射模型。通過對漢字的風格特征向量歸一化處理,風格編碼器可以隨機提取多種字體風格特征,生成多種字體的漢字圖像。該方法還設計了KL散度(Kullback-Leibler divergence)損失約束風格編碼器提取的風格特征滿足高斯分布,適用于印刷體和手寫體的字體風格遷移任務。

2 現有方法對比

2.1 現有方法小結

在漢字字體風格遷移領域,主流研究方向是借鑒圖像風格遷移的思想,對漢字圖像的字體風格進行轉換。根據字體風格遷移網絡對數據集規模、適用的字體類別和生成效果等方面的需求和表現,本文對經典漢字字體遷移網絡進行梳理,如表1所示,并總結歸納為以下幾點:

表1 基于深度學習的漢字生成與字體風格遷移方法對比Table 1 Comparison of Chinese character generation and style transfer methods

1)基于衍生的GANs模型設計字體風格遷移網絡。Chang等人(2018a)針對印刷體—手寫體風格遷移設計DenseNet-CycleGAN,實現了兩種特定字體的雙向遷移。張藝穎(2019)在CycleGAN的正向與逆向映射過程中應用改進的特征匹配算法,有效提升了手寫體漢字的生成質量。Chen等人(2019b)、陳杰夫(2020)和陳杰夫等人(2019a)在StarGAN基礎上引入了字體風格指定機制,同時學習多種不同的字體風格。滕少華和孔棱睿(2019)利用殘差網絡能夠有效學習漢字空間結構微小差異的優勢,將CGAN與WGAN相結合,設計風格遷移網絡,改善了漢字圖像的生成效果。

2)嘗試多種方法有效提取漢字圖像的語義內容和字體風格特征。AGIS-Net、EMD、SSNet和SA-VAE采用提取共有特征的方式,從一組內容不同風格相同的參考數據集和一組風格不同內容相同的參考數據集中分別提取共有的字體風格特征和語義內容特征。DCFont利用VGG-16網絡提取漢字圖像的字體風格特征。StrokeGAN引入筆畫編碼補充漢字的筆畫細節信息。由于強調漢字結構,StrokeGAN比DenseNet-CycleGAN和zi2zi生成的漢字圖像更真實,筆畫準確率更高。CalliGAN將字典序列作為語義內容特征的一部分,與編碼器提取的字形特征融合構成漢字圖像的語義內容特征。在印刷體—手寫體風格遷移任務上,CalliGAN的漢字圖像生成效果優于zi2zi。

3)將關注點放在筆畫紋理更豐富的生成藝術字體的漢字圖像風格遷移上。從漢字組成的角度,將藝術字體漢字圖像特征細化到字形和筆畫紋理,AGIS-Net和TET-Net通過設計多個判別器定義新的損失函數優化網絡參數。與TET-GAN相比,AGIS-Net在藝術字體風格遷移任務中學習字形和紋理的能力更強,生成的漢字圖像保留了源字體漢字的語義內容,具有目標字體漢字圖像集共有的藝術字體風格。

4)設計損失函數優化模型參數。肖奮溪(2018)用平均絕對值誤差損失增強生成圖像的銳度和清晰度。PEGAN和SSNet利用預訓練好的VGG-19計算感知損失。DCFont利用VGG-16網絡提取漢字圖像的高層特征設計風格一致性損失。與zi2zi相比,PEGAN提高了漢字圖像的可識別性和生成質量。

5)集成漢字字體風格化和去風格化為一體的遷移網絡。TET-Net和FontGAN將漢字的風格化和去風格化集成到統一框架中,在數據集不配對的情況下更靈活地實現字體風格遷移。FontGAN對漢字筆畫細節的學習效果優于zi2zi和Rewrite,實現了印刷體和手寫體兩種字體風格的雙向遷移,可以處理一對多、多對一和多對多的漢字字體遷移任務。

2.2 對比實驗

2.2.1 數據集

為了對比分析不同算法的性能,本文構建新的數據集。具體步驟如下:

1)按漢字部首檢字表收集簡體字和繁體字,共6 683個漢字,按一個字一行的格式列出漢字清單。

2)從Windows自帶的中文字體中選擇字體文件,每個字體文件代表一種漢字風格。

3)根據漢字清單和字體文件,將收集的6 683個漢字轉換為漢字圖像,每幅圖像為所選字體文件代表的風格化漢字。分辨率根據對比實驗的需要設置為64×64像素或256×256像素。根據字體和分辨率將漢字圖像放入對應的文件夾,文件夾按照 “字體名字+分辨率”的格式命名。同時,文件夾里的漢字圖像,以其代表的漢字信息命名。

4)選取最常用的印刷體仿宋體作為源字體,黑體、楷體、華光行書和華文行楷4種字體依次作為目標字體,源字體和目標字體兩兩配對構成訓練數據集。

對于新的字體文件,可以按照上述步驟生成新的漢字圖像并補充到數據集中,實現數據集的擴充。

2.2.2 評價指標

常用的圖像質量評價指標有峰值信噪比(peak signal-to-noise ratio,PSNR)、結構相似性(structural similarity index,SSIM)、均方誤差(mean square error,MSE)、均方根誤差(root mean square error,RMSE)和像素級準確率(pixel-level accuracy,pix_acc)等。其中,PSNR常用于圖像壓縮等領域,對壓縮前后圖像的質量進行客觀評價。SSIM基于亮度、對比度和結構3個方面衡量兩幅圖像的差異。MSE從像素的角度衡量兩幅圖像對應位置的像素值誤差,RMSE是MSE開根號的值。pix_acc對比兩幅圖像對應位置的像素值是否一致,統計滿足該條件的像素點數目,計算其在整個圖像中所占的比例。

為了更好地衡量生成圖像的質量和多樣性,通常采用IS(inception score)和FID(Fréchet inception distance)評價不同的GAN模型。這兩個指標都是基于Inception network對圖像進行特征提取,計算生成圖像與真實圖像數據分布的距離。IS采用KL散度衡量兩個分布之間的距離。IS值越大,表明生成圖像越好。FID通過均值和協方差衡量真實圖像與生成圖像的距離,對噪聲具有一定的魯棒性。FID值越小,意味著生成圖像的質量越高、多樣性越好。

從漢字圖像的角度,可以從兩個方面評估漢字字體風格遷移網絡的生成效果。1)從生成圖像給人的整體感觀進行評價。由于字體風格特征的學習效果、漢字筆畫的連貫性和完整性都可以通過人眼進行判斷。因此對漢字圖像的主觀評價可以作為衡量不同方法生成效果的指標之一。2)漢字筆畫是由圖像像素點構成的,可以通過漢字圖像像素點位置的準確度(pix_acc)評估漢字圖像的生成效果。在對比實驗中,選擇在漢字字體風格遷移研究中使用頻率較高的兩個客觀指標RMSE和pix_acc衡量漢字圖像的生成質量。各方法的主觀評價結果如表1最后一列所示。RMSE和pix_acc的具體定義為

(1)

(2)

式中,f和r分別表示生成圖像(fake)和真實圖像(real)的2維向量,兩幅圖像中對應位置的像素值分別用fi,j和ri,j表示,M和N代表圖像在兩個維度上的像素點總數。I{·}在fi,j=ri,j時值為1,否則為0。RMSE值越小、pix_acc值越大意味著該字體風格遷移網絡生成的漢字圖像越逼真。

2.2.3 實驗結果與分析

實驗選取的對比算法為Rewrite2、zi2zi、Unet-GAN和TET-GAN,選擇仿宋作為源字體,黑體、楷體、華光行書和華文行楷依次作為目標字體。實驗結果如圖3—圖6所示,生成的漢字圖像目標字體風格特征都較為明顯。

1)對于目標字體是黑體、楷體這種印刷體的字體風格遷移,生成結果如圖3和圖4所示。Rewrite2學習目標字體內容特征的能力較弱,生成漢字普遍存在筆畫混亂現象,筆畫連貫性以及漢字完整性有所欠缺。zi2zi和TET-GAN能較好地完成印刷體風格轉換任務,但筆畫扭曲和模糊現象較明顯。

圖3 源字體仿宋轉換成目標字體黑體的生成結果Fig.3 Generate results of transferred source font (simfang.ttf) into target font (simhei.ttf)

圖4 源字體仿宋轉換成目標字體楷體的生成結果Fig.4 Generate results of transferred source font (simfang.ttf) into target font (simkai.ttf)

2)對于目標字體是華光行書、華文行楷這種手寫體的字體風格遷移,生成結果如圖5和圖6所示。Rewrite2生成的漢字基本不可識別,無法學習個別漢字(如“扁”、“蕩”、“煊”、“慕”等)的基本筆畫結構,生成的漢字圖像有大面積的白色區域,不符合實際場景使用。TET-GAN生成的漢字筆畫斷續較多,連貫性不夠,個別漢字(如“茭”、“萇”)的部分筆畫結構無法生成。zi2zi生成漢字的質量無法保證,對于筆畫緊湊、連筆的漢字(如“嬤”),生成的漢字圖像不能傳達任何信息,出現大面積的黑色區域。Rewrite2、TET-GAN和zi2zi無法生成個別漢字,不適用于印刷體—手寫體的轉換任務。

從主觀上判斷生成漢字的優劣,相比于Rewrite2、TET-GAN和zi2zi,Unet-GAN在印刷體和手寫體的字體風格遷移任務中,生成的漢字圖像筆畫痕跡明顯,清晰度更高。

圖5 源字體仿宋轉換成目標字體華光行書的生成結果Fig.5 Generate results of transferred source font (simfang.ttf) into target font (hgxs_cnki.ttf)

除了展示生成的漢字圖像外,實驗還利用RMSE和pix_acc兩個客觀指標量化評估漢字圖像的生成效果。首先,將生成的漢字圖像分辨率統一設置為256 × 256像素,并對漢字圖像進行灰度化和二值化處理。隨后計算RMSE和pix_acc指標,如表2所示。RMSE值越小、pix_acc值越大意味著該字體風格遷移方法生成的漢字圖像質量越高。從表2可以看出,無論是印刷體還是手寫體的字體風格遷移任務,Unet-GAN生成的漢字質量優于其他3種方法。

圖6 源字體仿宋轉換成目標字體華文行楷的生成結果Fig.6 Generate results of transferred source font (simfang.ttf) into target font (stxingka.ttf)

表2 經典模型的客觀評價指標對比Table 2 Objective evaluation comparison of classic font transfer methods

從生成漢字圖像的主觀評價結果和客觀評價指標來看,Unet-GAN生成的漢字圖像更完整清晰。Unet-GAN對印刷體和手寫體的字體風格遷移生成效果良好,漢字筆畫痕跡明顯。Rewrite2、zi2zi和TET-GAN更適用于印刷體的字體風格遷移任務,在漢字筆畫細節上的生成能力還有待提升。

3 結 語

漢字字符具有數量龐大、結構復雜和風格多樣的特性,一些運用深度學習方法的字體風格遷移網絡未能很好地完成字體風格遷移任務。字體風格遷移網絡不得不在提取語義內容和字體風格特征上做更多嘗試。在字體風格遷移領域面臨的難點可以歸納為以下幾點:1)筆畫模糊和錯亂現象普遍。對于筆畫較復雜的漢字,字體風格遷移網絡生成的漢字圖像容易出現筆畫模糊和錯亂現象,影響整個漢字圖像的可識別性和美觀性。2)漢字圖像的多域字體風格轉換方法不成熟。大多數字體風格遷移網絡可以完成一對一的字體轉換任務,但字體風格遷移網絡學習多種漢字字體風格,實現漢字圖像多域字體轉換的研究還不夠成熟。3)設計生成全新漢字字體的字體風格遷移網絡。大多數字體風格遷移網絡只能對已經存在的字體風格進行轉換。利用字體風格遷移網絡,對風格特征插值生成全新漢字字體的研究還不夠成熟。4)數據集規模較大。對于漢字字體風格遷移來說,字體風格遷移網絡應盡量使用小規模的數據集,學習源字體與目標字體之間的映射關系,提高學習能力和泛化能力。

基于深度學習的漢字生成與字體風格遷移方法在印刷體和手寫體轉換上取得了大體滿意的生成效果,但是仍然存在一些問題有待改進。在未來的研究中,可以針對以下方面展開工作:1)特征的有效提取。漢字特征的拆分對于筆畫紋理豐富的漢字來講是一個不錯的風格轉換處理方式,可嘗試挖掘有效提取字體風格和內容特征的深度學習模型,充分利用卷積神經網絡對圖像的處理能力。2)小樣本學習訓練?;谏疃葘W習技術設計的風格遷移網絡的圖像生成效果與訓練集的規模有較大關系。為了減小數據集的規模,避免訓練時間過長,可以優先選擇涵蓋偏旁部首較全面的漢字作為訓練集。3)漢字局部區域的生成與判別。對于結構復雜的漢字,生成的漢字圖像容易出現筆畫模糊錯亂的現象,可嘗試將漢字圖像分割成多個局部的漢字圖像塊(patch),利用字體風格遷移網絡對局部漢字圖像進行字體風格轉換,同時設計判別器判斷局部漢字圖像的效果,用于中文文本信息隱藏(Wang 等,2021;孫杉 等,2022)。4)漢字風格化和去風格化的融合。設計通用的字體風格遷移網絡,滿足漢字圖像的多域字體轉換和生成全新漢字字體的需求。漢字的去風格化為生成全新的漢字字體提供漢字骨架結構信息,通用的字體風格遷移網絡可以使漢字字體設計更加高效。

猜你喜歡
印刷體風格特征字體
傣族舞蹈中基本體態短句的風格特征及訓練方法
西夏文楷書和草書手寫體探微
淺談小學英語字母手寫體與印刷體的教學
字體的產生
淺析甘肅清水縣軒轅鼓舞的風格特征
淺析蒙古族民間舞蹈中“繞肩”的審美規范
高考的時候,把字寫得像印刷體有用嗎
基于民族風格特征的云南原生態音樂分類研究
組合字體
字體安裝步步通
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合