?

基于卷積神經網絡的黑白人物圖像多種合理著色的研究

2019-01-11 08:56陳國棟潘冠慈
通化師范學院學報 2019年2期
關鍵詞:著色全局灰度

田 影,陳國棟,潘冠慈

在計算機圖形學中,存在兩種廣泛的圖像著色方法:用戶引導的編輯傳播和數據驅動的自動著色.Hertzmann等人通過將其與數據庫中的示例性彩色圖像進行匹配,并從該照片中非參數地“竊取”顏色,或通過從大規模圖像數據中學習從灰度到顏色的參數映射,但效果并不好.2006年,Larsson[2]和 Zhang[3]等人使用深度網絡方法進行圖像著色,并且實現全自動化.雖然這樣做可以輕松獲得彩色照片,但結果往往包含不正確的顏色且著色效果單一.2015年,Zezhou Cheng等人[4]利用全連接網絡進行圖像著色,但由于該網絡是逐個像素進行著色,一張圖片著色需要花費較長時間并且有些圖像著色效果不理想.

考慮到人物照片衣服顏色以及背景顏色的多樣性,為了能夠高效快速地獲得多種合理的著色效果,本文利用大規模的數據來學習自然人物色彩圖像的特征,同時結合傳統編輯傳播框架的用戶控制,通過訓練一個卷積神經網絡[5]直接將灰度圖像與稀疏的添加點輸入映射到輸出著色.

1 顏色多樣性著色算法

網絡系統的輸入灰度人物圖像X∈RH×W×1,H是圖像高度,W是圖像寬度.輸入用戶張量U,灰度人物圖像是L,或CIE Lab色彩空間通道中的亮度.系統輸出為∈RH×W×2,即圖像ab顏色通道的估計值.該映射是通過一個CNN的F函數來學習的,參數為θ.然后訓練網絡用來最小化方程(1)中的目標函數,D代表灰度圖像的數據集,用戶輸入和所需的輸出著色.損失函數L描述了網絡輸出照片顏色與地面真實的接近程度.

然后訓練著色網絡的兩個變體,本地用戶提示Ul和全球用戶提示Ug.在訓練期間,提示是通過分別使用函數φl和φg給網絡“窺視”或投影地面真實顏色Y而產生的.

接下來在等式(3)中描述本地和全局提示網絡的最小化問題.因為使用函數φl,φg以組合方式生成用戶輸入,所以數據集只需要包含灰度和彩色圖像.卷積神經網絡的訓練圖像使用的是LFW(Labeled Faces in the Wild)數據集[6]和ImageNet數據集[7].其中,正樣本全部來自LFW中的人臉圖片,而負樣本是從ImageNet中選擇的背景(例如樹木,花朵,家具等圖片).

損失函數是衡量網絡性能和指導學習的重要參量,選擇合適的損失函數十分重要.卷積神經網絡的訓練目標就是最小化網絡的損失函數L.本文使用smooth-?1(或Huber)損失.本地提示網絡從輸入角度出發,從保守的彩色化開始,允許注入著色所需的顏色,而不是從更有活力但容易出現偽影的設置開始,并且可以修復錯誤,只需要幾次點擊就可以快速解決問題的多模態含

1.1 著色網絡的目標

糊性.如圖1所示,在衣服的著色過程中,背景被錯誤著色出現偽影(中間圖),但只需要添加一個點便可以很好的控制背影顏色(右圖).

圖1 人物圖像著色的錯誤修復

此外使用等式(4)中描述的δ=1回歸損失,能夠在沒有固定推理步驟的情況下執行端到端學習.

列寧明確指出,社會主義意識形態教育對象是“千百萬勞動者”。這“千百萬勞動者”不僅僅包括無產階級,還包括半無產者、小農、小資產者等。列寧特別強調了教育農民的重要性。他認為,在俄國“無產階級不但是少數,而且是極少數,占大多數的是農民”[5],列寧認為,要趕快用我們的一切宣傳手段、一切國家力量、一切教育、一切黨的手段和力量來說服非黨農民[6]。

在每個像素處評估損失函數lδ,并將它們相加在一起以評估整個圖像的損失L.

1.2 人物圖像的界面功能

本地提示網絡使用稀疏的添加點作為輸入,用于描述輸入,模擬添加點以及定義界面的功能.給定用于訓練的彩色圖像,將圖像轉換為灰度和CIE Lab色彩空間.模型的輸入是灰度圖像,而目標輸出是CIE Lab顏色空間的a、b分量.

圖像著色系統輸入.灰度人物圖像的添加點被參數化為 Xab∈RH×W×2,提供的添加點具有ab值的稀疏張量,并且 Bab∈BH×W×1是指示提供哪些添加點的二進制掩碼.(a,b)=0時,掩碼將未指定的點與指定的灰點區分開.張量一起形成輸入張量Ul={Xab,Bab}∈RH×W×3.

模擬添加點交互.抽取小補丁并顯示網絡的平均補丁顏色,對于每個人物圖像,點數是從幾何分布 p=1/8繪制的.每個添加點位置都是采用取樣.顯示的補丁大小從1×1到9×9均勻繪制,補丁內的平均ab顯示給網絡.最后,為了正確地限制特性——由用戶給出的所有點,網絡應該簡單地將輸入中的顏色復制到輸出.

如圖2所示,(a)為輸入灰度圖像(.b)~(d)以單個居中添加點為著色輸出彩色化(.e)用于(f)添加點的位置.(f)為給出不同添加點輸入顏色的輸出.通過本文的算法和顏色推薦系統的交互性,可以看出圖像中所添加的點具有非常明確的限制特性.

圖2 段內多個點的顏色交互

實時人物圖像著色界面.如圖3所示,黑白人物圖像的著色界面包括顏色板,基于當前點的常規色域,為給定位置建議可能的顏色,以及顯示覆蓋在灰度輸入圖像上的添加點,實時更新著色結果的顯示器.在給人物圖像著色期間,可以隨時添加、移動、刪除或更改任何現有添加點的顏色.如圖3所示,人物的著色只需要3個點即可實現,一個控制膚色,一個控制頭發的顏色,另一個則可以控制背景.短短幾秒就可以實現圖3的效果.

圖3 黑白人物圖像著色界面

數據驅動的顏色板.選擇合理的顏色是實現逼真著色的重要一步.對于每個像素,我們預測輸出顏色概率分布為∈RH×W×Q,其中Q是量化色箱的數量.本文使用2016年Zhang等人[3]提出的CIE Lab色彩空間的參數,ab空間被分成10×10個分箱,并保留了色域中Q=313個分箱.從輸入灰度圖像和添加點到預測顏色分布的映射用網絡Gl學習,由ψl參數化.地面真實分布Z也用來自Zhang等人[3]軟編碼方案的地面真彩色Y編碼,真實的ab顏色值表示為其10個最近的箱中心的凸組合,用σ=5的高斯核函數進行加權.我們對每個像素使用交叉熵損失函數來測量預測人物圖像和顏色地面真實分布之間的距離,并且對所有像素求和.

訓練網絡Gl以最小化訓練集上的預期分類損失.

為了提供離散的顏色建議,通過軟化查詢像素處的softmax分布,使其不那么高峰,并執行加權k均值聚類(k=9)來查找分布模式.例如,系統通常會根據人物對象、衣服材質、場景類型推薦合理的顏色.對于具有不同顏色的對象,系統將提供廣泛的建議范圍.一旦選擇了建議的顏色,系統將實時生成著色結果.隨著人物圖像中添加點位置的變動,顏色建議將不斷更新.

1.3 融合全局信息

端到端學習框架的一個優點是它可以很容易地適應不同類型的用戶輸入,任何像素的人物圖像都適用.用戶提供全局統計量,由全局直方圖 Xhist∈ΔQ和平均圖像飽和度 Xsat∈[0,1]描述.是否提供輸入分別由指標變量Bhist,Bsat∈B進行索引.系統的用戶輸入是Ug={Xhist,Bhist,Xsat,Bsat}∈ R1×1×(Q+3).通過使用雙線性插值將顏色Y調整為四分之一分辨率來計算全局直方圖,在量化的ab空間中對每個像素進行編碼,并對空間進行平均.通過將地面真實圖像轉換為HSV色彩空間并在空間上平均S信道來計算飽和度.在訓練過程中隨機地向網絡顯示地面真實顏色分布,以及地面真實飽和度.

2 網絡架構

黑白人物圖像的著色網絡架構如圖4所示.黑色表示輸入層,藍色表示全局提示網絡層,橙色表示主著色網絡層,綠色表示本地提示網絡層.本文研究了交互著色的兩個變體,即全局提示網絡和本地提示網絡,兩種變體都使用橙色層來預測輸出著色.本地提示網絡使用綠色層來添加用戶點Ul和預測顏色分布.全球提示網路使用藍色層,將全局輸入Ug轉換1×1個卷積層,并將結果添加到主著色網絡.每一個框代表一個卷積層,垂直尺寸表示特征圖空間分辨率,水平尺寸表示通道數.分辨率的變化通過二次采樣和上采樣操作實現.在主網絡中,當分辨率降低時,特征通道數量增加一倍.將快捷連接添加到上采樣卷積層.

圖4 著色網絡架構

2.1 主著色網

本文的著色網絡F的主要分支使用2015年Ronneberger等人提出的U-Net架構[8],已被證明能夠適用于各種有條件的生成任務(Isola等人)[9],設計原則參考(Simonyan和Zisserman 2014)[10]和(Yu和Koltun 2016)[11].該著色網絡由10個卷積塊構成,conv1~10.在conv1~4中,每個塊的特征張量在空間上逐漸減半,而特征維數加倍,每個塊包含2~3個conv-relu對.在下半部分conv7~10中,空間分辨率被恢復,而特征維數減半.在conv5~6中,不是將空間分辨率減半,而是使用具有因子2的擴張卷積.添加了對稱快捷連接以幫助網絡恢復空間信息.例如,conv2和conv3分別連接到conv8和conv9,這也可以方便地訪問重要的底層信息.例如,亮度值將限制ab色域的范圍.conv1~8沒有快捷連接,是網絡體系結構的一個子集,添加的conv9、conv10和快捷方式連接都是從頭開始訓練的.最后一個conv層,即1×1內核,映射在conv10和輸出顏色之間.由于ab色域是有界的,在輸出上添加最后一個tanh(雙曲正切)層,例如生成圖像時的常見做法(Goodfellow et al.2014;Zhu et al.2016)[12].

2.2 本地提示網絡

本地提示網絡特定的圖層在圖4中以綠色顯示.稀疏用戶點通過與輸入灰度圖像級聯而被集成.作為一項輔助任務,還可以預測每個像素處的顏色分布(以灰度和用戶點為條件)以推薦給用戶.預測顏色分布的任務無疑與主要分支有關.通過連接主分支多個層次的特征,并在頂層學習一個雙層分類器,使用了高列方法(Hariharan et al[13];Larsson et al[2]).網絡 Gl由主分支組成,直到conv8,連同該分支.為了節省計算量,以四分之一分辨率預測分布,并應用雙線性上采樣以全分辨率預測.

2.3 全局提示網絡

系統將信息整合到主色彩網絡的中間,如圖4的頂部藍色分支所示,輸入通過4個conv-relu層進行處理,每個層的內核大小為1×1和512個通道.該特征圖在空間上重復,以匹配主分支中的conv4特征的大小,并且通過求和合并,與2016年Iizuka等人[14]使用的策略相似.

3 實驗結果與分析

3.1 實驗結果

如圖5所示,在該方法中,建議顏色按照神經網絡生成的可能性排序.通過對灰度圖像合適位置添加點,實時生成多種合理的著色結果,大大提高了黑白人物照片的色彩效果.

圖5 黑白人物圖像多種著色結果

3.2 實驗分析

PSNR是“Peak Signal to Noise Ratio”的縮寫,即峰值信噪比,是一種評價圖像的客觀標準,通常在經過圖像壓縮之后,輸出的圖像都會在某種程度與原始影像不同.為了衡量經過處理后的圖像質量,通常會參考PSNR值來衡量處理能否令人滿意.表1為本文所用方法與其他著色方法之間的對比.

表1 多種著色方法的PSNR對比值

表1通過本文與多種著色方法的對比,全局+全局hist提供色域的全局色彩分布;全局+全局sat為系統提供全球飽和度.本文中所提出的全球提示網絡學習融合全球統計數據以獲得更準確的色彩.

4 結語

本文通過訓練卷積神經網絡對灰度人物圖像實時著色,能快速獲得多種顏色效果,而且可以進行人工修改錯誤,實現黑白人物圖像快速多樣化,以及高質量的著色結果.使得人物圖像看起來更生動、真實,更能活靈活現地展示它拍攝的意義,給人更好的視覺效果.對于黑白人物圖像的保存和珍藏具有重要意義.由于圖像顏色只是在ab色域以及建議的色彩上選擇,今后在著色的全面性上需要進一步研究.

猜你喜歡
著色全局灰度
采用改進導重法的拓撲結構灰度單元過濾技術
蔬菜著色不良 這樣預防最好
Bp-MRI灰度直方圖在鑒別移行帶前列腺癌與良性前列腺增生中的應用價值
蘋果膨大著色期 管理細致別大意
Arduino小車巡線程序的灰度閾值優化方案
10位畫家為美術片著色
落子山東,意在全局
記憶型非經典擴散方程在中的全局吸引子
基于熱區增強的分段線性變換提高室間隔缺損超聲圖像可懂度研究
給地圖著色
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合