?

基于實值RBM 的深度生成網絡研究*

2021-02-25 12:15丁世飛張成龍
軟件學報 2021年12期
關鍵詞:高斯分布流形重構

張 健,丁世飛,丁 玲,張成龍

1(中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116)

2(礦山數字化教育部工程研究中心,江蘇 徐州 221116)

3(中國礦業大學 徐海學院,江蘇 徐州 221008)

近年來,深度學習引起了廣泛關注.基于概率圖和神經網絡的受限玻爾茲曼機(restricted Boltzmann machine,簡稱RBM)、變分自編碼(variational autoencoder,簡稱VAE)和生成對抗網絡(generative adversarial network,簡稱GAN)被廣泛應用于圖像分類和圖像生成任務中[1,2].與此同時,近年來對RBM 的研究遇到了一些困難[3,4],其原因在于,其他方法、特別是GAN 在實踐中效果更好.事實上,RBM 及其衍生模型一般都有足夠的特征表達能力來學習復雜的數據分布,其應用和拓展上的困難往往出現在訓練過程中,RBM 訓練需要顯式的激活概率和梯度表達式.因此對于RBM 而言,在保證顯式梯度前提下構建有效的方法來學習數據分布是比較困難的.為了建模實值數據,人們提出了多種實值RBM 模型[5-7].但是RBM 模型的特征表達問題和深度拓展問題一直沒有得到很好的解決.具體而言,RBM 最常用的訓練算法是基于Gibbs 采樣的對比散度算法(contrastive divergence,簡稱CD)算法,而在CD 算法中,可見層單元的狀態x?總是從條件概率p(x|h)中采樣得到,因此,一個充分參數化且易學習的條件概率p(x|h)對于建模數據分布而言是非常重要的.通常我們希望可見層單元的邊緣概率和條件概率具有足夠的表達能力,從而最大程度地擬合數據分布.然而在大多數RBM 中,隱藏層單元是二值的,二值隱藏層單元限制了RBM 對可見層單元條件概率的參數化能力,因為可見層單元的條件概率是由基于二值隱藏層單元的高斯分布的組合確定的.

為了有效地參數化可見層單元的激活概率并建模數據中的流形結構,本文在可見層單元和隱藏層單元之間增加二值的輔助單元從而實值化可見層單元和隱藏層單元,并在RBM 的能量函數中引入了Laplacian 正則化項來構建特征化的隱藏層單元表達,由此提出了基于輔助單元的受限玻爾茲曼機(restricted Boltzmann machine with auxiliary units,簡稱ARBM).具體而言,假設ARBM 中的可見層單元和隱藏層單元服從截斷高斯分布,模型參數化截斷高斯分布中的期望和協方差.基于實值隱藏層單元,可見層單元的條件激活概率可以看作是無限數量的截斷高斯分布的加權和,從而能夠擬合復雜的數據分布.在ARBM 中,基于二值輔助單元和圖正則化項,當樣本靠近數據流形時,它有更高的概率被映射為參數化的截斷高斯分布;反之,遠離流形的樣本更可能被映射為高斯噪聲.輔助單元的另一個作用是緩解過擬合問題,過擬合在神經網絡和RBM 的訓練中普遍存在,而dropout方法是緩解過擬合問題的常用方法.在基于dropout 方法的RBM 模型中,可見層和隱藏層中的部分單元被隨機屏蔽,這可能會影響RBM 的特征提取能力和圖像重構能力[8-10].而在ARBM 中,輔助單元控制可見層單元和隱藏層單元的激活概率,并在一定程度上保留了單元的隨機性.當輔助單元被激活時,ARBM 的可見層單元和隱藏層單元以參數化的條件概率形式被激活.當輔助單元滅活時,可見層單元和隱藏層單元的條件概率退化為高斯噪聲.此時類似于dropout 方法,基于ARBM 的神經網絡的訓練過程可以也看作是一個去噪過程.為了建立深度生成模型并獲得銳利的生成圖像,本文基于ARBM 提出了基于附加單元的實值深度置信網(real-valued deep belief net with auxiliary units,簡稱ADBN).本文首先驗證了ARBM 的性能優于常用的RBM 模型,然后利用ADBN 提取的深度特征作為條件,生成對抗網絡(conditional generative adversarial net,簡稱CGAN)的條件輸入,構建了一個深度生成神經網絡.我們稱該模型為基于輔助深度特征的條件生成對抗網絡(conditional GAN with auxiliary deep features,簡稱ACGAN).本文的主要貢獻可以概括如下:

(1) 在可見層和隱藏層之間引入二值附加單元,提出了ARBM 模型.基于能量函數中的圖正則化項和附加單元,,靠近數據流形的樣本有更高的概率被參數化為截斷高斯分布的形式,遠離流形的樣本有更高的概率被映射為高斯噪聲,因此,ARBM 可以有效地學習數據中的流形結構,并將其表示為隱藏層的參數化特征;

(2) 為了構建有效的深度生成模型,本文將ADBN 提取的深度特征用作CGAN 的附加輸入,提出了ACGAN模型.與傳統的隨機噪聲相比,這些深度特征能為GAN 提供更穩定有效的初始狀態,從而生成高質量的圖像、緩解GAN 模型訓練不穩定的問題.

本文第1 節介紹基礎理論,包括RBM 和CGAN.第2 節詳細介紹ARBM 及其相應的深生成模型ADBN 和ACGAN.在第3 節中,本文通過實驗驗證所提出模型的有效性.最后一部分是結論和展望.

1 相關工作

1.1 受限玻爾茲曼機

典型的RBM 模型由可見層x和隱藏層h組成,RBM 的聯合概率可以通過能量函數來定義,RBM 模型及其基于Gibbs 采樣的訓練過程示意圖可以表示為圖1 的形式.

Fig.1 Topology of an RBM and its training process圖1 RBM 的拓撲結構及其訓練過程

在圖1 中,W是可見層和隱藏層之間的權值矩陣.如果可見層單元和隱藏層單元是二值的,那么能量函數可以定義如下:

其中,a和b是RBM 的偏置,x表示可見層向量,h表示隱藏層向量,W是權值矩陣.基于能量函數E(x,h),聯合分布可以表示為p(x,h)=Z-1exp(-E(x,h)),可見層單元和隱藏層單元的激活函數可以表示如下:

典型RBM 模型的目標是最大化其邊緣分布p(x)的log 似然,這個目標函數可以表示為

根據極大似然估計,似然函數關于參數的梯度可以表示如下:

將公式(5)表示為期望的形式,可以得到:

如公式(6)所示:等式右邊的第1 項稱為模型期望,第2 項稱為數據期望,兩個期望的差值決定了似然函數關于參數的梯度.直觀上看,數據期望給出了參數迭代的起始條件,模型期望提供了迭代的終止條件.隨著迭代的進行,數據期望和模型期望逐漸接近,RBM 的訓練隨迭代趨于穩定.此時,RBM 模型建模了輸入樣本的分布特性.然而在大樣本下,精確地計算這兩個期望是非常困難的,尤其是模型期望.因此,為了降低RBM 訓練的復雜度,需要對似然函數的梯度做近似.為此,Hinton 等學者提出了對比散度算法(contrastive divergence,簡稱CD)來近似似然函數的梯度.除了對比散度算法,還有其他一些類型的方法可以用于近似計算RBM 的梯度[11-13].

1.2 條件生成對抗網絡

作為近些年最受關注的生成模型,生成對抗網絡(generative adversarial net,簡稱GAN)得到了廣泛的應用.GAN 的優勢在于可以回避難以直接計算的基于模型分布的積分函數,只使用反向傳播就可以根據梯度訓練生成模型,不需要推理.此外,當生成器和判別器在某些額外的條件y的約束下,可以將GAN 擴展到條件模型:條件生成對抗網絡(conditional generative adversarial net,簡稱CGAN).其中,y可以是任何類型的輔助信息,例如類標簽或來自其他模態的數據.可以通過將y作為附加輸入傳遞給判別器和生成器來執行該條件[14].CGAN 的目標函數可以用公式(7)表示:

圖2 是一個典型的CGAN 的網絡結構.

Fig.2 Structure of a CGAN圖2 CGAN 的結構圖

作為一個CGAN 模型,其輸入的條件y是非常重要的.模型可以根據條件y所包含的信息完成特定的任務,不僅可以將CGAN 用于監督和半監督任務,本文還使用深度特征作為條件輸入,從而增強模型在圖像生成任務中的有效性.

2 基于附加單元的受限玻爾茲曼機及其深度神經網絡擴展

2.1 基于附加單元的受限玻爾茲曼機

首先,我們通過直觀的方式分析二值單元在RBM 特征表達方面存在的不足.為了方便表述,假設模型有一個隱藏層單元,且只考慮單個樣本的情形.根據模型的獨立性假設,在此基礎上,可以很方便地推廣到多樣本多隱藏層單元的情形.二值RBM 不能有效地建模實值數據,是因為對實值數據二值化的過程中,數據中一些重要的相關性信息可能會丟失.為了建模實值數據,傳統的Gaussian-binary RBM 假設其可見層單元的條件概率服從 高斯分布,其隱藏層單元為二值的.基于極大似然估計,目標函數可以表示為L= logp(x) = log ∑ip(x,hi),其中,h是二值單元.基于二值隱藏層單元h,可見層單元的條件概率p(x|h)可以表示為兩種形式:p(x|h=0)和p(x|h=1).因此,RBM 可見層單元的邊緣概率可以進一步分解為p(x)=p(x|h=0)p(h=0)+p(x|h=1)p(h=1),其中,p(x|h=0)和p(x|h=1)為高斯分布.基于二值的隱藏層單元,可見層單元的邊緣分布可以看作是p(x|h=0)和p(x|h=1)的加權和.這個過程可以表示為圖3 的形式.

如果一個分布的密度函數p(y)可以寫成p(y) =∑ip(yi),當i→∞且p(yi)是高斯分布的時候,p(y)可以用于擬 合任何連續分布函數.然而在傳統的實值RBM 中,圖3 中p(x|h=0)和p(x|h=1)的組合(兩個高斯分布的加權和)很難擬合一個復雜數據分布;而當RBM的隱藏層單元也是實值單元時,可見層單元的邊緣概率可以看作是無數 高斯分布的加權和p(x) =∫p(x|h)p(h)dh,理論上可以擬合一個復雜連續的數據分布.因此,本文將RBM 的隱藏 層單元由二值單元拓展為實值單元.然而,高斯分布形式的激活函數在BP 算法中具有較高的計算復雜度且不穩定,因此我們假設可見層單元和隱藏層單元服從截斷高斯分布,并由此近似神經網絡中的ReLU激活函數.為了建模嵌入在數據中的流形結構,本節在可見層和隱藏層之間增加輔助單元,然后將圖正則化項引入到能量函數中.基于二值輔助單元和圖正則化項,流形上的數據有更高的概率被映射為參數化的截斷高斯分布;同時,遠離流形的數據更可能被映射為高斯噪聲.ARBM 的結構如圖4 所示(其中,可見層單元和附加單元之間的連接值為權值W,二值輔助單元和實值隱藏層單元之間是一一對應的關系).

Fig.3 A sketch map of Unweighted marginal distribution of the visible units in a Gaussian-binary RBM圖3 Gaussian-binary RBM 中可見層單元未加權的邊緣分布示意圖

Fig.4 Structure of the ARBM圖4 ARBM 的結構圖

ARBM 的能量函數可以表示如下:

其中,x和h被截斷在區間[0,+∞],diag(α)和diag(β)是對角矩陣,c是偏置,ε是當前樣本與其所在mini-batch 內其他樣本之間的圖相似性系數.圖相似性系數可以使用高斯擴散核(Gaussian diffusion kernel)的形式計算:

其中,d(i,j)是歐氏距離;σ是用于平衡數量級的超參數;Σ是N×N的矩陣,且 ε(i) = (1/N)∑j∑(i,j).基于公式(9),聯 合概率和條件概率可以表示為

其中,I(·)是示性函數,NT表示截斷高斯分布,輔助單元用于控制隱藏層單元和可見層單元的激活概率.基于公式(12)和公式(13),可見層單元和隱藏層單元的條件概率可以表示為截斷高斯分布,實值隱藏層單元可以為可見層單元的條件概率提供更靈活的期望.接下來,本文從理論上討論流形學習和輔助單元的作用.

命題1.在ARBM 中,可見層單元和隱藏層單元都是條件獨立的,為了方便表述,我們假設樣本和特征都是一維的.給定一個mini-batch 的樣本,截斷高斯分布的期望是β-1(xWz)+β-1(f(0)/S(0)),協方差是β-1-β-1(xWz) (f(0)/S(0))-β-2(f(0)/S(0))2,其中,f(h)=p(h|z,x),S(h)=1-P(h|z,x).對于一個樣本而言,當它靠近數據流形時,其對應的 隱式表達具有更高的概率密度,并且該樣本以近似為p(z=1|x)的概率被映射到以β-1vW為中心、為鄰域 的區間內;反之,當樣本點遠離流形時,它以p(z=0|x)的近似概率被映射為高斯噪聲N(0,β-1).

證明:假設一個mini-batch 包含N個樣本,基于公式(9),如果樣本x(i)位于流形附近,其相似性系數ε(i)則會相對較高.與x(i)對應的附加單元z(i)以概率p(z(i)=1|x)激活,與相似性系數ε(i)正相關.因此,流形上的樣本對應于p(z(i)=1|x)的高條件概率.當z(i)=1,隱藏層單元的條件概率可以表達為NT(β-1(xW),β-1).根據高斯分布置信區間的概念,從高斯分布中獲得的樣本以超過99.74%的概率位于區間[μ-3σ,μ+3σ].因此在本文中,對于截斷高斯分布,這個概率大于99.74%,本節假設這個概率可以近似為1.因此,樣本以近似概率p(z=1|x)被映射到區間[μ-3σ,μ+3σ],且μ=β-1xW.如果x(j)不在流形附近,其相似性系數ε(j)會偏小,其對應的附加單元z(j)更可能以p(z=0|x)激活.當z=0,隱藏層單元的條件概率可以表示為NT(0,β-1).因此,基于公式(12),樣本x(j)在近似概率p(z(j)=0|x(j))下被映射到高斯噪聲NT(0,β-1).截斷高斯分布的期望可以表示為

其中,μ=β-1(xWz),f(0)=p(h=0|z,x),σ2=β-1.根據期望和協方差的關系可知,h的協方差是Var(h|h>0)=E(h2|h>0)-E(h|h>0)2,期望E(h2|h>0)可以表示為

因此,Var(h|h>0)=σ2-μσ2(f(0)/S(0))-(σ2(f(0)/S(0)))2.

基于命題1,在ARBM 中,如果樣本位于流形附近,則更有可能映射到參數化概率,并且可以學習到流形特征保留在隱藏層中;反之,如果樣本遠離流形,則更有可能退化為隱藏層的高斯噪聲.

ARBM 可以用CD 算法訓練,似然函數關于參數的梯度可以表示為

能量函數的梯度可以表示為

在ARBM 中,為了計算截斷高斯分布下的期望值,借鑒高斯圖模型,本章采用文獻[15,16]中的方法.ARBM還可以經過逐層堆疊構建深度置信網,本文將其稱為基于附加單元的深度置信網(deep belief net an auxiliary units deep belief net,簡稱ADBN).

2.2 基于ARBM的深度生成模型

ARBM 本身作為一種概率圖模型,既可以用于判別任務,也可以用于生成任務.本文關注的重點是基于ARBM 的生成模型.由于ARBM 本身是一種單隱藏層神經網絡結構,其特征表達能力有限,因此我們需要根據ARBM 模型構建相應的深度神經網絡結構.

首先,我們構建了一個基于ARBM 的深度置信網,該神經網絡含有2 個隱藏層,本文稱其為基于附加單元的實值深度置信網(real-valued deep belief net with auxiliary units,簡稱ADBN),該ADBN 的網絡結構如圖5 所示.

Fig.5 Structure of an ADBN圖5 ADBN 模型的結構圖

ARBM 和ADBN 可以直接用于圖像生成和圖像分類任務,但由于RBM 訓練過程中的標準卷積運算和最大池化運算是不可逆的,因此ARBM 很難與卷積神經網絡相結合構建深度神經網絡結構.為了建立更強大的深度神經網絡,我們利用ADBN 提取的深層特征作為條件GAN(CGAN)的條件輸入數據,建立深層生成神經網絡.GAN 被訓練以最小化數據分布與模型分布之間的距離,而不是最大化似然函數.然而GAN 訓練是不穩定的,通常觀察到具有相似結構和超參數的生成器在不同的訓練批次中表現出顯著不同的行為.雖然RBM 訓練需要使用基于采樣的算法,但RBM 的優勢在于不存在模式丟失問題且RBM 訓練是穩定的.為了充分利用ARBM 的優勢,并結合卷積操作生成清晰銳利的圖像,本文利用ADBN 提取的深度特征作為CGAN 的條件輸入y,建立卷積深度生成神經網絡,與傳統的隨機噪聲相比,這些深層特征能為GAN 提供更穩定的初始狀態.我們稱這種深度生成神經網絡為基于輔助深度特征的條件生成對抗網絡(conditional GAN with auxiliary deep features,簡稱ACGAN),其模型結構如圖6 所示.

Fig.6 Structure of an ACGAN圖6 ACGAN 模型的結構圖

圖6 是ACGAN 的模型結構圖,模型的訓練分為兩部分:首先,根據輸入圖像訓練一個ADBN 模型,在訓練好的ADBN 模型基礎上,將輸入圖像傳遞給ADBN 得到特征;該特征用作CGAN 的附加輸入y傳遞到CGAN 的生成器和判別器,同時,圖像輸入也用作CGAN 判別器中的真實樣本.模型的目標函數可以表示為

其中,x來自于數據集.ADBN(x)是由ADBN 得到的特征,該特征作為CGAN 的附加輸入.接下來,本文通過實驗驗證ARBM,ADBN 和ACGAN 的有效性.

3 實驗分析

在實驗中,我們嘗試驗證基于ARBM 的模型在圖像生成和圖像重構任務中的有效性.實驗主要分為兩部分:一部分是圖像重構,另一部分是圖像生成.為了驗證ARBM 能夠學習數據分布的流形結構,我們首先在3 個人工數據集上進行對比實驗,其中使用的基于RBM 的模型具有完全相同的網絡結構.結果如圖7 所示.

Fig.7 Comparison of ARBM with other models on three artificial datasets圖7 3 個人工數據集上ARBM 與其他模型的比較

圖7 由4 列樣本組成,其中,

? 第1 列樣本是原始數據;

? 第2 列樣本是由Gaussian-binary RBM 重構得到的,Gaussian-binary RBM 是一種可見層單元為實值、隱藏層單元為二值的RBM 模型;

? 第3 列樣本由受限截斷高斯圖模型(RTGMM)重構得到.RTGMM 是在2017 年提出的一種無向概率圖,其可見層單元和隱藏層單元都是實值的.不同于ARBM,RTGMM 由一個可見層和一個隱藏層組成,其可見層單元和隱藏層單元是直接連接的;

? 最后一列樣本由ARBM 重構得到.

如圖7 所示,標準的Gaussian-binary RBM 更傾向于把模型密度散布在其支撐數據集上.而不同于Gaussian- binary RBM,ARBM 能夠學習這3 個數據集的分布特征,并識別出數據分布上的流形結構.

接下來,本實驗在真實數據集上測試 ARBM 和 ADBN 的圖像重構能力.數據集有 MNIST,small Norb,Fashion 和Cifar-10.數據集的屬性見表1.

Table 1 Attributes of data sets表1 數據集的屬性

MNIST 數據集是由250 名來自不同人群的實驗人員完成的手寫數字數據集,其中包括MNIST 基本數據集、MNIST back-rand 數據集和MNIST back image 數據集等.Norb 是一個由灰度化的雙視角玩具圖像組成的數據集,包含5 類玩具(人、動物、汽車、飛機、卡車),在不同的光照條件下,由相機系統從不同的角度進行成像.本節實驗將兩幅立體圖像的原始分辨率從108×108×2 降低到32×32×2,以加快實驗速度.Fashion 數據集包含了10 個類別的圖像,分別是t-shirt,trouser,pullover,dress,coat,sandal,shirt,sneaker,bag,ankle boot.Cifar-10 是常用于目標識別的計算機視覺數據集,它是8 000 萬個微型圖像數據集的一個子集,由60 000 個32×32 分辨率的彩色圖像組成,包含10 對象類,每個類有6 000 個圖像.

本實驗在MNIST,small Norb 和Cifar-10 上測試了這些模型的圖像重構能力,原始圖像如圖8 所示.

Fig.8 Original images of MNIST,small Norb,and Cifar-10圖8 MNIST,small Norb 和Cifar-10 的原始圖像

與GAN 不同,ARBM 和ADBN 的模式塌陷問題并不嚴重.然而,似然函數過平滑的問題阻礙了模型生成銳利的圖像.為了保持多模態特征并產生清晰的圖像,本文將提取的ADBN 特征作為CGAN 的條件輸入,測試了ACGAN 的生成能力.第1 個實驗在MNIST 數據集上測試了所提出的ARBM,ADBN 的圖像重構能力以及ACGAN 的圖像生成能力.所用的ARBM 具有1 000 個隱藏層單元,重構和生成的圖像如圖9 所示.

Fig.9 Reconstructed images and generated images on MNIST圖9 在MNIST 上的重構圖像和生成的圖像

在圖9 中,左數第1 張圖像是由ARBM 重構的圖像,第2 張圖像是由ADBN 重構的圖像.如圖9 所示,本文提出的ARBM 算法能夠提取手寫體圖像的邊緣特征,得到平滑的圖像.此外,ADBN 重構的圖像相比于ARBM而言與原始圖像更為相似.第3 張圖像是由深度卷積生成對抗網絡(deep convolutional generative adversarial network,簡稱DCGAN)生成的[17],DCGAN 是一種引入了深度卷積結構的深度對抗生成網絡,其目標函數是最小化數據分布和模型分布之間的JS 散度.第4 張圖像是由WGAN-GP[18]生成的,WGAN-GP 將JS 散度替換為Wasserstein 距離并優化求解方式,從而解決了JS 散度中距離度量問題,是目前非常常用的圖像生成算法.第5 張圖像是由ACGAN 生成,可以看出,ACGAN 生成的圖像在細節上更接近原始圖像.

接下來,本文測試了所提出的模型在 small Norb 數據集上的圖像重構能力和圖像生成能力.實驗中,ACGAN 中的生成器有2 個全連接層和2 個反卷積層,判別器有2 個卷積層和2 個全連接層.生成器和判別器均采用leakyReLU 激活函數以及Batch-Norm.DCGAN,LSGAN 和WGAN-GP 具有與ACGAN 相同的網絡結構.生成器和判別器的初始學習率為8e-5.圖10 展示了模型在small Norb 上的重構圖像.

Fig.10 Reconstructed images and generated images on small Norb圖10 small Norb 上的重構圖像和生成圖像

在圖10 中,左數第1 張圖像由RTGMM 重構得到.RTGMM 可以看作是一種實值單元的RBM 模型,能夠很好地結合到神經網絡中.第2 張圖像由ARBM 重構得到,第3 張圖像由ADBN 重構得到.可以看出:相比于傳統的RBM 方法,ARBM 和ADBN 在small Norb 數據集上重構的圖像更清晰.第4 張圖像是由DCGAN 生成的,第5 張圖像是由WGAN-GP 生成的,最后一張圖像由ACGAN 生成.可以看出,ACGAN 生成的圖像相對于其他常用的以GAN 為基礎的生成模型更為清晰、更接近于原始的圖像.接下來,我們測試了模型在Fashion 數據集上的圖像重構和圖像生成能力,得到的圖像如圖11 所示.

Fig.11 Reconstructed images and generated images on Fashion圖11 Fashion 上的重構圖像和生成圖像

在圖11 中,第1 張圖像是由ADBN 重構得到的.第2 張圖像由DCGAN 生成.第3 張圖像由LSGAN 生成,LSGAN 是一種深度對抗生成網絡,其中,目標函數被替換為均方誤差的形式.第4 張圖像由WGAN-GP 生成.最后一張圖像由ACGAN 生成.可以看出,ACGN 生成的Fashion 圖像更清晰、更接近原始圖像.

Cifar-10 對于32×32 分辨率的圖像生成任務而言是困難的,因為Cifar-10 是彩色的,其背景也更復雜.特別是對于沒有卷積結構的淺層網絡(如ARBM),很難生成Cifar-10 數據.本節嘗試使用兩個隱藏層的ADBN 來學習Cifar-10 數據集.在ADBN 中,第1 隱藏層有5 000 個單元,第2 隱藏層有1 500 個單元.ADBN 重構的圖像和生成的圖像如圖12 所示.

如圖12 所示:盡管ADBN 提取輸入圖像能夠可視化邊緣特征,但生成的圖像過于平滑和模糊.我們認為,導致圖像模糊的主要原因是卷積運算難以加入RBM 模型.因為在RBM 訓練過程中,卷積和池化運算是不可逆的.為了建立一個有效的基于ADBN 的深度卷積生成神經網絡,我們利用ADBN 提取的深度特征作為CGAN 的條件輸入數據提出ACGAN 模型,我們將ACGAN 生成的圖像與現有模型(例如DCGAN,WGAN-GP 和Real-NVP模型)生成的圖像進行比較[19].Real-NVP 模型是一個非對抗性可逆生成神經網絡.在本實驗中,為了生成彩色圖像,我們首先利用ADBN 模型生成Cifar-10 圖像,然后通過max-pooling 操作將生成的圖像下采樣到16×16,8×8和4×4 分辨率的特征圖像.這些特征被用作不同分辨率ACGAN 的條件輸入.從圖12 可以看出:盡管ACGAN 與其他模型相比生成相對清晰的圖像,但是生成圖像的顏色和部分輪廓受到條件輸入的影響,并且所有生成的圖像都不夠清晰.如何在Cifar-10 上生成清晰的圖像,仍然是我們未來研究的重點.最后,我們定量分析了ACGAN模型生成圖像的質量,所使用的指標是FID,結果見表2.

Fig.12 Generated images of DBM,real NVP,DCGAN,WGAN-GP,and ACGANmodels on cifar-10 dataset圖12 DBM,Real NVP,DCGAN,WGAN-GP,以及ACGAN 模型在Cifar-10 數據集上的生成圖像

Table 2 FID of ACGAN and commonly used generative models表2 ACGAN 和常用生成模型的FID

從表2 可以看出:相較于常用的生成模型,ACGAN 生成的圖像具有相對更低的FID.

4 總結和展望

本文將輔助變量和流形正則項引入到能量函數中,并使用實值隱藏層單元來模擬可見單位的概率.我們驗證了ARBM 和ADBN 在圖像生成任務中的有效性.為了融合卷積深度神經網絡生成清晰銳利的圖像,本文提出了一種ACGAN 模型.實驗驗證了該模型的有效性.但是,ARBM 仍然存在一些問題,傳統的算法(PCD 算法和改變Gibbs 采樣)在訓練ARBM 時是非常耗時的.目前,無向圖的訓練算法主要有變分法、馬爾可夫鏈和基于對抗損失的訓練方法.優化無向圖的訓練算法仍然是我們未來研究的重點.

猜你喜歡
高斯分布流形重構
視頻壓縮感知采樣率自適應的幀間片匹配重構
長城敘事的重構
利用Box-Cox變換對移動通信中小區級業務流量分布的研究
2種非對稱廣義高斯分布模型的構造
緊流形上的Schr?dinger算子的譜間隙估計
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
北方大陸 重構未來
在航集裝箱船舶搖擺姿態的概率模型
北京的重構與再造
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合