?

基于WGAN的不均衡太赫茲光譜識別

2021-02-03 08:03朱榮盛劉英莉崔向偉
光譜學與光譜分析 2021年2期
關鍵詞:數據分布赫茲集上

朱榮盛,沈 韜*,劉英莉,朱 艷,崔向偉

1.昆明理工大學信息工程與自動化學院,云南 昆明 650504 2.昆明理工大學云南省計算機技術應用重點實驗室,云南 昆明 650504

引 言

太赫茲(Terahertz,THz)波是指頻率在0.1~10 THz之間的電磁波,在電磁波譜中位于微波和紅外輻射之間[1]。近年來,隨著太赫茲激發及探測技術的不斷發展,目前已有一部分太赫茲產品在實際生活中得到運用,并展現出極高的使用價值及廣闊的應用前景[2-3]。由于許多有機分子的振動、轉動光譜以及分子間相互作用力落在太赫茲頻率波段,可將其作為“指紋譜”實現對物質的定量定性分析[4-6];同時由于太赫茲所具有的瞬態性、低能性和相干性等特征,使其在光譜識別[7,8]和成像領域[9-10]得到飛速發展。

通過實驗獲取到的太赫茲光譜數據庫存在數據規模不匹配問題,而標準機器學習方法在不均衡數據集中表現不佳,影響太赫茲光譜數據的識別準確率[11]。2014年,劉進軍[12]提出基于懲罰機制的PFKSVM方法來克服K-SVM在最佳分類表面附近易于分類錯誤,并使用UCI公共數據集進行實驗驗證其方法在處理不均衡數據集中的優勢。2019年,Tao等[13]提出了一種過采樣技術,該技術使用實值否定選擇(RNS)來生成人為的少數類數據,并將生成的少數類數據與多數類組合作為輸出。但是,這些方法在太赫茲領域解決數據不均衡問題時并未考慮太赫茲光譜所反映材料的物理和化學性質。針對這一問題,本文提出了一種基于WGAN的不均衡太赫茲光譜識別方法來解決太赫茲光譜數據不均衡問題。

Wasserstein GAN是Arjovsky等[14]在2017年提出的一種改進GAN模型的新框架,該方法通過生成器與判別器的相互博弈產生以假亂真的數據,生成數據符合真實數據分布,并且能有效增加數據量。針對目前太赫茲光譜數據庫中各物質數據量不均衡問題,本文提出一種基于WGAN的不均衡太赫茲光譜識別方法。首先利用生成對抗網絡學習真實太赫茲光譜數據分布,在WGAN達到納什均衡后用生成數據擴展太赫茲光譜數據集,使之達到類別均衡,最后采用多分類支持向量機對太赫茲光譜數據進行分類識別。

1 基于WGAN的太赫茲光譜識別方法

1.1 基礎理論

太赫茲光譜數據為實數值,采用GAN訓練數據,模型會出現梯度不穩定和多樣性不足等問題[14]。針對這些問題,將Wasserstein距離作為生成對抗網絡的衡量指標,定義如式(1)

(1)

通過Kantorovich-Rubinstein對偶原理可得變換公式

W(P1,P2)=sup‖f‖L≤1Ex~P1[f(x)]-Ex~P2[(f(x))]

(2)

1.2 模型結構

生成對抗網絡(generative adversarial network,GAN)是Goodfellow等[15]在2014年提出的一種概率生成模型,通過對抗過程估計生成模型的新框架。生成對抗網絡由兩個模型構成,生成模型G和判別模型D,隨機噪聲z通過生成模型G生成盡量服從真實數據分布pdata(x)的樣本G(z)。

判別模型D是一個判別式網絡,判定接收到的樣本是否是來自pdata(x),因此有

Ex~pdata(x)[log(D(x))]

(3)

其中E指代期望,通過根據正類(即判別出x屬于真實數據data)的對數函數構建。

生成器D通過訓練不斷提高欺騙判別器的概率,通過根據負類的對數函數構建,即

Ez~pz(z)[log(1-D(G(z)))]

(4)

生成對抗網絡的本質是二元零和博弈問題,即通過生成器不斷優化生成函數與判別器不斷優化判別網絡來達到最優狀態,即

Ez~pz(z)[log(1-D(G(z)))]

(5)

生成對抗網絡給出了一種生成數據的新形式,即可通過對抗性學習模擬真實數據分布。而物質的太赫茲光譜數據為實數值,將JS散度作為衡量值并不能很好的評估距離,因此通過使用Wasserstein距離來衡量生成部分和真實數據分布之間的距離,解決了生成對抗網絡在生成太赫茲光譜數據時訓練過程不穩定,模型優化困難等問題。

2 實驗部分

實驗以麥芽三糖(Maltotriose)、麥芽六糖(Malthexaose)和麥芽七糖(Maltoheptaose)在0.9~6 THz內的太赫茲透射光譜為例。首先通過S-G濾波對光譜數據進行濾波處理,然后通過三次樣條插值獲得相同的數據點。隨機選擇三種物質預處理后的各一條太赫茲光譜數據曲線,如圖1所示。

圖1 三種物質的太赫茲光譜Fig.1 Terahertz spectra of three substances

為了驗證該方法的有效性,我們首先使用WGAN生成數據,將物質的光譜數據輸入到WGAN模型中。其次,生成模型G根據輸入數據的維度輸出與測試數據相同維度的隨機數。最后,判別模型D判別接收到的數據是否為太赫茲頻譜數據。當判別模型D無法識別接收到的數據是真實數據還是生成數據時,該模型達到納什均衡。以Maltotriose為例,根據真實太赫茲光譜數據生成數據。在實驗設置中,設置最大迭代次數300 000次,每迭代1 000次模型保存一次數據。隨機選取5種不同迭代次數圖,如圖2所示。當迭代次數為1 000輪和5 000輪時,生成的數據僅為隨機噪聲。隨著迭代次數的增加,生成器不斷學習。當模型迭代次數達到100 000輪時,生成數據逐漸類似于真實數據分布,當達到200 000輪時,WGAN模型所輸出的生成數據分布基本符合真實Maltotriose數據分布。在對Maltotriose進行擴展數據時,選取迭代200 000輪后的生成數據。

圖2 不同迭代次數下WGAN的生成數據圖(a):原始數據;(b),(c),(d),(e),(f)分別代表迭代1 000輪,5 000輪、10 000輪、100 000輪和200 000輪后的生成數據Fig.2 WGAN generated data graphs under different iterations(a) is the original data;(b),(c),(d),(e),and (f) respectively represent the generated data after 1 000 iterations,5 000 rounds,10 000 rounds,100 000 rounds,and 200 000 rounds

為了驗證WGAN處理不均衡數據集的效果,將三種不均衡物質的數據組成數據集Database1,經WGAN擴展后的均衡數據集為Database2。數據集中各物質光譜數據如下:(1)Database1:在數據庫中隨機抽100條Maltotriose數據、900條Malthexaose數據和8100條Maltoheptaose數據。(2)Database2:使用WGAN生成的數據將Database1中每種物質的數據補充為8 100條。在數據庫中隨機抽取每種物質2 700條數據作為測試集。

3 結果與討論

數據集不均衡會對傳統的機器學習模型系統產生負面影響。為了緩解此問題,將WGAN用于生成太赫茲光譜數據,以便使太赫茲光譜數據集達到類別均衡。實驗證明,使用WGAN生成數據并擴展數據集,能夠有效解決小樣本數據偏向大樣本數據問題。表1和表2分別為SVM模型在Dataset1和Dataset2數據集下訓練后測試集的混淆矩陣。

表1 使用Database1訓練模型后測試集的混淆矩陣Table 1 Confusion matrix of test database after training model with Database1

從表1可以看出,Maltotriose和Malthexaose都出現被預測為Maltoheptaose的現象,其中Maltotriose最為明顯。但是沒有大量Maltoheptaose被預測為其他兩種數據的現象。

表2相比于表1,在數據預測偏向上得到改善,每種數據的偏向現象并不明顯,其中,Maltotriose和Malthexaose并沒有大規模偏向Maltoheptaose。根據表1,使用Dataset1進行SVM訓練的模型測試集的預測準確性僅為65.69%。但是,當使用Database2訓練SVM時,模型精度提高到91.54%,均衡數據集上SVM的識別準確率比不均衡數據集提高25.85%。為了證明WGAN在處理不均衡太赫茲光譜數據上的優越性,將WGAN與其他處理不均衡數據集的方法進行了比較,并以驗證集的準確性作為度量。表3為不同不均衡數據集處理方法的準確率對比。

表2 使用Database2訓練模型后測試集的混淆矩陣Table 2 Confusion matrix of test database after training model with Database2

表3 不同算法下數據集的準確性對比Table 3 Comparison of the accuracy of the dataset under different algorithms

由表3可知,4種分類算法在dataset-1數據集上的訓練集及驗證集的準確率都能達到80%以上。雖然未采用擴展數據的SVM模型能在訓練集和驗證集上得到良好的識別準確率,但是在測試集上由于不均衡數據固有的缺點,導致識別準確率很差。SVM-COPY和FWSVM的測試集準確率都在85%左右,這兩種方式是現階段比較流行的處理不均衡數據集的方法,但是由于并沒有在數據集中增加有效的太赫茲光譜數據,所以測試集上的識別效果不是太理想。因此,利用WGAN模型能夠有效的生成太赫茲光譜數據,同時又能保證模型識別準確率。

不均衡度也是影響不均衡數據分類識別準確率的因素之一,為了驗證WGAN在不同不均衡度下的有效性,將不均衡度為16,81和256的數據集分別組成Imbalance1,Imbalance2和Imbalance3數據集,通過WGAN擴展后的數據集為Imbalance1_WGAN,Imbalance2_WGAN和Imbalance3_WGAN數據集。實驗結果表明,不均衡度對測試集影響較大,隨著不均衡度的增加,測試集整體識別率呈現下降趨勢。通過使用WGAN擴展數據集后,可以有效改善這一現象。表4為不同不均衡度下的識別率對比。

表4 不同不平衡度下訓練集和測試集的準確率對比Table 4 Compares the accuracy of the training set and test set of the dataset under different unbalance

4 結 論

針對太赫茲光譜數據庫中不均衡數據的分類問題,提出一種基于WGAN的太赫茲光譜識別方法。利用生成對抗網絡生成符合真實太赫茲光譜數據分布的生成數據,擴充太赫茲數據集,解決類別不均衡問題。相比于傳統方法,該方法能自動從真實數據中學習數據分布并生成數據。不僅能有效擴充太赫茲光譜數據庫,并且有較高的識別率。由于基于生成對抗網絡的太赫茲光譜識別方法可與多種機器學習方法相結合,并能適應不同不均衡度的要求,所以在未來實際應用中有廣闊的前景。

猜你喜歡
數據分布赫茲集上
改進的云存儲系統數據分布策略
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于雙頻聯合處理的太赫茲InISAR成像方法
太赫茲低頻段隨機粗糙金屬板散射特性研究
太赫茲信息超材料與超表面
復扇形指標集上的分布混沌
一種基于給定標準對數據進行正態修正的算法
試論大數據之“大”
對數據分布特征測度的分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合