?

基于區分性Model Pushing的語種識別方法*

2012-07-03 00:24劉偉偉吉立新李邵梅
電子技術應用 2012年4期
關鍵詞:語種區分高斯

劉偉偉,吉立新,李邵梅,徐 文

(1.國家數字交換系統工程技術研究中心,河南 鄭州450002;2.61906部隊,江西 鷹潭335000)

隨著信息技術的不斷發展,自動語種識別技術在信息服務、信息檢索及安全領域的應用日益廣泛。當前主流的語種識別方法,根據使用特征參數的不同,分為基于音素特征的模型方法和基于聲學特征的模型方法。

目前應用最廣泛的聲學模型GSV-SVM進行識別時,每一段測試語音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自適應生成GSV作為SVM的輸入特征[1]。在測試長度小于1 min的短語音語種識別應用中,由于測試語音較短,自適應得到的GSV并不能準確反映測試語音的語種屬性,性能下降較為嚴重。為了解決該問題,Campbell等人提出了Model Pushing[2]的概念,首先利用SVM訓練得到支持向量,再利用支持向量反過來建立GMM模型。因為支持向量中包含了訓練語音的區分性信息,所以反推得到的GMM模型包含了對最具區分性分類邊界的描述。這樣,反推的GMM模型就繼承了SVM訓練得到的區分性信息。但是,由于該方法只選取了分類邊界上的支持向量,所以利用Model Pushing后推得到的GMM并不能充分描述各語種特征分布的區分性。

為進一步提高Model Pushing算法的識別性能,本文結合快速區分性訓練[3]提出了一種區分性Model Pushing方法。由于進一步增大了不同語種間的區分性并能更充分地描述各語種的特征分布,同時利用了GMM在短時語音識別上的優勢,該方法提高了在短語音條件下的應用效果。對實驗室條件下采集的電話信道漢語普通話、英語和日語三種語音的測試實驗表明,區分性Model Pushing方法獲得了最低的等錯誤率 (EER),相對于GMM-UBM、GSV-SVM及 Model Pushing方法,EER分別降低了18.95%、8.55%和3.54%。

1 基于GSV-SVM的語種識別分析

基于GSV-SVM的語種識別系統包含訓練和測試兩個階段。訓練階段在通用背景模型UBM(Universal Background Model)上通過最大后驗概率MAP[4](Maximum A Posterior)自適應得到各訓練語音的GSV訓練SVM模型;識別階段同樣通過MAP自適應從UBM中得到各測試語音的GSV,然后輸入訓練好的SVM中進行分類識別,得到識別結果。

1.1 GSV

GMM用多個單高斯分布的線性組合來描述幀特征在特征空間的分布,即:

其中,x為語音幀聲學特征向量,M為高斯混合數,wi為混合權重,μi和 Σi為第 i個高斯混合成分的均值向量和協方差矩陣。對于訓練數據,通過期望最大化算法EM(Expectation Maximum)[5]得到一個UBM。每一個訓練和測試的語句通過MAP準則從UBM中自適應得到各自對應的GMM模型。在MAP自適應過程中,由于考慮到計算量的原因,通常只對均值向量μi進行修正調整,而權重和協方差矩陣都保持與UBM模型一致。將自適應得到的各高斯混合成分的均值向量按順序排列起來即構成超矢量(GSV)。

1.2 SVM

SVM是一種應用廣泛的機器學習方法。在二分類問題中,給出樣本{xi,yi},i=1,2,…N,xi∈RD為 D 維的特征向量,yi∈{+1,-1}為類別標簽,其分類判決函數表示為特征向量內積的形式:

對于非線性的問題,通常采用核函數將輸入特征向量(即GSV)非線性地映射到高維空間,當作線性問題處理。核函數形式為K(xi,xj)=φ(xi)×φ(xj),這樣在高維空間只需要內積運算即可,判決函數轉換為如下形式:

SVM的核函數采用度量GMM距離的Kullback-Leibler核函數(K-L核)[6],其表達式為:

其中 μa和 μb代表兩個語音段的 GSV,μia和 μib分別是各自 GMM第i個高斯混合成分的均值矢量,ωi是UBM第i個高斯混合成分的權重,Σi是UBM第個高斯混合成分的協方差矩陣,M為混合數,T為轉置符號。由式 (4)可知,在SVM中采用K-L核函數相當于先利用UBM的權重和方差對GSV進行歸一化,然后用SVM的線性核函數進行訓練和識別。而對GSV的歸一化可以理解為將GSV投影到另一個空間(K-L空間),然后利用 SVM的線性核函數在K-L空間進行訓練和識別。

2 基于區分性Model Pushing的語種識別

GSV-SVM通常采用一對多的SVM分類模式,即在目標語種和非目標語種間尋找出最優分類面,如在漢語和非漢語(英語、日語等任意非漢語)間進行分類。SVM使用K-L核,對目標語種和非目標語種進行分類。

以簡單的二維聲學特征和2個高斯混元為例介紹區分性Model Pushing的過程,如圖1所示。圖1(a)表示為原始特征空間的分布,GMM-UBM有兩個混元,目標語種和非目標語種的混元是從GMM-UBM中自適應得到的,能夠描述其特征的分布,目標語種和非目標語種在特征域空間的分布存在嚴重的混疊,難以有效區分。

圖1(c)所示為K-L空間 SVM訓練后的結果,其中處于分類邊界虛線上的即為支持向量。為了減少特征域空間目標語種和非目標語種分布的混疊,利用K-L空間訓練得到的最優分類面對其進行適當處理,即在K-L空間沿著最優分類面法線的方向進行移動。假如目標語種訓練得到n個支持向量,非目標語種有m個支持向量,則對其移動的結果為:

其中,xt,i和xn,i表示目標語種和非目標語種的第 i個支持向量 (GSV在K-L空間的投影),λtk和 λnk表示目標語種和非目標語種的支持向量沿法向量移動的尺度,w表示目標語種和非目標語種最優分類面的法向標語種和非目標語種的第i個支持向量移動后的結果。

利用移動后的支持向量構建目標語種和非目標語種的GSV在K-L空間的投影,即得到:取 λt≥0、λn≤0。 對支持向量 的移 動反映到特征域空間就使得重構的目標語種和非目標語種的GMM分布混疊減少,增大區分性,如圖1(b)所示。顯然,λt、λn不宜過大,否則移動過度將產生原本屬于目標語種的測試語音對其自身GMM的似然度得分比對UBM的還要小的問題。因此,λt、λn至少要使目標語種的測試語音在其GMM的似然度得分比在UBM上的得分要大。

如圖2所示,區分性Model Pushing與GSV-SVM相比在訓練階段多了一個對支持向量移動反推的過程,得到目標語種和非目標語種的GMM;測試階段只需提取測試語音的特征參數然后對目標和非目標GMM的對數似然得分進行分類判決,分類判決的分數計算如下:

其中yi為語音幀特征向量,gtar(y)和 gnon-tar(y)為目標語種和非目標語種特征向量的GMM概率密度函數。

由于該方法在測試階段避開了GSV的計算,同時利用了訓練階段得到的SVM區分性信息,因此能夠提高短語音條件下語種識別的性能。

3 實驗設置和結果分析

3.1 實驗數據庫及評測方法

語料庫為實驗室采集的電話信道通話語音,包括漢語普通話、英語和日語3個語種,共有4 600段30 s的語音以及300段5 min左右的長時語音。語音信號的采樣頻率為8 kHz,并經過 16 bit量化處理。30 s語料中,有漢語 1 800段(男女各 900段)、英語 1 250段(男600段,女 650段)、日語 1 550段(男 850段,女 700段)。5 min長時語料中,每個語種有100段話音 (男女各50段)。上述語音段中所含的說話人均不相同,且每段語音僅含一個說話人。實驗采用30 s的語音進行訓練和測試,從各語種挑選 600段(每個語種男女各 300段)用于訓練高斯混合數為512的UBM模型。從30 s的語音中為每個語種挑選200段語音 (男女各100段)作為SVM的訓練語料,剩余語料有漢語1 000段,英語450段及日語750段作為測試語音。

本文采用檢測錯誤折中DET(Detection Error Tradeoff)曲線及等錯誤率EER(Equal Error Rate)來衡量語種確認系統的性能。

3.2 系統描述

本文的特征參數是 MFCC加 SDC(7-1-3-7),共 56維,前端預加重系數為 0.97,幀長 25 ms,幀移 10 ms。 利用VAD算法[7]去除了靜音幀,同時通過 CMS[4]去除了倒譜域的卷積噪聲。GMM混合高斯數選擇512,SVM算法采用臺灣林智仁教授開發的LibSVM工具包[8]實現。

為了驗證所提算法的有效性,以GMM-UBM 、GSVSVM和Model Pushing方法作為基線系統,與本文提出的區分性Model Pushing進行對比測試。

3.3 實驗結果

為了尋求最優的移動系數λt和λn,實驗中選取了多組值進行對比測試,識別結果如表1所示。

其中,λt=0,λn=0表示最原始的沒有進行任何移動操作的Model Pushing。從表1可以看出在λt=0.6,λn=-0.4的情況下系統性能是最好的,此時的EER為7.91%。而λt=1.4、λn=-1.4時系統性能最差,即出現了移動過度的現象。

圖3給出了各系統的DET曲線圖。其中MP代表Model Pushing方法,Dis MP代表本文所提的區分性Model Pushing方法。表2給出了各系統對應的EER。

從圖3和表2可以看出,在測試集內,本文所提的區分性Model Pushing方法獲得了最低的 EER,即性能最優,相對于 GMM-UBM、GSV-SVM及Model Pushing方法,EER分別相對降低了18.95%、8.55%和3.54%。這也證明了本文所提方法的有效性。

針對 GSV-SVM在短語音條件下應用的不足,本文提出了一種區分性Model Pushing方法。該方法在保留了SVM的區分性信息的同時,充分利用了GMM在短時語音上的優勢。在最能區分目標語種和非目標語種的方向上對支持向量進行適當移動,減少了目標語種與非目標語種語音特征間的混疊,增加了區分性,提高了識別性能。實驗結果證實了該方法的有效性。

表2 各系統EER(%)

[1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.

[2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.

[3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.

[4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

[5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.

[6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.

[7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics,Speech,and Signal Processing.1981.

[8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.

猜你喜歡
語種區分高斯
《波斯語課》:兩個人的小語種
數學王子高斯
天才數學家——高斯
怎么區分天空中的“彩虹”
淺談小語種的學習方法和就業方向
教你區分功和功率
怎祥區分天空中的“彩虹”(一)
從自卑到自信 瑞恩·高斯林
罪數區分的實踐判定
走出報考小語種專業的兩大誤區
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合