?

加入調型信息的漢語孤立詞識別研究

2010-07-18 03:12王鵬胡郁戴禮榮劉慶峰
中文信息學報 2010年4期
關鍵詞:后驗基頻識別率

王鵬,胡郁,戴禮榮,劉慶峰

(中國科技大學電子工程與信息科學系科大訊飛語音實驗室,安徽合肥230027)

1 引言

眾所周知,漢語是一種有調語言,漢語中的每一個字都是以一個音節作為基本的發音單位,音節和調決定了這個字的發音。正確的調型對區別不同字或詞起到了很關鍵的作用[1-4]。因此,調的信息在漢語語音識別中起著很重要的作用。尤其在同字不同調的情況下,調的正確識別顯得就更為重要。

調的信息如何更好的與現有的隱馬爾可夫模型(H idden M arkov M odel)進行結合,還沒有得到很好的解決。主要有以下困難:第一,調的類型實際上由基頻曲線的形狀所決定,而基頻的一個特點是非連續性,基頻僅存于語音的濁音段,在靜音段以及清音段的基頻是不存在的,因此不便直接將調型信息融入于傳統的連續HMM;第二,調型特征相比較于聲學段的特征,是一種超音段特征(supra-segmental feature)。這使得在進行上下文相關的聲學建模時,將調的上下文信息加入到原有的Tri-phone建模單元中需要特殊考慮。原因在于,加入調的上下文信息后,模型的復雜度將極大地增加,以 Tritone為例,模型單元中韻母(調的載體單元)為150個,經過擴展后將比原來增大25倍,而在現有的系統中很難采用這么大的phone集合來建立可靠模型。

為了解決以上兩個困難,近些年來研究者進行了一系列的嘗試[1-2]。針對第一個問題,目前有兩種解決方案,第一種是采用對非濁音段進行內插的方法來保證基頻連續性[3],再將基頻特征與原來的頻譜特征拼接起來,重新組成一個增大的特征向量來訓練模型,這就是Em bedded Tone M odel[4]。第二種是Tokuda提出的基于多空間概率分布的HMM模型(MSD-HMM)[5-7],也就是對于基頻和聲學譜特征,建立兩個概率分布空間,離散的和連續的,分別對應于清音段和濁音段,此方法可以避免由于人工內插基頻所帶來的對模型參數估計的影響。而對于第二個問題,可采用Exp licit Tone M odel的建模方式。也就是對調單獨建模。由于將調分離出來建模,我們可以采用更為復雜的建模方式,如上下文相關的建模方案以及考慮超音段特性等[8,12-13]。再利用此模型,對已有的解碼網絡進行重新打分,從而獲得識別率的上升。

這兩個問題處于調的信息在自動語音識別中運用的兩個不同層面:第一個問題在于如何在傳統的連續HMM模型框架下使用基頻特征;第二個問題在于如何挖掘調的更為精細,更為深層的信息。本文從這兩個層面出發,提出了一套在二遍解碼的框架下將 Embedded Tone M odel和Explicit Tone M odel的優勢相結合的方法,充分利用了調的有效信息,從而使識別性能較大幅度提升。

本文的組織結構如下,第2節給出整個系統構成并分別介紹調型特征,雙流建模[6]方法和Explicit Tone M odel的建模方法,以及二遍解碼的兩模型得分融合方法及原理;第3節給出實驗結果及分析;第4節給出結論并展望今后工作的趨勢和方向。

2 系統構成及原理

2.1 系統構成

本文的系統是以 Embedded Tone M odel和Explicit Tone M odel結合為基礎,目的在于將兩者的優勢充分結合,從而實現對調的信息的充分利用,以達到提高識別率的目的。此系統是在漢語孤立詞識別任務上進行試驗。

系統結構為圖1所示,在第一遍解碼中我們將不考慮調的上下文相關的信息,將頻譜特征和調型特征分流建模,在決策樹綁定的時候根據不同流來分別進行聚類,兩個流都是通過連續HMM進行建模。在第二遍解碼過程中,Explicit Tone M odel可以通過第一遍解碼所得到的結果確定音節邊界,從而確定濁音段的時間邊界信息,再利用此信息訓練出一個精細的上下文相關的調的模型。最后利用該模型對第一遍解碼后得到的Nbest保留備選結果重新打分、排序,從而得到最終識別結果。

圖1 系統構成圖

2.2 特征處理

在Embedded Tone Model中對于第一個流選取的特征是廣泛運用的M FCC(梅爾倒譜參數)特征,第二個流采用的是利用諧波求和法算出的F0特征及其一階二階差分,以及通過自相關法算出的濁音置信度。F0特征利用動態規劃算法進行了后處理,一方面使特征具有連續性,另一方面在一定程度上減少半頻,倍頻誤差。同時為了降低不同說話人的調域影響,我們還利用前后各1秒的窗對F0特征進行規整,也就是長時基音周期規整(LPN)[10-11]。

在Exp licit Tone M odel中我們采用了與第二個流相同的特征,只是對特征的使用有所區別,其具體方法如下:利用模型對原訓練數據進行硬切分,用以確定作為帶調載體的韻母所在的時間位置,從而能夠消除為連接基頻而加入的虛假基頻的影響,以達到對調精確建模的目的。

2.3 雙流建模

傳統的Embedded Tone M odel是單流建模,即將頻譜特征和調型特征綁定成一個流進行建模。我們知道頻譜特征和調型特征是兩種具有一定獨立性的特征,因此在決策樹綁定的時候將兩種特征參數綁定在一起有兩個缺陷:一是不夠靈活,兩種特征應該根據其不同特點進行分類,因此,單流建模很難將調的特點發揮出來,也就得不到更為充分的訓練。另一是模型的復雜度過大,對于漢語來說,phone的模型單元數共69個,擴展為T ri-phone的時候大約2000狀態數即可描述其特性。而調的模型單元數只有5個,只需要約500狀態即可描述。如果采用單流建模,由于將兩個建模單元綁定在一起,因此,調型模型的狀態數必須與音的模型狀態數保持一致,這樣就造成模型的復雜度提高。而雙流建模恰好可以解決這樣的問題。在雙流建模中,每一個HMM的狀態單元包含兩個分布,一個用以描述頻譜參數,另一個用于描述調型參數。在訓練過程中,輸入特征向量Ot(包含頻譜特征和調型特征)被當作兩個獨立的流,獨立估計每個流的混合高斯參數。比如,給定輸入特征向量Ot,在t時間j狀態下的輸出概率變為公式(1):

其中bc和bp分別對應著頻譜和調型的分布,特征向量Ot也是由頻譜特征和調型特征組成。而連續HMM的高斯混合模型也分別由獨立參數描述,其表示如公式(2)和公式(3)所示:

對于每一個狀態,頻譜分布和調型特征分布是用不同的高斯數來描述的,這樣就可以通過不同復雜度的模型實現最優建模。

當作為調載體的韻母模型單元進行T ri-phone綁定的時候,我們假設頻譜和調的特征是獨立分布的。因此,對于處在同一狀態相同中心phone單元,我們可以將其第一個流綁定在一起,同理,對于同一狀態的相同調單元,我們可以將其第二個流綁定在一起。具體原理如圖2所示。

圖2 韻母雙流綁定訓練的示意圖

2.4 Exp licit Tone Model的訓練方法

在Embedded Tone Model中,我們已經在一定程度上使用了調的相關信息。但是由于調的特性和HMM建模自身的限制,并未能夠對調進行精細建模,比如并未考慮上下文相關信息以及消除在非發音段中的人為添加的基頻所造成的影響。因此,在Explicit Tone M odel中我們必須考慮到這些因素,從而在二遍解碼中增加有用的信息量以進一步提高識別率。具體建模過程如下:第一步,通過訓練好的模型對原訓練數據進行硬切分,從而獲得帶調韻母的特征邊界;第二步,進行上下文相關的調的模型訓練。在本文的實驗中,我們采用的是左相關調的建模,因為有實驗表明,在連續語流中,左相關調的建模比右相關的性能要好。

2.5 二遍解碼中兩模型得分的融合方法

建立 Em plicit Tone M odel后,便可對用Embedded Tone Model解碼出來的Nbest備選結果進行重新打分,并根據得分對識別備選條目重新排序,最終得到識別結果。在這里,我們可以將最終后驗概率計算公式寫為(4),因為是孤立詞識別任務,所以不考慮語言模型:

其中P(TS|XTS)為第一遍解碼中利用Embedded Tone M odel所計算出的后驗概率,α為其所占的權重。而P(T|XT)為Explicit M odel中的利用了左相關調信息的后驗概率得分,β為其所占的權重。其中為了得到最優結果,α和β將在開發集上進行調整。由于識別任務是孤立詞識別任務,因此其解碼網絡也是受限網絡,所以我們可以認為在Lattice上進行重新打分與在Nbest出來的每一個備選條目上進行重新打分是效果一致的。在實驗中,我們發現對于命令詞識別任務來說,一般3Best的覆蓋率已經很高,足以作為識別上界。因此我們的試驗都是保留3Best作為備選結果,整個融合過程以及重新打分的具體方案如下:

第一步利用Embedded Tone M odel進行一遍解碼,解碼后保留3Best結果,并且對每一個備選條目進行Phone一級的硬切分,從而得到其帶調韻母的邊界,為利用Explicit Tone M odel進行重新打分作準備。

第二步利用Exp licit Tone M odel和上一步中一遍解碼得到的切分結果對每一個3Best中的備選條目中的每一個帶調韻母單元重新計算得分。在此處,需要注意的是,每一個調的得分計算的不再是似然值,而是當前調的后驗概率。具體公式如(5):

其中(5)式的X表示基頻的特征向量,Ti表示當前的調的類型,如Tone1_2(當前調型為陽平,前調為陰平),Nt為調的總的模型數目,由于是左相關的調的模型,因此 Nt的值為20。T表示當前韻母的時間段長度,用以進行幀級別的歸一化。進行幀級別歸一化的原因在于與原來一遍解碼的結果相比,我們所計算的后驗概率只利用韻母段的特征進行計算,這樣就造成了一遍解碼和二遍解碼所采用的特征段不一致,所以必須進行幀一級別的歸一化。當完成此步驟后,即可計算每一個備選的調后驗概率得分,公式如(6):

(6)式是由于Nbest中每一個備選的調的數目不同而進行的歸一化,NHt為當前備選中韻母的總數目。

第三步,融合由Embedded Tone M odel得到的每一個備選的后驗概率和由 Exp licit Tone Model得到的每一個備選的后驗概率,并計算出最終的得分,公式如(7),(8),(9)所示。

其中(7)式為Em bedded Tone M odel的每一個備選在Nbest備選中的后驗概率的得分,(8)式為Explicit Tone M odel中的每一個備選在Nbest中的后驗概率的得分,(9)式為最后重新進行得分計算的公式。

注:(9)式中的 α,β分別為 Embedded Tone M odel和Exp licit Tone M odel中的后驗概率所占的權重。

第四步,對備選得分按從大到小排序,輸出識別結果。

3 實驗結果及分析

3.1 數據庫介紹

為了驗證本文中的方法的有效性,我們采用的訓練數據庫是一個電話數據庫,該數據庫為電話信道采集的真實語音數據,內容包括短語、數字串、字母或短句等,覆蓋全國大部分省份,男女各半,總時長為360小時。其中我們使用的是該數據集的一個子集,共 17萬句。此子集用來訓練 Em bedded Tone M odel。Explicit Tone M odel的訓練數據是從該訓練庫中另抽取的5萬句組成。

測試庫共有6個,是在不同環境下錄制的真實數據,分別是:

(1)干凈環境下錄制的電話數據庫,共有1 300個條目,后面的報告中統稱為測試集一。

(2)一定噪聲環境下錄制的電話數據庫,并從中挑選信噪比低于20dB的語音數據組成測試集,共1 600個條目,后面的報告稱為測試集二。

(3)在會場嘈雜環境下錄制的數據庫,共1 600個條目,后面的總結報告中對整理后的數據定義為測試集三。

(4)車載環境下錄制的數據庫,存在開窗或開空調等背景噪聲,共4 800個條目,但信噪比較高,后面的總結報告中定義為測試集四。

3.2 前端處理

對于語音信號先去直流,預加重(因子為0.97),漢明窗加窗,幀長 25m s,幀移 10m s的。在抽取MFCC特征參數的同時,采用一種基于能量的VAD算法,對每一段語音濾除掉大約25%~30%的無聲段。抽取0~12維MFCCs,總計為13維。特征參數通過倒譜均值相減(CMS)去除信道卷積噪聲;計算一階差分、二階差分總計構成39維;對于調型相關特征,采用利用諧波加權法和長時基音周期規整算法所得到的經過歸一化的基頻(F0)特征和其一階,二階差分以及一維濁音置信度。

3.3 Embedded ToneM odel和Exp licit ToneM odel的訓練

兩個模型的訓練都是基于HTK工具,Embedded Tone M odel中采用的是聲韻母建模單元,并進行T ri-phone擴展。該模型采用雙流建模,第一個流狀態數控制為2000狀態,第二個流為500狀態,每狀態高斯數為12;此外,一個3狀態的silence模型及一個單狀態的shortPause(sp)模型也被引人系統中以吸收靜寂段及各數字之間的短停頓。在Triphone擴展的過程中對于兩個流設計了不同問題集以及不同決策樹進行聚類。Exp licit Tone M odel我們采用的是左相關的調型建模單元,每個模型單元為5狀態,高斯數為8高斯。

3.4 實驗結果以及分析

實驗一,調識別率實驗。為了驗證 Explicit Tone M odel中的左相關調建模的有效性,我們進行了下列實驗。利用M onoTone作為基線系統,分別進行左相關以及右相關的調的建模進行對照,實驗結果如表1所示:

表1 M onoTone,左相關,右相關建模調的識別率

如表1所示,左相關(Left_BiTone)或右相關(Right_BiTone)的建模相比于原M onoTone建模,其識別率能大大提高,并且左調相關的識別率高于右調相關的識別率。這是在于對于M onoTone而言,沒有考慮到調的左右相關信息,因此不能更好的突出漢語連續語流中左右調對于當前調的的影響,所以識別性能不如采用考慮左右相關性的調的建模方式。并且由于漢語自身的發聲特點,左相關的建模能夠更好的描述在連續語流中變調現象。因此,我們相信采用左相關的Exp licit Tone Model將會帶來更為準確的信息。

實驗二,覆蓋率實驗。為了驗證 Em bedded Tone Model中得到的3best備選結果是否能達到充分覆蓋正確結果的目的,我們分別測定了10best,5best,3best和1best下的識別結果,以確定其有效性,其結果如表2所示:

表2 覆蓋率實驗

如表2所示,隨著備選的增多,正確詞的覆蓋率可以得到極大的提高。其原因在于對于漢語孤立詞識別任務,由于解碼空間是受限空間,因此解碼后的得到的NBest備選將會覆蓋絕大部份正確答案,從而具有很高的正確詞覆蓋率。Explicit Tone Model的作用就在于如何將這些在備選中混淆的詞利用更加準確的調信息加以區別以獲得更高的識別率。由實驗結果可得,3best的準確詞覆蓋率已遠高于1best,因此,從效率因素考慮本文中進行兩遍解碼所保留Nbest的備選數目為3個。

實驗三,利用Explicit Tone M odel對 Embedded Tone Model所得到的識別結果進行兩遍解碼,從而得到最終的識別結果。其中我們從電話數據庫中找出一部分作為開發集,以確定了α,β權重的參數范圍。α,β的參數設置為(1,0.05)。實驗的基線系統為不帶調特征的單流模型,其他配置與Embedded Tone Model系統保持一致。實驗結果如表3所示。

表3 二遍解碼的識別結果

表3中,可以看到Embedded Tone M odel中的雙流建模(DS_1best)對識別率提高非常明顯,平均能提高3%左右,在測試集三上能提高5.36%。其原因在于雙流建模能更好的將音的特性和調的特性分流去進行綁定、建模,從而極大程度上提高了調的信息的在漢語語音識別中的作用。結合Explicit Tone M odel的二遍解碼(BT)方法,也看到了其對識別性能的提升所起到的作用,由于Explicit Tone Model在建模過程中避免了基頻內插所帶來的影響和在Embedded Tone M odel中由于超音段限制而無法考慮的調的上下文相關性的影響。因此,在更為精細的Explicit Tone M odel的幫助下,還能在一定程度上提高識別率。

4 結論及展望

在本文中,主要討論了如何在漢語孤立詞識別任務上更好的利用調的信息,采用的方法是在兩遍解碼的框架下,將 Embedded Tone M odel和 Exp licit Tone M odel相結合的方式。在 Embedded Tone M odel中我們用的M onoTone進行建模,并且利用雙流建模兩方面的優勢:一方面在 Triphone綁定的時候,將頻譜信息和調型信息分開,從而能夠利用兩者不同的特點進行綁定;另一方面,降低了模型復雜度。但是由于Embedded Tone Model沒有充分利用調的上下文相關信息,因此我們利用Explicit Tone M odel中進行更為精細的建模。在融合過程中,由于不同備選的時間切分信息不一致,造成兩者的得分范圍不一致。為解決此問題,我們進行了幀一級的歸一化,然后再進行后驗概率的得分融合。本文中的兩種方法的結合較大幅度提高了識別率,并且在一定程度上降低了模型復雜度。本文工作主要運用于漢語孤立詞識別,但是沒有充分利用語流中詞調和句調信息,因此如何將這些高層次信息運用到孤立詞識別任務中,以及將相關方法推廣到漢語大詞匯量連續語流識別中將是下一步工作中所要考慮的問題。

[1] Y.W.Wong and E.Chang.The effect of pitch and tone on different Mandarin speech recognition tasks[C]//Proc.Eurospeech,2001:1517-1521.

[2] C.J.Chen,R.A.Gopinath,M.D.M onkow ski,M.A.Picheny,and K.Shen.New methods in continuous Mandarin speech recognition[C]//Proc.Eurospeech,1997:1543-1546.

[3] M odeling of fundamental frequency using a quad ratic sp line function[C]//'IYavaux de I'Institut-de Phonetique d'Aix 15,1993:71-85.

[4] Qian Y.Use of Tone information in cantonese LVCSR based on generalized character posterior p robability decoding[D].PhD.Thesis,CUHK,2005.

[5] Tokuda K,Masuko T,M iyazaki N,Kobayashi T.M ultispace p robability distribution HMM[C]//IEICE Trans.Inf.&Syst.,2002;E85-D(3):455-464.

[6] Frank Seide and N.Wang,Two-Stream Modeling of Mandarin Tones[C]//Proc.ICSLP 2000,October,2000.

[7] Wang H L,Q ian Y,Soong F K,Zhou JL,H an JQ.A Multi-Space Distribution(M SD)approach to speech recognition of tonal languages[C]//Proc.of ICSLP,2006:1047-1050.

[8] Jin-song Zhang and Keikichi H irose,Anchoring H ypothesis and its App lication to Tone Recognition of Chinese Continuous Speech[C]//Proc.ICASSP 2000,2000.

[9] C.H.H uang and F.Seide.Pitch tracking and tone features for mandarin speech recognition[C]// Proceedings of ICASSP,2000:1523-1526.

[10] 朱小燕,王昱,劉俊,漢語聲調識別中的基音平滑新方法[J].中文信息學報,2001,20(2):45-50.

[11] 潘逸倩,魏思,王仁華,基于韻律信息的連續語流調型評測研究[J].中文信息學報,2008,20(4):88-93.

[12] 林茂燦.普通話語句的韻律結構和基頻(F0)高低線構建[J].當代語言學,2002,(4):254-265.

[13] 勇強,初敏,賀琳,呂士海.漢語話音節時長統計分析[C]//第五屆全國現代語音學學術會議論文集,2001:66-69.

猜你喜歡
后驗基頻識別率
語音同一認定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
橋面鋪裝層對中小跨徑橋梁基頻影響分析
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
聽力正常青年人的低通濾波言語測試研究*
基于貝葉斯理論的云模型參數估計研究
提升高速公路MTC二次抓拍車牌識別率方案研究
45000kHz基頻晶體濾波器
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合