基于語音知識的音節切分

2010-07-18 03:12湯霖黃建中尹俊勛

中文信息學報 2010年4期

湯霖,黃建中,尹俊勛

(1.江門職業技術學院電子與信息技術系,廣東江門529090;2.華南理工大學電子與信息學院,廣東廣州510641)

1 引言

在連續語音識別系統的研制過程中,人們首先面對識別基元的選取問題,對于漢語來說,一個自然的選擇就是音節。目前廣泛使用的HMM模型及其改進模型,通過Viterbi解碼或幀同步算法給出狀態解碼序列,借助語音模型和語法模型給出識別的句子,它面臨著搜索路徑組合爆炸問題和狀態解碼序列錯配問題,如果能事先進行必要的音節切分,這些問題就迎刃而解。因此,人們不斷進行音節切分實驗[1-6],提出了很多方法。目前的自動語音切分方法大致可分成兩類。

第一類是通過求取的穩健的音節切分特征或實用的算法來進行切分。如張紅等[1]根據聽覺感知系統對于動態語音特征的響應特點,提出了半波差分譜特征。王帆等[2]提出將普通分形維數擴展為多尺度分形維數作為切分特征。王卓[3]等用高階譜作語音端點特征,在各種噪聲環境下取得了好的語音端點檢測效果。還有人用子帶能量映射、小波變換域子帶能量變化等特征作切分實驗。W ilpon[7]和Van Hemert等[8]提出了利用語音信號幀與幀之間的頻譜變化特點進行切分的方法。但此類方法存在邊界劃分不可靠和計算復雜度高等問題。Greenberg[9]則提出了利用時域特征進行語音切分的思想,該方法適合于與語言無關的語音分段,或作為語種辨識的前端處理,但也存在邊界插入和缺失錯誤以及倒置失真的問題。Prasad等[10]提出了一種利用語音信號的能量來構造具有最小相位函數的語音特征信號,然后通過計算該信號的群延遲函數達到切分語音音節的目的的新算法。顧明亮等[11]對該算法進行了改進,根據漢語語音特點和統計自適應方法提出了一種新的統計切分算法。賈磊等[12]提出的檢測熵變化趨勢的跳變點檢測語音分割點,取得了較好的語音與非語音的分割效果。在漢語語音切分方法中,人們還提出了基于歸并的音節切分自動機[4]、基于神經網絡切分算法[13]、模糊切分算法[14]、支持向量機切分算法[6]等,這些算法對提高漢語的切分精度進行了有益的探索,但計算的工作量和復雜性較高。

第二類是利用語言學知識進行切分,如Rabiner等[15]根據語言學中音素的先驗知識進行劃分。張文軍等[5]在基于隱馬爾科夫模型的語音切分基礎上,融合了不受噪聲干擾的先驗切分模型,提出了基于貝葉斯方法的語音切分方法。

在進行普通話水平客觀測試系統的研究中,因普通話水平測試的5個項目里,除了在朗讀項要評測語音的流利程度、停連、節奏等韻律因素外,主要是測試語音中各音節的聲、韻、調的準確程度,這就需要將測試中的多音節字詞項和朗讀項的語音切分成一個一個的音節來進行評測。音節切分的準確程度極大地影響后續評測的準確率。

在普通話水平評測中,由于測試編排的特點,語音文件都有標準文本可以依賴,這給音節切分提供了先驗知識,在充分運用這些先驗知識和分析漢語語音結構特點的基礎上,本文提出了一種基于隸屬度的二級切分算法。實驗結果表明,該方法的音節切分準確率達98.3%。

2 語音音節切分特征提取

傳統的音節切分采用的特征為短時能量和過零率以及它們的變種,如能零積和能零比等。這些參數在信噪比較高時,能取得比較好的性能。但是,在環境噪聲比較大的情況下,系統性能就急劇下降。通過實驗比較,目前具有較好抗噪性能的特征參數有基于幀的Teager能量和平滑累計能量等,下面分別介紹這兩種參數的計算。

2.1 基于幀的Teager能量

設Xw(n)為加窗語音采樣序列,首先對其進行N點短時傅立葉變換：

然后用頻率的平方值對功率譜進行加權：

最后計算幀的Teager能量：

其中求和的范圍從250H z到3 750Hz,范圍以外的功率譜值設為零。從公式中不難發現Teager能量[16]不僅與信號的幅度有關,還與相應頻率有關。該方法之所以能夠檢測出低幅度的摩擦音和爆破音是因為這些發音能量分布在高頻范圍內。

2.2 平滑累積能量

設信號為X(i),其平滑累積能量[9]為：

3 音節切分

3.1 普通話水平客觀評測中的音節切分特點

普通話水平客觀評測中的音節切分任務有兩個：一個是進行多音節字詞的切分,另一個是進行朗讀語音的切分。由于被切分的語音是對照文本朗讀的,所以在進行切分的過程中,可用已知語音文本的先驗知識來引導切分過程。

多項研究結果[17-20]表明：人與人之間的平均音節時長變化比較大,但同一人的發音中,在常規語速下同一聲母的時長比較穩定,同時,聲母之間和韻母之間的相對時長基本保持比例關系等特點。因此,聲韻母時長是一個穩定的可提供先驗知識的特征。

3.1.1 普通話聲韻母時長統計

齊士鈐、張家騄等[19]對雙音節詞中漢語普通話輔音音長進行了統計分析,得出如下結論：1)輔音音長與送氣狀態有直接關系,不送氣塞音最短,送氣塞擦音最長。各種發音方式之間有一定的音長比值。而音長與發音部位關系不大。2)輔音音長與聲調、全音節長度關系不大,但送氣塞擦音受后接元音影響,元音開口度大音長短。3)在連讀中,前后兩音節中的輔音長度與所在前后位置無關。

陳肖霞等[21],對3個發音人的連續語音進行切分標注,統計了語料中的聲母音長與韻母聲長。見表1和表2。

表1 聲母的平均時長(ms)

表2 韻母的平均時長(ms)

在連續語音中,“的、地、得”和“了”基本上是讀輕聲“de”和“le” ,“de”的時長平均為 88m s,比從表 1和表2組合出來的要短15m s左右?！發e”的平均時長為72m s,比從表 1和表 2組合出來的要短約83m s左右,因此,在遇到這兩個輕聲時,采用輕聲時長。

3.1.2 參試者的聲韻母時長估計

聲韻母時長統計需要進行語音的聲韻切分,但目前的自動切分技術還不完善。因此,只能采用借助前面的統計結果,以及普通話水平測試第一項“單音節字詞”中的聲韻母時長信息,進行聲韻母時長估計。

在聲韻切分中,單音節字詞中的以擦音作為聲母的音節的自動切分最容易也最準確。因此,以參試者的普通話水平測試第一項“單音節字詞”中得到的較少誤讀的s和x的時長平均值作為標準,按前面的統計結果的聲母時長比例,就可以得到參試者的聲母時長估計值。

將“單音節字詞”中的每個詞的時長減去剛得到的聲母時長就是該詞的韻母時長(不考慮過渡段)。對各個韻母時長分別求平均就形成了參試者的韻母時長估計值。

具體的統計方法如下：

1)在“單音節字詞”語音文件中查找所有s和x所對應的音節,對這些音節進行聲韻切分,計算聲母的時長平均值L1。

計算就得到參試者的聲母時長估計值。

3)用每個音節的時長減去剛得到的對應聲母的時長得到該音節的韻母時長,對各個韻母時長分別求平均就形成了參試者的韻母時長估計值。

4)對于沒出現過的韻母,在表2中查找與該韻母時長最接近的出現過的韻母時長值替代。

3.2 切分算法

對由語音端點檢測得出的語音段進行音節切分,采用兩級切分：第一級切分出明顯的語音段,而且確保切分準確,第二級再對第一級切分出來的語音段進行詳細確定端點,必要時進行再切分。

采用的切分特征為從小波變換后的數據中提取出的3種平滑累計能量參數,以及Teager參數。

對語音信號進行四級二進小波變換后,重構第3級、第4級細節數據和第4級近似數據。按公式(4)求其平滑累計能量,得到3組曲線,然后以64點為一幀計算其平均值,再對其歸一化,得到3種參數 ,分別記為 Ed3(i)、Ed4(i)、Ea4(i)。

3.2.1 第一級切分

3.2.1.1 語音段中音節數的確定

2）考試或者提交機器人作品?？梢宰灾鬟x擇其中的一種考核方式。設計制作機器人作品要求學生有很好的理論基礎，學生需要獨立完成設計、制作的整個過程。這種方式注重培養學生實際動手操作的能力，提升創新思維，同時可以鍛煉學生在突發情況下分析、解決問題的能力。

1)多音節字詞項的語音段中音節數的確定。

在多音節字詞項的測試中,每個詞組之間的無音段時長遠大于詞組內的無音段時長,因此,可以作為詞組之間的分割點,也就可以確定語音段與文本的對應關系。

2)朗讀項的語音段中音節數的確定。

首先,由文本文件通過查已經經單音節字詞項話者適用過的音節時長表得到文本的總體累計經驗時長Stw,其中的聲母累計時長Siw和韻母累計時長Sfw=Stw-Siw。統計語音文件的累計語音時長Stv。從上一節的分析中,知道每個人的普通話語音的聲母時長基本不隨語境而變化,由此,可計算語音文件的韻母時長Sfv=Stv-Siw。得到語音文件與文本文件的韻母時長比：R=Sfv/Sfw。

其次,以文本中的每個標點符號作為分割點,在語音文件中逐段查找時長值大于100m s的無音段,按下面方法確定本段文本對應的語音段。

設目前進行文本中的第k段對應語音段的搜索,而語音文件的大語音段(指無音段時長大于200m s之間的語音段)已到m段,該段的語音時長為Ym。查表得到第k段文本文件的聲母時長W ik和韻母時長Wfk。求：

則認為m到n段語音段對應第k段文本。

接著,從語音文件第m段語音段中的第一小段Vm1開始,設其時長為Sm1,嘗試由第k段文本文件的第一個音節Wk1查表得到它的聲母時長Sik1和韻母時長S fk1。如果,|Sm1-(Sik 1+Sfk1×R)|≤30,就認為Vm1與Wk1對應,進行Vm2段的匹配。否則,在Wk1的基礎上增加音節Wk2,再判斷|Sm1-[Sik1+Sik 2+(Sfk1+Sfk2)×R]|≤30是否成立,成立就認為Vm1與Wk1和Wk2對應。否則,繼續添加音節直至條件成立,如果誤差越來越大,就認定誤差最小的那個為對應音節串。繼續運行到m段中所有小段都匹配完畢,開始m+1段,重復以上工作,直到第n段匹配結束,再開始文本文件的第k+1段文本與語音文件的匹配,一直運行到語音文件結尾。

3.2.1.2 第一級切分

1)如果本段語音對應的音節數為1,不必切分,進行下一語音段的切分。

2)從Ed3(i)和Ed4(i)曲線中,查找小于Eth1(為域值,本文中設為 0.005)的區域,如果有,則認為該區域的起點為音節的切分點,將語音段一分為二,按先驗音長知識確定前后段語音應包含的音節數?；氐降?步。

3)從Ed4(i)中檢測語音段中超過Eth2(為域值,本文中設為0.1)的孤立段,比較段數是否與本段語音所對應的音節數相同,按先驗音長知識確定各段在語音段中的位置是否在范圍內,是則根據以下原則確定切分點：

如果該對應音節是零聲母、濁輔音聲母或是不送氣塞音聲母,則該音節的起點為該段曲線前沿的具有大于0.035以上3點差分值的最低點,同時該點也是前一音節的終點。

否則,取前一段的后沿的具有大于0.035以上3點負差分值的最低點作為本音節的起點。同時也是前一音節的終點。

處理完所有孤立段,跳第二級切分繼續進行音節切分。

如果不存在合格孤立段,用Ed3(i)替換Ed4(i)再執行本步驟。

3.2.2 第二級切分

對第一級切分還存在沒切分出來的音節的語音段,繼續在本級進行切分。首先采用確定音節數時用的辦法,利用語音時長的先驗知識大概確定各音節的切分點,根據以下原則在該點的±32ms內確定本段中音節的切分點。

如果該音節是以濁輔音開始,檢測Ed4(i)中的3點差分大于等于0.035的點,其中值最小的點作為音節切分點。

如果該音節是以零聲母開始,則檢測Ea4(i)中的最低點作為音節切分點。

其他的,則在 teager曲線中,找V 型反轉點,該點必需為最低點。

4 實驗結果

從語音數據庫中,選擇了5男5女的測試數據作為音節切分的實驗數據。這些數據中,沒有漏讀和重讀,總共包含1 000個單音節字詞,含1 000個音節的多音節詞語,以及含4 056個音節的10篇短文。這些數據都進行了人工端點確定。對多音節詞語和短文也進行手工音節切分。

音節切分實驗結果如表3所示,音節切分正確與否是以系統切分出來的音節端點與人工確定的音節端點誤差是否在1幀之內為判斷準則。

表3 音節切分實驗結果

從實驗結果看,本文提出的方法比傳統的基于小波變換域子帶能量的雙域值法音節切分正確率高6%以上,也比半波差分譜法音節切分正確率高4%,證明本方法是準確可靠的。

朗讀項的切分錯誤同樣主要出現在輕聲音節的尾端點上,因其輕短,與后面音節的過渡段比較長,其尾端點切分困難。還有前音節是非鼻韻尾,而后一音節以零聲母開始或元音開始的情況,也比較難切分。

5 小結

在充分利用文本信息和語音時長信息,以及利用改進了的語音小波變換后的幾個分量的累計能量等特征的基礎上,提出使用話者語音統計信息進行音節切分的算法,該算法使音節切分精度最少達98.3%。

在利用文本信息進行語音段音節數確定時,如果遇到朗讀出現漏讀和重讀時,將會出現系統性錯誤,在后續的研究中要重點加以研究。

[1] 張紅,黃泰翼,李治.基于半波差分譜的語音信號音節切分[J].聲學學報(中文版),2000,25(4)：323-328.

[2] 王帆,鄭方,吳文虎.基于多尺度分形維數的漢語語音聲韻切分[J].清華大學學報(自然科學版),2002,42(1)：68-71.

[3] 王卓,蘇牧,李鵬,等.噪聲環境下基于高階譜的端點檢測算法[J].中文信息學報,2004,18(5)：70-77.

[4] 張繼勇,鄭方,杜術,等.連續漢語語音識別中基于歸并的音節切分自動機[J].軟件學報,1999,10(11)：1212-1215.

[5] 張文軍,謝劍英,李聰.基于貝葉斯方法的魯棒語音切分[J].數據采集與處理,2002,17(3)：260-264.

[6] 齊峰巖,鮑長春.一種基于支持向量機的含噪語音的清/濁/靜音分類的新方法[J].電子學報,2006,34(4)：605-611.

[7] W ilpon J.G.;Juang B.H.;Rabiner L.R.An investigation on the use ofacoustic sub-w ord units for automatic speech recognition[C]//Proc.of IEEE Internat.Conf.on A coustic,Speech,and Signal Processing.1987：821-824.

[8] Van Hernert J.P.Automatic segmentation of speech[J].IEEE Trans.Signal Process,1991,39(4)：1008-1012.

[9] G reenberg S.Speaking in short hand：asy llable-centric perspective for under standing pronunciation variation[J].Speech Communication,1999,29(2)：159-176.

[10] Prasad V.K.;Nagarajan T.;Murthy H.A.Automatic segmentation of continuous speech using m inimum phase group delay functions[J].Speech Communication,2004,42(3-4)：429.

[11] 顧明亮,代春倩.一種新的漢語連續語音統計切分算法[J].徐州師范大學學報(自然科學版),2005,23(4)：45-49.

[12] 賈磊,穆向禺,徐波.廣播語音的音頻分割[J].中文信息學報,2002,16(1)：37-42.

[13] 胡瑞敏,薛東輝,姚天任,等.BP人工神經元網絡與漢語語音的音節切分[J].華中理工大學學報,1996,24(S2)：25.

[14] 劉宇紅,劉橋,任強.基于改進的模糊ART的語音信號端點檢測與切分[J].系統工程與電子技術,2004,26(8)：147.

[15] Rabiner L.R.;Rosenberg A.E.;W ilpon J.G.,et al.A bootstrapping training technique for obtaining dem isy llab le reference patterns[J].J.Acoustic Soc.Amer.,1982,71(6)：1588-1595.

[16] Ying G.S.;M itchell C.D.;Jam ieson L.H.Endpoint Detection of Isolated U tterances Based on a Modified Teager Energy Measurement[C]//Proc.ICASSP,1992：732-735.

[17] 馮隆.北京話語流中聲韻調的時長[M].北京語音實驗錄,北京：北京大學出版社,1985.

[18] 馬大猷,沈豪,等.聲學手冊[M].北京：科學出版社,1983.

[19] 齊士鈐,張家騄.漢語普通話輔音音長分析[J].聲學學報,1982,7(1)：5.

[20] 吳宗濟,曹劍芬.普通話輔音聲學特征的幾個問題[C]//1979第二屆全國聲學學術會議論文摘要.

[21] 陳肖霞,祖漪清.基于連續話語語料庫的語音音段的初步統計分析[R].語音研究報告,1998.