?

說話人識別中基于Fisher比的特征組合方法

2016-05-14 10:37謝小娟曾以成熊冰峰
計算機應用 2016年5期

謝小娟 曾以成 熊冰峰

摘要:為了提高說話人識別的準確率,可以同時采用多個特征參數,針對綜合特征參數中各維分量對識別結果的影響可能不一樣,同等對待并不一定是最優的方案這個問題,提出基于Fisher準則的梅爾頻率倒譜系數(MFCC)、線性預測梅爾倒譜系數(LPMFCC)、Teager能量算子倒譜參數(TEOCC)相混合的特征參數提取方法。首先,提取語音信號的MFCC、LPMFCC和TEOCC三種參數;然后,計算MFCC和LPMFCC參數中各維分量的Fisher比,分別選出六個Fisher比高的分量與TEOCC參數組合成混合特征參數;最后,采用TIMIT語音庫和NOISEX92噪聲庫進行說話人識別實驗。仿真實驗表明,所提方法與MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅爾倒譜系數混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神經網絡的平均識別率在純凈語音環境下分別提高了21.65個百分點、18.39個百分點、15.61個百分點、15.01個百分點與22.70個百分點;在30dB噪聲環境下,則分別提升了15.15個百分點、10.81個百分點、8.69個百分點、7.64個百分點與17.76個百分點。實驗結果表明,該混合特征參數能夠有效提高說話人識別率,且具有更好的魯棒性。

關鍵詞:說話人識別;Fisher準則;梅爾頻率倒譜系數;線性預測系數;Teager能量算子

中圖分類號:TN912 文獻標志碼:A

Abstract: In order to improve the accuracy of speaker recognition, multiple feature parameters should be adopted simultaneously. For the problem that each dimension comprehensive feature parameter has the different influence on the identification result, and treating them equally may not be the optimal solution, a feature parameter extraction method based on Fisher criterion combined with Mel Frequency Cepstrum Coefficient (MFCC), Linear Prediction Mel Frequency Cepstrum Coefficient (LPMFCC) and Teager Energy Operators Cepstrum Coefficient (TEOCC) was proposed. Firstly, parameters of MFCC, LPMFCC and TEOCC from speech signals were extracted, and then the Fisher ratio of each dimension of MFCC and LPMFCC parameters was calculated, six components were selected respectively by using Fisher standard to combine with TEOCC parameter into a mixture feature which was used to realize speaker recognition on the TIMIT acousticphonetic continuous speech corpus and NOISEX92 noise library. The simulation results show that the average recognition rate of the proposed method by using Gauss Mixed Model (GMM) and Back Propagation (BP) neural network compared with MFCC, LPMFCC, MFCC+LPMFCC, parameter extraction method for MFCC based on Fisher criterion and the feature extraction method based on Principal Component Analysis (PCA) is increased by 21.65 percentage points, 18.39 percentage points, 15.61 percentage points, 15.01 percentage points, 22.70 percentage points in the pure voice database, and by 15.15 percentage points, 10.81 percentage points, 8.69 percentage points, 7.64 percentage points, 17.76 percentage points in 30dB noise environments. The results show that the mixture feature can improve the recognition rate effectively and has better robustness.

Key words:speaker recognition; Fisher criterion; Mel Frequency Cepstrum Coefficent (MFCC); Linear Prediction Coefficient (LPC); Teager Energy Operator (TEO)

0 引言

隨著語音信號處理技術的進步,語音信息服務正走向智能化,說話人識別(Speaker Recognition, SR)[1]已被廣泛地應用于信息安全領域、通信領域、司法領域和軍事等領域[2]。而如何從說話人的語音信號中提取出能表征說話人個性、易分類且不隨時間空間變化的有效特征參數是說話人識別的關鍵。

目前,常用的特征參數主要有線性預測倒譜系數(Linear Prediction Cepstral Coefficent, LPCC)和梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficent, MFCC)[3]。近幾年來,針對這兩種特征參數,人們提出了許多種改進的方法。

文獻[4]利用語音信號的相關特性和人耳聽覺感知特性,將LPCC和MFCC組合作為特征參數來提高說話人識別系統性能;文獻[5]組合了LPCC、MFCC及其一階、二階差分參數來進行說話人識別,但識別率只有小幅度提高,并且識別速度慢,需要大量的時間,實時性不夠好;文獻[6]研究了在LPCC和MFCC中加入基于Bark子波濾波器組的特征參數來提高語音識別率的方法;文獻[7]利用主成分分析(Principal Component Analysis,PCA)方法組合LPCC、MFCC和一階微分參數來改善說話人識別性能;文獻[8]提出了一種在MFCC基礎上增加歸一化短時能量參數和一階差分作為特征參數的改進算法;文獻[9]采用非線性冪函數對人耳的聽覺特性進行模擬,得到新的MFCC及其差分和加權倒譜系數的組合特征參數來提高說話人識別準確率。由此可見將兩種或兩種以上的不同特征參數直接組合,雖然有利于提高說話人識別系統的性能,但實際上,組合參數不僅會增加特征參數的維數,而且有冗余信息。

為了解決直接組合參數不理想的問題,可對特征參數中各維分量對識別貢獻進行評價。目前常用的評價方法有兩種,利用Fisher準則得到特征向量的最佳投影方向(分離度最大)[10]和通過增減特征分量的方法來判斷特征分量對識別的貢獻程度[11]。甄斌等[12]采用增減特征分量的方法研究了MFCC各維倒譜分量對說話人識別和語音識別的貢獻,但是該方法計算量較大,同時受環境影響較大;鮮曉東等[13]通過Fisher比有效地選擇MFCC、逆梅爾倒譜系數(Inverted Mel Frequency Cepstrum Coefficient, IMFCC)和中頻梅爾倒譜系數(Midfrequency Mel Frequency Cepstrum Coefficient, MidMFCC)三種參數,組合成一種混合特征參數(以下記為XF特征參數),縮短了計算時間,提高了系統識別率, 因此利用Fisher準則來分析特征向量,確定特征分量的可分離性是一種有效的方法。

本文將結合聲道特征、人耳的線性感知特性和非線性能量特性,通過計算MFCC和LPMFCC,然后利用Fisher準則,選擇其中可分離程度較大的特征分量,與Teager能量算子倒譜參數(Teager Energy Operators Cepstrum Coefficient, TEOCC)組成一種混合特征參數,進行說話人識別。

1 語音特征參數提取

1.1 MFCC參數提取

MFCC考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上;由于充分考慮了人的聽覺特性,而且沒有任何提前假設,MFCC參數具有良好的識別性能和抗噪能力[3]。

MFCC參數提取過程如圖1所示,其中預處理包括預加重、分幀、加窗和端點檢測,DFT(Discrete Fourier Transform)表示快速傅里葉變換,DCT(Discrete Cosine Transform)表示離散余弦變換。

1.2 LPMFCC參數提取

線性預測系數(Linear Prediction Coefficient, LPC)是表征聲道模型的線性時變系統的參數,它反映了說話人的聲道特性,在說話人識別中具有廣泛的應用。但LPC在所有頻率上都是線性逼近語音的,這與人耳的聽覺特性不一致,并且它對噪聲的影響特別敏感,包含了語音高頻部分的大部分噪聲細節,從而會影響系統的性能。由于語音信息主要集中在低頻部分,Mel濾波器組在低頻區域的分布比較集中,所以借鑒MFCC,將實際頻率的LPC系數轉化為Mel頻率的LPC系數,得到線性預測梅爾參數(Linear Prediction Mel Frequency Cepstrum Coefficient, LPMFCC),這樣使聲道特征和人耳聽覺特征結合了起來,應用于說話人識別系統會有更好的識別效果。

LPMFCC參數提取算法如下:

1)對語音信號進行預處理,包括預加重、分幀、加窗和端點檢測;

2)計算每幀語音信號的LPC系數;

3)每幀信號的LPC系數經過DFT得到離散頻譜,然后計算功率譜;

4)將上述功率譜通過Mel濾波器組進行濾波處理,并計算對數功率譜;

5)將對數功率譜經過離散余弦變換得到LPMFCC。

1.3 TEOCC參數提取

Teager能量算子(Teager Energy Operators, TEO)是由Kaiser[14]提出的一種非線性差分算子,不僅具有非線性能量跟蹤信號特性,能夠合理地呈現信號能量的變換,而且能夠消除信號的零均值噪聲影響,增強語音信號,同時進行信號特征提取。

由此可以看出,TEO能消除零均值噪聲的影響。而通常所用的能量估計方法沒有這種消除噪聲的能力,將非線性的TEO引入到語音信號的特征提取中,不僅能更好地反映信號的能量變化,而且能消除噪聲對語音信號的影響,從而達到更好的檢測效果。

Teager能量算子倒譜參數(TEOCC)提取算法如下:

1)對語音信號進行預處理,包括預加重、分幀、加窗和端點檢測;

2)根據式(1)計算每幀語音信號的平均TEO;

3)計算對數TEO,并作離散余弦變換得到1維TEOCC。

1.4 混合特征參數提取

MFCC、LPMFCC和TEOCC三種特征參數分別表征了語音信號在人耳感知、聲道和非線性能量方面的特征,以及體現了三種特征參數對噪聲的敏感程度,可以結合這三種特征對語音信號進行描述。但是,將它們直接疊加組合會產生一些問題。如果MFCC和LPMFCC兩種參數各提取12維,TEOCC參數提取1維,那么將會得到25維參數,增加了特征參數的維數,不僅增大了計算量,而且增加了系統訓練和識別時間。同時由于各維特征參數對識別的貢獻程度不一樣,有些參數可能包含大量的冗余信息甚至是干擾信息,如果將它們同等對待,最終會影響識別效果,所以必須對各維參數進行特征選擇,選出那些可分離性最優且能有效地表征語音信號的特征分量,從而達到降維的目的并得到最優的識別性能。在模式識別中特征參數的類別可分離性可以用Fisher比來判別。

混合特征參數的提取算法如下:

1)對語音信號進行預處理,包括預加重、分幀、加窗和端點檢測;

2)分別對預處理后的語音信號提取12維MFCC參數、12維LPMFCC參數和1維TEOCC參數;

3)從MFCC和LPMFCC兩種特征參數中各選擇Fisher比(即區分度)最大的6個維數分量進行組合,記作MFCC+LPMFCC特征參數,然后將其與TEOCC參數組合成13維混合特征參數。

2 實驗結果及分析

為了驗證本文提出的混合特征參數的有效性和實時性及其在噪聲環境下的識別性能,采用了TIMIT語音數據庫[16]和NOISEX92噪聲數據庫[17]進行了仿真實驗。設置TIMIT語音庫說話人閉集70個人(男40個,女30個),每個說話人錄制10段語句、7段用于模型訓練和3段用于測試。實驗中對預處理后的語音分別提取12維MFCC、12維LPMFCC、12維MFCC+LPMFCC、18維XF特征參數和13維本文混合特征參數,進行說話人識別實驗;為了進一步論證基于Fisher比的特征抽取方法的有效性,提取了12維PCMLT參數與之進行對比分析實驗,其中PCMLT參數是基于PCA的MFCC、LPMFCC和TEOCC的組合特征參數,提取過程是對預處理后的語音信號提取12維MFCC和12維LPMFCC進行PCA降維處理,分別得到6維特征參數,然后與TEOCC組合成新的特征參數。所有實驗都是在Windows 7操作平臺上運行,所有的識別結果均是通過多次測試平均統計得到。

2.1 實驗一

測試在純凈語音環境下特征參數的識別性能。實驗采用高斯混合模型(Gaussian Mixture Model, GMM)和反向傳播(Back Propagation, BP)神經網絡為分類器分別進行測試,并記錄了在純凈語音下不同特征參數的識別結果。其中GMM的混合階數均為8階;分別設置12維、13維和18維特征參數的BP神經網絡輸入層隱含層輸出層結構的神經元數為127570、137570和187570,并設置網絡參數:學習率η=0.35,動態參量a=0.85,訓練精度E≤e-5。如表1所示,記錄了兩種模型在純凈語音環境下幾種特征參數的識別率。

從表1可以看出,在基于Fisher比提取的MFCC和LPMFCC特征中引入TEOCC特征,識別率有明顯提高。而基于PCA特征抽取方法,雖然能減小特征參數之間的相關性、突出差異性,保留特征參數中一些重要的“成分”,舍去一些冗余的、包含信息量很少的“成分”,但是不能完全地保留最有效和最重要的信息,其識別效果反而變差。在GMM下,本文特征參數與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數和PCMLT參數相比, 識別率有顯著的提升,分別提高了22.98個百分點、19.24個百分點、17.41個百分點、17.15個百分點和24.71個百分點。同樣在BP神經網絡為分類器測試下,雖然6種特征參數識別率相比GMM下的識別率均有小幅度下降,但本文特征參數識別率與MFCC和LPMFCC、MFCC+LPMFCC、XF特征參數和PCMLT參數相比仍然有大幅提升,分別提升了20.32個百分點、17.53個百分點、13.81個百分點、12.87個百分點和20.68個百分點。這綜合說明了在純凈語音環境下本文方法具有更好的識別效果。

2.2 實驗二

測試在噪聲環境下特征參數的識別性能。為每個說話人的測試語音加入NOISEX92噪聲數據庫中生活較常見的噪聲進行實驗,并記錄了特征參數的識別性能,仿真結果如圖3所示。

從仿真結果可以看出,在不同的噪聲以及不同的信噪比下,本文提出的特征參數對說話人識別性能改善明顯,與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數、PCMLT參數相比,平均識別率在30dB信噪比下分別提高了15.15個百分點、10.81個百分點、8.69個百分點、7.64個百分點與17.76個百分點,在0dB信噪比下分別提升了7.82個百分點、7.72個百分點、2.88個百分點、2.73個百分點與9.13個百分點。實驗結果表明本文特征參數魯棒性較MFCC參數、LPMFCC參數、MFCC+LPMFCC參數、XF特征參數以及PCMLT參數要強,主要是由于MFCC參數考慮了人耳的聽覺特性,LPCC能夠體現說話人的聲道特征,對元音有較好的描述能力,且通過Fisher比選擇出了可分離性最優且能有效地表征語音信號的特征分量,而TEOCC參數不僅反映了語音信號非線性能量特征,還能夠消除噪聲對語音信號的影響,所以本文特征參數結合了這幾種特征參數的優點,識別性能和噪聲魯棒性都得到了進一步提高。

2.3 實驗三

正確率的高低是檢驗所用算法性能的一個指標,但在實際應用中還要考慮其實時性問題。實驗采用了Matlab串行和并行計算兩種方法定量描述各個算法的運行時間,其中串行計算是基于單線程串行處理數據和任務,而并行計算是利用Matlab并行計算工具箱,在多核和多處理器計算機上執行數據并行和任務并行的算法,將串行Matlab應用程序轉換為并行Matlab應用程序,從而提高計算機處理速率。具體的并行計算處理方法如下:

1)初始化Matlab并行計算環境;

2)利用Parallel Computing Toolbox(并行計算工具箱),使用parfor(并行for循環)和spmd(單程序多數據)注釋代碼段,幾乎不需要修改全部代碼,對串行Matlab代碼進行并行轉換,縮短算法運行時間;

3)終止Matlab并行計算環境。

表2是在采用串行計算下六種特征參數進行說話人識別的時間比較。表3是采用并行計算下本文特征參數在不同GMM混合度的識別時間。從表2可以看出,在串行計算下,無論哪個混合階數,本文方法與MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法相比,所用時間最長。時間的增加是由于本文方法增加了1維TEOCC特征參數,增大了計算的復雜度,使特征提取時間增多,增大了系統訓練和識別時間。從表3可以看出,當采用并行計算時,本文方法的實時性得到了進一步提高。與串行計算相比,其識別時間幾乎縮短了一半,具體處理時可采用該方法來獲得更好的實時性。

3 結語

通過綜合MFCC和LPMFCC以及TEO等特征,提出了基于Fisher線性判別準則,將這三種特征有效地相結合的說話人識別方法。Matlab軟件仿真,采用TIMIT語音庫和NOISEX92噪聲庫進行說話人識別實驗,結果表明,在純凈語音條件下本文提出的混合特征參數方法平均識別率比MFCC方法、LPMFCC方法、MFCC+LPMFCC方法、XF特征方法與PCMLT方法分別提高了21.65%、18.39%、15.61%、15.01%與22.30%;并且在噪聲條件下本文方法說話人識別性能較MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法以及PCMLT方法均更優,且具有更好的魯棒性。但是由于本文方法增加了1維TEOCC特征參數,相比MFCC、LPMFCC與MFCC+LPMFCC方法稍微增大了系統訓練和識別時間,所以還需要進一步研究改進。

參考文獻:

[1]MEHLA R, AGGARWAL R K. Automatic speech recognition: a survey[J]. International Journal of Advanced Research in Computer Science and Electronics Engineering (IJARCSEE), 2014, 3(1): 45-53.

[2]趙力. 語音信號處理[M]. 北京: 機械工業出版社, 2003:1-4.(ZHAO L. Speech Signal Processing[M]. Beijing: China Machine Press, 2003: 1-4.)

[3]王炳錫,屈丹,彭煊.實用語音識別基礎[M].北京:國防工業出版社,2005:147-149. (WANG B X, QU D, PENG X. Practical Fundamentals of Speech Recognition[M]. Beijing: National Defense Industry Press, 2005: 147-149.)

[4]YUJIN Y, PEIHUA Z, QUN Z. Research of speaker recognition based on combination of LPCC and MFCC[C]// Proceedings of the 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems. Piscataway, NJ: IEEE, 2010, 3: 765-767.

[5]余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設計, 2009, 30(5): 1189-1191.(YU J C, ZHANG R L. Speaker recognition method using MFCC and LPCC features [J]. Computer Engineering and Design, 2009, 30(5): 1189-1191.)

[6]張曉俊,陶智,吳迪,等.采用多特征組合優化的語音特征參數研究[J].通信技術,2013, 45(12): 98-100. (ZHANG X J, TAO Z, WU D, et al. Study of speech characteristic parameters by optimized multifeature combination[J]. Communications Technology, 2013, 45(12): 98-100.)

[7]JING X, MA J, ZHAO J, et al. Speaker recognition based on principal component analysis of LPCC and MFCC[C]// Proceedings of the 2014 IEEE International Conference on Signal Processing, Communications and Computing. Piscataway, NJ: IEEE, 2014: 403-408.

[8]宋樂,白靜.說話人識別中改進特征提取算法的研究[J]. 計算機工程與設計, 2014, 35(5): 1772-1775.(SONG L, BAI J. Study of improving feature extraction algorithm in speaker recognition[J]. Computer Engineering and Design, 2014, 35(5): 1772-1775.)

[9]岳倩倩,周萍,景新幸. 基于非線性冪函數的聽覺特征提取算法研究[J]. 微電子學與計算機,2015,32(6):163-166. (YU Q Q, ZHOU P, JING X X. The auditory feature extraction algorithm based on powerlaw nonlinearity function[J]. Microelectronics & Computer, 2015, 32(6): 163-166.)

[10]李夢超.基于說話人識別的特征參數提取改進算法的研究[D].南京:南京師范大學,2014:27-36. (LI M C. The modified extractionalgorithms of feature parameters based on speaker recognition[D]. Nanjing: Nanjing Normal University, 2014: 27-36.)

[11]KANEDERA N, ARAI T, HERMANSKY H, et al. On the importance of various modulation frequencies for speech recognition[C]// Proceedings of the 5th European Conference on Speech Communication and Technology. Rhodes:ISCA, 1997: 1079-1082.

[12]甄斌,吳璽宏,劉志敏,等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學學報(自然科學版),2001,37(3):371-378.(ZHEN B, WU X H, LIU Z M, et al. On the importance of components of the MFCC in speech and speaker recognition[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2001, 37(3): 371-378.)

[13]鮮曉東, 樊宇星. 基于Fisher比的梅爾倒譜系數混合特征提取方法[J]. 計算機應用, 2014,34(2):558-561. (XIAN X D, FAN Y X. Parameter extraction method for Mel frequency cepstral coefficients based on Fisher criterion[J]. Journal of Computer Applications, 2014, 34(2): 558-561.)

[14]KAISER J F. On a simple algorithm to calculate the “energy” of a signal[C]// Proceedings of the 1988 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1990: 381-384.

[15]李晉徽,楊俊安,項要杰.基于高斯濾波器及費舍爾準則的特征提取方法[J].電路與系統學報, 2013, 18(2): 400-404. (LI J H, YANG J A, XIANG Y J. The feature sets extracting method based on Gaussian filter and Fisher criterion[J]. Journal of Circuits and Systems, 2013, 18(2): 400-404.)

[16]LI Q, REYNOLDS D A. Corpora for the evaluation of speaker recognition systems[C]// Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1999, 2: 829-832.

[17]VARGA A, STEENEKEN H J M, TOMLINSON M, et al. The NOISEX92 study on the effect of additive noise on automatic speech recognition[R]. Malvern: DRA Speech Research Unit, 1992.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合