?

語音識別在語音增強中的應用

2023-01-06 10:00張國峰
科技創新與應用 2022年36期
關鍵詞:音節信噪比頻段

張國峰,丁 波

(珠海醫凱電子科技有限公司,廣東 珠海 519041)

通信系統中傳輸的語音通常都會受到外部環境噪聲和系統內部噪聲的影響,這會影響通信系統的性能。語音增強是抑制噪聲干擾的重要手段,其目的是增強含噪語音中的有用信號,提高含噪語音的信噪比。在實際應用中,語音增強系統的輸入通道可以分為單通道[1]、雙通道[2]和多通道[3]。一般來說,輸入通道越多,語音增強的效果就越好,所以基于麥克風陣列的多通道語音增強技術優于只有一個麥克風的單通道語音增強。但是,麥克風陣列算法的計算較為復雜,而且在很多場合中,只有一路輸入語音可用,此時仍然需要用到單通道語音增強技術。因此,對以譜減法[1]為代表的單通道語音增強進行研究,仍然具有重要的意義。

語音增強技術不僅用于提高語音的可懂度,而且廣泛應用于語音識別、語音合成等語音處理系統的前端[4-5]。直接對含噪語音進行去噪處理,雖然可以提高含噪語音的信噪比,但是會導致語音失真,使待識別語音與訓練語音的失配更加嚴重,從而影響語音識別系統的識別率,難以取得理想的識別效果。因此,在目前的魯棒語音識別技術中,對語音的增強都會結合后端識別器進行,調整待識別語音的特征參數,使其與后端識別器匹配;或者調整后端識別器的參數,使其與待識別語音的特征參數匹配。目前,魯棒語音識別技術已經取得了較好的效果,可以從含噪語音中實時提取背景噪聲的參數[5]。將語音識別系統實時提取的噪聲參數用于語音增強,可以提高語音增強系統中噪聲均值估計的實時性,從而提高語音增強系統對非平穩噪聲的實時跟蹤性能。本文研究語音識別在譜減法語音增強技術中的應用,包括在實時噪聲估計中的應用和在譜減系數估計中的應用。

在傳統的譜減法語音增強中,噪聲的均值只在語音間隙期(非語音段)估計。但是,實際生活中的噪聲往往是非平穩的,在語音存續期間(語音段)也可能發生變化。如果不及時更新噪聲的均值,就會給語音增強帶來較大的誤差?;谧顑炂交妥钚〗y計的噪聲估計[6-7]是一種常見的連續噪聲估計方法,其基本思想是用一段時間內含噪語音功率譜最小值的變化代表含噪語音功率譜的變化,對這段時間內含噪語音功率譜的最小值進行補償,得到含噪語音功率譜的均值。該方法的主要缺點是延遲較大,實時跟蹤性能較差,在延遲期間,語音增強的效果較差。在基于矢量泰勒級數的特征補償或模型補償[5]中,加性背景噪聲和乘性卷積噪聲的參數可以用期望最大(Expectation-Maximization,EM)算法[8]從含噪語音中實時提取。用語音識別系統提取的噪聲參數屬于倒譜特征向量,無法將其恢復為線性頻譜,不能直接用于語音增強。但是,可以用逆離散余弦變換將其變換到對數譜域,用每個通道對數譜能量的變化表示該通道噪聲電平的變化,從而求出該通道每個數字頻率處噪聲頻譜的均值。將估得噪聲頻譜的均值用于譜減法語音增強,可以提高噪聲估計的實時性,增強噪聲估計對非平穩噪聲的跟蹤能力,從而取得更好的增強效果。

譜減法語音增強的另一項關鍵技術是譜減系數估計。語音和噪聲都是典型的隨機信號,其時域信號和頻譜都是不可再現的。噪聲的隨機性很大,其頻譜的最大值可以達到平均值的6~7倍。在語音段,研究者無法得到每一幀含噪語音中噪聲的準確頻譜,因而只能在含噪語音頻譜中減去噪聲頻譜的平均值。如果噪聲頻譜的實際值比平均值大得多,就會導致增強后的語音存在較多的殘留噪聲,嚴重影響語音增強的效果。如果噪聲頻譜的實際值比平均值小得多,就會損傷語音,導致增強后的語音存在較大的失真,嚴重影響增強后語音的可懂度。因此,在譜減法語音增強中,譜減系數不能設置為常數1,而是根據含噪語音的局部信噪比動態調整譜減系數。如果在某個頻段上,語音的能量較大,即信噪比較高,可以設置較小的譜減系數。這是因為較小的譜減系數可以避免語音的損傷,而且語音的能量遠遠大于噪聲的能量,即使殘留較多的噪聲,對語音可懂度的影響也較小。如果在某個頻段上,語音的能量較小,即信噪比較低,可以設置較大的譜減系數。因為該頻段語音的能量占語音總能量的比例較小,即使有所損失,對語音可懂度的影響也不大;而且,在該頻段信號的頻譜中,大部分是噪聲,設置較大的譜減系數,可以最大可能地去除噪聲,提高增強后語音的信噪比。

譜減系數的設置除了與信噪比有關外,還與語音在每個頻段上存在的概率有關。語音可以劃分為若干個音節,而每個音節語音的頻譜在每個頻段上的分布是不一樣的。有的音節主要分布在低頻段,有的音節在低頻段和中頻段都有較高的能量。這可以為譜減系數的設置提供一定的先驗知識。如果語音在某個頻段上出現的概率較小,那么可以設置較大的譜減系數,盡可能地抑制噪聲;如果語音在某個頻段上出現的概率較大,那么可以設置較小的譜減系數,盡可能地保留語音。在譜減系數的估計中,引入語音存在的概率,可以減小信噪比估計的誤差對譜減系數設置的影響,提高譜減系數設置的精度。語音在每個頻帶上的存在概率可以用訓練語音來計算,只需要統計每個音節語音的頻譜在每個頻帶上的分布,即可得到該音節語音在每個頻帶上的存在概率。在語音增強時,先用語音識別系統識別出當前語音屬于哪個音節,即可得到當前語音在每個頻帶上存在的概率;然后將語音存在概率用于對譜減系數的加權,得到更加準確的譜減系數;最后,利用得到的譜減系數對含噪語音的幅度譜進行譜減運算,得到純凈語音幅度譜的估計值,并用逆傅里葉變換將其變換到時域,用重疊相加法連接各幀,得到完整的增強語音。

1 噪聲均值的實時估計

1.1 基于高斯混合模型的噪聲估計

為了使語音的每個數字頻率k隸屬于一個唯一的美爾(Mel)子帶,首先在美爾頻域將語音的有效頻率范圍劃分為D個互不重疊的Mel子帶,然后對每一幀信號進行聲學預處理,快速傅里葉變換,Mel濾波,取對數和離散余弦變換,得到每一幀信號的美爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC),并以MFCC為語音識別系統的倒譜特征向量。

在訓練階段,用一個含有M個高斯單元的高斯混合模型(Gaussian Mixture Model,GMM)描述純凈語音MFCC的概率分布

式中:xt表示第t幀純凈語音的MFCC;b(xt)表示xt的概率密度函數;cm,μx,m和Σx,m分別表示第m個高斯單元的高斯混合系數、均值向量和協方差矩陣;D表示特征向量(MFCC)的維數,即Mel通道的數量;上標T表示矩陣或向量的轉置。

在測試階段,將含噪語音的特征向量(MFCC)代入GMM,通過EM算法反復迭代,即可得到噪聲均值μn的最大似然估計[5],即

式中:γm(t)=P(kt=m|yt,λ)表示給定先驗參數λ時,第t幀含噪語音特征向量(MFCC)yt屬于第m個高斯單元的后驗概率;Um和φm的表達式分別為

式中:C表示離散余弦變換矩陣;C-1表示矩陣C的逆矩陣;μn0表示噪聲的初始均值,是上一次迭代的結果;diag()表示以括號中的向量為對角元素生成的對角矩陣。

1.2 用于語音增強的噪聲估計

因為MFCC的提取屬于不可逆變換,無法將其還原為線性頻譜,所以用GMM提取的倒譜噪聲均值μn無法直接用于譜減法語音增強。為了得到噪聲的線性頻譜的實時估計,首先將噪聲的倒譜均值向量變換倒對數譜域

式中:un表示噪聲的對數譜均值向量,維數為D,每個元素對應一個Mel通道。設在當前語音段的前一個非語音段得到的噪聲的對數譜均值向量和線性譜均值向量分別為un和N,且數字頻率k屬于第i個Mel通道,則語音段噪聲的線性譜均值向量N的第k個元素N(k)通過下式估計

式中:un(i)和un(i)分別表示向量un和的第i個元素表示向量N的第k個元素。得到N后,即可將其用于譜減法語音增強。

2 基于語音存在概率的語音增強

2.1 語音存在概率的計算

在語音識別系統中,以音節為基本語音單元,用每個音節的所有訓練語音生成一個隱馬爾可夫模型,作為語音識別系統的聲學模型。第n個音節的語音在第i個Mel通道上存在的概率Pn(i)通過下式計算

式中:Mn,i表示第n個音節的語音在第i個Mel通道上存在語音的幀數;Mn表示第n個音節語音的總幀數。

2.2 含噪語音的幅度增強

在幅度增強中,先用語音識別系統對當前語音進行識別。設當前語音被識別為第n個音節的語音,則對第i個Mel通道上的每個數字頻率k,用加權譜減法對含噪語音進行幅度增強

式中:E(i)表示第i個Mel通道的對數能量;Emin和Emax分別表示E(i)的最小值和最大值。在譜減系數β(i)的計算中,β(i)的最小值設置為1,最大值設置為6。由式(9)可知,第i個Mel通道上的譜減系數β(i)與該通道上語音存在的概率Pn(i)成反比,較大的語音存在概率對應較小的譜減系數,較小的語音存在概率對應較大的譜減系數。這是因為,較大的語音存在概率意味著當前Mel通道語音的能量較大,設置較小的譜減系數一方面可以避免損傷語音;另一方面能量較高的語音對噪聲的抑制能力較強,即使保留較多的噪聲,人耳也不易察覺。較小的語音存在概率意味著當前Mel通道的頻譜中大部分是噪聲,設置較大的譜減系數,可以盡可能地消除噪聲,提高增強后語音的信噪比;此外,即使當前Mel通道存在少量語音,將其當作噪聲去除,對語音可懂度的影響也較小,因為其在語音總能量中的比例較小。

得到純凈語音幅度譜的估計值|X^(k)|后,首先將其與含噪語音的相位譜相乘,得到純凈語音的頻譜;然后對每幀語音的頻譜進行逆傅里葉變換,得到該幀語音的時域信號;最后,對所有幀語音的時域信號用重疊相加法連接,得到增強后的數字語音。

3 結束語

譜減法是一種重要的單通道語音增強技術,通過對含噪語音的幅度譜減去噪聲幅度譜的均值,達到增強語音的目的。譜減法的關鍵技術包括噪聲的實時估計和譜減系數的計算。將語音識別用于譜減法語音增強,一方面可以通過GMM實時估計噪聲的均值,另一方面可以利用語音在每個Mel通道上存在的概率計算譜減法的過減系數,提高語音增強的信噪比和可懂度。

猜你喜歡
音節信噪比頻段
兩種64排GE CT冠脈成像信噪比與劑量對比分析研究
5G高新視頻的雙頻段協同傳輸
gPhone重力儀的面波頻段響應實測研究
r(re)音節單詞的拼讀規則
雷聲公司交付首套中頻段下一代干擾機
基于深度學習的無人機數據鏈信噪比估計算法
拼拼 讀讀 寫寫
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
看音節說句子
推擠的5GHz頻段
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合