?

基音周期檢測的希爾伯特-黃變換方法

2015-04-14 12:28曾以成毛燕湖
計算機工程與應用 2015年1期
關鍵詞:基音信噪比幅值

焦 蓓,曾以成,毛燕湖

湘潭大學 光電工程系,湖南 湘潭 411105

1 引言

人在發濁音時,聲門周期性地打開與閉合,使來自肺部的空氣流形成一串周期性的脈沖氣流進入聲道,這脈沖串的周期稱為基音周期?;糁芷谑钦Z音信號處理中最重要的參數之一,準確地檢測基音周期對于高質量的語音合成、語音編碼、語音識別及說話人識別有重要意義。近年來,人們從語音信號的時域特性、頻域特性、時頻混合特性出發,提出了許多基音檢測方法,最具有代表性的是自相關法(Autocorrelation Function,ACF)[1]、平均幅度差法(Average Magnitude Difference Function,AMDF)[2]、倒譜法[3]、小波變換法[4-5]及其衍生算法。雖然上述各種方法已經在不同的系統中得到一定程度的應用,但它們都是基于語音的短時平穩假設,不能完全適用于非平穩、非線性的整體語音信號,部分算法還受Heisenberg不確定原理的制約,時頻分辨率受到限制。

Hilbert-Huang變換是處理非線性、非平穩信號的新方法[6],該方法吸取了小波變換多分辨的優勢,同時又克服了在小波變換中需要選擇基函數的缺點,根據信號本身的特性自適應地對信號進行分解,不需要對信號做短時平穩假設,由于不受Heisenberg不確定原理的制約,時頻分辨率比較高;加上瞬時頻率的引入,可以從時頻兩方面同時對信號進行分析,增加了處理信號的靈活性和有效性。近年來,因其在各個領域,如海洋信號分析[7]、地震信號分析[8]、圖形圖象處理[9]等的成功應用,也開始應用于語音信號處理。

基于傳統基音檢測法的不足和Hilbert-Huang變換的優勢,本文提出基于Hilbert-Huang變換的基音周期檢測法。

2 原理及其算法

希爾伯特-黃變換(Hilbert-Huang Transform,HHT)被認為是一種處理非線性、非平穩信號的自適應算法[10-11]。HHT主要包含兩個部分:經驗模態分解(Empirical Mode Decomposition,EMD)和希爾伯特變換(Hilbert Transform,HT),其中EMD是核心。

經驗模態分解往往被稱為是一個“篩選”(sifting)過程。這個篩選過程依據信號特點自適應地把任意一個復雜信號分解為一列本征模態函數IMF。每個IMF需要滿足如下兩個條件[6]:

(1)信號極值點的數量與零點數相等或相差是1;

(2)信號的由極大值定義的上包絡和由極小值定義的下包絡的局部均值為0。

EMD篩選過程詳見文獻[1]。通過分解,原始的數據序列可用IMF分量ci(t)以及剩余項rn(t)表示:

EMD將信號x(t)分解為n個IMF,對每個IMF分量 即ci(t)作HT,繼而可求取每個IMF的瞬時頻率和瞬時幅值信息。這類本征模態函數的瞬時頻率(Instantaneous Frequency,IF)有著明確的物理意義。

ci(t)和yi(t)構成解析信號z(t):

由瞬時幅值ai(t)和瞬時頻率ωi(t)可將信號表示為:

式(4)中省略了式(1)中的剩余項rn(t),因為rn(t)幅值小,不是一個單調函數就是一個常數,對信號分析和信息提取沒有實質影響。在時間-頻率面上畫出每個IMF以其幅值加權的瞬時頻率曲線,這個時間-頻率分布譜圖就是Hilbert譜,記為H(ω,t)。

由式(4)可以看出,Hilbert譜其實就是傅里葉變換的一種擴展。與傅里葉變換中的常數幅值和固定頻率相比較,式(4)具有時變的幅值和頻率,它更能反應出信號的非線性和非平穩等特征信息。

3 基于HHT的基音周期提取

Hilbert-Huang變換適用于非線性非平穩信號處理,不需要對語音信號做短時平穩的假設,因而不需要對語音信號做分幀加窗的處理,但語音數據的長度太長會影響EMD分解的效率,所以一般還是必須對語音信號分幀,只是分幀的目不再是為了保證幀內數據的短時平穩。

語音學研究表明,基音頻率范圍在60~500 Hz之間,故在基音檢測之前,先將語音信號通過60~900 Hz的數字帶通濾波器,下限截止頻率為60 Hz可以抑制電源的工頻干擾,上限截止頻率為900 Hz,不但可以保留基音的一二次諧波,還可去掉高次諧波和大部分共振峰的影響,使基音周期的檢測更容易。

語音信號中的濁音段保留著基音的周期信息,其能量比清音段大得多,本文采用短時平均能量作為判斷清濁音的標志。設定一個閾值,當短時平均能量大于閾值時,該幀語音判為濁音,并進行基音檢測,否則判為清音,將此幀置零。將清音幀和靜音幀置零后的語音組成待處理語音做后續處理。

對待處理語音做EMD分解,可自適應的得到不同時間尺度的IMF(這個分解對求解瞬時頻率是很有幫助的,因為瞬時頻率的方法只對單分量信號有意義,而EMD分解就是把復雜的語音信號分解為許多單分量信號(IMF)之和)。分解后的IMF分量的分布是從高頻到低頻,小尺度到大尺度,在同一局部時間不會出現相同的頻率,但同一個IMF在整個時間段內有可能出現幾個不同的頻率段。因此,基音周期就可能在不同的時間段處于不同的IMF分量中,所以單一的IMF已經不能單獨作為基音的表示,本文采用加權處理。

通過對每個IMF做HT變換,可以得到瞬時頻率和瞬時幅值。由于基音頻率范圍的限制,有用的頻率范圍為60~500 Hz,其余頻率點置零。從圖1可以看出,高幅值的imf2分量和res分量周期性比較明顯,低幅值的imf1分量周期性相對較弱。圖2顯示imf2分量和res分量的頻率在基音頻率的范圍內,imf1分量的頻率超出基音頻率范圍。結合圖1、圖2可知高幅值IMF分量包含大量的基音信息,低幅值IMF分量包含較少的基音信息。文獻[12]中提到低幅值部分包含大量的共振峰信息。為了加強基音信息同時減少共振峰影響,采取對IMF分量加權處理的方法,權值由分量的幅值決定。幅值大的對基音貢獻大,即權值大,幅值小的對共振峰貢獻大,對基音貢獻小,即權值小。通過加權不但可以減少共振峰的影響而且可以增強基音信息,給后續基音周期的準確提取奠定了基礎。

圖1 IMF分量的瞬時幅值圖

圖2 IMF分量的瞬時頻率圖

為了突出基音周期整數倍點上的峰值,采用自相關的平方做最后的基音周期提取?;谝陨戏治?,具體的基音周期提取流程如圖3所示。

圖3 基音提取流程圖

圖3中的IF為瞬時頻率(Instantaneous Frequency),IA表示瞬時幅值(Instantaneous Amplitude)。

4 實驗結果與分析

實驗所用的原始語音信號如圖4(a)所示,語音為普通話漢語拼音元音“a”的四個不同聲調的讀音,四個聲調讀的順序依次為一聲、二聲、三聲和四聲。采樣頻率為8 kHz,量化比特為16 bit。對原始語音分幀,幀長為50點,幀移為50點,進行清濁音判斷,令原始語音中的清音幀和靜音幀為零。如圖4(b)所示。把置零后的語音作為待處理信號,再分幀,幀長取512,幀移取160,分別采用ACF方法、Cepstrum方法和本文提出的方法進行基音檢測。

圖4 原始語音和待處理語音的波形圖

圖5、圖6和圖7是不同方法下檢測到的基音軌跡圖。圖5為ACF方法檢測的基音結果,從圖可以看出ACF檢測結果中存在倍頻的半頻的錯誤點;圖6為Cepstrum方法檢測的基音結果,在語音的端點處存在較多的錯誤點;圖7是本文提出的方法,從圖可以看出基音軌跡較平滑,且無倍頻和半頻的出現,對隨機錯誤點的出現也有一定的抑制作用。且圖7可以清楚看出每個字的聲調,分別為一聲、二聲、三聲和四聲,與給出的語音聲調完全相符合(基音的變換模式稱為聲調)。因此本文提出的方法具有更好的基音檢測效果。

圖5 ACF方法檢測的基音軌跡

圖6 Cepstrum方法檢測的基音軌跡

圖7 本文方法檢測的基音軌跡

在實際生活中,語音信號不可避免的會混入噪聲,為了檢測本文方法的魯棒性,在原始語音中加入高斯白噪聲,分別采用ACF法、Cepstrum法和本文方法在不同信噪比下對語音信號進行基音檢測,檢測結果如表1所示。

表1 三種方法在不同信噪比下的基音檢測結果 (%)

比較以上的實驗結果可見,本文提出的基于希爾伯特-黃變換的基音周期檢測法在相同信噪比下較其他兩種方法,基音檢測的正確率有明顯提高。但當信噪比下降為15 dB時,基音檢測的正確率只有65.71%,而且隨著信噪比的繼續降低,這個正確率會減小,即低信噪比下的基音周期檢測不是本文的優勢,如何提高低信噪比下的基音周期檢測是今后需要研究的問題之一。

正確率的高低是檢驗算法好壞的一個指標,但在實際應用中還要考慮其實時性問題。如圖8是ACF方法、Cepstrum方法和本文方法的運行時間對比。

圖8 三種不同方法運行時間對比

每種算法都有自己的適用范圍。從圖8可以看出,ACF檢測時間最短,Cepstrum次之,本文方法的檢測時間最長,幾乎是ACF算法時間的兩倍,因此所提算法不適合應用在實時性要求比較高的應用領域。

5 結論

語音是非線性非平穩信號,傳統的基音提取方法大部分都是建立在信號短時平穩性假設的基礎上,不符合客觀實際,因此本文提出了一種基于Hilbert-Huang變換的基音周期檢測法。該方法不需要對語音信號進行短時平穩假設,可以根據信號的本身特點,直接從信號本身特點出發將信號自適應的分解為有限個IMF分量,且不受Heisenberg不確定原理的制約,具有很高的時頻分辨率。本文方法首先利用短時能量對語音進行清濁音判斷,再經過EMD分解為有限個IMF分量,對IMF做Hilbert變換求取瞬時幅值和瞬時頻率,這兩個瞬時量表現了非平穩信號的內部的真實物理過程,根據基音頻率的特點對IMF分量加權求和突出基音周期信息并削弱共振峰影響,最后采用自相關平方法突出基音周期在整數倍點的峰值以便于基音周期的檢測。實驗表明,本文方法較傳統的基音檢測法精度有所提高,且魯棒性較好。但當信噪比較低的時候,基音檢測的正確率有所下降,因此如何提高低信噪比下的基音周期檢測還需要進一步研究。同時,本文算法較其他兩種算法計算時間長,不適合應用在實時性較高的場合。

[1]Krubsack D A,Niederjohn R J.An autocorrelation pitch detector and voicing decision with confidence measures developed for noise corrupted speech[J].IEEE Trans on Acoustics,Speech,Signal Processing,1991,39(2):319-329.

[2]Ross M J,Shaffer H L,Freudberg R,et a1.Average magnitude difference function pitch extractor[J].IEEE Transactions on Speech and Audio Processing,1999,22(5):353-362.

[3]Ahmadi S,Andreas S S.Cepstrum-based pitch detection using a new statistical V/UV classify-cation algorithm[J].IEEE Transactions on Speech and Audio Processing,1999,7(3):333-338.

[4]Cai Runshen,Shi Shaoqiang.A modified pitch detection method based on wavelet transform[C]//Proceedings of the 2nd International Conference on Multi Media and Information Technology.[S.l.]:IEEE ComputerSociety,2010:246-249.

[5]Kadame S,Broudreaux-Bartels G F.Application of wavelet transform for pitch detection[J].IEEE Trans on IT,1992,38(2):917-924.

[6]Huang N E,Shen Z,Long S R,et al.The empirical mode decomposition and theHilbertspectrum fornonlinear and nonstationary time series analysis[J].Proceeding of Royal Society A,1998,454:903-995.

[7]Huang N E.Review of empirical mode decomposition[C]//Proceedings of International Society for Optical Engineering,2001,4391:71-80.

[8]Zhang Ruichong,Ma Shuo,Safak E.Hilbert-Huang transform analysis of dynamic and earthquake motion recordings[C]//Journal of Engineering Mechanics,2003,129(8):861-875.

[9]Nunes J C,Bouaoune Y,Delechelle E,et al.Image analysis by bidimensional empirical mode decomposition[J].Image and Vision Computing,2003,21(12):1019-1026.

[10]沈毅,沈志遠.一種非線性非平穩自適應信號處理方法—希爾伯特-黃變換綜述:發展與應用[J].自動化技術與應用,2010,29(5):1-5.

[11]Yan Ruqiang,Gao R X.A tour of the Hilbert-Huang transform:an empirical tool for signalanalysis[J].IEEE Instrumentation&Measurement Magazine,2007,10(5):40-45.

[12]于鳳琴,肖志.利用Hilbert-Huang變換的自適應帶通濾波器特性提取共振峰[J].聲學技術,2008,27(2):266-270.

[13]王慧.HHT的方法及其若干應用[D].合肥:合肥工業大學,2009-11.

猜你喜歡
基音信噪比幅值
兩種64排GE CT冠脈成像信噪比與劑量對比分析研究
基于深度學習的無人機數據鏈信噪比估計算法
基于基音跟蹤的語音增強研究
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
基于S變換的交流電網幅值檢測系統計算機仿真研究
正序電壓幅值檢測及諧波抑制的改進
低壓電力線信道脈沖噪聲的幅值與寬度特征
保持信噪比的相位分解反褶積方法研究
基于零序電壓幅值增量的消弧線圈調諧新方法
一種改進的基音周期提取算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合