?

小波神經網絡在語音端點檢測算法中的應用?

2018-09-28 02:30孫護軍
計算機與數字工程 2018年9期
關鍵詞:端點噪聲語音

孫護軍

(西安航空學院電子工程學院 西安 710077)

1 引言

基于能量的端點檢測、基于墑的語音端點檢測、基于倒譜的語音端點檢測等,都屬于傳統的語音端點檢測算法,因為所提取的語音特征量比較單一,所以檢測計算結果容易出現較大的誤差,而基于組合特征的語音端點檢測算法,雖然可以在一定程度上提高檢測計算的精準性,但是容易出現冗余特征量造成干擾。隨著對語音端點檢測算法研究的不斷深入及長期實踐,發現運行小波神經網絡算法完成語音端點檢測計算,存在較小的誤差,具有較高的推廣應用價值。

2 基于小波神經網絡的語音端點檢測系統結構

語音端點檢測的本質含義,是通過識別輸入系統的含噪語音信號,以噪聲門限閾值為主要依據,通過對比含噪語音信號與其之間的不同,進而判斷出語音信號的正確起始位置,得到有價值的語音信息,實現對語音信號的快速處理及傳遞?;谛〔ㄉ窠浘W絡的語音端點檢測系統主要由語音信號預處理、語音信號特征量提取以及神經網絡處理三部分組成,在構建運算模型時,需要對這三部分進行詳細分析。

語音預處理是進行語音端點檢測計算的第一步工作,是準確識別語音的基礎。人在說話時所發出的語音信號屬于模擬信號,不滿足計算機處理信號要求,難以實現對其直接的識別和處理,只有將人的說話語音信號轉化為數字信號,才符合計算機處理語音信號的要求,所以,便需要對語音信號進行預處理,完成語音信號的A/D變換,將轉換得到的數字信號進行存儲和處理,為語音信號的準確識別提供方便[1]。在得到轉換后的數字語音信號之后,就需要從其中提取特征量,將其作為語音識別的主要依據。因為語音信號中的語音段和非語音段所反映出來的信號特征是不一樣的,所以特征值的提取會直接影響到語音端點檢測計算結果,僅僅是在信噪比較高的情況下,可以通過語音信號能量特征分辨出語音段和非語音段,而信噪比較低時,很難準確將兩者劃分開,所以便需要提取語音信號的特征量,明確語音信號和噪聲信號之間的不同,準確分辨出語音段和非語音段。在得到語音信號特征量之后,便需要通過小波神經網絡算法對采集到的語音信號進行計算處理,這也是語音端點檢測系統的核心工作,計算模型可以在不設定噪聲門限閾值的情況下,根據所提取的特征值判斷是否是語音信號段,進而有效提高了語音端點檢測計算的準確性[2]。

圖1 基于小波神經網絡的語音端點檢測系統結構

3 基于小波神經網絡的語音端點檢測算法的理論依據

語音信號在傳播過程中經常存在噪聲信號,容易對語音信號的高效、準確處理造成干擾,嚴重影響了語音信號的處理結果,所以在進行語音端點檢測計算的時候,就需要對語音信號和噪聲信號進行綜合分析。在利用小波神經網絡模式構建語音端點檢測計算模型的時候,是以語音與噪聲的頻域差異和語音與噪聲的統計自相似性作為理論依據的,通過了解并區分兩者之間的不同,來實現對語音信號端點檢測的準確計算。

3.1 語音與噪聲的頻域差異

高斯白噪聲在自然界最為常見,也是語音信號在傳播過程中必然出現的一種噪聲信號,該類型噪聲具有平穩隨機性特點,通過比較語音信號與高斯白噪聲信號的頻域差異,可以為語音端點檢測計算提供可靠依據。對采樣得到的語音信號與噪聲信號頻譜進行觀察,可以發現在兩者的頻譜中,能量分布及波動幅度情況存在較大差別,其中語音信號頻譜中能量多集中在0~4kHz的低頻區,能量波動起伏變化劇烈,最大值和最小值之間存在較大差距[3]。而高斯白噪聲信號頻譜中的能量,在各個頻段的分布都是比較均勻的,沒有出現大幅度波動變化,最大值和最小值之間的差值較小。所以,可以根據語音和噪聲的頻域差異,找出語音信號中的噪聲,準確分辨出語音信號中的語音段和非語音段,使語音端點檢測的精準性得到顯著提升。

3.2 語音與噪聲的統計自相似性

語音信號的統計自相似性具有隨機性,語音信號的波形變化不會影響到其自相似性,即通過小波轉換之后,在一定時域內,可以發現語音信號小波系數的統計特征是一模一樣的,此時可以用1/f來表示語音信號的統計自相似性。在對語音信號進行端點檢測的時候,可以根據語音信號的這種特點,將其與噪聲信號區分開,以小波系數的方差作為辨別語音信號和噪聲信號的主要依據,明確兩者統計自相似性之間的不同,進而實現語音識別的目的。通過對語音信號和噪聲信號的時域波形進行分析,可以發現兩者之間具有顯著差異,采用小波分解法對兩種信號的時域波形進行處理之后,可以發現處理后語音信號幅度雖然在原來的基礎上有所變大,但是其統計自相似性卻沒有發生變化,與原來的特征完全相同,其時域波形變化滿足1/f。同樣道理,噪聲信號的時域波形在經過小波分解處理后,其統計特征不會隨著波形的變化而發生改變,仍然與處理之前的保持一致[4]。

因為語音信號和噪聲信號在經過小波分解處理后,其時域波形的統計自相似性都負符合1/f特點,所以其統計特性在時域內不隨波形的擴充或壓縮而變化,在對統計自相似性的平均值和協方差進行分析之后,依據小波基理論,以互為獨立的零均值為依據,可以構建數學模型,來區分語音信號和噪聲信號兩者之間的不同,語音端點檢測計算結果的準確性將會得到顯著提高[5]。

4 基于小波神經網絡的語音端點檢測具體運算過程

在使用小波神經網絡算法進行語音端點檢測計算時,應該參照基礎理論依據,提取語音信號中的特征量,并選擇滿足計算要求的最為合適的特征量,構建相應的計算模型,按照標準、規范的運算程序進行計算,得到最終檢測結果。

4.1 語音特征量的提取與選擇

語音特征量的提取是語音端點檢測的首要工作,是確保語音識別精準性的基礎和前提,從語音信號中提取相應的特征量之后,要從中選擇最為合適的語音特征量,既要保證語音特征的全面性,又要避免對語音識別造成干擾,所以在使用小波神經網絡算法進行語音端點檢測時,就必須要做好語音特征量的提取與選擇工作。

1)語音特征量的提取

語音特征量的提取是分三步完成的,首先要對語音信號進行分幀處理,其次再采用小波分解法對分幀處理后的語音信號進行二次處理,最后才可以從中提取語音特征量。在不同時間段,語音信號的特征量是存在一定差異的,隨著時間的推移,語音信號的穩定性將會被打破,其特征量也會發生相應的變化,語音信號的特征量僅僅可以在較短時間內保持不變,該時間段一般情況下為20ms,此時,可以采用分幀處理法,將該段時間定義為語音信號的一幀,認定一幀內語音信號的特征量保持一致,然后以一幀作為單位,對語音信號的特征量進行逐幀分析[6]。在對語音信號進行逐幀分析的時候,可以采用小波分解法,即將每幀語音信號分為5層小波,如果用函數關系則可以表示為

此時,語音信號可以分解為高頻空間和低頻空間,每一個高頻空間又可以進行再次分解,得到更低一級的高頻空間和低頻空間,然后依次向下對每一級的高頻空間進行分解,經過5次小波分解處理之后,便可以由原有的一個語音信號得到6個不同頻率的信號,而此時得到的信號頻率分量總個數一共有10個,用分解之后得到的10個語音信號頻率分量,便可以得到完整的信號頻譜。在得到語音信號完整的頻譜之后,依據語音與噪聲的頻域差異理論知識,可以知道語音信號頻譜中能量多集中在0~4kHz的低頻區,能量波動起伏變化劇烈,而噪聲信號頻譜中的能量,則均勻的分布在各個頻段中,數值變化幅度較小,此時可以用公式來表示各層小波子帶系數的平均能量,在公式中和N分別表示小波系數和小波系數個數。因為經過小波分解后可以得到6個不同頻率的信號,所以便存在6個小波子帶,將具體數值代入公式后,對各個小波子帶平均能量的方差進行計算,可以得到,其中 σ2表示各個小波子帶平均能量的方差,E表示不同小波子帶的平均能量,此時便可以從語音信號中提取特征量,經過計算后,每幀語音信號一共可以得到8個特征矢量[7]。

2)語音特征量的選擇

得到語音特征量之后,并不意味著所有的語音特征量都可以用于語音端點檢測計算中,一些具有互補性的語音特征量對語音端點檢測具有幫助作用,但同時也會存在一些無用、多余的語音特征量,不僅無法對語音端點檢測具有幫助作用,還會對其造成干擾,影響計算結果的準確性。為了提高語音端點檢測計算效率和精準性,所以便需要從得到的8個特征矢量中選擇具有利用價值的語音特征量,以最具代表性的語音特征量為計算依據,來完成語音端點檢測。語音特征量的選取過程具體分為四個步驟,第一步先計算得到與8個特征矢量相照應的矩陣,第二步利用不同特征矢量矩陣的特征值和特征向量,對特征矢量相照應的矩陣進行變化,第三步按照從大到小的順序,對變換之后的特征矢量矩陣中的特征值進行排序,最后一步,將排序之后得到的語音信號特征值序列的前幾個特征量作為代表性特征量,以此作為依據,實現語音端點檢測計算[8~10]。

4.2 算法模型構建及運算

在提取語音特征量,并從中選取具有代表性的特征量數據之后,便可以利用小波神經網絡算法構建語音端點檢測模型,并按照相應的步驟進行計算,得到較為準確的語音識別結果。

1)小波神經網絡

在對小波神經網絡算法進行分析的時候,可以以徑向基神經網絡為代表。徑向基神經網絡又叫做RBF神經網絡,其網絡結構形式為前向網絡,基礎理論為非線性函數的無線逼近理論,具體結構組成分為輸入層、隱藏層和輸出層三部分。與BP神經網絡相比,RBF神經網絡的函數逼近能力、分類能力和學習速度等特性都比較良好,其中BP神經網絡結構的示意圖如圖2所示,在RBF神經網絡結構中,信號源節點是輸入層的核心組成,RBF神經網絡結構與BP神經網絡結構的最大不同在隱含層部分,在RBF神經網絡結構中,隱含層所用到的變換函數類型為徑向基函數,這也是RBF神經網絡結構的主要優勢所在。

圖2 BP神經網絡結構的示意圖

2)小波神經網絡參數優化

在RBF神經網絡結構中,影響其分類性能的因素主要有三種,分別為RBF神經網絡的參靈敏、隱含節點的中心以及隱含節點的寬度。采用小波神經網絡算法進行語音端點檢測計算時,需要從這三種因素進行考慮,采用遺傳算法對小波神經網絡結構進行全局搜索,以此來實現對其參數的優化,具體優化流程如圖3所示。

圖3 RBF神經網絡參數優化流程

3)語音端點檢測具體過程

小波神經網絡參數優化完畢之后,便可以進行語音端點檢測,具體分為五步來實現。第一步先將RBF神經網絡參數、小波分析和遺傳算法等各項參數進行初始化處理。第二步將選取的有效語音信號特征量輸入計算模型中,經過分析之后得到語音段和噪聲段,并用不同數字對兩者進行標注,將其區分開,完成訓練樣本的構建。第三步對RBF神經網絡進行訓練,使其可以根據輸入的語音特征量,正確分辨出語音段和噪聲段,在這一步檢測過程中,對RBF神經網絡參數的優化至關重要,只有經過不斷優化之后,才可以將實際輸出值和理論輸出值之間的差值降到最低。第四步需要對計算模型的性能進行檢驗,對RBF神經網絡進行訓練之后,設定一個門限值作為區分語音段和噪聲段的依據,比較人工標注結果和實際輸出結果,判斷計算模型是否精準可靠。如果此時兩者之間存在較大出入,則認為神經網絡的訓練工作失敗,需要進行二次訓練。最后,在檢測計算模型具有良好的精準性之后,便可以對語音端點進行檢測,將語音信號輸入模型中,提取并選擇有效的特征量,經過分析后得到具體檢測結果,根據輸出的結果區分語音段和非語音段,實現語音識別的目的。

5 仿真實驗及結果分析

5.1 仿真實驗

為了對基于小波神經網絡的語音端點檢測算法的精準性進行檢驗,從TIMIT語音庫中提取部分數據進行了仿真實驗。在對語音信號進行分析和標記時,所用方法分為Cool Edit Pro和手式法,并設置四種不同噪聲條件,信噪比分別為15dB、10dB、-0dB、-5dB,對計算模型的精準性進行測試。為了保證語音端點檢測結果的準確性,在保證其他實驗條件不變的情況下,分別選擇小波分析+RBF神經網絡算法、小波分析+主成分分析+線性分類算法、短時能量檢測算法進行分別實驗,其中第一種算法沒有進行主成分分析。并將語音端點檢測的正確率、虛檢率、漏檢率和檢測速度作為算法性能的評價標準。

5.2 結果分析

經過仿真實驗,可以得到不同算法語音端點檢測的正確率。對實驗結果進行分析,可以發現當語音信號中沒有噪聲信號時,各個算法得到的語音端點檢測正確率都是比較高的,當語音信號中存在少量噪聲信號時,各個算法得到的語音端點檢測正確率會出現不同程度的下降,其中線性檢測模型已經無法滿足實際需求,而小波分析+RBF神經網絡算法具有優勢互補特性,端點漏檢率較低,語音端點檢測正確率下降不明顯,并且還可以消除語音信號的冗余特征量。同時,小波分析+RBF神經網絡算法和小波分析+主成分分析+線性分類算法的訓練時間有所增長,但是其檢測性能得到大幅度提高,同時小波分析+主成分分析+線性分類算法的運行時間要少于小波分析+RBF神經網絡算法,由此可知采用小波分析+主成分分析+線性分類算法進行語音端點檢測可以得到比較滿意的效果。

6 結語

基于小波神經網絡的語音端點檢測算法具有較高的精準性,彌補了多種傳統算法的不足,經過仿真實驗證明,采用小波分析+主成分分析+線性分類算法進行語音端點檢測,其正確性、抗噪性以及魯棒性都得到了明顯提高,具有較高的推廣應用價值,在推動我國語音識別技術發展過程中起到了重要作用。

猜你喜歡
端點噪聲語音
艦船通信中的噪聲消除研究
例談求解“端點取等”不等式恒成立問題的方法
不等式求解過程中端點的確定
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
汽車制造企業噪聲綜合治理實踐
對方正在輸入……
基丁能雖匹配延拓法LMD端點效應處理
汽車變速器嘯叫噪聲處治
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合