?

基于BP 神經網絡的英語語音識別混合算法

2023-11-10 07:38王飛燕徐衡
成長 2023年11期
關鍵詞:特征參數語音神經網絡

王飛燕 徐衡

南通理工學院 (江蘇省南通市 226002)

1 引言

語言是人類不同于其它動物所獨有的技能,語音作為語言的媒介,在信息傳播與情感抒發過程中扮演著獨一無二的角色。正是由于這個原因,一直以來,人類都希望人與機器之間能夠像人與人之間進行自然的語音交流,即讓機器能夠“聽懂”人的語言并做出正確的反應。語音識別技術需要在最短的時間內使機器正確識別語音指令的內容并做出正確的響應,包括了信號處理,模式識別、人工智能算法等[1-2]。近幾年來,隨著數字時代的發展,語音識別技術得到了長足的發展,逐漸由實驗室走向應用。伴隨著移動互聯網、大數據、云計算的飛速進步,語音識別技術呈現出了前所未有的使用前景和市場價值,很多互聯網公司的產品都以語音識別技術來吸引用戶。而語音識別技術作為人機交互的關鍵技術手段,在世界范圍內也掀起了研究熱潮[3-4]。所以,探索語音識別技術并研發出相關的產品,具有普遍的社會意義和經濟意義。

對語音識別技術的研究,首先是從國外開始的,貝爾實驗室首先開發出了Andry 系統,該系統可以進行語音識別,并且可以簡單地識別10 個英語數字[5]。21 世紀的二十年代,語音識別的研究主要集中于兩個方向:一是繼續提升基于DNN-HMM 的語音識別的性能;二是開發端到端的語音識別系統,改變傳統的將聲學模型和語言模型區分開的識別方式。隨著語音識別研究的開展,其應用場景也從單一的特定任務場合擴展到與人們生活息息相關的各個方面。微軟公司發布了Cortana 個人智能助手,可以實現辦公室娛樂聊天、與用戶語音交互等功能。我國對語音識別研究起步較晚,于五十年代開始,但最近幾十年代有了迅猛的發展,從實驗室逐步走向實用。其中比較有代表性的是科大訊飛研制語音識別系統,其識別精度達到了98% 以上,已成為國內外領先的佼佼者。神經網絡中的諸多方法在語音識別中應用越來越普遍,隨著人們對這些現代智能算法的運用更加成熟,語音識別技術也必將迎來一個飛躍式的發展。

語音識別不僅在各個領域發揮著重要的作用,同時也逐步融入到人們的生活中來。所以,如何提高識別準確率成為了關鍵性因素,它體現的是一個公司乃至一個國家的科技前沿的發展水平。

2 BP 神經網絡在英語語音識別中的應用

2.1 BP 神經網絡原理

如今,人工智能的研究日益受到人們重視,同時將人工智能技術與其他學科領域結合應用到工程實踐中也越來越流行于多層前饋網絡的訓練經常采用誤差反向傳播算法,人們也常把多層前饋網絡稱為BP 網絡。BP(Back-Propagation) 神經網絡是發展最為成熟也是至今應用最廣泛的神經網絡之一。其學習原理是計算實際輸出結果與期望結果之差,然后從后向前反饋,通過不停的迭代修正內部參數來實現進化學習的效果。其在復雜的非線性系統中具有較高的建模能力,所以十分適合應用于預測和模式識別領域。由于BP 神經網絡具有穩定優越的性能,其被廣泛應用于模式識別分類、系統仿真、故障預測診斷、圖像處理等領域。如圖1 所示為BP 神經網絡算法的流程。

BP(back propagation)神經網絡是根據誤差反向傳播的計算理論生成的多層前饋神經網絡。它由輸入層、輸出層和一個或多個隱藏層組成。每一層都由多個可以并行計算的神經元素組成,同一層的神經元之間沒有連接,層與層之間的神經元節點都是相互連接的。

BP 神經網絡的學習分為兩個階段。第一級是通過輸入信號的前向傳播;第二階段是誤差反向傳播。在第一階段,訓練樣本信息被輸入到輸入層,然后被隱藏層處理,然后傳輸到輸出層。如果實際輸出和預期輸出之間存在誤差,它將進入第二階段,即誤差反向傳播階段。在這個過程中,輸出信號的誤差最終按照原始路徑從隱藏層傳輸到輸入層,然后將每一層的誤差信號分別分配給每一層的所有神經元單元。每個神經元根據信號改變每個網絡的連接權值,最終誤差信號逐漸減小。這兩個階段反復出現。事實上,網絡學習階段是一個不斷調整和修改連接權重的過程。該過程持續進行,直到誤差值降低到允許的范圍或達到預設的訓練時間。

2.2 BP 神經網絡的應用

BP 神經網絡語音識別系統的工作流程有以下兩個步驟:

(1)對語音信號進行特征參數提??;

(2)通過神經網絡的計算和學習,輸出準確的識別結果。

設計神經網絡和語音識別系統時,應堅持以下原則:

選擇正確的語音表現形式:為了使神經網絡能夠接受和識別,要從語音中進行特征參數的提煉。

設定網絡模型:包括激活函數、選擇正確的連接方式,還要針對各類語音的特點、以及所采用的典型模型,擴充和改造原來的神經元,還可以將多種網絡模型結合起來。

設定網絡參數選擇:設定好網絡的層數、輸入、輸出、隱層神經元的數目。

選擇學習和訓練算法:設定嚴格的網絡規則,并及時改進,學習時還要從各個算法出發,來進行初始化。因為如下兩個原因,本文在進行時間規整處理時,以前端網絡為主:

因為人們在說話時,速度快慢發生變化,有的音節速度較快,難以持續太長時間,有的音節則過慢,拖得時間很長。這種現象的存在,造成難以通過權重處理語音各幀的特征矢量。而要解決這個問題,可以通過合并一些特征矢量來解決,經過這樣的處理后,最終導致從語音中提取到的特征參數和語音中的一樣,從而改善了說話速度快慢不定所造成的影響,也避免了因為說話語速問題引起的語音識別的誤差。

為了提高神經網絡分類器識別的準確率,對于每一個單詞在特征矢量提取上都設定相關的規則,在對語音進行段落劃分后,和詞匯表中的各單詞相比,其數量比這些詞的音素數更高。在實際的孤立識別實踐中,通常將語音分為4-8 段,這樣的話,只要用2-3 個特征矢量,就能對任何一個音素進行描述。

2.3 BP 神經網絡算法的改進

通常來說,BP 算法有兩種改進方案,一是提高自適應學習速率,另一種則是提高動量因子的數量,但這兩種方法都有各自明顯的不足之處。前者對學習速率的初始值要求高且非常敏感,通常為了加快收斂速率會設置較大的初始值,但是修改不當則會使得整個網絡不收斂,而過小的初始值又會使得收斂速率降低,后者的缺點則是無法避免陷入局部極小值點。本文基于傳統的改進方法做如下改進:

(1)動量因子的優化方法。BP 算法的標準權值調整如式(1)所示,它兼容性不強,不適用于以前的梯度,所以有時會出現振蕩現象。式(2)便是動量因子得到增加后,所進行的調整過程。而權值的調整不但要將本次誤差計算在內,還要加入上一次的部分計算量。這樣在利用BP 網絡來局部調整誤差曲面時,敏感度可以進行調節。其中,α 為動量因子,η 為學習速率。

但是各種方法都有一個弊端,那就是若是α 固定不變了,BP 網絡的整個學習過程也就定型了,而且在設置α 的時方法并沒有統一,主要靠慣例,一般會先定為0.9。

(2)自適應速率方法。在一般的BP 算法中,η 通常被設為固定值,但這樣的話,不一定是網絡最佳學習速率。觀察整個誤差平面發現:在平坦區間內,η 較小時,迭代次數會增多,若是區間內曲面急劇變化,η 如果設得太大,權值也會跟著出現較大的調整,從而引發振蕩現象。因此,本文提出了如式(3)所示的自動調節的方法。

本文后續就將使用結合著兩種方法的改進方法。既能通過動量因子來有效的加快網絡的收斂速度也能通過η 的自動調整來降低初始η 對網絡的影響,使得最佳的η 能較快得出。

3 語音識別仿真實驗

3.1 實驗數據來源

本文仿真實驗所選用的英文語音數據庫叫做 TIMIT,TIMIT 語音庫包含總共6300 句話,即來自于美國8 個主要方言區域的630 名說話人分別說10 句話,采樣頻率為16kHz,總共大約 500M 左右大小。

3.2 數據預處理

對于神經網絡,大多數都有時間規律性的問題。由于神經網絡分類器的結構是固定的,輸入語音信號的長度是可變的,即提取的語音特征參數存在維數不等的問題,因此必須將可變長度的語音特征參數轉換為相同長度的特征向量。本文采用分段平均法對TIMIT 數據集的語音特征參數進行預處理,如降維和正則化。

4 仿真實驗結果分析

本文使用DTW 和HMM 模型語音識別算法的與本文提出的算法進行性能對比,性能指標為語音識別正確率,其值均為統計平均結果。

表1 語音識別率比較結果

如表1 所示,DTW 的語音識別正確率低于HMM 和IBPNN,證明本文提出的IBPNN 模型性能更優。其次,分析不同語音識別算法的訓練參數規模。對于DTW,其訓練參數規模為12000;而對于HMM 和IBPNN,其訓練參數規模最大分別為 7200 和 9800,遠遠小于 DTW 訓練參數規模。在訓練集中語音樣本有限的情況下,如果訓練參數規模較大,很容易導致訓練模型的過擬合問題。通過減小訓練參數的規模,可以有效地避免訓練模型的過擬合問題。在訓練集中語音樣本有限的情況下,本文提出的IBPNN 模型大大減少了訓練參數的規模,從而提高了模型的識別性能。

5 結論

在計算機輔助語音學習中,語音識別技術和語音評價技術是核心所在。其中,語音識別技術尤為關鍵,發揮著至關重要的作用。原因在于,語音識別是語音評價的重要基礎和前提條件,只有高準確度的語音識別才能進一步取得良好的語音評價結果。因此,本文將BP 神經網絡技術應用于英語語音識別,建立基于改進BP 神經網絡的語音識別模型。通過對比實驗證明,本文提出的語音識別模型性能較優,但仍有很大的完善空間。不同群體(如小學生、中學生、大學生、商務人士等)對學習英語口語的要求不盡相同,其英語發音質量評價標準也不同。因此,后續可從評價指標及模型的效度和信度分析驗證入手,研究面向不同對象的多參量評價指標及其評價模型。

猜你喜歡
特征參數語音神經網絡
故障診斷中信號特征參數擇取方法
基于特征參數化的木工CAD/CAM系統
神經網絡抑制無線通信干擾探究
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
基于PSO-VMD的齒輪特征參數提取方法研究
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合