?

一種改進精簡的語音識別模型

2022-03-07 10:11劉鑫羅幼喜
電子測試 2022年24期
關鍵詞:殘差語音系數

劉鑫,羅幼喜

(湖北工業大學理學院,湖北武漢,430068)

0 引言

在深度學習應用到語音識別領域之前,聲學模型也有屬于自己的一套體系,像高斯混合模型和隱馬爾可夫模型在語音識別的領域上都取得了不錯的效果,但是傳統的語音識別模型存在上下文割裂的情況。

因此,研究人員注意到具有自注意力機制的深度神經網絡模型Transformer,在機器翻譯、計算機視覺等領域中展現出強勁識別性能。于是,Dong等人首次將Transformer模型引入語音識別領域,提出Speech-Transformer模型,使得Transformer能夠完成語音識別任務;然后Bie等人又將Speech-Transformer模型規模進行縮減,使其應用到低存儲設備,但是在傳統的端對端的模型當中Transformer模型存在參數量大,識別準確率低,訓練時間長等種種問題,無法很好地移植到硬件設備上,因此研究模型參數的影響因素和縮減模型的參數量以及加快模型的訓練速度成了一個亟待解決的問題。

1 相關工作

本文在Speech-Transformer語音識別系統的基礎上進行一定的探索研究,對模型中的參數進行一定的探索和量化工作,并且對模型結構進行一定的修改以求達到一個更優的模型。通過研究Transformer不同參數對其模型性能的影響,此外本文在對模型進行參數調整的過程中還對Transformer模型結構中殘差連接和歸一化層(add&norm)這一結構結合殘差神經網絡相應地改進施進行修改,在保證詞錯率下降的同時,加快模型的收斂速度和訓練速度,修改結構之后的模型在詞錯率上相比原有模型詞錯率更低,并且收斂速度也比未修改結構的模型收斂速度更快。在最后訓練出來的所有模型當中,挑選出參數量小準確率高解碼速度快的模型進行識別任務。

2 Transformer的語音識別系統

2.1 卷積神經網絡壓縮語音數據的長度和信息密度

在語音識別中,考慮到語音數據在一段時間內會有重復的片段在里面,句子的特征向量會比較冗長,這里采用卷積層在進行特征提取的同時對語音序列的長度進行裁剪使輸入語音特征序列的長度得到縮減和信息密度得到增強。

2.2 對Transformer模型訓練進行加速

2.2.1 殘差神經網絡

在Transformer的結構中本身自帶了殘差連接的結構,殘差連接的結構如圖1所示,殘差連接的結構主要是為了解決深度學習模型在模型網絡結構過深的問題中,在面對梯度消失和梯度爆炸的問題上,殘差連接的結構能夠很好地保存數據特征的梯度。

圖1 殘差連接結構圖

2.2.2 ReZero:加速深度模型收斂

在此之前來自加州大學圣迭戈分校(UCSD)的研究者提出一種神經網絡結構改進方法「ReZero」,他對殘差連接的修改如公式(1)所示:

在模型訓練開始之前將α的默認值設定為零。改進后的網絡結構如圖2所示。

圖2 更改的殘差連接結構示意圖

2.2.3 對殘差連接部分的優化改進

基于上述對殘差連接結構進行的一系列優化,本文選取將殘差連接的優化應用在Transformer的結構當中,通過修改對比之前的改進措施進行一系列的綜合實驗,以求取得一個優異的語音識別系統模型。修改的部分如圖3和圖4所示。

圖3 原始模型當中的殘差連接示意圖

圖4 修改模型當中的殘差連接示意圖

2.2.4 殘差連接中的系數修改(加入約束因子)

注意力機制的本質就是在特征的前面加上一個權重,在模型的解碼過程中根據各個神經網絡層的結構不斷地去調整各個特征的權重,加入約束因子的目的旨在,隨著神經網絡的深度疊加,因為在Transformer的結構中所有的encoder層和decoder層中都有殘差連接這一結構,訓練出的強特征信息會不斷地放大這一特征的權重系數,與此同時,如果模型當中不存在這樣的強特征,那么我們對殘差連接的系數進行縮小,將殘差連接的權重設置為小于1的數,特征信息更加強調原始特征里面包含的信息,與此同時擴大原始信息,減弱深層次的特征信息,能夠很好地加強模型的泛化能力。

2.2.5 最終模型選擇固定的約束(擴大)因子

通過對各種修改殘差連接的思路對比綜合實驗,得出了固定約束(擴大)的因子會在模型當中取得最佳的效果,固定權重的實驗表現在對比其他策略之下的在詞錯率這一指標上,對比其他的策略平均提升1%,相比于原始的最初模型提升了3%,在模型的收斂速度上的提升是大幅度且顯而易見的。

3 實驗

在修改模型的殘差連接系數的過程中我們嘗試了可調節系數和固定配比系數,單可調節系數和雙可調節系數,擴大殘差系數和擴大X的系數等等一系列的方法,發現殘差連接中使用固定配比系數的效果是最好的,在模型的修改過程中改變了Encoder中殘差鏈接的系數權重。

4 實驗結果

4.1 Transformer超參數的影響因素

對于Transformer模型結構會受到哪些因素的影響,本文首先做了以下工作:以初始參數化的Transformer結構作為基礎結構,采用控制變量法對比不同參數取值對準確率和解碼速度的影響。其中,不同參數取值的Transformer結構如表1所示,與此同時表中還記錄了不同模型的參數量和對應的訓練時長,以及模型對應的詞錯率。

表1 不同模型參數優化表

4.1.1 詞向量空間的影響

這里我們選用的最佳詞向量維度為256,對比模型1和初始模型我們能直觀地看到訓練時長大大縮短,且將詞向量空間減少到原來的1/2,模型的準確率也得到極大提高。詞向量空間的大小對該模型參數的影響是千萬級別的。

4.1.2 編碼層和解碼層對參數的影響

我們選取了最后的模型encoder=decoder=4這一參數,取得了比較好的效果。對比模型1和模型2的參數設置我們可以直觀地看到模型的訓練速度的提升效果要明顯的大于其他的指標,這一參數的設置對訓練速度的提升效果是顯而易見的。

4.2 模型結構修改實驗結果

每個模型訓練200輪,每40輪保存一次實驗模型記錄結果見表2:

表2 實驗模型與相對應的詞錯率表

4.2.1 動態殘差加快模型收斂效果顯著

對比40輪的模型,模型收斂速度相較于原始模型和修改超參數之后的模型,動態殘差權重模型在40輪的時候已經收斂,實驗數據表明其收斂速度確實得到了提高。

4.2.2 固定權重配比的模型效果更好

在固定配比的實驗中,首先選取的是1*F(X)+2*X,即擴大原始X(數據特征)在模型訓練中的權重,強調在模型的訓練當中原始X(數據特征)在模型訓練當中的重要性要比殘差連接中的殘差部分的更大,此處用加權的權重來衡量數據在模型當中的重要性,然而事實卻與我們的預期相反,擴大原始特征x的權重(2x)使得每一輪的模型相比于原來的模型在詞錯率的表現上都有所上升,因此我們在接下來的模型中放棄這一改動選擇在原始模型的基礎上擴大殘差項的系數(2F(x))來觀測模型最終的表現。

4.2.3 確定合適的固定配比的比例

擴大殘差項的系數(2F(x))模型觀察其在每一個輪次上的表現,發現無論是在收斂速度還是在準確率上,都比修改了超參數之后的模型表現更加優異,繼續擴大殘差項的系數(3F(x))其表現差異變化和2F(x)不存在顯著性的差異,繼續擴大殘差項的系數(4F(x)),發現此時的詞錯率開始上升,本實驗中的最優模型的殘差連接系數調節的最佳配比應該鎖定在1:2到1:3之間,即2*F(X)+1*X或者3*F(X)+1*X,模型的表現最佳。

在對比所有的模型實驗結果后,在本實驗中固定配比的模型顯然要優于調節系數的模型,而在固定配比的模型當中,殘差連接系數調節的最佳配比應該鎖定在1:2到1:3之間,即2*F(X)+1*X或者3*F(X)+1*X,模型的表現最佳,此時的模型收斂速度較原有模型得到提升的同時,詞錯率降到最低,相對應的最低詞錯率分別為7.92%和7.956%。

5 結束語

本文設計了一種基于精簡修改的Transformer模型的語音識別方法,所做的一切修改都是在保證詞錯率下降這一大前提的條件下進行的,針對現有Transformer模型進行修改設計,通過對原有模型的Encoder部分中殘差連接的系數進行修改,在保證詞錯率下降的同時,使得原始模型的收斂速度得到提升。

此外對模型的一些超參數進行合理的調整,使得Transformer的參數量大大減少,在網絡的訓練階段,由于參數的減少,提高了訓練的速度;在網絡的解碼驗證階段,運算量的減少,使得模型更加精簡,模型訓練時間和驗證時間的縮短,使得研究人員能夠更加方便地進行調參和模型修改等工作,方便了模型從軟件到硬件上的移植。

猜你喜歡
殘差語音系數
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學習的自適應無人機目標跟蹤算法
魔力語音
基于MATLAB的語音信號處理
基于遞歸殘差網絡的圖像超分辨率重建
基于MQ3與MP3的價廉物美的酒駕語音提醒器
這些待定系數你能確定嗎?
打雪仗
對方正在輸入……
過年啦
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合