李 葵,徐海青,吳立剛,梁 翀
(1.國網安徽省電力有限公司 信息通信分公司,安徽 合肥 230000;2.廈門大學 計算機科學學院,福建 廈門 361005;3.安徽繼遠軟件有限公司,安徽 合肥 230000)
隨著深度學習技術的發展,基于深度學習的語音合成方法[1-2]也在不斷推陳出新,這使得語音合成的質量得到了空前的提高.語音合成的情感部分相比于傳統語音合成的提升雖然巨大,但尚未達到擬人化,所以提高合成語音表現力,將成為未來語音合成研究的重點和難點.20世紀末,隨著基音同步疊加的時域波形修改算法(pitch synchronous over lap add,PSOLA)的提出,語音段之間的拼接問題得到了較好的解決,使得波形拼接語音合成技術的發展邁出一大步.本文提出了一種基于SAT的情感語音合成方法,該方法以多人多情感的標注語音數據作為訓練集,在SAT框架下構建并訓練語音平均音模型,最后通過說話人自適應轉換生成目標說話人情感的定制模型,實現目標情感語音合成.
語音合成的算法有很多種,大致可以從以下三個維度聚類:(1) 情感參數樣本[3],如增加情感訓練樣本或進行情感標記的方式[4];(2) 提取的參數特征或韻律轉換[5]等,如將中性語音通過韻律參數修改進行情感語音轉化;(3) 通過自適應模型修正[6]、合成參數修改[5,7]或對參數合成器進行優化等.傳統的語音合成系統可分為基于HMM的訓練和基于STRAIGHT的合成[8],流程框架如圖1所示.
在基于統計參數(HMM)語音合成算法的基礎上,本文提出基于多情感說話人自適應的情感語音合成系統,如圖2所示,包括訓練、自適應和合成三個階段.在訓練階段對情感數據庫的語音數據進行特征提取,獲取基頻、譜參數等聲學參數文件,以及標注的文本文件.通過決策樹聚類得到訓練好的HMM模型庫.在自適應階段,基于CMLLR實現多說話人情感語音數據模型的SAT操作,獲得訓練集數據的平均音模型、自適應模型,對自適應模型通過最大后驗概率進行修正和更新;在合成階段,利用前階段的標注數據和模型,結合STRAIGHT語音合成器,得到目標說話人的情感語音.
平均音模型對多個情感說話人的情感語音數據的基元進行訓練,得到多個HMM模型.然后對這些HMM模型進行概率分布統計,得到所有說話人情感語音數據的平均分布模型.
SAT算法對說話人差異進行歸一化操作,提高模型的準確度,利用Multi-space-HMM實現漢語清音和元音的基頻建模,并基于上下文相關的MSD-HSMM語音合成單元,結合CMLLR實現多說話人的SAT,獲得多說話人情感語音的平均音模型.
本文采用具有精確時長分布的半隱HMM模型,對狀態輸出和時長分布進行控制建模和歸一化處理:
在進行完說話人SAT后,在少量數據下,采用CMLLR自適應算法對平均音模型的基頻、頻譜和時長參數進行變換,特征向量o與狀態時長d的變換方程:
bi(o)=N(o;Aμi-b,AΣiAT)=|A-1|N(Wξ;μi,Σi),
基于HSMM的自適應變換算法,實現語音聲學特征參數的歸一化和預處理.時長為T的自適應數據O,利用最大似然估計處理變換Λ=(W,X):
式中,λ為HSMM的參數集.分布共享一個回歸矩陣的綁定[11],實現少數據的自適應效果的優化,如圖3所示.
最大后驗概率估計描述如下:
本文主要從主觀測評和客觀測評兩個層面對合成語音的效果進行分析與評估.
2.1.1客觀評測下式能夠對合成語音和原始語音在語句時長、基頻、譜質心等聲學參數上進行誤差分析:
式中:語音文件的對比數為N,參數誤差Wi反映了合成語音與原始語音之間的差異.W表示基元時長誤差,定義為W=|(T2-T1)-(t2-t1)|,t1為得到的合成語音基元的起始時間,對應的截止時間為t2,T1代表原始語音基元開始時間,其對應的截止時間為T2.語句時長誤差W定義如下:W=|(Te-T0)-(te-t0)|.合成語句的開始時間為t0,截止時間為te;T0為原始語句的開始時間,Te為對應的截止時間.基頻誤差W定義如下:W=|f2-f1|.f1為合成語句的基頻均值,f2為原始語句的基頻均值.
2.1.2主觀評測采用MOS和EMOS分別對合成語音的自然度與情感相似度進行評估,其中MOS為平均意見得分(mean opinion score),EMOS情感相似度平均意見得分(emotional mean opinion score).
表1 MOS評測分值標準表Tab.1 MOS evaluation score standard
表2 EMOS評測分值標準表Tab.2 EMOS evaluation score standard
實驗數據為22名評測者的普通話和情感語音合成的語音(220句),評測者根據合成語音的自然度或情感度,對其進行打分(按5分制),評測標準如表1、表2所示.
2.2.1情感語料庫對16名人員(8男8女)建立情感語音數據庫.建立過程為:每人需錄制10種情感語音,每種情感錄制20 min,情感有悲傷、放松、憤怒、輕蔑、溫順、喜悅、厭惡、焦慮、驚奇、恐懼、中性等101種.建立的語音庫共計4 600句語料.
2.2.2實驗方案需要對情感語音合成的好壞進行一個正確評估,本文在SAT1[13]和SAT2兩種模型上進行試驗方案設計,其中,對比實驗方案為SAT1模型,情感語音合成實驗方案為SAT2模型.
SAT1模型:首先,建立訓練集,訓練數據為2.2.1介紹的情感語料庫數據.然后,在訓練集上用STRAIGHT算法提取語音文件的聲學參數(如基頻等)信息.同時,語料文本文件需要輸入,并且需要對其進行分析,可以得到相關的標注文件.最后,進行HMM訓練,對訓練結果進行決策樹聚類,得到HMM模型庫.
SAT2模型:訓練前,在16人中隨機選取一人作為目標說話人,并在其錄音中隨機選取每種情感語音2句組成其情感小語料庫.訓練HMM模型庫方法與SAT1模型中的方法一致,但SAT2模型增加了SAT部分,采用被選取人的情感小語料庫,對其平均音模型進行SAT過程,獲得說話人的自適應模型.然后,輸入待合成情感語音文本,進行決策分析,挑選出合適的基元模型,最后合成得到目標情感語音,在SAT1和SAT2兩種模型上合成共計220句情感語句,每種模型各包含每種情感的10句測試語句.
最后,采用 MOS和 EMOS兩種主觀評測方法,對合成的情感語音的自然度和情感相似度進行對比并做出實驗分析.
合成語音參數的RMSE對比結果如表3所示.從客觀評測結果可以看出,本文提出的自適應情感語音合成模型合成的語音在各個參數方面都明顯優于傳統統計參數語音合成模型,結果如表3所示.圖4顯示的是兩種模型合成語音在時長、基頻、譜質心等聲學特征上的RMSE對比曲線圖.圖4能直觀地顯示本文的方法優于傳統統計參數語音合成模型.
表3 不同模型上合成語音參數RMSE對比結果Tab.3 Comparison of synthesized speech parameters RMSE on different models
圖5 所示是SAT1和SAT2不同模型上合成情感語音的MOS得分.很明顯,在SAT2模型上得到合成情感語音的自然度比SAT1模型上得到的要高.如圖6所示為在SAT1和SAT2兩種模型上獲得的合成語音的情感相似度之間的評測對比分析,顯然,在SAT2模型上得到合成語音的情感相似度比SAT1模型上得到的要高.
本文提出了一種基于多情感說話人自適應的情感語音合成方法,搭建了此情感語音合成系統和傳統的基于HMM的語音合成系統.實驗證明,與傳統的基于HMM的語音合成系統相比,在訓練階段加入了說話人SAT過程,獲得多個說話人的情感語音平均音模型,減小了語音庫中因不同的說話人而產生的差異帶來的影響,從而使得合成語音的情感相似度得到提升.根據平均音模型,用少量的待合成情感語料就能通過自適應算法合成出流利度、自然度、情感相似度都很好的情感語音.