?

深度學習語音合成技術研究

2020-10-09 11:17張小峰謝鈞羅健欣俞璐
計算機時代 2020年9期
關鍵詞:遷移學習

張小峰 謝鈞 羅健欣 俞璐

摘要:語音合成在人機交互中扮演著重要角色,伴隨著深度學習的發展,語音合成也進入新的發展階段。文章對基于深度學習的語音合成系統進行研究,總結分析深度學習語音合成特點,并詳細介紹四個深度學習語音合成系統。這四個系統包含了單說話人、多說話人和任意說話人的語音合成,分析這些系統可以學習基于深度學習語音合成系統的原理,為研究人員提供重要的參考價值。

關鍵詞:語音合成;生成式語音合成;端到端語音合成;遷移學習

中圖分類號:TP183

文獻標識碼:A

文章編號:1006-8228(2020)09-24-05

Research on deep learning speech synthesis technology

Zhang Xiaofeng, Xie Jun, Luo Jianxin, Yu Lu

(Command and Contml Engineering College, Army Engineering University of PLA, Nanjing, Jiangsu 210007, China)

Abstract: Speech synthesis plays an important role in human-machine interaction. With the development of deep learning, speechsynthesis has entered a new stage. This paper studies deep leaming based speech synthesis systems, summarizes and analyzes thecharacteristics of deep learning speech synthesis, and introduces in detail four deep learning based speech synthesis systems. Analyzingthese systems can learn the theory of deep learning speech synthesis systems, providing researchers with important reference.

Key words: speech synthesis; generative speech synthesis; end to end speech synthesis; transfer learning

0引言

語音合成也叫文本轉語音,是將文本轉化成自然語音的技術,在人機溝通之間扮演著重要角色。

早期語音合成方法主要有拼接法[1]和參數法[]。拼接法通過從事先錄制的語音中選擇所需基本單元拼接合成語音。拼接法最大限度保留了原始發音人音色,自然度和清晰度都很高。參數法是數據驅動的語音合成方法,有聲學模型和聲碼器兩部分。聲學模型將文本特征映射到聲學特征,聲碼器根據聲學模型的輸出重構語音波形。

拼接法和參數法一般要求建模人員同時具有聲學、語言學等知識,這提高了語音合成研究的難度。深度學習中常見的語音合成方法是端到端語音合成,直接建立起從文本到語音的合成,簡化了人為對中間環節的干預,降低了語音合成的研究難度。

本文首先介紹幾種常見基于深度學習的語音合成系統,然后介紹Wavenet[3] Tacotron-1[4]、Tacotron-2[5]和基于遷移學習多說話人語音合成系統[6]。

1相關語音合成系統

Deep Voice-1[7]和Deep Voice-2[8]將深度學習引入傳統語音合成各個模塊中,比如文本到音素模塊、預測時長模塊和波形合成模塊等。Deep Voice-1是單說話人語音合成系統,一次只能合成單說話人語音,該系統優勢是合成語音速度較快,比Wavenet至少快400倍。Deep Voice-2引入說話人嵌入矢量合成多說話人語音,訓練時,將說話人編碼嵌入到系統中訓練。合成時,調整說話人編碼就可以合成不同說話人語音。

Char2Wav[9]是Bengio等人提出的基于深度學習的端到端語音合成系統,該系統有閱讀器和聲碼器兩部分。閱讀器由編碼器和解碼器組成,編碼器是一個雙向循環神經網絡,解碼器是基于注意力機制的循環神經網絡。Char2Wav聲碼器是SampleRNN[10],SampleRNN可以在較長序列數據上建模,并且獲得較好的效果。

Tacotron-1、Tacotron-2原理和Char2Wav相似:將文本轉化成中間表征,然后將中間表征還原成語音波形。Tacotron-1和Tacotron-2由編碼器、解碼器和聲碼器組成。編碼器和解碼器將文本轉化成中間表征。聲碼器將中間表征還原成語音波形,Tacotron-1聲碼器是Griffin-Lim算法而Tacotron-2聲碼器是Wavenet。

Deep Voice-3[11]同樣采用文本到中間表征,中間表征到波形的語音合成方式。但是,Deep Voice-3同時采用了線性聲譜圖和梅爾頻譜作為中間表征,聲碼器也對應采用了Griffin-Lim算法和Wavenet。DeepVoice-3訓練速度較快且可以合成多說話人語音。實驗顯示,Deep Voice-3在半小時內就可學習2500種聲音,而對于之前的語音合成系統,要達到同等的語音合成效果,每個說話人聲音至少需要20小時訓練。

VoiceLoop[12]在文本到中間表征過程中在編碼解碼基礎上添加了固定大小的緩存機制,這樣可以減少模型復雜度。VoiceLoop聲碼器是WORLD[13]。VoiceLoop優勢是能夠在具有一定背景噪音的數據集上進行訓練,并且獲得較好的效果。

2 Wavenet

Wavenet是由卷積神經網絡構成的生成式語音合成模型,既可以單獨作為語音合成模型也可以作為聲碼器。Wavenet通過自回歸方式擬合音頻波形的分布合成語音,即Wavenet通過預測每一個時間點波形的值來合成語音波形。

2.1 Wavenet模型

Wavenet直接在音頻層面上進行建模,洲練之前,Wavenet將輸入的語音波形序列聯合概率x={x1,…,xt}分解為各時刻條件概率乘積,如公式(1)所示:

(1)

x是語音波形值序列,xt是一個時刻的波形值,xt值由之前所有時刻的值決定。

圖1是Wavenet模型,模型有k個功能層。訓練時,音頻輸入到因果卷積,因果卷積的輸出輸入到帶洞卷積,帶洞卷積的輸出分別經過tanh和sigmoid非線性變化后進行門限激活,門限激活后經過1x1卷積后得到輸出,這個輸出就是功能層輸出。功能層輸出和因果卷積輸出進行殘差連接,殘差連接結果輸入到下一個功能層。最后,每個功能層輸出連接在一起,經過兩次非線性激活和1x1卷積后輸入到softmax層。Softmax層優化最大似然估計得到音頻每一個時間點的波形值。在生成階段,Wavenet在每個波形點時刻通過對公式(1)中條件概率進行采樣,得到當前時刻波形值,該值會被作為歷史信息,計算后續波形點條件概率。

2.2因果卷積和帶洞卷積

音頻采樣點通常比較大,采用普通卷積方式計算量非常大。對此,Wavenet引入了因果卷積,如圖2所示,因果卷積可以在不增加計算復雜度同時增加卷積所關聯的時間范圍。

因果卷積增大了卷積感受野,但需要較多的卷積層,這增大模型規模和計算復雜度。為此,Wavenet進一步采用了帶洞卷積,如圖3所示,帶洞卷積每隔幾個輸入卷積,這樣既增加卷積感受野也減少了卷積層數。

2.3Wavenet聲碼器

Wavenet可以通過中間表征合成語音波形。中間表征可以是梅爾頻譜、線性聲譜圖等音頻特征,也可以是文字、說話人編碼等。這時,輸入到模型的是<音頻,中間表征>。公式(2)是Wavenet作為聲碼器時的預測公式,h是中間特征。訓練時,h和目標說話人語音同時輸入模型。合成時,只需要調整h就可以合成不同的語音。Xt是音頻序列。

(2)

表1是幾種語音合成方法在英文和中文上合成語音MOS得分[14]。從表1可以看出Wavenet得分大于拼接法和參數法。

3Tacotron-1

Tacotron-1采用文本到中間表征,中間表征到語音波形的合成方式。

文本到中間表征由編碼器和解碼器完成。編碼器將文本編碼成特征矢量。解碼器根據特征矢量預測音頻幀,第t步預測的r個幀會作為第t+l步輸入預測t+l步的r個幀,直至完成。第一步預測的輸入為0。當需要預測音頻總共有T幀,解碼器需要預測T/r次。預測結束后,解碼器將預測的總幀拼接在一起得到中間表征。后處理網絡和Griffin-Lim算法將中間表征還原成音頻波形。圖4是Tacotron-1系統架構。

3.1編碼器

編碼器(Encoder)提取文本序列表征。圖4左側所示,編碼器首先將文本嵌入成句子矢量輸入到預處理網絡中(pre-net),然后輸入到CBHG模塊。CBHG模塊中的雙向GRU循環網絡會結合注意力機制[15]輸入到解碼器。

3.2解碼器

解碼器(Decoder)根據編碼器的輸出預測音頻幀,圖4右側所示。Tacotron-1采用基于內容的非線性(tanh)注意力解碼器,循環層在解碼的每一個時間步都會生成一個注意力詢問[16]。解碼器將上下文矢量和注意力循環神經網絡單元輸出拼接輸入到解碼器循環神經網絡。解碼器循環神經網絡由一組GRU單元和垂直殘差連接組成,最后通過兩層全連接直接解碼出結果。

3.3后處理網絡和聲碼器

后處理網絡由CBHG模塊和全連接層組成,解碼器輸出經過后處理網絡轉化成線性聲譜圖。Griffin-Lim算法將線性聲譜圖還原成語音波形。

Tacotron-1MOS得分如表2所示,Tacotron-1得分大于參數法但小于拼接法。

4Tacotron-2

Tacotron-2是Tacotron-1改進版,工作原理相同。Tacotron-2改進如下:

(1) Tacotron-2在編碼器和解碼器中使用普通的長短時記憶網絡和卷積層,沒有使用Tacotron-1中CBHG模塊和GRU雙向循環網絡;

(2)Tacotron-2每個解碼步只解碼出一幀;

(3)Tacotron-2聲碼器是Wavenet;

(4) Tacotron-2中間表征是低層次的梅爾頻譜,而不是線性聲譜圖。

4.1編碼器

圖5左側所示Tacotron-2編碼器,有3組卷積神經網絡和一個雙向長短時記憶網絡層組成。雙向長短時記憶網絡層直接輸出中間表征。

4.2解碼器

解碼器是自回歸循環神經網絡,網絡結合注意力機制預測音頻每一幀。每一步預測結果輸入到兩層全連接層預處理網絡,預處理網絡輸出和注意力機制網絡輸出的上下文矢量拼接成一個矢量輸入到兩層單向循環長短時記憶網絡,長短時記憶網絡的輸出再一次和注意力機制網絡輸出的上下文矢量拼接,拼接后的矢量通過線性轉化投影成預測頻譜。最后,預測頻譜通過5層卷積后處理網絡和預測頻譜進行殘差連接得到梅爾頻譜。

Tacotron-2的聲碼器是改進版的Wavenet,原理和上述相同。Tacotron-2合成語音已經接近人聲,表3所示,Tacotron-2MOS評分大于拼接法和參數法,并且超過加語言學模型的Wavenet。

5基于遷移學習多說話人語音合成

基于遷移學習多說話人語音合成系統可以合成任意說話人語音,原理是提取說話人聲紋,將聲紋嵌入到語音合成中預測聲譜圖,聲碼器將聲潛圖還原成語音波形。由于該系統擁有聲紋提取功能,所以該系統可以合成任意說話人語音。

圖6所示,該系統有說話人編碼系統、語音合成模塊和聲碼器。說話人編碼系統提取目標說話人聲紋,語音合成模塊根據輸入的音素和聲紋預測梅爾頻譜,聲碼器將梅爾頻譜還原成語音波形。

5.1說話人編碼

本系統采用通用端到端(GE2E)說話人識別模型[17]提取說話人聲紋,該模型是一種基于深度學習端到端說話人識別模型,原理是:同一個說話人的不同語音相似度較高,不同說話人的語音相似度較低,通過訓練統一損失函數提高說話人識別準確率。模型提取的音頻特征就是聲紋。

5.2語音合成模塊

該模塊使用Tacotron-2中預測梅爾頻譜的編碼解碼部分。洲練時,將聲紋嵌入到注意力機制和解碼器中訓練。圖7所示是語音合成模塊架構。

5.3聲碼器

本系統的聲碼器是Wavenet,和Tacotron-2的聲碼器相同。

6研究展望

深度學習的發展極大促進了語音合成發展。Wavenet是生成式語音合成系統,可以合成高質量的語音,后續很多端到端語音合成系統將Wavenet作為聲碼器使用。Wavenet缺點是合成語音速度較慢,對此研究人員做出了很多改進,比如提出WaveRNN、Parallel WaveNet和WaveGlow等系統,這些系統都在一定程度上提高了語音合成速度。Tacotron-1和Tacotron-2是端到端語音合成系統,思想是將文本轉化成聲學特征,然后將聲學特征還原成語音波形。這兩個系統減少了人為對中間環節的干預,同時提高了合成語音的質量。這兩個系統有漏音問題,這個問題和洲練集有很大關系,在合成時,使用訓練集里沒有的文本就會出現這種錯誤?;谶w移學習多說話人語音合成系統在語音合成中引入了聲紋提取的模型,通過提取說話人的聲紋,可以合成任意說話人語音,該系統同樣存在著漏音問題。

語音合成作為人機交互的重要手段,必然會面臨著各種需求限制,比如長時間高質量個性化語音合成、小樣本訓練語音合成系統、模型輕量化等。因此,語音合成的發展任重而道遠。

參考文獻(References):

[1]X. Gonzalvo,S.Tazari,C.-a. Chan,M.Becker,A.Gutkin,and H. Silen. Recent advances in google real-timehmm-driven unit selection synthesizer[C] // In procinterspeech,2016.

[2]Zen.H,Y.Agiomyrgiannakis,N.Egberts,F.Henderson,and P. Szczepaniak. Fast, compact, and high qualitylstm-rnn based statistical parametric speech synthesiz-ers for mobile devices[C] // in proc interspeech,2016.

[3]Aaron van den Oord, Sander Dieleman, ZenH G,KarenSimonyan, Oriol Vinyals, Alex Graves, NaIKalch-brenner. Andrew Senior,

and KorayKavukcuoglu.Wavenet: a generative model for raw audio[J]. CoRR abs/1609.03499,2016.

[4]Wang Y,SkerW-Ryan R,Stanton D,et al.Tacotron:towards end-to-end speech synthesis[J]. 2017.

[5]Jonathan Shen, Ruoming Pang, Ron J.Weiss, MikeSchuster, Navdeep Jaitly,YangZ H,ChenZ F,ZhangY,Wang,Y X,RJ Skerry-Ryan, Rif A.Saurous, YannisAgiomyrgiannakis. and WuY H.Natural tts synthesis byconditioning wavenet on mel spectrogram predictions[C] //In Proc. IEEE International Conference on Acoustics.Speech, and Signal Processing (ICASSP),2018.

[6]JiaY, ZhangY, Ron J.Weiss, WangQ, Jonathan Shen,Ren F,ChenZ F,Patrick Nguyen, PangR M,IgnacioLopez Moreno, WuY H. Transfer Learning fromSpeaker verification to multispeakertext-to-speech syn-thesis[C] //32nd Conference on Neural InformationProcessing Systems(NeurIPS 2018), Montr e al, Canada.

[7]Arik S O, Chrzanowski M, Coates A, et al. Deep voice:real-time neural text-to-speech[J]. 2017.

[8]Arik S, Diamos G, Gibiansky A, et al. Deep voice 2: multi-speaker neural text-to-speech[J].2017.

[9]Jose Sotelo, Soroush Mehri, Kundan Kumar, Joao FelipeSantos, Kyle Kastner, Aaron Courville, and YoshuaBengio. Char2wav: end-to-end speech synthesis[J]. InICLR workshop,2017.

[10] Soroush Mehri. Kundan Kumar, Ishaan Gulrajani,Rithesh Kumar, Shubham Jain, Jose Sotelo, AaronCourville, and Yoshua Bengio. Samplernn: anunconditional end-to-end neural audio generationmodeI[C] // In ICLR.2017.

[11]Ping W, Peng K, Gibiansky A, et al. Deep voice 3:scaling text-to-speech vvith convolutional sequencelearning[J]. Published as a conference paper at ICLR2018.

[12] Yaniv Taigman, Lior Wolf, Adam Polyak, andEliyaNachmani. Voiceloop: voice fitting and synthesisvia a phonological loop[C] // In Proc. InternationalConference on Learning Representa-tions (ICLR),2018.

[13] Masanori Morise, Fumiya Yokomori, and Kenji Ozawa.WORLD: a vocoder-based high-quality speechsynthesis system for real-time applications[J]. IEICETransactions on Information and Systems,2016.

[14]S. Shirali-Shahreza and G. Penn. Mos naturalness andthe quest for human-like speech[J]. In 2018 IEEESpoken Language Technology Workshop (SLT),pages 346{352, Dec 2018.

[15]Bahdanau D , Cho K, and Bengio Y . Neural machinetranslation by jointly leaming to align and translate[J].Computer Science,2014.

[16] Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, IlyaSutskever, and Geoffrey Hinton. Grammar as a for-eign language[J]. In Advances in Neural InformationProcessing Systems,2015:2773-2781

[17] WanL, WangQ, Alan Papir, and Ignacio Lopez Moreno.Generalized end-to-end loss for speaker verification[C] // In Proc. IEEE International Conference onAcoustics, Speech, and Signal Processing (ICASSP),2018.

收稿日期:2020-04-24

基金項目:國防科技基金項目(No.3602027);江蘇省自然科學基金青年基金項目(No.BK20150722)

作者簡介:張小峰(1992-),男,江蘇東海人,碩士研究生,主要研究方向:計算機網絡、語音合成。

通訊作者:謝鈞(1973-),男,江蘇南京人,博士,教授,主要研究方向:智能信息處理、計算機網絡等。

猜你喜歡
遷移學習
《宋史·曾公亮傳》傳主形象論析
基于深度神經網絡的人體動作識別研究
威斯頓相互作用法在社會保險學課程教學中的實踐
基于卷積神經網絡的圖像分類技術
遷移學習在專業課程教學中的實踐研究
遷移學習研究綜述
從認知角度探討大學英語網絡教學模式
奇異值分解與移移學習在電機故障診斷中的應用
一種基于遷移極速學習機的人體行為識別模型
大數據環境下基于遷移學習的人體檢測性能提升方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合