?

一種利用SE-Res2Net的合成語音檢測系統

2022-09-09 01:45超,高
無線電工程 2022年9期
關鍵詞:雙通道集上分類器

梁 超,高 勇

(四川大學 電子信息學院,四川 成都 610065)

0 引言

說話人識別(Automatic Speaker Verfication,ASV)技術目前在公共服務、司法鑒定和貨幣交易等領域的應用十分廣泛,但與此同時也受到合成語音的頻繁攻擊,特別是面對諸如重放攻擊[1]、語音轉換[2]和語音合成[3]等攻擊語音時,傳統的ASV系統難以招架。目前常用的方法是在ASV系統前串聯一個獨立的、互不干擾的合成語音檢測系統,首先將待檢測語音輸入到合成語音檢測系統進行安全性驗證,若該語音通過合成語音檢測系統,則被判為真實語音,然后再輸入到ASV系統中進行說話人匹配。

為了促進抗欺騙檢測的研究,國際上每兩年就會舉辦欺騙語音檢測的ASVspoof挑戰賽。ASVspoof2015[4]重點研究了語音合成和語音轉換攻擊的對策。ASVspoof2017主要研究了重放語音攻擊的對策。ASVspoof2019[5]是第一個同時考慮研究3種欺騙攻擊的挑戰賽,評價指標除之前的等錯誤概率(Equal Error Rate,EER)外,還引入了最小串聯成本檢測函數(tandem Detection Cost Function,t-DCF)來表征整個系統的性能。本文使用的數據庫是ASVspoof2019的邏輯訪問數據庫(Logical Access,LA)。

常見的合成語音檢測系統可分為前端特征提取和后端分類器。文獻[6]提出了一種新的信號分析方法——經驗模式分解 (Empirical Mode Decomposition,EMD) 法,該方法依據信號的時間尺度特征進行信號分解,無需預先設置基函數,與傳統的分析工具有著本質的區別。本文所用的語音特征先對信號進行EMD,然后分別計算基函數與信號的皮爾遜相關系數(Pearson Correlation Coefficient),再將皮爾遜相關系數處理后作為權值與基函數相乘疊加成新信號,達到優化的目的,接著對優化后的語音信號提取梅爾倒譜系數(Mel Frequency Cepstral Coefficients,MFCC)以及逆梅爾倒譜系數(Inverse Mel Frequency Cepstral Coefficients,IMFCC),并拼接為雙通道特征以此增加特征多樣性,便于神經網絡提取到更加高級的特征和進行泛化學習。

后端分類器主要使用了SE-Res2Net[7]網絡。卷積神經網絡(Convolution Neural Network,CNN)通過堆疊卷積塊的分層方式獲取多尺度特征,具有著巨大優勢。與CNN不同,Res2Net通過將殘差網絡[8]中的主卷積替換成多層的殘差結構連接的卷積核組以此來提取多尺度特征,具有更少的參數量,Squeeze-and-Excitation Networks (SENet)[9]注意力機制通過給每個特征通道分配權值建立起通道之間的相關性,使得模型更加關注權值較大的特征通道,同時抑制權值較小的特征通道。將Res2Net與SENet組合成SE-Res2Net模塊,該模塊可以任意地添加到現有模型之中。實驗表明,SE-Res2Net網絡適合作為合成語音檢測后端分類器。

1 相關工作

文獻[10]提出了常數Q倒譜系數(Constant Q Cepstral Coefficient,CQCC),CQCC是基于常數Q變換(Constannt Q Transform,CQT)得到的倒譜系數。與傳統的MFCC相比,CQCC是一種時頻分析方法,可以提供時間分辨率和頻率分辨率,其在低頻段的頻率分辨率高,在高頻段的時間分辨高,可以有效檢測合成語言。線性頻率倒譜系數(Linear Frequency Cepstral Coefficient,LFCC)[11]首先通過計算信號短時傅里葉變換(Short Time Fourier Transform,STFT)的幅度譜,然后取對數并使用線性間隔的三角濾波器,最后進行倒譜變換得到,該系數由于出色的性能,常作為合成語音檢測的前端特征。

高斯混合模型 (Gaussian Mixture Models,GMM)[12]由于訓練速度快、使用廣泛,被用作ASVspoof2019的基線系統,在合成語音檢測任務中,利用GMM分別擬合真實語音和合成語音2個模型。ConvLSTM[13]提出的目的是為了解決降水臨近預報問題,將長短期記憶(Long Short-Term Memory,LSTM)公式中的Hadamard乘法改為卷積,不僅可以像LSTM一樣建立時序關系,而且也可以像卷積網絡一樣刻畫局部特征,其在獲取時空關系上比LSTM有更好的效果。LSTM[14]網絡通過在記憶單元中引入細胞狀態保存長期的記憶信息,并利用門結構自適應地保留與遺忘細胞中有用和無用的狀態信息,解決了循環神經網絡長期依賴的問題。CNN[15]作為目前主流的神經網絡,在圖像識別和語音識別領域有著廣泛應用。一般,隨著網絡層級的加深,模型的精度會不斷提升,但與此同時梯度消失或梯度爆炸的問題愈加明顯,網絡甚至出現了退化。殘差網絡[8]的出現使得這種問題得到了有效解決,在訓練較深的網絡同時,可以保持良好的性能。注意力機制[9]參考了人腦的信號處理機制,可以快速從全局信息中篩選出當前任務中重要的、關鍵的局部信息,深度學習中的注意力機制是通過分配權值來實現放大關鍵信息和抑制低價值信息,可以任意地插入到模型中以提升實驗表現。

2 實驗原理

2.1 特征設計

特征提取流程如圖1所示。

首先,對語音信號S進行EMD分解,得到若干個基本模式分量:

[s0,s1,…,sn]=EMD(S)。

(1)

然后,計算每個基本模式分量與原語音信號的皮爾遜相關系數:

[r0,r1,…,rn]=corrcoef[(s0,S),(s1,S),…,(sn,S)],

(2)

式中,r0,r1,…,rn分別是各模式分量與原信號的相關系數。計算加權系數:

R=|r0|+|r1|+…+|rn|,

(3)

(4)

式中,α0,α1,…,αn分別是各模式分量的權值,基本模式分量加權組合成新信號X′:

X′=α0×s0+α1×s1+…+αn×sn。

(5)

預處理包括預加重、分幀和加窗。預加重的目的是補償高頻分量的損失,提高高頻分量。新信號X′經預處理后為xi(m),下標i表示分幀后的第i幀,通過快速傅里葉變換將時域數據轉變為頻域數據:

X(i,k)=FFT[xi(m)],

(6)

式中,k為頻域中第k條譜線。對每一幀FFT后的數據計算譜線能量:

E(i,k)=|X(i,k)|2。

(7)

把每幀譜線能量譜通過梅爾濾波器,并計算在Mel濾波器中的能量:

(8)

式中,Hm(k)表示梅爾濾波器的頻率響應。最后把Mel濾波器的能量取對數后計算倒譜系數:

(9)

式中,m為第m個梅爾濾波器(共M個);i為第i幀;n為DCT后的譜線。其中,傅里葉變換的點數為2 048,梅爾濾波器與逆梅爾濾波器的濾波器個數都為100,提取倒譜系數一階、二階差分系數共60維;最后將2種特征拼接起來構成三維特征,該特征為雙通道特征作為后端分類器的輸入,這樣的特征相比于單個MFCC或IMFCC特征具有多樣性,有利于神經網絡提取到更高級的特征。

2.2 SE-Res2Net

殘差塊與Res2Net塊的對比如圖2所示。

圖2(b)中,Res2Net網絡通過增加多個感受野的方式來提取多尺度特征。具體來說,通過使用更小的濾波器組來代替圖2(a)中的3×3濾波器,并且這些濾波器以殘差分層的結構連接,以捕獲全局以及局部特征。主卷積塊部分在通過1×1卷積后,將特征沿通道方向均勻的分割成特征子集xi(i=1,2,…,m),其中m是總的分割子集數,特征子集和原特征具有相同的空間大小,除了特征子集x1,其余子集都會經過一個3×3卷積;除了特征子集x1和x2,其余特征子集xi都會先加上上一個經過3×3卷積后的yi-1后再進行3×3卷積,Ki表示第i個卷積核,上述過程可以表述為:

(10)

將yi拼接后通過1×1卷積來融合不同尺度的特征信息,最終得到具有不同感受野組合的特征信息。

在網絡的參數量方面,假設輸入輸出特征的通道數分別是I_C和O_C,對于圖2(a),其參數量為3×3×I_C×O_C,即9×I_C×O_C;對于圖2(b),其參數量為(I_C/s)×(O_C/s)×9×(s-1),顯然Res2Net具有更少的參數量。

2.3 后端分類器

將Res2Net和SENet組合后如圖3所示,本文將該SE-Res2Net模塊堆疊組成后端分類器,后端分類器網絡圖如圖4所示。

SENet采用了特征重標定的策略,通過學習的方式自動獲取每個特征通道的重要程度。相比于單獨使用Res2Net,嵌入SENet使網絡具有更多的非線性,可以更好地擬合特征通道間的相關性。目前主流的網絡結構都是基于圖3的方式疊加構造產生的,例如SE-BN-Inception,SE-ResNet以及本文中的SE-Res2Net等。

文獻[16]證實了SENet模塊的確可以給網絡帶來性能上的增益。

圖4 后端分類器Fig.4 Back-end classifier

3 實驗與結果分析

3.1 模型評價指標

在合成語音檢測系統中,錯誤接受率(False Acceptance Rate,FAR)和錯誤拒絕率(False Rejection Rate,FRR)是2個重要的指標,其中FAR表示模型錯誤接受合成語音的概率,FRR表示模型錯誤拒絕真實語音的概率。EER是FAR與FRR相等時對應的錯誤概率,即:

EER=FAR(θ)=FRR(θ),

(11)

式中,θ為FAR與FRR相等時模型的閾值。ASVspoof2019大賽還使用了最小t-DCF衡量整個模型的性能,t-DCF的計算如下:

(12)

3.2 基于EMD分解的雙通道特征驗證

實驗采用的數據集是ASVspoof2019大賽的邏輯訪問數據集,具體如表1所示。

表1 ASVspoof2019 LA數據集

Train,Dev.,Eval.分別表示訓練集、開發集和評估集。

前期搭建了Conv+ConvLSTM+FC(CCLSTM)和Conv+LSTM+FC(CRNN)兩個小型網絡結構來驗證基于EMD分解的MFCC+IMFCC雙通道特征的有效性,具體網絡結構如圖5所示。

(a) CCLSTM

(b) CRNN

學習率為0.001,批次為32,共訓練100個周期,訓練完畢后分別在開發集和測試集上獲得2項指標。實驗結果如表2和表3所示。

表2 不同特征在CCLSTM模型上開發集與評估集的EER與t-DCF

表3 不同特征在CRNN模型上開發集與評估集的EER與t-DCF

使用相同的網絡模型,基于EMD分解的MFCC+IMFCC雙通道特征效果相比于其他6種有一定的提升。與MFCC特征的結果相比,CCLSTM模型和CRNN模型在評估集上的EER指標分別降低了27%和32%,t-DCF指標分別降低了24%和6%。與IMFCC特征的結果相比,CCLSTM模型和CRNN模型在評估集上的EER指標分別降低了37%和37%,t-DCF指標分別降低了49%和23%。(EMD)MFCC+IMFCC特征是將信號進行EMD分解后將模態分量直接疊加后產生的特征,(EMD)MFCC+IMFCC(P)和(EMD)MFCC+IMFCC相比,在2個模型的評估集上的2個指標都有一定的提升,證明了對模態分量計算皮爾遜相關系數再進行權值相加產生的特征更適合合成語音檢測任務??梢娫撾p通道特征是具有實用價值的。

3.3 融合實驗與結果分析

倒譜處理在壓縮數據量的同時,也造成了數據丟失,導致雙通道特征難以繼續提升。從實驗結果來看,基于EMD的雙通道特征對實驗的2個指標的提升趨近于極限,要想進一步提升實驗效果,進行多特征融合[17]是一個方向。

除了雙通道特征外,本文還引入了LFCC,CQCC和梅爾頻譜(Mel Frequency Analysis,FBank)進行融合,4種特征的維度如表4所示。

表4 不同特征與維度

使用如圖4所示的后端分類器,單個模型結果如表5所示??梢钥闯?,LFCC提升最大,直接驗證了LFCC適合合成語音檢測任務。與基線系統相比,LFCC在評估集上的EER和t-DCF分別降低了41%和59%?;贓MD分解的雙通道特征與基線系統相比,在評估集上的EER和t-DCF分別降低了29%和41%。接下來選擇表5中的結果融合,首先歸一化各個模型的打分結果再進行等均值融合,最終的融合結果與其他文獻提出的Model1[8],Model2[18],Model3[19]以及ASVspoof 2019基線系統的CQCC++GMM和LFCC+6MM進行對比,結果如表6所示。

表5 不同特征在SE-Res2Net上的EER與t-DCF

表6 融合模型的EER與t-DCF

Model1使用MFCC,CQCC和對數短時頻譜特征,后端分類器使用了殘差網絡;Model2使用了CQCC,MFCC和短時傅里葉變換對數譜特征,后端分類器使用了SENet和擴張殘差網絡;Model3則使用了MFCC,IMFCC和LFCC特征,后端分類器使用了殘差網絡和GMM模型。相比于這3種模型,本文使用的模型效果更好。由表6可以看出,與表5中單個特征在評估集上的結果相比,融合后模型的EER與t-DCF兩項指標都有著較明顯提升,與基線系統CQCC+GMM相比,融合結果的評估集上的EER與t-DCF分別降低了約49%和64%。與基線系統LFCC+GMM相比,融合結果的評估集上的EER與t-DCF分別降低了約39%和61%。

4 結論

在前端特征提取上,本文設計了基于EMD分解的MFCC+IMFCC的雙通道特征,實驗表明,該雙通道特征模型效果比MFCC和IMFCC好;在后端分類器上,采用了SE-Res2Net網絡;最后將不同模型的打分結果進行了等均值融合來權衡不同模型的優缺點,進一步提升模型性能。本文選取的前端特征和后端分類器單一,并且沒有驗證模型對重放語音的有效性,后續工作會選取更多的特征和分類器進行實驗,進一步提升合成語音檢測系統的泛化性能。

猜你喜歡
雙通道集上分類器
學貫中西(6):闡述ML分類器的工作流程
關于短文本匹配的泛化性和遷移性的研究分析
近端胃切除雙通道重建及全胃切除術用于胃上部癌根治術的療效
福建省醫保局率先上線省級“雙通道”電子處方流轉服務
基于樸素Bayes組合的簡易集成分類器①
基于互信息的多級特征選擇算法
一種自適應子融合集成多分類器方法
電力信息網絡雙通道故障自動探測策略探究
智典DDR2 800 2GB/4GB
師如明燈,清涼溫潤
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合