基于噪聲破壞和波形重建的聲紋對抗樣本防御方法

2024-01-26 00:37魏春雨張雄偉

信息安全學報 2024年1期

魏春雨, 孫蒙, 張雄偉, 鄒霞, 印杰

魏春雨1, 孫蒙1, 張雄偉1, 鄒霞1, 印杰2

1陸軍工程大學指揮控制工程學院南京中國 2100072江蘇警官學院南京中國 210031

語音是人類最重要的交流方式之一。語音信號中除了文本內容外, 還包含了說話人的身份、種族、年齡、性別和情感等豐富的信息, 其中說話人身份的識別也被稱為聲紋識別, 是一種生物特征識別技術。聲紋具有獲取方便、容易保存、使用簡單等特點, 而深度學習技術的進步也極大地促進了識別準確率的提升, 因此, 聲紋識別已被應用于智慧金融、智能家居、語音助手和司法調查等領域。另一方面, 針對深度學習模型的對抗樣本攻擊受到了廣泛關注, 在輸入信號中添加不可感知的微小擾動即可導致模型預測結果錯誤。對抗樣本的出現對基于深度學習的聲紋識別也將造成巨大的安全威脅?，F有聲紋對抗樣本防御方法會不同程度地影響正常樣本的識別, 并且局限于特定的攻擊方法或識別模型, 魯棒性較差。為了使對抗防御能夠兼顧糾正錯誤輸出和準確識別正常樣本兩個方面, 本文提出一種“破壞+重建”的兩階段對抗樣本防御方法。第一階段, 在對抗樣本中添加具有一定信噪比幅度限制的高斯白噪聲, 破壞對抗擾動的結構進而消除樣本的對抗性。第二階段, 利用提出的名為SCAT-Wave-U-Net的語音增強模型重建原始語音樣本, 通過在Wave-U-Net模型結構中引入Transformer全局多頭自注意力和層間交叉注意力機制, 使改進后的模型更有助于防御聲紋對抗樣本攻擊。實驗表明, 提出的防御方法不依賴于特定聲紋識別系統和對抗樣本攻擊方式, 在兩種典型的聲紋識別系統下對多種類型對抗樣本攻擊的防御效果均優于其他預處理防御方法。

聲紋識別; 噪聲破壞; 語音增強; 對抗樣本防御

1 引言

近年來, 深度學習在語音、圖像等識別任務中展現了優異的性能。然而, 研究表明, 深度學習模型容易受到在樣本中添加小幅度擾動的影響, 這些受到擾動的非正常樣本被稱為“對抗樣本”[1]。通過在音頻中加入微小的擾動使聲紋識別(Speaker Recognition)系統出錯[2]的樣本被稱為聲紋對抗樣本。由于對抗樣本具有很小的擾動失真, 人們從聽覺上很難察覺到異常變化。對抗樣本的出現對深度學習模型的安全性提出了嚴峻挑戰。隨著基于深度學習的聲紋識別技術在金融、安防、智能家居等領域的廣泛應用, 聲紋識別系統中對抗樣本的防御就成為亟待解決的重要課題。

現有的聲紋對抗樣本防御方法可分為對抗樣本檢測、對抗訓練以及樣本變換處理三種[3]。這些方法在不同程度上存在丟棄樣本、泛化性能差、真實樣本識別率降低等缺點。另一方面, 為了去除語音中的各種噪聲, 近年來涌現出了大量的基于深度學習的語音增強方法[4-6]。從對抗樣本的生成過程來分析, 對抗擾動也可以看成是一種幅度較小的加性噪聲[7]。如何將對抗樣本防御和語音增強有效結合, 使語音增強有助于去除對抗噪聲, 進而減弱對抗樣本帶來的不利影響, 是一個非常有價值的研究方向。

為了解決這些問題, 本文借助語音增強從對抗樣本中恢復出原始波形, 提出一種結合噪聲破壞與波形重建的聲紋對抗樣本防御方法。該方法首先在對抗樣本中加入高斯白噪聲以破壞對抗擾動的結構, 然后利用改進的語音增強模型重建原始波形, 從而實現對對抗樣本攻擊的防御。

2 相關工作

本文以噪聲破壞和波形重建相結合的方式來防御聲紋對抗樣本攻擊, 通過語音增強重建原始音頻樣本。首先總結聲紋對抗樣本攻防和語音增強方面的相關工作如下:

2.1 聲紋對抗樣本的攻擊與防御

2.1.1 聲紋對抗樣本攻擊方法

根據攻擊者是否了解被攻擊模型的信息, 聲紋對抗樣本攻擊可分為白盒攻擊和黑盒攻擊, 根據是否迫使聲紋識別系統輸出指定的目標標簽又分為有目標攻擊和非目標攻擊。在聲紋對抗樣本攻擊的發展歷程中出現了一些具有代表性的研究。

1) FGSM

Gong等[8]將快速梯度符號法(Fast Gradient Sign Method, FGSM)用于生成聲紋對抗樣本。FGSM通過一步梯度上升在輸入中添加擾動以最大化損失函數, 計算公式如下:

其中,是梯度上升的步長,(,)是將輸入分類為說話人標簽的損失函數。

2) PGD

Liu等[9]將迭代梯度下降法(Projected Gradient Descent, PGD)應用于聲紋識別系統。PGD是FGSM的改進版本。在每次迭代中, PGD以步長應用FGSM并裁剪結果以確保其在原始輸入的鄰域內, 第次迭代后的樣本為,

在求解對抗樣本之前, PGD攻擊為原始樣本增加一個隨機的擾動[10], 這有助于攻擊方找到更好的損失函數局部最大值。

3) Carlini & Wagner(CW)

4) FakeBob

Chen等[12]針對聲紋識別系統提出了一種名為FakeBob的黑盒攻擊方法。FakeBob與PGD均以迭代方式生成對抗樣本, 與PGD不同的是它作為一種黑盒攻擊方法, 通過自然進化策略估計梯度, 并且攻擊針對的是原始輸入語音而不是添加了隨機擾動的語音。FakeBob采用早停策略來減少查詢次數, 即一旦找到對抗樣本就停止計算。與CW攻擊類似, FakeBob也可以通過參數控制對抗擾動的強度。

5) SirenAttack

Du等[13]提出了一種名為SirenAttack的黑盒音頻對抗樣本攻擊方法。他們利用粒子群優化(Particle Swarm Optimization, PSO)算法求解對抗擾動。PSO算法不需要梯度信息, 通過迭代地使候選解(粒子)群體根據適應度在搜索空間中移動來求得全局最優解。當算法在設定的最大迭代次數內攻擊成功, 即可獲得滿足要求的音頻對抗樣本。

上述攻擊方法將作為本文的對抗樣本生成手段來驗證所提出的防御方法的有效性。

2.1.2 聲紋對抗樣本防御方法

對于聲紋對抗樣本的防御, Li等[14]提出了對抗樣本檢測的方法, 有效避免了對抗樣本被聲紋識別系統驗證通過, 但這種方法不能糾正由對抗樣本造成的錯誤識別結果, 從而不得不丟棄這些被對抗擾動污染的語音樣本?；趯褂柧歔15]的防御方法雖然可以在一定程度上減輕對抗樣本帶來的負面影響, 但卻嚴重依賴特定的模型以及特定的對抗樣本生成方法, 遷移性較差。

最近, 一些基于樣本變換的預處理方法被用于防御對抗樣本的攻擊, 在一定程度上糾正了對抗樣本造成的錯誤識別結果, 但也會降低真實樣本的識別準確率。這些基于樣本變換處理的防御方法包括:

1) 時頻變換

在時域和頻域對語音進行變換, 變換方法包括量化(Quantization)[16]、音頻湍流(Audio Turbulence, AT)[17]、均值平滑(Average Smoothing, AS)[13]、中值平滑(Median Smoothing, MS)[16]和低通濾波(Low Pass Filter, LPF)[18]。

量化是將每個語音采樣點的幅值四舍五入到最接近量化因子的整數倍。音頻湍流假設對抗性擾動對噪聲敏感, 通過向輸入語音添加特定信噪比的噪聲以改變對抗樣本的識別結果。均值平滑通過對輸入語音波形進行平滑來減弱對抗樣本帶來的影響, 將每個樣本點x替換為其個相鄰樣本的平均值。中值平滑與均值平滑相似, 只是它用x的個相鄰樣本點的中值進行替換。低通濾波[19-20]的方法認為人類語音處于較低的頻率范圍內, 應用低通濾波器可以在保留語音內容的同時, 去除許多高頻的對抗擾動。

2) MP3壓縮

基于心理聲學原理, 語音MP3壓縮[21]旨在抑制語音中的冗余信息, 以提高存儲或傳輸效率。當難以察覺的對抗性擾動是冗余信息時, 可以通過語音壓縮來消除。

3) 特征壓縮

上述基于樣本變換的防御方法將作為基線系統與本文提出的方法進行對比。

2.2 語音增強模型與對抗樣本防御

語音增強的任務之一是提高受噪聲影響語音的質量[23]?；谏疃壬窠浘W絡的模型在非平穩噪聲影響下的單通道語音增強任務中已經取得了比傳統濾波方法更好的效果。例如, Wave-U-Net模型是Stoller等由用于圖像分割的U-Net模型[24]改進而來的, 在語音增強和語音分離任務中取得了良好的效果[25]。在對抗樣本防御方面, Yang等[26]提出了改進的U-Net模型, 用于防御針對語音內容識別(Speech Recognition)的對抗樣本攻擊, 在降低語音文本識別詞錯誤率和語音感知質量的改善上都取得了不錯的效果, 提高了語音識別系統對對抗擾動的魯棒性。本文針對聲紋對抗樣本, 研究改進基于Wave-U-Net的深度學習語音增強模型, 提高聲紋識別系統防御對抗樣本攻擊的能力。

相對于2.1和2.2的相關工作, 本文的貢獻如下所述:

1) 提出了基于噪聲破壞和波形重建的聲紋對抗樣本防御方法。

首先, 通過在語音樣本中添加高斯白噪聲破壞對抗擾動的結構; 然后, 用含噪語音數據集對語音增強模型進行訓練; 最后, 將對抗樣本輸入訓練所得的語音增強模型, 重建出的波形即為去除了對抗擾動的語音樣本。實驗發現, 相比2.1.2的幾種基于樣本變換處理的方法, 本文提出的方法可以顯著提高聲紋識別系統在對抗樣本上的識別準確率, 且對正常樣本識別的負面影響較小。

2) 設計了SCAT-Wave-U-Net語音增強模型。

通過引入Transformer全局多頭自注意力(Self-Attention)[27]和層間交叉注意力(Cross-Attention)機制, 增強下采樣層特征之間全局交互的能力, 同時減輕跳躍連接中來自下采樣層不相關特征信息的影響。將Self-Attention和Cross-Attention注意力機制與Wave-U-Net相結合, 構建出本文的增強方法SCAT-Wave-U-Net。實驗發現, 相比包括原始Wave-U-Net模型在內的其他語音增強算法, 本文提出的SCAT-Wave-U-Net模型可以進一步改善增強語音的質量, 提高了模型從含噪語音樣本中重建原始波形的能力。

3 基于噪聲破壞和波形重建的聲紋對抗樣本防御

3.1 “破壞+重建”的對抗樣本防御方法

對抗樣本攻擊的目的是在盡可能不影響人耳聽覺感知質量的同時, 使聲紋識別系統出錯。因此, 制作對抗樣本時通常只在原始語音樣本上添加微小幅度的擾動, 以保證人耳無法感知。語音增強的目的是最大程度地消除附加在干凈語音上的背景噪聲, 使語音聽起來更清晰。然而, 對抗樣本自身擾動幅度較小, 直接用訓練好的語音增強模型對其進行處理并不能有效地緩解樣本的對抗性, 防御效果并不理想。Yang等[26]在白盒條件下的研究證實了這一點。

實際上, 語音增強通常處理的含噪語音聽起來更嘈雜并嚴重影響到人耳的聽覺感知, 涉及的噪聲通常比聲紋對抗樣本中的噪聲具有更大的幅度和更強的隨機性。相對于一些環境背景噪聲, 對抗樣本中的擾動則是經過精心構造的。為了產生具有對抗性的效果, 往往會經過大量的迭代訓練, 以得到結構相對固定的對抗擾動[28], 從而使得對抗樣本的識別結果比真實樣本的識別結果對環境噪聲更加敏感。當在樣本中添加相同幅度的隨機噪聲時, 對抗樣本的識別結果更容易被改變[18, 29]。

在上述研究的基礎上, 本文首先在對抗樣本中添加比對抗擾動幅度更大的高斯白噪聲, 從而改變對抗擾動的原有結構, 破壞其對抗性; 然后, 利用語音增強模型處理添加了噪聲的對抗樣本, 重構出與真實樣本近似的語音波形, 提高聲紋識別的準確率, 實現對對抗樣本攻擊的防御。如圖1所示, 提出的防御方法分為兩個階段: 第一階段, 在輸入的語音樣本中添加不同信噪比的高斯白噪聲。添加噪聲的過程如算法1所示。

算法1在音頻樣本中植入高斯噪聲輸入: 音頻樣本X, 信噪比最小值SNRmin, 信噪比最大值SNRmax輸出: 帶有高斯噪聲的音頻樣本Xnoise 1) 從均勻分布U(SNRmin, SNRmax)中隨機選擇一個數值SNR作為當前樣本X添加噪聲的信噪比。2) 計算音頻樣本X的均方根RMSX。3) 根據信噪比SNR計算需要添加的噪聲的均方根RMSnoise。4) 生成與輸入音頻X具有相同維度且滿足N(0, RMSnoise)高斯分布的噪聲Noise。5) 得到添加噪聲的樣本Xnoise = X + Noise。

Figure 1 A two-stage defense method against speaker adversarial examples based on noise destruction and waveform reconstruction

相比其他噪聲, 高斯白噪聲是一種比較常見且比較容易仿真實現的隨機噪聲, 本文將這種噪聲添加在輸入樣本中用于覆蓋樣本中的對抗擾動, 進而破壞對抗擾動的固有結構。對于以不同方法生成的對抗樣本, 由于其擾動幅度并不相同, 因此為實現最佳破壞效果而添加的適宜噪聲幅度也可能并不一致。概括來說, 強度太小的噪聲不能有效地破壞對抗擾動, 而強度太大的噪聲會使原始音頻難以修復。因此, 本文將添加噪聲的信噪比范圍限制在0～25 dB (以5 dB為步長), 添加方法是以加性噪聲的形式將噪聲信號直接加在樣本上, 這與對抗樣本制作過程中在原始樣本中添加對抗擾動的過程是一樣的。

第二階段, 在干凈語音數據集上, 以同樣的方式, 添加與第一階段具有相同信噪比范圍的噪聲, 制作含噪語音數據集, 并在這個數據集上訓練語音增強模型。然后, 用訓練好的模型對第一階段添加了噪聲的聲紋樣本進行處理, 重構原始語音信號。這是在第一階段破壞對抗擾動結構之后, 進行語音波形的重建, 以清除添加在樣本中的噪聲, 最大程度地恢復原始語音。

由于第一階段加入的噪聲會破壞對抗擾動, 第二階段的重建有望在提高語音質量的同時, 提高聲紋識別的準確率。

3.2 SCAT-Wave-U-Net模型結構

在波形重建階段, 為了進一步提高模型對聲紋對抗樣本的語音重建能力, 本文在性能優異的Wave- U-Net模型基礎上進行了改進, 設計了一種名為SCAT-Wave-U-Net的模型結構, 如圖2所示。

圖2 SCAT-Wave-U-Net語音增強模型

Figure 2 Speech enhancement using SCAT-Wave-U-Net

Wave-U-Net是由U-Net模型改進而來的, 其中U-Net因其網絡結構類似于字母“U”而得名。U-Net包括下采樣層的卷積加池化, 上采樣層的反卷積和相同上、下采樣層的特征拼接等模塊。為了適應對語音信號的處理, Wave-U-Net將U-Net上采樣層的反卷積操作變成了線性插值, 同時在下采樣層使用了居中裁減。該網絡結構在音源分離和語音增強方面具有明顯的優勢。

語音信號具有明顯的時間相關性。Yang等[16]的研究表明, 在語音樣本中添加的對抗擾動會破壞掉這種時序信息, 他們利用這一性質有效地區分了對抗樣本和正常語音。在針對含噪對抗樣本開展的語音重建任務中, 借助原始語音中的時序依賴信息, 可以更好地修復原始波形, 從而恢復被對抗擾動破壞的時間相關性。然而, 這種時序依賴性在Wave-U- Net模型中并沒有得到充分體現。為使模型能更好地表示語音序列之間的相關關系, 本文提出的SCAT- Wave-U-Net模型利用Transformer多頭自注意力機制對最后一個下采樣層的語音序列特征進行全局編碼, 使模型充分學習語音完整上下文信息之間的依賴關系。同時, 在Wave-U-Net上、下采樣層之間的跳躍連接中引入交叉注意力機制, 使模型能更有效地利用來自下采樣層的有價值的特征。

在SCAT-Wave-U-Net模型的網絡結構中, 最后一個下采樣層末端的Transformer多頭自注意力模塊可訪問包含整個音頻序列的接收域, 與原始Wave- U-Net的有限接收域形成對比。跳躍連接中的交叉注意力模塊可以從對應上、下采樣層的時序依賴關系中獲取更有價值的特征信息用于構建拼接特征。對Wave-U-Net的這些改進可以更加有效地從含噪對抗樣本中重建原始語音波形。

3.2.1 Transformer多頭自注意力

在最后一個下采樣塊之后, 利用Transformer多頭自注意力機制獲取編碼特征序列的全局依賴關系。本文的Transformer多頭自注意力模塊由6個順序相連的相同子層組成, 每個子層包括位置編碼、具有殘差連接的多頭自注意力和前饋神經網絡。每個子層的結構如圖3所示。

圖3 Transformer多頭自注意力

Figure 3 Multi-head self-attention in Transformer

在Transformer的自注意力機制中并沒有輸入特征序列的位置信息[30], 即序列中的矢量處于不同位置時對于自注意力的計算并沒有區別, 這在針對含噪語音的波形重建任務中顯然是不合理的。因此, 在輸入特征中以文獻[27]的方式添加位置編碼[31], 以獲取含噪聲紋樣本編碼特征序列中每個矢量在整個矢量序列中所處的相對位置關系。

自注意力作為模塊最重要的部分, 旨在對具有不同維度、不同表示的序列特征進行加權融合, 從而實現對輸入編碼特征的全局訪問。為了更好地利用具有不同維度、不同表示的子空間的信息, 本文使用了多頭自注意力機制。本文將自注意力頭個數設為8, 每一個頭的自注意力包括三個輸入, 即查詢矩陣、鍵矩陣和值矩陣[27]。在針對含有“破壞”噪聲的語音進行的波形重建任務中,、和具有相同的大小, 對應于圖2中最后一個下采樣塊的輸出。注意力計算公式如下:

為了實現多頭自注意力的并行計算, 在每個多頭自注意力層中執行以下計算:

前饋神經網絡具有2048維的單個隱藏層, 輸入、輸出層的神經元個數等于模塊輸入的編碼特征的維度。網絡的激活函數為relu, 為了防止出現過擬合, 在訓練過程中以0.1的概率應用dropout。

在每個子層的多頭自注意力和前饋網絡之后均進行了層歸一化處理。同時, 為了適應Transformer多頭自注意力的計算, 將模塊輸入特征的形狀從(批次, 特征, 通道)轉換為(通道, 批次, 特征), 并在輸出時重置特征的形狀。

3.2.2 層間交叉注意力

與Wave-U-Net中直接將相同上、下采樣層特征進行拼接不同, SCAT-Wave-U-Net模型在跳躍連接中引入注意力門, 將下采樣層的特征與注意力掩碼相乘來識別其中的相關特征, 如圖4所示。

圖4 層間交叉注意力模塊

Figure 4 Interlayer cross-attention module

為了實現注意力機制, 利用兩個具有個卷積核且核大小為1的一維卷積W和W, 分別對上采樣層特征U-i+1和下采樣層特征D進行卷積操作并將結果相加。與Giri等人[6]的方法不同, 為了減少計算量并防止梯度消失, 本文在相加之后實施relu激活, 而不是sigmoid激活。激活后得到一個輸出維度為的中間特征M,

其中,U–i+1和D分別代表上下采樣層的特征, 下標中的為層序號,代表模型的總層數, 在本文中為12,b代表可學習的偏置。將中間特征輸入到核大小為1的單個卷積W, 輸出進行批歸一化處理, 再經過sigmoid激活得到注意力掩碼A,

最后, 將注意力掩碼與下采樣層特征D相乘后與上采樣層特征U–i+1拼接。

4 實驗評估

本文首先通過實驗與其他語音增強算法進行對比, 驗證提出的SCAT-Wave-U-Net模型對一般背景噪聲的過濾效果。然后利用SCAT-Wave-U-Net模型, 針對典型的四種白盒、兩種黑盒對抗樣本攻擊, 在兩種不同聲紋識別系統下進行實驗, 驗證提出的對抗樣本防御方法的效果①https://github.com/meisanhai/audios。實驗平臺為Ubuntu 20.04, 處理器為Intel Xeon E5-2670 v3, 具有62.8 GiB內存、48核2.30 GHz的CPU和一個GeForce RTX 2080Ti GPU。

4.1 數據集

4.1.1 VCTK

本文使用VCTK數據集[32]驗證SCAT-Wave- U-Net模型對一般背景噪聲的語音增強效果, 同時在該數據集的干凈語音中添加高斯噪聲對模型重新訓練。數據集中的干凈語音來自30位母語為英語的人, 其中28個說話人的語音用于訓練, 剩余2個說話人的語音用于測試。將干凈語音與各種噪聲數據集混合生成含噪語音。訓練集包含40種不同的噪聲條件, 由10種類型噪聲的各4種信噪比(0 dB、5 dB、10 dB和15 dB)組成, 每個說話人在每種條件下大約有10個不同的語句, 共有11572個訓練樣本。測試集與訓練集在說話人、噪聲類型和信噪比分布上都不同, 包含20種不同的噪聲條件, 由5種類型噪聲的各4種信噪比(2.5 dB、7.5 dB、12.5 dB和17.5 dB)組成, 每個測試說話人在每種噪聲條件下大約有20個不同的語句, 共有824個測試樣本。

4.1.2 Spk10

在聲紋識別任務中選擇Chen等人[22]公開的數據集, 包括Spk10-enroll注冊集和Spk10-test測試集。說話人是從語音處理領域廣泛采用的數據集Librispeech的“test-other”和“dev-other”子集中隨機選擇的。Spk10-enroll包括10名說話人(5名男性和5名女性), 每名說話人10個語句。Spk10-test具有與Spk10-enroll相同的說話人, 但講話內容不同, 每個說話人有100個語句。

4.2 實驗設置

本文使用了兩種典型的聲紋識別系統, 分別是基于高斯混合模型(Gaussian Mixed Model, GMM)的i-vector系統[33]和基于時延神經網絡(Time Delay Neural Network, TDNN)的x-vector系統[34], 這兩種聲紋識別系統均使用說話人嵌入(Embedding)將說話人的聲學特性表示為固定維度的向量, 實驗中使用基于語音識別平臺Kaldi[35]預訓練的開源模型。本文進行的是閉集說話人鑒別, 即從一組注冊的說話人中識別出測試語音來自哪個說話人, 在機器學習領域是一個多分類問題。兩種系統均在Spk10-enroll上進行了注冊, 將注冊說話人發出的語音映射到注冊嵌入特征, 作為注冊說話人的唯一身份標識。測試過程中使用Spk10-test的數據進行測試。

在對抗攻擊設置中, 對抗樣本均是在Spk10-test上生成, 選擇Spk10-test中10個說話人的各20條語音用來生成對抗樣本。本文選擇非目標攻擊任務, 攻擊的目標標簽是從真實目標說話人之外的標簽中隨機選擇的。FGSM攻擊步長設為0.002。PGD攻擊的最大迭代次數設為10, 步長設為0.0004, 擾動幅度限制設為0.002。CW∞攻擊的最大迭代次數設為10, 步長設為0.001, 擾動幅度限制設為0.002。CW2攻擊使用9步二進制搜索尋找對抗性擾動, 最大迭代次數設為1 000, 參數設為0。FakeBob攻擊的迭代次數設為500,設為0, 擾動幅度限制設為0.002。Siren攻擊粒子數為50, PSO最大迭代次數為300。

對于基線對抗防御方法的設置, 在防御效果最佳的條件下, 將量化方法因子的值設為512, 音頻湍流中的信噪比設為15 dB, 中值平滑和均值平滑近似計算的樣本點數設為5, 低通濾波的截止頻率設為8 000 Hz, MP3壓縮的壓縮級別設為64 kbps, 特征壓縮中與的比值設為0.5, 特征聚類的方法使用k均值(k-means)聚類。

訓練SCAT-Wave-U-Net模型時使用Adam優化器, 學習率為0.0001, 批大小為32。隨機選取1%的訓練數據作為驗證集, 如驗證集上的效果在連續訓練20個epoch時沒有改進, 則停止訓練。然后, 對訓練參數進行微調, 批大小增加一倍, 學習率降至0.00001, 同樣在連續訓練20個epoch驗證集上的效果沒有改進時, 停止訓練。

4.3 評價指標

本文用聲紋識別準確率衡量提出的方法對聲紋對抗樣本攻擊的防御性能, 即計算能夠準確識別目標說話人的語音數目與輸入語音總數的比值。

使用語音質量的感知評價(Perceptual Evaluation of Speech Quality, PESQ)[36]、短時客觀可懂度(Short- Term Objective Intelligibility, STOI)[37]和語音信噪比(Signal-to-Noise Ratio, SNR)三個主要的語音質量度量指標來評估從輸入樣本中重建原始音頻的效果:

PESQ: 語音質量感知評價分數是平均干擾d和平均不對稱干擾d的總和, 在0.5～4.5之間, 輸出信號和參照信號的差異性越大值越低。計算公式為:= 4.5 – 0.1d– 0.030 9d。

STOI: 短時客觀可懂度作為含噪語音非線性處理的穩健度量指標, 反映語音降噪后的清晰度, 范圍在0到1之間, 值越大, 可懂度越高。

4.4 實驗結果

4.4.1 SCAT-Wave-U-Net模型的語音增強效果

為了評估SCAT-Wave-U-Net模型的有效性, 與經典濾波方法和包括原始Wave-U-Net模型在內的幾種基于深度學習的語音增強方法進行了比較, 這些方法為: 維納濾波(Wiener Filter)[38]、SEGAN[4]、Wave-U-Net[5]和Attention Wave-U-Net[6]。本文使用與其他方法相同的VCTK數據集, 并引用他們公開的實驗結果, 對比情況見表1。

為了在不同方法之間進行公平比較, 本文使用與其他語音增強算法相同的語音質量度量指標, 這些指標除PESQ外, 還包括與人類聽覺感知相關的評分。CSIG: 關注語音信號失真的平均意見評分(Mean Opinion Score, MOS)預測。CBAK: 背景噪聲侵入性的MOS預測。COVL: 整體處理后的語音質量MOS預測。此外, 還包括分段信噪比(Segment Signal-to-Noise Ratio, SSNR)。從表1中可以看出, 通過在Wave-U-Net模型下采樣層后添加多頭自注意力模塊, 同時在上、下采樣層間引入交叉注意力, 可進一步提高模型的去噪能力。SCAT-Wave-U-Net模型在PESQ、CSIG和COVL三個指標上的結果均高于其他語音增強方法, 指標CBAK上的結果與文獻[6]相同且高于其他三種方法, 在指標SSNR上的結果僅次于文獻[5]和[6]。

表1 不同語音增強方法增強后的語音質量對比

4.4.2 對不同對抗樣本攻擊的防御效果

本文首先在VCTK數據集的干凈語音中添加具有不同信噪比范圍限制的高斯白噪聲, 用來訓練語音增強模型。然后, 利用訓練好的語音增強模型對添加了噪聲的聲紋樣本進行重建。選取時域語音增強方法Wave-U-Net[5]、Attention Wave-U-Net[6]和頻域語音增強方法最小均方誤差(Minimum Mean Square Error, MMSE)[39], 用來與本文提出的SCAT-Wave- U-Net模型在聲紋對抗樣本防御效果上進行對比。同時, 將本文方法防御對抗樣本攻擊的效果與基于樣本變換的基線防御方法進行了對比, 實驗結果見圖5。

從圖5可以看出, 對于i-vector聲紋識別系統, 時域量化方法使面對FGSM和Siren之外的其他攻擊時的識別準確率得到提升, 但對真實樣本的識別準確率卻降低到了35.5%。均值平滑、低通濾波和MP3壓縮雖然能保證對真實樣本的識別準確率在99.5%以上, 但卻不能防御PGD和CW∞對抗樣本攻擊。中值平滑的防御效果比均值平滑稍好, 但真實樣本的識別準確率降低到了88.5%。特征壓縮可以在有效防御FGSM、CW2和FakeBob攻擊的同時, 保證真實樣本的識別準確率在98.5%, 但對PGD、CW∞和Siren攻擊的防御效果不佳。音頻湍流的防御效果相對更均衡, 在顯著提高聲紋識別準確率的同時保證真實樣本的識別準確率在89%。

本文方法在添加噪聲信噪比為10～15 dB時的防御效果優于以上基線防御方法, 對FGSM、PGD和CW∞攻擊的防御效果在添加噪聲信噪比為10～15 dB時達到最佳, 對真實樣本的識別準確率保持在約94%。對于CW2、FakeBob和Siren攻擊, 在添加噪聲信噪比為20～25 dB時, 效果最佳, 對真實樣本的識別準確率依然保持在約98.5%。與其他語音增強方法相比, SCAT-Wave-U-Net模型對不同攻擊的防御也在前述兩個信噪比條件下取得了更好的效果。

對于x-vector聲紋識別系統, 在幾種基于樣本變換的基線防御方法中, 相比在i-vector系統中的表現, 特征壓縮的防御能力顯著降低, 音頻湍流獲得了更好的防御效果, 其他幾種防御方法與在i-vector系統中的表現類似。通過對比不同信噪比條件下的防御效果可以發現: 本文提出的方法在添加噪聲信噪比為10～15 dB時, 對FGSM、PGD、CW2、CW∞和Siren的攻擊都具有比其他基線防御方法更好的效果, 在FakeBob攻擊下的識別準確率僅比音頻湍流防御低1.5%, 同時對真實樣本的識別準確率仍然保持在約98.5%。在防御CW2、FakeBob和Siren 3種對抗攻擊時, 隨著信噪比的增加, 防御的效果也逐漸提升。當信噪比為20～25 dB時, 在這3種攻擊下的聲紋識別準確率分別達到了100%、99.5%和99.5%。

以上實驗結果表明, 本文提出的防御方法具有一定的通用性, 即對不同聲紋識別系統和對抗樣本攻擊方式均有較好的防御效果, 且對正常樣本的識別影響較小。值得一提的是, 即使是使用常見的MMSE方法進行波形重建, 在添加噪聲信噪比為10～15 dB時的絕大多數防御中也獲得了比基線防御方法更好的效果, 從而驗證了“破壞+重建”防御框架的有效性。

圖5 i-vector/x-vector聲紋識別系統的防御效果(噪聲強度Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ分別表示含噪語音樣本中信噪比范圍為0～5 dB、5～10 dB、10～15 dB、15～20 dB、20～25 dB)

Figure 5 Results on defending speaker recognition systems based on i-vector/x-vector (Noise intensities Ⅰ, Ⅱ, Ⅲ, Ⅳ and Ⅴ indicate that the SNR ranges of the speech examples with noises are 0～5 dB, 5～10 dB, 10～15 dB, 15～20 dB and 20～25 dB, respectively)

表2和表3是在兩種聲紋識別系統下, 當添加噪聲信噪比為10～15 dB時以本文方法實施波形重建前后的語音質量, 表格中的數值是所有語音指標值的平均。

表2 i-vector聲紋識別系統實施防御時的語音質量增強效果

表3 x-vector聲紋識別系統實施防御時的語音質量增強效果

從表中可以看出, 在添加噪聲后, 不同對抗樣本在SNR、PESQ和STOI三個指標上的數值相差不大, 這說明此時高斯白噪聲已經淹沒了音頻樣本中的對抗性擾動。經過SCAT-Wave-U-Net模型的波形重建處理后, 語音質量得到了顯著恢復。從實際的聽覺感受來看, 經過重建的語音樣本由于去除了額外的雜音, 相比原始語音更加清晰。

圖6展示了語音樣本在不同階段的語譜圖變化情況?？梢杂^察到: 相比圖6(a)中的原始波形, 由于添加了對抗擾動, 圖6(b)中對抗樣本的語譜圖各語音幀高頻部分具有更高的能量(如紅色橢圓形圈出來的部分所示)。在圖6(c)中, 添加的隨機噪聲淹沒并破壞掉了對抗樣本中的對抗擾動部分。在圖6(d)中, 最后增強重建出來的語音消除了對抗噪聲, 從而使得語譜圖能量分布與原始語音譜更加接近。

圖6 語音樣本在不同防御階段的語譜圖(a)原始語音 (b)對抗樣本 (c)添加噪聲 (d)增強語音

Figure 6 The spectrograms at different stages of defense (a) Original speech (b) Speech with adversarial perturbations (c) Speech with added noises (d) Enhanced speech

4.4.3 不同對抗擾動時長的防御效果分析

通常情況下, 在對抗樣本生成過程中, 對抗擾動是以與原始音頻樣本相同的長度進行構造的。在本文提出的基于噪聲破壞和波形重建的對抗樣本防御方法中, 由于在輸入語音樣本中加入了隨機噪聲, 當對抗擾動的長度小于原始語音的長度時, 在音頻完整時長范圍內添加的隨機噪聲可能會對最終的防御效果帶來負面影響。在這一小節中, 通過實驗驗證不同對抗擾動時長對防御性能的影響。針對前文所述的每一種對抗樣本攻擊方法, 將對抗擾動的時長分別設置為原始語音樣本長度的1/4、1/2和3/4, 并添加在原始語音完整時長范圍內的某一處隨機位置。防御時在樣本中添加的噪聲幅度限制為10～ 15 dB。不同擾動時長下的攻防效果見圖7。

觀察圖7(a)和(b)可以發現, 對抗擾動時長越短, 在相同攻擊設置下的攻擊效果越差, 當對抗擾動的時長與原始語音樣本相同時攻擊效果最佳。同時, 從圖7(c)和(d)中可以觀察到, 在i-vector系統中, 隨著對抗擾動時長增加, 對CW2和FakeBob攻擊的防御效果逐漸提高, 對PGD和CW∞攻擊的防御效果逐漸降低, 對FGSM和Siren攻擊的防御效果變化幅度較小。在x-vector系統中, 隨著對抗擾動時長增加, 對CW2和FakeBob攻擊的防御效果逐漸提高, 對其他幾種攻擊的防御效果變化幅度較小。當在i-vector系統中防御具有原始音頻1/4時長的FGSM和Siren攻擊時, 聲紋識別準確率相比沒有防御時有小幅度的下降。相比在i-vector系統中的結果, 本文方法對x-vector系統的防御效果更好, 由不同對抗擾動時長引起的防御性能變化情況也比i-vector系統更加穩定?？傮w來看, 本文方法在面對具有不同擾動時長的對抗樣本攻擊時同樣具有較穩定的防御效果。

Figure 7 Adversarial perturbations with different durations; (a) and (b) are the attack results on i-vector and x-vector systems, respectively, (c) and (d) are the defense results on i-vector and x-vector systems, respectively

4.4.4 防御方法的實時性分析

語音識別、聲紋識別均對實時性有較高的要求。因此, 在防御對抗樣本攻擊時, 實施防御所付出的時間成本非常重要。實時因子(Real Time Factor, RTF)定義為語音識別系統處理所有音頻的耗時與輸入音頻總時長的比值。本文通過計算聲紋樣本處理過程中的實時因子, 對比實施防御前后的實時因子變化情況, 對本文方法的實時效果進行分析。實驗結果見表4和表5。

防御前后的音頻總時長保持不變, 本文對抗樣本的總時長為1067.67 s。與無防御時的聲紋識別相比, 在實施防御過程中新增了添加噪聲和語音重建的時間成本。在添加噪聲信噪比為10～15 dB條件下, 計算了用本文方法防御每一種攻擊時, 添加噪聲、語音重建和聲紋識別的時間。實施防御前后的實時因子計算公式為:

表5 x-vector聲紋識別系統的實時因子

由于i-vector系統中包含了比較耗時的高斯混合模型, 而x-vector的前饋推理便于顯卡加速處理, 因此x-vector系統聲紋識別的時間少于i-vector。從表4、5中可以看出, 不同對抗攻擊方法之間實時因子值的變化不大。在實施防御后, i-vector和x-vector系統中的實時因子大致分別變為原來的2倍和5倍。實時因子數值小于1, 說明本文提出的防御方法在增加一部分時間成本后仍可以滿足聲紋識別的實時性要求。

5 結束語

針對傳統聲紋對抗樣本防御方法魯棒性差、糾正錯誤輸出的同時影響真實樣本的識別等缺點, 提出了一種基于噪聲破壞和波形重建的聲紋對抗樣本防御方法。通過在對抗樣本中添加噪聲破壞對抗擾動的結構, 使其失去對抗性; 然后利用語音增強模型重建語音波形。提出的SCAT-Wave-U-Net模型通過引入Transformer多頭自注意力和層間交叉注意力機制增強了對含噪聲紋對抗樣本的波形重建能力, 同時相比原始Wave-U-Net模型也提高了在一般環境噪聲條件下的語音增強能力。實驗結果表明, 本文提出的方法在保證對真實聲紋樣本識別準確率影響較小的情況下, 對四種白盒、兩種黑盒對抗樣本攻擊的防御效果優于其他基于樣本變換的防御方法, 同時顯著恢復了輸入語音的音頻質量。進一步地, 在本文的防御方法中, 添加“破壞”噪聲的過程不可微, 很難將這一過程引入自適應攻擊的梯度求解中。因此, 本文提出的方法對于防御自適應攻擊也具有一定優勢。

[1] Szegedy C, Zaremba W, Sutskever I, et al. Intriguing Properties of Neural Networks[J].,, 2014: 1-10.

[2] Das R K, Tian X H, Kinnunen T, et al. The Attacker’s Perspective on Automatic Speaker Verification: An Overview[C]., 2020: 4213-4217.

[3] Hu S S, Shang X C, Qin Z, et al. Adversarial Examples for Automatic Speech Recognition: Attacks and Countermeasures[J]., 2019, 57(10): 120-126.

[4] Pascual S, Bonafonte A, Serrà J. SEGAN: Speech Enhancement Generative Adversarial Network[C]., 2017: 3642-3646.

[5] Macartney C, Weyde T. Improved speech enhancement with the wave-U-Net[EB/OL]. 2018: ArXiv Preprint ArXiv: 1811.11307.

[6] Giri R, Isik U, Krishnaswamy A. Attention Wave-U-Net for Speech Enhancement[C]., 2019: 249-253.

[7] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[C]., 2015: 1-11.

[8] Gong Y, Poellabauer C. Crafting Adversarial Examples for Speech Paralinguistics Applications[EB/OL]. 2017: arXiv: 1711.03280. https://arxiv.org/abs/1711.03280.pdf.

[9] Liu S X, Wu H B, Lee H Y, et al. Adversarial Attacks on Spoofing Countermeasures of Automatic Speaker Verification[C]., 2020: 312-319.

[10] Irfan M M, Ali S, Yaqoob I, et al. Towards Deep Learning: A Review on Adversarial Attacks[C]., 2021: 91-96.

[11] Carlini N, Wagner D. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text[C]., 2018: 1-7.

[12] Chen G K, Chenb S, Fan L L, et al. Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems[C]., 2021: 694-711.

[13] Du T Y, Ji S L, Li J F, et al. SirenAttack: Generating Adversarial Audio for End-to-End Acoustic Systems[C]., 2020: 357-369.

[14] Li X, Li N, Zhong J H, et al. Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification[C]., 2020: 1540-1544.

[15] Jati A, Hsu C C, Pal M, et al. Adversarial Attack and Defense Strategies for Deep Speaker Recognition Systems[J]., 2021, 68: 101199.

[16] Yang Z L, Li B, Chen P Y, et al. Characterizing Audio Adversarial Examples Using Temporal Dependency[EB/OL]. 2018: arXiv: 1809.10875. https://arxiv.org/abs/1809.10875.pdf.

[17] Yuan X J, Chen Y X, Zhao Y, et al. Commandersong: A Systematic Approach for Practical Adversarial Voice Recognition[C]., 2018: 49-64.

[18] Kwon H, Yoon H, Park K W. POSTER: Detecting Audio Adversarial Example through Audio Modification[C]., 2019: 2521-2523.

[19] Hossen I, Hei X L. AaeCAPTCHA: The Design and Implementation of Audio Adversarial CAPTCHA[C]., 2022: 430-447.

[20] Abdullah H, Garcia W, Peeters C, et al. Practical Hidden Voice Attacks Against Speech and Speaker Recognition Systems[C]., 2019: 1-15.

[21] Andronic I, Kürzinger L, Chavez Rosas E R, et al. MP3 Compression to Diminish Adversarial Noise in End-to-End Speech Recognition[C]., 2020: 22-34.

[22] Chen G K, Zhao Z, Song F, et al. SEC4SR: A Security Analysis Platform for Speaker Recognition[EB/OL]. 2021: arXiv: 2109.01766. https://arxiv.org/abs/2109.01766.pdf.

[23] Xu Y, Du J, Dai L R, et al. An Experimental Study on Speech Enhancement Based on Deep Neural Networks[J]., 2014, 21(1): 65-68.

[24] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]., 2015: 234-241.

[25] Stoller D, Ewert S, Dixon S. Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation[EB/OL]. 2018: arXiv: 1806.03185. https://arxiv.org/abs/1806.03185.pdf.

[26] Yang C H, Qi J, Chen P Y, et al. Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement[C].,, 2020: 3107-3111.

[27] Vaswani A, Shazeer N, Parmar N, et al. Attention is all You Need[C]., 2017: 6000-6010.

[28] Zhang Y A, Xu H, Pei C F, et al. Adversarial Example Defense Based on Image Reconstruction[J]., 2021, 7: e811.

[29] Rajaratnam K, Kalita J. Noise Flooding for Detecting Audio Adversarial Examples Against Automatic Speech Recognition[C]., 2019: 197-201.

[30] Ahmed S, Nielsen I E, Tripathi A, et al. Transformers in Time-Series Analysis: A Tutorial[EB/OL]. 2022: arXiv: 2205.01138. https://arxiv.org/abs/2205.01138.pdf.

[31] Subakan C, Ravanelli M, Cornell S, et al. Attention is all You Need in Speech Separation[C].,, 2021: 21-25.

[32] Valentini C. Noisy speech database for training speech enhancement algorithms and TTS models[J]., 2016.

[33] Dehak N, Dehak R, Kenny P, et al. Support Vector Machines Versus Fast Scoring in the Low-Dimensional Total Variability Space for Speaker Verification[C]., 2009: 1559-1562.

[34] Snyder D, Garcia-Romero D, Sell G, et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition[C].,, 2018: 5329-5333.

[35] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]., 2011: 1-4.

[36] Rix A W, Beerends J G, Hollier M P, et al. Perceptual Evaluation of Speech Quality (PESQ)-a New Method for Speech Quality Assessment of Telephone Networks and Codecs[C].,,.(..), 2002: 749-752.

[37] Taal C H, Hendriks R C, Heusdens R, et al. A Short-Time Objective Intelligibility Measure for Time-Frequency Weighted Noisy Speech[C].,, 2010: 4214-4217.

[38] Scalart P, Filho J V. Speech Enhancement Based on a Priori Signal to Noise Estimation[C].,,, 2002: 629-632.

[39] Ephraim Y, Malah D. Speech Enhancement Using a Minimum-Mean Square Error Short-Time Spectral Amplitude Estimator[J].,,, 1984, 32(6): 1109-1121.

Defense of Speaker Recognition Against Adversarial Examples Based on Noise Destruction and Waveform Reconstruction

WEI Chunyu1, SUN Meng1, ZHANG Xiongwei1, ZOU Xia1, YIN Jie2

1College of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210007, China2Jiangsu Police Institute, Nanjing 210031, China

Voice is one of the most import ways of human communications. Besides texts, voice signals also hold the information of the speaker’s identity, race, age, gender, and emotion, where the recognition of speaker identity is also called speaker recognition which is a biometric technique. Given the fact that human voice is easy to be collected and saved, and that the development of deep learning improves the recognition accuracy, speaker recognition has been used in financial APP authentication, smart home, voice assistant and forensics. On the other hand, adversarial attacks against deep learning models have attracted great attention, which could make the models’ predictions incorrect by adding imperceptible perturbations to input signals. Therefore, the emergence of adversarial examples also poses the same serious security threat to deep learning-based speaker recognition. In this paper, a two-stage method with “destructing” and “reconstructing” is proposed to defense against adversarial examples of speaker recognition by overcoming the shortcomings of existing defense methods, such as the inability to remove adversarial perturbations, the negative impacts on the recognition of normal examples, and the poor robustness to different models and attack methods. At the first stage, Gaussian noises with a certain range of SNR amplitudes are added to the input speech signal to destroy the structure of potential adversarial perturbations and to eliminate its adversarial function. At the second stage, the proposed speech enhancement model named SCAT-Wave-U-Net is used to reconstruct the original clean speech. Global multi-head self-attention of Transformer and interlayer cross-attention mechanisms are introduced into the Wave-U-Net structure, which is more useful for defending the speaker adversarial examples. Experimental results show that the effectiveness of the proposed defense method does not depend on the specific speaker recognition system and the adversarial example attack method. By conducting extensive experiments on two state-of-the-art speaker recognition systems, i.e., i-vector and x-vector, the performances of the defense against multiple types of adversarial examples are superior to other defense methods using preprocessing techniques.

speaker recognition; noise destruction; speech enhancement; defense of adversarial examples

TP391.9

10.19363/J.cnki.cn10-1380/tn.2024.01.05

孫蒙, 博士, 副教授, Email: sunmeng@aeu.edu.cn。

本課題得到江蘇省優秀青年基金(No. BK20180080)和國家自然科學基金(No. 62371469, No. 62071484)資助。

2022-05-08;

2022-07-06;

2023-09-27

魏春雨于2016年在海軍航空大學電子對抗指揮與工程專業獲學士學位?，F在陸軍工程大學電子信息專業攻讀碩士學位。研究領域為聲紋識別、語音識別、語音偽裝。Email: weichunyu2020@126.com

孫蒙于2012年在比利時魯汶大學電子系獲博士學位?，F為陸軍工程大學智能信息處理實驗室副教授。研究領域為智能語音處理、機器學習。Email: sunmeng@aeu. edu.cn

張雄偉現為陸軍工程大學智能信息處理實驗室教授。研究領域為語音與圖像處理、智能信息處理。Email: xwzhang9898@ 163.com

鄒霞現為陸軍工程大學智能信息處理實驗室副教授。研究領域為語音信號處理、人工智能和機器學習。Email: zlc1997@ 163.com

印杰現為江蘇警官學院高級工程師。研究領域為機器學習、大數據、網絡安全。Email: yinjie@jspi.cn