?

基于幀結構的語音對抗樣本重點區域擾動分析

2024-03-23 08:04韓松莘郭松輝徐開勇
計算機研究與發展 2024年3期
關鍵詞:樣本空間特征提取擾動

韓松莘 郭松輝 徐開勇 楊 博 于 淼

1 (戰略支援部隊信息工程大學 鄭州 450001)

2 (河南省信息安全重點實驗室(戰略支援部隊信息工程大學) 鄭州 450001)

基于深度學習的自動語音識別(automatic speech recognition, ASR)系統[1]能夠將語音準確翻譯為文本信息,深刻改變了人機交互方式[2].在智能家居或自動駕駛等交互場景中,ASR 系統接收語音并將其解釋為相應的命令,為人們控制智能設備帶來諸多便利.然而,目前主流的ASR 系統已被發現存在潛在的安全隱患[3-4],即攻擊者在語音中添加精心構造的擾動,將其以廣播或播報形式播放[5],能夠使目標設備執行惡意命令[6],嚴重威脅著受害者的隱私安全甚至人身安全.

前人的工作提出了一系列針對深度神經網絡的攻擊方案.這些攻擊以損失[7](loss)或適應度(fitness)函數值[8]為目標進行迭代優化,將生成的特殊擾動添加到原始語音上,改變語音識別模型對語音的轉錄結果,實現對ASR 系統的攻擊.已有研究證明,如果攻擊者能夠完全獲取目標模型的網絡參數(白盒攻擊),則能以接近100% 的攻擊成功率[9]使目標ASR將一段語音轉錄為攻擊者設置的任意文本.當前,在語音識別領域,對于對抗攻擊的研究主要分布在降低擾動感知度[10-12]、實時擾動[13]、通用擾動[14]等方向.現有的語音對抗攻擊通常在整條語音上添加擾動,引入了高頻噪聲,易被人耳察覺.而降低擾動感知度研究的普遍做法是設計優化目標,將對抗擾動集中到人類不易注意到的音頻區域[11,15-16](聽覺掩蔽區域).但是,這樣做一方面會降低對抗樣本的魯棒性,另一方面計算過程依賴輸入語音,不能適用于生成通用對抗擾動.為了解決該問題,Liu 等人[9]將擾動點的數量因素引入到音頻對抗樣本的生成中,限制在部分采樣點上添加擾動,將擾動比例降低至75%,但受限于ASR 模型轉錄的上下文特征,能夠降低的采樣點比例有限,且沒有給出采樣點選取策略.

針對擾動范圍難以進一步降低的問題,本文分析了ASR 網絡模型的特征提取過程[17-18],發現每幀語音中,在不同位置上添加擾動能夠對特征造成不同程度的影響,這些影響能夠通過正向傳播改變神經網絡的決策.通過分析特征提取中對生成對抗樣本的影響因素,可以篩選出對于生成對抗樣本更重要的采樣點[19],從而進一步降低擾動范圍.基于深度學習的語音識別系統通用框架如圖1 所示.預處理模塊對原始語音進行剪切、濾波操作,以消除語音信號的靜默和突兀噪聲部分;特征提取模塊中ASR 系統將語音信號分幀,并以幀為單位提取信號特征,特征類型包含梅爾頻率倒譜系數[20](melscale frequency cepstral coefficients, MFCC)、FBank[21](filter bank)特征和自動提取的高維特征等;神經網絡對這些特征進行分類后,ASR 系統將每幀的分類結果組合解碼,最后輸出語音信號對應的轉錄文本.經典ASR 系統如DeepSpeech[22],Kaldi[23]等提取原始語音的MFCC 特征,Lingvo[24]提取FBank 特征,洪青陽等人[25]總結了上述特征的計算關系.如圖2 所示,本文依據ASR 系統中的計算對圖進行了簡化修改.

圖1 ASR 系統的通用框架Fig.1 General framework for ASR systems

圖2 ASR 系統中一般特征提取流程Fig.2 General feature extraction process in ASR system

上述定義特征的共同點在于對原始語音進行分幀、加窗處理,然后以幀為單位進行離散傅里葉變換(discrete Fourier transform, DFT),以準確提取頻域信息.如圖3 所示,分幀通常采用交疊分段方法,保證相鄰2 幀間相互重疊一部分,使得幀與幀之間能平滑過渡.加窗即每幀乘以一個窗口函數,增加每幀頭尾端的連續性,減少頻譜泄漏.在主流的ASR 系統實現中,多采用漢寧窗.

圖3 分幀與加窗處理示意圖Fig.3 Diagram of framing and windowing

分幀和加窗操作將導致幀內不同區域采樣點對計算離散傅里葉變換的貢獻是不等價的,因此在各點上添加擾動對頻域信息的影響也不均衡.主要體現在:1)在分幀結構的非重疊區間上添加擾動只會直接影響單幀頻域信息,而在重疊區間添加擾動會同時改變包含該重疊區間的相鄰2 幀的頻域信息;2)幀片段和窗口函數相乘將導致同等擾動水平下,在幀內中間區域添加擾動比在頭尾兩端添加擾動對DFT 的影響更大.

當前語音對抗樣本研究中,在反向傳播更新對抗性擾動階段,均在整條語音范圍內添加擾動[4],而沒有考慮到上述特性.為了進一步降低擾動范圍,本文研究的主要問題包含:1)幀內不均衡結構存在于DFT 的計算過程中,直接影響的是神經網絡的輸入,是否能通過神經網絡影響語音識別的轉錄結果;2)要將擾動范圍限制在重點區域的采樣點上,需要分析上述單類影響因素疊加時對語音識別結果的綜合影響,并給出其分布規律.

本文分別對分幀、加窗進行理論分析,提出單因素影響下添加擾動的位置與求解對抗樣本之間的規律.在此基礎上,根據各影響因素在幀內的分布設計了交叉實驗,并提出度量方法和相應的評價指標:將潛在可求解的對抗樣本規模定義為對抗樣本空間,并以白盒攻擊方式攻擊目標模型,基于語音對抗攻擊擾動幅值和求解難度反相關的特性,以條件衰減的方式對對抗性擾動進行迭代和優化,通過統計不同幅度水平下成功攻擊的次數,作為對對抗樣本空間的近似度量.我們在LibriSpeech 數據集[26]上對交叉試驗組進行測試,實驗結果證明了對抗樣本空間隨耦合作用、位置權重、區間長度變化的一般規律,并提出了最重要的擾動范圍分布,約占總采樣點的40%.另外,我們在討論中證明了在不受耦合作用影響時,對抗樣本空間和位置權重正相關.最后,討論了本文提出的方法用于度量對抗樣本空間時的客觀性.

本文的主要貢獻包括3 個方面:

1) 完成了分幀、加窗結構中單個影響因素擾動DFT 特征的理論分析,提出了分幀結構下耦合作用導致對抗樣本空間縮減,加窗結構下對抗樣本空間和位置權重正相關的分布規律.

2) 研究了對序列模型的對抗樣本空間度量,提出了基于擾動水平迭代衰減的對抗樣本空間度量方法和相應的評價指標,以探索復合因素作用下對抗樣本空間隨擾動位置的分布規律.

3) 根據ASR 中的分幀類型,設計了限制擾動范圍的交叉實驗.以降低對抗樣本上的整體噪聲能量為目標,提出了基于幀結構的重點區域擾動范圍.通過在多個模型上進行實驗驗證,證明了幀同步結構的模型中對抗樣本空間主要受耦合作用影響而縮減,為高質量語音對抗樣本的生成提出新的角度.

1 相關工作

根據擾動作用階段,將相關工作分為對定義特征的擾動分析,以及添加擾動對神經網絡的影響分析,并介紹了它們的相關應用.

1.1 定義特征的擾動分析研究

早期,在神經網絡研究和算力水平發展薄弱的階段,主流的語音識別工具采用特征提取和模式識別方法將語音轉錄為文本.該階段對特征擾動分析的研究目的集中在提升識別的準確率和對噪聲的魯棒性.Breithaupt 等人[27]通過對DFT 特征進行擾動分析,發現基于模式識別的ASR 對方差較大的噪聲更敏感,并應用特征平滑來降低該誤差.Ravindran 等人[28]在特征提取前對信號進行低通濾波,減小重疊影響,并在信道中產生更平滑的包絡信號,從而提升了MFCC的噪聲魯棒性.針對分幀、加窗結構,文獻[29]通過將窗口函數導致的加權最優解和迭代求解到的幀內局部最優解相結合,解決助聽器噪聲消除最優解問題.該方案證明了加權重疊相加(weighted overlap-add,WOLA)結構本身不會對語音去噪能力造成嚴重限制,通過在FFT(fast Fourier transform)域應用迭代方案,可以計算出WOLA 權重并據此產生在聲學上無法與干凈語音區分的濾波噪聲.從而,本文將對抗性擾動噪聲集中至權重較高的重點區域也具備一定的可行性,但神經網絡的重點區域權重計算方法與模式識別不同,仍需探討神經網絡模型中輸入重點區域的分布規律.文獻[30] 研究了每個MFCC 特征提取步驟的影響,分析出MFCC 特征向量的輸入信噪比(SNR)與輸出擾動界之間的關系,通過實驗驗證:即使在輸入信號中添加信噪比約等于0 的擾動,其頻譜覆蓋率也能達到98%以上.

1.2 降低對抗樣本感知度研究

隨著對深度學習的進一步研究,基于深度神經網絡的ASR 大幅度提升了識別準確率,但同時引入了新的安全風險.文獻[31]指出深度神經網絡易被添加在原始數據中的微小擾動影響而做出錯誤分類,這種錯誤被攻擊者利用后能夠執行帶有惡意意圖的目標攻擊.在語音識別中,由于對抗攻擊對擾動后每幀的轉錄結果都有一定要求,目前所有針對語音識別的目標攻擊主要基于迭代優化方式進行求解[4,32].而降低擾動感知度的研究主要通過設計優化目標,將對抗擾動集中至人耳不易感知到的頻域內.文獻[11, 16]提出一種優化目標,利用心理聲學掩蔽和頻率掩蔽現象,將對抗性擾動集中至人耳不易注意到的區域,從而降低擾動感知度,但仍在語音數據的全局范圍內添加了噪聲,且增加了迭代所需時間.Eisenhofer 等人[15]反向利用了掩蔽原理,使求解到的對抗樣本極易被人耳感知,從而提升模型對對抗攻擊的魯棒性.

文獻[33]分析了語音特征提取流程中的MFCC計算過程,在MFCC 特征向量中生成對抗性噪聲,并將其注入到語音數據中,具有擾動感知小且生成速度快的優點.Abdullah 等人[34]分析了語音特征提取流程中的DFT 計算過程,通過刪除其中強度低于設定閾值的分量,并利用反變換從剩余的分量中構建一個新的語音,以較小的擾動實現對轉錄結果的修改.文獻[33-34] 的共同點在于擾動感知小且生成速度快,然而,這些方法只能用于無目標攻擊.Liu 等人[9]認為,將擾動集中至某一頻率或某一時間段內會破壞對抗樣本的魯棒性,因此提出了采樣點攻擊,限制只在部分語音采樣點上添加擾動,最高將擾動范圍降低至75%.本文結合對DFT 特征的擾動分析,探索添加對抗擾動的重點區域分布規律,在重點區域上添加擾動,以進一步降低該擾動比例.

2 攻擊模型

本文攻擊方法的目標是探索不同擾動范圍下對抗樣本的潛在求解規模,即對抗樣本空間.最終求解的對抗性擾動幅度越小,對抗樣本的質量越高.但由于優化算法的效率限制,難以求解全局最優解,本文以有限次數迭代中的最優結果進行對抗樣本空間的相對比較.為了減小誤差,我們采用白盒攻擊的方式,在完全訪問目標模型網絡參數的條件下進行對抗樣本生成,更新擾動的示意圖如圖4 所示.

圖4 攻擊模型流程圖Fig.4 Flow diagram of the attack model

針對原始語音“Set alarm”,要添加對抗性擾動使目標模型將其識別為“Open the door”.在正向傳播階段,攻擊者首先向目標模型查詢原始語音到目標轉錄的梯度[35],這個過程需要訪問模型的網絡參數和loss值[36]來計算loss減小的梯度信息.在反向傳播階段,攻擊者利用梯度信息更新對抗性擾動,并將部分對抗性擾動添加到原始語音上,添加擾動的范圍選擇見實驗設計部分.該方法從梯度信息到對抗性擾動的計算規則較簡單,且不考慮到LSTM 網絡中每幀添加擾動后模型決策結果logits的改變對后續幀的影響,難以經過單次迭代實現目標攻擊,所以我們設置短步、多次迭代的策略進行對抗樣本求解.

3 單影響因素擾動分析

為了充分利用語音的短時平穩特性,語音信號的特征提取方法中普遍包含由分幀、加窗和離散傅里葉變換組成的短時分析技術.分幀結構中存在的幀間層疊,加窗結構中所乘窗口函數的曲線隨位置變化,使得同一段擾動添加在幀內不同位置時,能在不同程度上影響該幀的短時分析結果,從而導致神經網絡對該幀及相鄰幀的識別結果發生變化.為了界定出對于求解對抗樣本最重要的擾動區域,本文首先對特征提取流程進行擾動分析.

3.1 幀重疊分析

事實上,ASR 中的分幀方式可以被分為2 類,我們分別稱為Ⅰ類分幀和Ⅱ類分幀,它們的主要區別在于重疊區間的分布不同.其中,Ⅰ類分幀方式存在非重疊區間,相鄰幀間的相關性較小,減少了后續特征提取與神經網絡分類的計算量.為了描述方便,以幀移為單位,根據重疊程度的不同,本文將整條語音分為甲、乙2 類擾動區間.如圖5 所示,Ⅰ類分幀方式中幀重疊比例μ <0.5,幀移較長,存在部分區間乙,其中的采樣點只被用來計算單幀的DFT 特征.在原始語音上添加擾動時,如果擾動范圍屬于區間乙,則該擾動直接影響區間所屬幀的DFT 特征;而擾動范圍屬于重疊區間甲時,會同時影響相鄰2 幀的DFT特征.

圖5 Ⅰ類分幀的區間種類Fig.5 Interval categories of class- Ⅰ framing

這種相鄰幀之間共用部分數據的情形屬于外部耦合,本文將在重疊范圍上添加擾動同時影響多幀DFT 特征的現象稱作耦合作用.并有理由相信,發生在輸入空間的影響能夠通過神經網絡,對求解對抗樣本造成影響.分析如下:生成對抗樣本即求解讓神經網絡做出目標誤分類的理想最小擾動,我們以C()表示神經網絡分類器, σ表示激活函數,w,b分別表示神經網絡的權重和偏置,在分析過程中忽略序列模型神經網絡logits中前一幀決策結果對后一幀的影響.以相鄰2 幀上對抗樣本的求解為例,si代表第i幀的原始語音信號, δi為添加在第i幀的局部擾動,ti表示神經網絡對第i幀識別結果的目標分類.在乙區間上添加擾動,即求解

不考慮序列模型的幀間影響,式(1)可理解為分別求解2 個分類任務中的對抗樣本,其解空間互不影響.而在相鄰2 幀的重疊區間甲上添加擾動,即求解式(2):

擾動 δi需滿足使相鄰2 幀同時實現目標攻擊,即求解當前區間上使各自幀實現目標攻擊對抗性擾動的交集,從而導致解空間的縮減.Ⅱ類分幀方式中的所有區間都是重疊區間,但重疊程度有所差異.我們同樣以幀移為單位,按重疊程度將其分為甲、乙區間.如圖6 所示,Ⅱ類分幀中重疊比例μ >0.5且幀移較小,可以跟蹤語音信號的連續性,并且不會遺漏幀邊緣處的突然變化.

圖6 Ⅱ類分幀的區間種類Fig.6 Interval categories of class- Ⅱ framing

由于所有的重疊區間都是幀移的一部分,以幀移為單位劃分擾動區間可以不考慮重疊關系,并擴展至整個語音序列.在以上2 類分幀方式中,以幀移為單位的區間劃分總結如表1 所示.

Table 1 Practical Interval Categories and Characteristics Summary表1 實際區間類型及特點總結

在重疊區間上擾動,首先對相鄰幀的DFT 特征產生直接影響,然后經神經網絡的前向傳播改變模型決策.后續實驗將會證明,特征提取結構對神經網絡的輸入產生的影響能夠作用于對抗樣本空間.

3.2 位置權重分析

在本節分析中,我們定義符號上標表示特征類型,下標表示區間范圍.語音信號被讀取到數字空間后以離散數值形式存儲,定義原始語音信號為s(n),擾動信號為δ(n),n為采樣點序號, 則對抗樣本

在特征提取過程中,預加重操作能夠在一定程度上彌補高頻部分的損耗,提升模型識別準確率,因而其在音頻特征提取中被廣泛應用,在時域上對抗樣本的預加重為

其中濾波器系數 α是一個常數,且0.9 <α <1.隨后,對抗樣本被分幀、加窗.為了區分重疊部分和非重疊部分,本文定義符號為:幀移N;重疊比例 μ;單幀長度N+μN;第i幀信號.第i幀信號由幀移和重疊(overlap)兩部分拼接而成.加窗即每幀信號乘以窗口函數,第i幀的漢寧窗特征為

這里的窗口函數

其中,a為固定常數.

計算對抗樣本的第i幀特征時,通過DFT 計算頻率分量:

根據DFT 的線性性質Xi(k)=,在對抗樣本優化過程中,s(n)保持恒定,δ(n)根據梯度信息迭代優化.因此,Xi(k)主要受的影響而發生變化:

圖7 單幀中權重隨位置的變化趨勢Fig.7 Variation trend of weight with position in single frame

由上述分析可知,耦合作用和窗口權重對同一采樣點的影響作用是相反的,它們直接影響DFT 特征計算,并擴展至MFCC 或FBank 等定義特征,這些定義特征作為神經網絡的輸入特征被進行分類.在特征提取算法和參數固定后,語音序列中每個采樣點對語音特征的貢獻將由其位置決定,語音識別系統從中提取主要信息,但對于更精細的對抗性擾動來說,對由位置差異導致的變化更加敏感,根據噪聲與定義特征的對應關系,我們劃分出重點區域的可能分布.又因為語音識別神經網絡具有非線性及維度高的特點[32],從輸入特征到分類結果的對應關系無法被解析,本文通過實驗確定上述因素對求解對抗樣本的綜合影響.

4 擾動區域評價方法設計

4.1 擾動范圍設計

目標ASR 模型的網絡參數是通過對規模數據執行標準的特征提取流程后,對這些特征訓練得到的,在求解對抗樣本時,網絡參數不再發生變化.攻擊過程中,只有保持和目標ASR 相同的特征提取方法和參數,才能保證所求解對抗樣本的有效性.該條件限制了本文在實驗設計方面的靈活性,不能通過定制特征提取過程中的參數[37]來正向驗證擾動效果,而只能通過劃分不同位置的區間,根據每類位置上對抗樣本的潛在求解空間的大小來驗證擾動重點區域的分布.因此,本文設置每步迭代的DFT 特征計算過程和ASR 模型中保持一致,通過調整擾動范圍來探索影響因素的重要性.在這種情況下,3 類影響對抗樣本空間大小的因素為:

1)耦合作用.在重疊區間上添加擾動,縮小了對抗樣本求解空間.

2) 位置權重差異.在權重較大的區間上添加擾動對DFT 特征具有更大的能動性,使神經網絡的輸入有更大的可選擇空間.

3) 區間長度差異.當重疊比例 μ偏離0.5 時,甲、乙2 類區間的長度不相等,在較長的擾動區間上生成對抗樣本,對抗樣本空間更大.

為了驗證上述3 種影響因素對對抗樣本空間的影響,本文通過控制變量分別在2 類分幀方式上對擾動范圍限制設計了定性分析實驗,擾動范圍如圖8 所示.

圖8 對2 類分幀區間的擾動范圍設計Fig.8 Perturbation range design for two frame intervals

以幀移為基本單位,我們設計了影響因素差異最大的擾動區域.其中,A~D為Ⅰ類分幀下的擾動范圍,A,B分別代表僅在每個幀移的乙、甲區間內添加擾動;C,D分別為組合權重和長度差異的對照試驗.E~G為Ⅱ類分幀下的擾動范圍,E,F長度相等,由于單幀內存在多個幀移單位,且甲、乙區間交替重復出現,我們忽略E,F區間的權重大小差異,它們的主要差異在于受耦合作用影響的程度,為了進一步降低耦合作用的影響,我們設計了G組區域限制實驗,如圖9 所示.

圖9 通過減少擾動區域對重疊區間解耦合Fig.9 Decoupling overlapping intervals by reducing the disturbance area

通過將擾動范圍限制在跨幀移周期上,在單個甲、乙區間上交替添加擾動,由于圖9 中虛線部分所示的位置權重差異,當擾動位于某幀的后半部分時,對該幀的影響幾乎可以忽略不計,因此每處擾動可被視為只對單幀產生影響,耦合作用比僅在乙區間上添加更低.但負面影響是每幀中包含的擾動區域降低為1,擾動區間長度等效縮短.

這些擾動范圍以幀移為單位重復,擴展至整個音頻,在對抗樣本求解過程中,只在圖中擾動波形部分更新擾動,其余區域擾動大小固定置0,表2 對比了各類擾動范圍上的影響因素分布.

Table 2 Experiment Design of Perturbation Range Constraints表2 擾動范圍限制實驗設計

4.2 擾動生成

為了充分探索不同擾動區域上蘊含的潛在對抗樣本空間大小,本文在白盒攻擊場景下求解對抗樣本.為了模擬每條原始語音生成對抗樣本的平均能力,我們為每條語音隨機選取轉錄目標進行攻擊.針對ASR 的目標攻擊要使得所有幀的分類結果解碼后滿足目標語句,需要多次迭代計算梯度,每次迭代時通過梯度下降和反向傳播算法更新對抗性擾動.傳統攻擊中,梯度下降的優化目標[38]通常設置為

其中?model()是目標ASR 模型的損失函數,?metric()度量并限制對抗樣本和原始語音之間的差異.目前語音對抗樣本領域對?metric()計算方法進行了各種探索:Carlini 等人[7]采用失真分貝dBx(δ)來描述 δ的擾動水平,并將其添加到損失函數中作為優化目標,以降低對抗性擾動 δ引起的失真;Liu 等人[9]分別計算了基于全變分降噪(total variation denoising,TVD)正則化等3 種擾動度量方法,并比較其對信噪比、dBx(δ)和攻擊成功率等指標的影響.這些正則化項均在成功執行攻擊之外引入了額外的優化目標,以降低擾動大小,而本文的主要研究目標在于探索具有天然優勢的擾動范圍,以此為基礎減少擾動點的個數.這種情況下設置額外優化目標進行求解,將不能客觀反映出限制擾動范圍對對抗樣本空間的影響.

為了探索耦合作用、權重因子對對抗樣本空間的疊加影響,本文不設置?metric(),如式(9)所示,優化目標僅設置為當前語音到目標語句的損失值:

其中?(·)為目標模型采用的損失函數,即?model() ;βkδn即第n次迭代的對抗性擾動,由根據梯度更新的擾動δn和衰減系數 βk構成,常數 β滿足β ∈(0,1),k即當前已成功攻擊的次數; δ的更新規則為

滿足δ0=0 且δn∈[-M,M].ε表示由攻擊者指定的超參數,攻擊者依據 ε調整從梯度中計算的擾動大小,從而改變對抗樣本解的搜索效率.給定原始語音x、目標語句t和最大迭代次數iter,在限制范圍上添加對抗性擾動可分為3 個步驟:

1) 在每步迭代中,首先根據當前樣本到目標t的梯度確定樣本更新的方向,然后以合適的步長 ε更新樣本,更新時擾動大小需滿足δn∈[-M,M].

2) 每次更新樣本后即向目標模型查詢,檢查是否完成攻擊,若ASR 將當前樣本轉錄為目標語句,則以 β倍率對當前擾動βk-1δn進行衰減;若沒有完成攻擊,則繼續在當前擾動水平上進行迭代優化.

3) 如果發生衰減,衰減后的樣本βkδn通常失去目標攻擊能力,樣本將在更低的擾動水平上繼續進行迭代優化,擾動大小滿足βkδn∈[-βkM,βkM],以搜索更小的對抗性擾動.

4.3 對抗樣本空間度量

一條對抗樣本在某些采樣點上隨機多次 +1 或 -1,仍能夠對目標模型造成目標攻擊,但神經網絡輸出層logits幾乎沒有變化.因此對抗樣本空間可被視為由很多高維子空間組成,擾動差異較小且具有相近logits分布的對抗樣本視為位于同一子空間.我們用對抗樣本空間大小來描述一條語音在一個具體模型上的潛在可求解對抗樣本的質量,對抗樣本空間越大,對抗性擾動的幅值越小, 可求解的對抗樣本質量越好.不同的原始語音和目標轉錄設置之間的對抗樣本空間不具有可比性,同一組源語音和轉錄目標設置下,不同擾動區間上的對抗樣本空間才能進行比較.

在目標模型和網絡參數已知的條件下,一條語音到目標語句對抗樣本解的空間是固定的.而限制擾動范圍會導致某些從原始語音到對抗樣本的路徑不可達,我們用對抗樣本空間的縮減來描述這一現象.同時,由于對抗樣本空間是不可測量的,我們用有限次迭代下的成功攻擊次數k來描述對抗樣本空間的大小,根據不同區間上求解對抗樣本的k值比較耦合作用、位置權重和區間長度對對抗樣本空間的綜合影響.

在對抗樣本求解過程中,本文攻擊方案主要解決在求得對抗樣本后存在局部最優解的問題.在當前擾動水平上求得對抗樣本后,如果不衰減繼續執行迭代,loss值仍可以被進一步降低,經過一定次數的迭代后,求解算法將會在局部最優解[39]附近震蕩,但此時的迭代對于度量對抗樣本空間是沒有意義的,只探索了某子空間中的附近區域.

所提出的衰減系數 βk的主要作用包含:1)降低擾動大??;2)跳出當前局部最優解繼續進行優化.在我們的方案中,每次執行衰減,logits輸出都發生了較大改變,意味著其在對抗樣本空間也發生了較大程度的轉移,因此可以用衰減次數k度量對抗樣本空間.優化算法示意圖如圖10 所示.

圖10 通過擾動衰減探索對抗樣本空間Fig.10 Exploring adversarial example space through perturbation decay

每步迭代添加的擾動都會使loss減小,實現目標攻擊時的loss并不一定是局部最小值.每次實現目標攻擊后,本文優化算法不繼續降低loss值,而是執行擾動衰減,以降低擾動水平并跳出當前局部最優解范圍.

5 實驗設置

5.1 數據集和目標模型

為了探究在固定迭代次數下在語音上限制不同范圍對生成對抗樣本的影響,針對2 類分幀方式,本文選取了4 種語音識別模型中的6 個模型作為目標模型:DeepSpeech v0.9.3,DeepSpeech v0.4.1,DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer,Whisper 進行交叉驗證,它們的信息介紹如表3 所示.

Table 3 Target Model Configuration Information表3 目標模型配置信息

1) DeepSpeech.是由百度公司在2014 年發布的端到端語音識別模型,各個版本之間網絡結構無變化,新版本比舊版本采用了更多訓練數據,特征提取方式也存在部分差異.其中v0.1.1 屬于Ⅱ類分幀方式,幀長為400,幀移為160;v0.4.1 和v0.9.3 屬于Ⅰ類分幀方式,幀長為512,幀移為320.

2) Lingvo.是由谷歌公司在2019 年開源的語言相關任務序列模型.Lingvo 模型采用了金字塔式特征提取,同一幀的特征比DeepSpeech 分布在更多的原始語音區間內.提取語音的Mel 譜圖特征,幀長為400,幀移為160.

3) SpeechBrain-Transducer.是由Mila 研究所等在2020 年主導的開源一體化語音工具包.我們選取了其中的Transducer 網絡作為目標模型.其預訓練模型提取語音的FBank 特征,幀長400,幀移160.

4) Whisper.是由OpenAI 公司在2022 年發布的通用語音識別模型,采用自注意力機制的MLP(multilayer perceptron)作為Transformer 的編解碼器,提取語音的FBank 特征,幀長400,幀移160.

其中2 類分幀方式的對比驗證了本文分析規律的普遍性;DeepSpeech v0.9.3 和v0.4.1 對比,驗證能夠兼容窗口函數中不同的權重分布;DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer,Whisper 對比驗證能夠兼容多種特征提取方法.對抗攻擊不涉及模型的訓練過程,本文針對訓練完成的ASR 模型生成對抗樣本.

我們使用LibriSpeech 數據集進行規模測試.LibriSpeech 數據集來源于LibriVox 項目,由采樣率為16 kHz 的英語音頻數據組成,發音較清晰,不會因為數據質量問題影響實驗結果.為了探索對抗樣本空間的分布差異,所求解對抗樣本應有一定難度,過短的原始語音和目標語句設置會導致對抗樣本的求解簡單,甚至在黑盒攻擊條件下也能成功,因此本文過于在test-clean 分支上隨機選取600 條平均時長為5 s 的原始語音組成數據集進行實驗,其中300 條作為原始語音,另外300 條的轉錄作為目標語句.

5.2 攻擊參數

隨著攻擊成功次數的增大,擾動幅度呈指數級減小,本文采用Adam 優化器來適應擾動幅度的改變.學習率設置為100,初始擾動幅值閾值M設置為2000,衰減系數 β設置為0.8.

迭代次數iter即停止優化的條件,一步迭代包含完整的梯度下降和反向傳播流程.通過在不限制擾動范圍的條件下生成對抗樣本進行實驗測試,本文攻擊方法能夠使99%以上的語音在500 步之內完成對抗樣本的優化.限制擾動范圍會增大對抗樣本的求解難度,但大部分樣本仍在500 步之內找到局部最優解,為了統一條件,本文設置除Whisper 之外的其他模型上迭代次數iter=500,Whisper 模型上迭代次數iter=2000.

5.3 評價指標

1) 成功攻擊次數k.k值能夠反映所求解對抗性擾動的幅值大小,第k次攻擊成功后,對抗性擾動的值域為[-0.8k×2 000,0.8k×2 000],k值越大,最終求解對抗性擾動越小.同時k值每次增長所需的迭代次數也能反映出對抗樣本的求解難度:k+1所需要的迭代次數越多,當前擾動水平下對抗樣本的求解難度越大.

2)功率信噪比(SNR).k值反映了對抗性擾動幅值的極值水平.語音信號作為1 維序列數據,其整體擾動水平應在全序列上計算.求解難度增大意味著最后求解出的全局擾動水平較高,本文采用功率信噪比來量化評價擾動水平,計算方法如式(11)所示,功率信噪比越小,意味著噪聲能量相對越大,

3)攻擊成功率(SR).如果1 條語音在500 次迭代內沒有求解出符合條件的對抗樣本,則認為攻擊失敗.本文采用在300 條語音上測試的整體攻擊成功率來檢驗限制擾動范圍對攻擊可用性的影響.

4)對抗樣本空間.在數據集實驗層面,如果k值平均值顯著降低,則意味著該擾動范圍縮減了對抗樣本空間.

5)對抗樣本的求解難度.隨著k值增大,攻擊方法將限制在更小的擾動幅值內求解對抗樣本,為了比較限制不同范圍對求解難度的影響,本文采用k值增加所需的迭代次數來反映求解難度.在擾動區間固定的條件下,2 次成功攻擊之間所需的迭代次數越多,意味著對抗樣本求解難度越大.

5.4 實驗驗證

在已完成訓練的6 個模型上,我們以固定排列的原始語音和目標句子進行對抗樣本生成實驗.統計300 條語音在500 次迭代下的平均成功攻擊次數(k值)與不限制擾動范圍下的平均k值.統計信息如表4 和表5 所示,同一模型的不同實驗間(橫向比較)唯一變量是擾動范圍.

Table 4 Perturbation Range Constraints Experiments of Class-I Framing表4 Ⅰ類分幀中限制擾動區間實驗

Table 5 Perturbation Range Constraints Experiments of Class- Ⅱ Framing表5 Ⅱ類分幀中限制擾動區間實驗

在包含非重疊區間的Ⅰ類分幀方式中, Deep-Speech v0.9.3 和v0.4.1 這2 組實驗數據表現出相同規律:區間A和區間B相比,A中擾動范圍的長度和位置權重影響因素均比B差,只有耦合作用影響因素優于B,但仍取得了較大的k值,這說明在非耦合區間上求解對抗樣本,其對抗樣本空間更大.同時,區間A對抗樣本的信噪比也顯著優于區間B,在更小的擾動范圍上獲得了更小的噪聲能量.

在區間C上添加擾動,取得了4 個區間中最佳的評價結果.區間C包含的重疊部分同樣包含在區間B中,其擾動比例也與區間B相同.但是,攻擊效果顯著優于區間B,驗證了在幀內各區間上生成對抗樣本時,對抗樣本解的空間分布是非均衡的.其次,區間C包含完整的區間A和部分重疊幀,可被近似視為不受耦合作用影響.在擾動區間長度增大且權重小幅度提升的條件下,區間C上的擾動幅值減小,功率信噪比小幅度提升.

區間B包含區間D和部分重疊幀.在均受耦合作用影響的條件下,區間D中擾動范圍的長度和位置權重影響因素均比B差,所求解對抗樣本的擾動幅值大幅度增大,功率信噪比大幅度降低.

因此,根據Ⅰ類分幀方式的4 組實驗和不限制擾動范圍的對照試驗結果,我們總結規律有4 點:

1) 不限制擾動范圍的對抗樣本空間最大;

2) 對抗樣本空間縮減主要由耦合作用導致;

3) 擾動范圍由非重疊區間擴展加入部分重疊區間時,對抗樣本空間增大,功率信噪比小幅度提升;

4) 擾動范圍由重疊區間進行截斷時,對抗樣本空間大幅度縮減,求解到的對抗樣本功率信噪比大幅度縮減.

我們在所有區間都屬于重疊幀的Ⅱ類分幀方式上驗證上述規律,擾動范圍限制試驗結果如表5 所示.

在所有區間都屬于重疊幀的Ⅱ類分幀方式中,DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer 的表現相同,當把擾動范圍完全限制在強重疊區間或重疊區間上時,對抗樣本求解空間均大幅度縮減,且強重疊區間E上的對抗樣本空間比弱重疊區間F更??;而在通過減少擾動區域對重疊區間解耦合的G區間上,以更小的位置權重和更小的擾動范圍反而取得了更大的k值,在3 組限制范圍實驗中實驗效果最佳.結合圖9 分析,增大擾動區間的間隔后,重疊部分更容易分布在權重較低的位置,每區間添加的擾動可被近似視為對單幀起作用,其評價指標結果也類似于Ⅰ類分幀方式中在區間A上添加擾動.

但Whisper 表現出不同的規律:強重疊區間上的對抗樣本空間大小和弱重疊區間上的幾乎相等;G區間的主動解耦合操作減小了整體的可擾動范圍,縮減了對抗樣本空間,起到了和其余3 個模型完全相反的作用.由于幀長和幀移參數決定了語音幀內的采樣點貢獻的不均衡分布,相同的幀長和幀移意味著同等幅度的擾動對DFT 特征有相同的控制能力,已知由DFT 特征計算的MFCC、Mel 頻率譜、FBank特征表現出相同的規律,且Whisper 采用的Log-Mel特征由在Mel 頻率譜的基礎上取對數得到,因此我們更傾向于認為這種規律差異是由于模型結構造成的,可能的原因為:DeepSpeech 是CTC 結構的模型,Lingvo 和SpeechBrain 是Transducer 結構的模型,它們都是逐幀解碼的模型結構,語音結束則解碼過程結束;而Whisper 是一種基于seq2seq 結構的模型,特點是逐詞解碼,直到解碼出<EOS>標記,解碼過程結束.在多次解碼的過程中,幀與幀之間的位置劃分發生相對變化,會導致強重疊與弱重疊結構的相互轉化,從而對抗樣本空間只由擾動區間長度決定,且和區間長度正相關.

本文只從輸入特征的擾動能力差異分析了對抗樣本空間受影響的規律,把模型對特征的處理作為黑盒,不考慮模型處理機制對對抗樣本空間的影響,因此我們暫時把本文規律的適用范圍限制在CTC及Transducer 結構的模型上.

總的來說,重疊程度較弱的區間上更容易求解對抗樣本,而為了利用該結論限制目標攻擊的擾動范圍,要付出的代價有所差異:如果特征提取過程中天然存在非重疊區間,直接將擾動范圍限制在重疊區間上,即可有效降低擾動范圍;如果特征提取流程中不存在非重疊區間,若限制擾動范圍到弱重疊區間不能有效降低,則以增大擾動區間間隔的方式對擾動區間解耦合;若需進一步提升語音質量,從擾動范圍的左側(權重更大的地方)進行擴充能夠取得更好的擾動效果.

上述實驗結果展示了限制擾動范圍對對抗樣本求解結果的影響,是一種靜態結果,代表了對抗樣本空間的縮減程度.為了理解對抗樣本的求解難度隨擾動范圍的變化,我們繪制了本節實驗中不同區間的平均k值隨迭代次數的增長趨勢,如圖11 所示,該圖中所示k值為每個模型上300 條對抗樣本的求解過程的平均值.

圖11 語音識別模型中的平均k 值變化Fig.11 Variation of the average k values in ASR

在所有模型上,未限制擾動范圍的k值變化最快,對抗樣本求解過程最活躍,每次縮減后,僅需較少次迭代,即可求得更小擾動的對抗樣本解.除Whisper模型外,所有子圖中耦合作用更弱的區間的平均k值均處于較高的水平,持續大于等于比自己擾動范圍更大的限制區間.不同區間的求解規律和對抗樣本的空間縮減特性一致:在限制擾動區間增大了對抗樣本求解難度的條件下,非重疊幀上的擾動范圍越多,可擾動區間越大,越容易求解對抗樣本.

6 討 論

6.1 無耦合作用下區間權重及長度的影響

本文對ASR 的數據預處理過程進行分析,根據擾動作用隨幀內權重和復用程度隨采樣點位置的變化,提出了3 種對抗樣本空間的影響因素,并對其影響大小進行了實驗分析.但考慮到神經網絡具有非線性特點,位置權重和區間長度優勢對對抗樣本空間的影響不能確定.針對該問題,本節屏蔽耦合作用的影響,以攻擊單字符為目標進行對抗樣本生成實驗.

當以一句話中的單個字符為目標進行攻擊時,如使目標模型將原始語音“I think so”轉錄為“I thank so”,如果對抗樣本空間較大,在單幀(轉錄結果為“i”的對應幀)上添加擾動就能使ASR 的識別結果發生改變.但當對抗樣本空間較小時,需要在左右相鄰幀(“i”的鄰近幀,可能為“h-i--”等,其中“-”表示空白偽字符)上添加擾動,才能將該幀的轉錄結果誤導為目標字符.這種情況下,所有擾動的優化目標只有1 個,而非5.4 節實驗中每幀都有對應的優化目標,因此不存在耦合作用.

在實際實驗中,我們發現將一個字符的轉錄結果指定為不存在的單詞時(如“think”攻擊為“thgnk”)難以攻擊成功,這是由于訓練集中沒有該單詞,模型網絡參數中也沒有對應的模式.對抗樣本研究中,添加的擾動只能使模型將數據判斷為錯誤的已有類別,而不能新增類別.因此,本文隨機選取了10 條語音,只改變其中的1 個字符進行目標攻擊,測量無耦合作用條件下區間A和區間B的對抗樣本空間大小,來比較權重和長度優勢對對抗樣本空間的影響.我們仍采用5.4 節攻擊方式和評價指標k進行測量.其中原始語音及其目標設置如表6 所示.

Table 6 Original Speech and Attack Target Setting for Single Frame Attack表6 針對單幀攻擊的原始語音及攻擊目標設置

如4.3 節所述,對抗樣本空間和神經網絡參數、當前語音、目標字符有關,我們首先在攻擊目標的第t幀上選取擾動范圍,如果沒有攻擊成功,向左右擴展1 幀再次嘗試攻擊,重復這個流程,直到攻擊成功,實驗結果如表7 所示,kA,kB分別表示在區域A,B上添加擾動時的k值.

Table 7 Experimental Results of Single Frame Attack表7 單幀攻擊實驗結果

在重疊區間B上添加擾動時,對抗樣本求解結果普遍優于區間A,表明在不受耦合作用影響時,具有權重和長度優勢的區間上具有更大的對抗樣本空間.這些優勢發生在對輸入數據的預處理階段,經過特征提取和神經網絡的分類,仍能作用于對抗樣本空間.

6.2 度量方法客觀性討論

本文所提出攻擊方法的特點在于設置階段性的優化目標.隨著成功攻擊次數的增大,求解到的對抗樣本擾動減小,即能夠以更精細的擾動實現攻擊.因此攻擊成功次數可以作為衡量對抗樣本空間大小的指標.攻擊方法包含梯度下降和反向傳播2 個階段,在梯度下降過程中,目標函數關于參數的梯度是在完整語音上進行計算的,而在反向轉播更新對抗性擾動時,擾動范圍的限制使得只有部分梯度信息被用來更新擾動,選用帶有動量的優化算法更有利于實現優化目標.

5.4 節實驗中采用Adam 優化器,每次迭代的優化方向和步長由原始語音、攻擊目標、歷史擾動決定,當陷入局部最優解時,無法求解到更小的對抗性擾動,可能存在探索對抗樣本空間不充分的問題.PGD 攻擊[40]采用隨機重啟策略解決這一問題,本文借鑒該方案,在攻擊過程中每迭代固定間隔次數,即在對抗性擾動上添加隨機噪聲,以微調優化方向,從而增加跳出局部最優解的機會以繼續進行優化.本節在DeepSpeech v0.4.1 模型上進行噪聲擾動實驗,在迭代過程中,每隔10 次迭代添加1 次噪聲,該噪聲采樣數和原始語音保持一致,每個采樣點噪聲服從N(0,9)正態分布,其余設置和5.4 節保持一致.表8 測試了A,B,C,D這4 個區域在添加隨機噪聲擾動的條件下的對抗樣本空間大小.

Table 8 Experimental Results of Noise Attack表8 噪聲攻擊實驗結果

添加噪聲的擾動實驗與無噪聲擾動實驗表現出相同的規律,即不限制擾動范圍時對抗樣本空間最大,其次是非耦合幀占主體的區間C和區間A.另外,與表4 相比,表8 中各區間的SNR值和k值沒有增大.我們對比分析了原始實驗和噪聲實驗中的個體差異,發現確實存在部分語音和目標轉錄在添加隨機噪聲后能夠求解出更小擾動的對抗樣本,但是,還有一部分樣本數據添加隨機噪聲后k值減小,即比無噪聲更早地陷入了局部最優解.因此,在數據集規模上,添加隨機噪聲不能更客觀地探索對抗樣本空間,我們不建議在探索對抗樣本空間時添加隨機擾動.

6.3 應 用

除在度量對抗樣本空間大小時訪問了模型梯度外,本文在更嚴格的條件下設置了攻擊目標和條件,以探索對抗樣本重點區域的真實分布.所設計的擾動范圍限制實驗以幀為單位在整條語音的部分區間上添加擾動.根據實驗過程中的人耳監聽,對于某些天然難求解對抗樣本的原始語音,在限制擾動范圍后k值更小,所求解出的對抗性擾動的幅值也普遍較大,均勻分布在整條語音上時將產生啁啾噪聲(Chirp),不能完全用于實際對抗攻擊.同時,我們也在采用基于心理聲學掩蔽[12,16]的對抗樣本生成方法上進行了測試,以這些語音為原始語音生成的目標攻擊對抗樣本能感覺到底噪的存在.Vadillo 等人[12]也認為語音對抗樣本研究中的評價指標只是定量描述了添加的擾動量,不能客觀反映出對人耳的影響,考慮將底噪轉化為噪點[41]是降低擾動感知度研究中更具潛力的研究方向.

本文所證明的對抗樣本重點區域分布規律,為語音對抗攻擊和防御提供了新的思路:對于攻擊方,如果要執行特定短語的目標攻擊,以弱重疊區間或向左側擴展的擾動范圍能最大程度保持信噪比,進一步探索出序列模型中幀與幀識別結果相互影響的規律并予以規避后,有希望實現針對語音識別的最小范圍攻擊甚至每幀單采樣點擾動攻擊;如果要執行擾亂原始語音識別結果的無目標攻擊,則特征耦合作用與模型識別結果的幀間相互影響則轉變為優勢,將擾動添加在重疊區域上即可實現高信噪比的無目標攻擊.對于防御方,利用對抗樣本比正常語音魯棒性差的特點,在重疊區間上添加隨機干擾噪聲,能夠破壞對抗樣本而盡可能降低對正常業務的影響.

對于希望在語音中添加對抗性擾動以保護日常對話隱私免受廣告服務商竊取的防御者[42]來說,針對離線語音文件防識別的應用需求,普遍做法是在文件傳輸至互聯網前添加通用擾動[43],由于通用擾動的生成不依賴于具體的語音文件,采用心理聲學降低擾動感知度的方法將不再適用,本文方法同樣不依賴具體的語音文件,能更好地和通用擾動結合,降低擾動感知度;針對實時添加擾動干擾任意語音識別結果的應用需求[33],也可以結合本文規律在重疊區間上添加噪聲.

7 總 結

本文從幀的結構對求解對抗樣本的影響展開分析,證明了在不考慮模型對特征處理機制差異的條件下,分幀過程中存在的耦合作用是對抗樣本空間縮減的主要原因,并給出了在限制擾動范圍時最應該保留的擾動區間.在研究過程中,本文采用交叉試驗方法,將復合因素疊加分析問題轉變為對抗樣本空間求解問題,并設計了針對序列到序列模型的對抗樣本空間度量方法和評價指標,解決了固定結構的耦合作用、位置權重、區間長度影響難以在同一尺度下進行比較的問題.經檢驗,該度量方法能夠在數據集規模上客觀地度量對抗樣本空間.最后,我們提出了應用該一般規律的應用場景,為語音識別攻擊與防御提供新的思路.

作者貢獻聲明:韓松莘提出論文選題,設計實驗并編寫代碼進行測試,完成論文初稿撰寫;郭松輝對現象進行理論分析,指導實驗的總體設計;徐開勇指導從理論到現象之間的總結,完善規律的應用范圍;楊博完善論文中前后邏輯,對設計思路和分析部分做出重要修改;于淼參與多次實驗,驗證規律.

猜你喜歡
樣本空間特征提取擾動
高中數學新教材一個探究試驗的商榷
概率統計中樣本空間芻議
Bernoulli泛函上典則酉對合的擾動
(h)性質及其擾動
基于Daubechies(dbN)的飛行器音頻特征提取
淺談高校古典概率的教學
Bagging RCSP腦電特征提取算法
小噪聲擾動的二維擴散的極大似然估計
全概率公式的教學方法研究
用于光伏MPPT中的模糊控制占空比擾動法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合