?

基于WaveNet的源終端識別研究

2019-07-19 01:24刁則鳴周神保羅海濤
網絡安全與數據管理 2019年7期
關鍵詞:靜音來源錄音

刁則鳴,周神保,羅海濤

(1.國家計算機網絡應急技術處理協調中心廣東分中心,廣東 廣州 510000;2.長安通信科技有限公司,廣東 廣州 510000)

0 引言

基于音頻特征對錄音設備的識別從2007年開始成為學術研究熱點[1]。2017年,中華人民共和國民事訴訟法[2]把視聽材料作為法庭認可的八大證據之一,此后,國內也掀起了對音頻取證研究的熱潮。音頻取證主要研究目的在于通過音頻信息推斷音頻信號是在何時(錄音時間)何地(錄音環境)由什么設備錄制的[3],通常是對原始錄制音頻進行分析。AGGARWAL R等人認為,假設把錄音設備看作一個對音頻的濾波器,則尋找表征錄音設備的特征參量就是從音頻信號中提取錄音設備的傳遞函數[4]。因此,音頻取證中對錄音設備的識別首先需要提取非話音段,從非話音段中對設備本底噪聲進行估計[5-7]。

與音頻取證的錄音設備識別有所不同,經電話網傳輸后的源終端的識別不能完全考慮非話音段,因為非話音段在網絡傳輸中受編解碼的影響很大,往往會丟失很多設備特征參量。近些年網絡傳輸后的音頻溯源研究也引起了學術界的重視,王一平等人在提取音頻特征的基礎上,基于隨機森林篩選出貢獻度高的特征作為來源特征[8];Pindr0p公司則研究了傳輸音頻數據的相關特征并提出可以利用這些特征構造呼叫聲紋(call fingerprint),再利用這些聲紋識別來源地點、來源網絡、呼叫路徑等[9],但Pindr0p研究成果未完整公開。

上述研究都沒有就來源終端的識別提出解決方法,本文將在闡明來源終端識別的可行性的基礎上,提出一種用神經網絡對來源終端的特征進行建模的方法,為判斷來話意圖研究提供一些參考思路。

1 源設備音頻特征

為了在網絡傳輸過程中既保證音頻的保真度,又提高帶寬利用率,網絡設備在傳輸音頻時會通過端點檢測(Voice Activity Detection,VAD)技術找到話音段,并只對話音段進行壓縮編碼,靜音段則不受保護。因此,在提取源設備本底噪聲特征時,比較合理的方法是從非靜音段中提取。Mel頻率是一種基于人耳聽覺特性提取的頻率特性,與Hz頻率成非線性對應關系,梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)則是描述這種對應關系的系數,可以用來計算得到Hz頻率??梢?,MFCC適合用于描述傳輸音頻的非靜音段部分特性。

標準的倒譜參數MFCC只反映了語音參數的靜態特性,當需要考慮不同說話人、不同音頻內容等區別時,往往還可以綜合考慮這些標準MFCC的差分譜。本文設計了幾組音頻聚類實驗,來驗證利用MFCC描述音頻來源終端特征的可行性,總體實驗思路如圖1所示。首先利用測試手機撥打一定量的電話,通過同款手機接收并錄制下電話音頻,然后對每個音頻的非靜音段提取13維的MFCC(每幀提取一組),考慮到每個音頻長度不一,再對每個音頻計算統計MFCC特征,最后在聚類前對這些統計特征做降維處理。

圖1 實驗流程圖

為了確保實驗結果有明確指向性,實驗中的音頻內容、呼叫網絡、被叫設備須保持一致,相同來源設備用同種標記符表示,如:(x、v、_),可輸出如圖2所示的聚類結果。

圖2 聚類結果

從實驗結果來看,不同來源設備的音頻用MFCC描述后區分度較高,實驗中不同來源設備的音頻聚類效果較好。同時,通過聚類結果還可以看到,不同來源設備的音頻也存在串類的情況,也就是說用MFCC描述來源設備還是存在一定的誤差。下文將通過實驗來驗證用MFCC構建識別模型的準確率。

2 模型構造

WaveNet[10]是DeepMind提出的一種生成網絡,其主要思想是認為語音是由一個個采樣點組成的,每個采樣都受到歷史采樣的約束,因此每個語音片段的聯合概率可以用下式表示:

(1)

即一個長度為T的音頻可以用每個歷史語音采樣點(x1,…,xt-1)預測的采樣點(xt)的聯合概率表示。這種音頻的理解方式反映了WaveNet對時序信號前后因果關系的重視,也是其模型設計的核心思想所在。

在模型結構方面,WaveNet使用了多層因果空洞卷積(Causal Dilated Convolution),通過擴大輸出感受野(Receptive Field),來表達音頻時序特征。為了避免模型深度增加導致梯度消失(Vanishing Gradient),WaveNet使用了殘差網絡結構(Residual Network),跳躍某些時序特征的約束,提高訓練深度。因此,WaveNet的模型深度得到了保證,對音頻的特征學習很充分。為了使WaveNet可以用于執行來源終端類型識別任務,需要在該模型中引入一定規模的dropout以優化訓練效果,并將模型輸出進行池化(Pooling)操作以實現降維調整,模型總體結構如圖3所示。

圖3 模型圖

3 實驗驗證

3.1 數據采集

本實驗收集了8款手機的呼叫錄音,分別為HTC、諾基亞、華為、三星、蘋果、努比亞、黑莓、小米。每個手機平均呼叫400次左右,通過同一個手機接聽并采集錄音,共采集錄音3 600余個,每個通話時長60 s左右。

3.2 數據預處理

實驗中,對音頻的非靜音段按幀提取13維MFCC,這樣每幀音頻將由一組13維的數據表示。為了避免奇異樣本對樣本全體的不良影響,本文在模型訓練之前對所有音頻幀的MFCC按下式進行歸一化處理:

(2)

其中,xmean和xstd分別為所有音頻幀MFCC的均值和標準差,所有音頻幀通過歸一化處理可以得到新的x′。

3.3 模型訓練及驗證

本文選取90%數據作為訓練集,9%數據作為驗證集,再預留1%數據作為模型通用性的測試集。設定模型epoch為20,在每個epoch中監聽驗證集的損失(val_loss),當該指標波動變緩時調低學習率(learning rate),并在每個epoch后輸出一個模型,實時輸出訓練結果,完整訓練過程記錄如圖4及圖5所示。

圖4 模型分類準確率

圖5 模型分類誤差

從訓練指標的走勢可以看出模型的訓練效果較好,訓練準確率(acc)達到98.5%,驗證準確率(val_acc)達到92.8%左右,損失在訓練過程中總體呈下降趨勢,模型表現穩定。為了測試模型的通用性,本文用測試集對輸出的模型進行測試,測試結果如表1所示。

表1測試結果顯示,模型平均準確率為89.6%,與模型驗證準確率接近。注意到HTC、諾基亞和蘋果有不同程度的錯分類情況,本文認為有兩方面的原因,一是訓練樣本集有限,模型訓練還不夠充分;二是以非靜音段的音頻MFCC作為輸入還不足以完整刻畫音頻的來源特征。

4 結論

本文提出了一種基于神經網絡的來源電話類型識別方法,由于經過網絡傳輸的來源特征在靜音段難以提取,本文提出聚焦于非靜音段音頻分析,從音頻聚類效果來看,用MFCC作為模型輸入是具有一定可行性的。分類實驗結果表明,本文所提出的方法對來源電話終端類型具有較好的識別效果。

表1 通用性測試結果 (%)

然而,本文的方法是對來源電話終端識別的初步探索,還有很多局限性,如樣本音頻不足可能導致模型過擬合,音頻在不同接收終端錄制可能導致模型通用性不夠,用MFCC作為模型單一輸入可能降低識別準確性。本文后續將繼續深入研究,期待形成行之有效的識別方法。

猜你喜歡
靜音來源錄音
將來吃魚不用調刺啦
Funny Phonics
funny phonics
嗆爆鮮詞
Listen and Choose
靜音車廂正式上線, 能制服熊孩子和外放族嗎?
Listen and Color
試論《說文》“丵”字的來源
為靜音超市點贊
圖表
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合