?

基于稀疏分解的音頻信號智能識別

2022-09-07 04:06
信息記錄材料 2022年7期
關鍵詞:原子音頻時刻

劉 彥

(青島市技師學院 山東 青島 266229)

0 引言

在科學技術不斷發展的時代背景下,音頻信號識別技術的應用范圍逐漸擴大,無論是聲音信息檢索領域,還是在計算機應用領域,其都發揮著重要價值[1]。針對音頻信號識別技術的研究,鄭偉哲等[2]提出了一種多尺度注意力融合機制,利用卷積循環神經網絡降低聲音時頻噪聲,實現了對聲音信號的有效識別,但是其識別精度受時頻影響較高,在適用性方面表現出了一定的局限性;孫夢青[3]以數字音頻為研究對象,通過音頻的時頻域信息實現了對樂音的有效識別,但是同樣地,其也存在識別效果穩定性較低的問題,當音頻中的噪聲含量較高時,其識別精度會大大降低;傅靖等[4]建立了基于PRA接口的錄音自動識別調度下令系統,通過AVSR雙模態語音識別模型去噪原始音頻信號,有效提取音頻特征,音頻識別結果具有較高的精度,但是對于精度要求在50 ms以內的識別要求,難以實現有效滿足。通過對上述研究成果進行分析不難看出,受客觀環境的影響,聲波中的噪聲是影響音頻識別結果的關鍵因素[5]。

稀疏分解作為一種在圖像和信號處理中得到廣泛應用的算法,將其應用到音頻信號智能識別,具有巨大的開發空間[6]。稀疏分解可以使信號處理更加簡潔化,通過自適應的線性組合行為對信號的特征進行有效提取,使信號剔除噪聲干擾影響因素。將稀疏分解的表示形式作為音頻信號的表征,通過迭代匹配信號的方式獲取最終信號結果,提升音頻信號去噪性能。為此,本文提出基于稀疏分解的音頻信號智能識別方法研究,并在對比實驗測試中分析驗證了識別效果的可靠性。借助本文的研究,希望可以為音頻信號識別相關領域的研究和應用提供有價值的參考。

1 音頻信號智能識別方法設計

1.1 基于稀疏分解的音頻信號去噪

考慮到影響音頻片段識別精度的主要因素為音頻中噪聲信號的干擾[7],為此,本文首先對音頻進行去噪處理。假設含有噪聲的音頻信號數學模型為

其中,f表示含有噪聲的音頻信號,fr表示原始無噪聲的音頻信號,fz表示噪聲信號。

由于原始無噪聲音頻信號本身是具有特定的結構特征的[8],因此,本文構建了能夠與之匹配的過完備原子庫,其可以表示為

其中,E(f)表示原始無噪聲音頻信號的短時平均過零率,sgn 表示符號函數,g表示聲壓波在聲道中共振函數,xi和xi-1分別表示相鄰的音頻信號序列。

利用式(2)構建的過完備原子庫對含有噪聲的音頻信號進行稀疏分解時,本文主要利用了fr結構特性與E(f)中原子特性的相關性。由于噪聲信號結構與E(f)中任一原子不存在相關性,本文對f進行稀疏分解時,E(f)與fr的內積將遠遠大于E(f)與fz的內積,以此為基礎,分解出的原始無噪聲音頻信號可以表示為

其中,fr1表示在初代系數分解中得到的原始無噪聲音頻信號,p表示音頻信號的脈沖頻率,a表示信號的幅度值,sim擬合函數。

在經過一次稀疏分解后,音頻信號中仍存在未被分解的原始無噪聲音頻信號[9]。為了確保稀疏分解結束時能夠實現對噪聲的完全過濾,本文引入了殘差閾值參數作為稀疏分解算法的匹配原子依據。利用殘差閾值參數完善過完備原子庫的匹配效果,將殘差閾值參數作為稀疏分解的終止條件,以此減少選擇匹配原子的工作量,提高稀疏分解的效果。過完備原子庫最后分解得到的原始無噪聲音頻信號存在

其中,frn和frn-1分別表示稀疏分解的終止時與終止前一次分解的原始無噪聲音頻信號,k表示殘差閾值參數,該值的大小根據音頻信號的識別精度要求設置。通過這樣的方式,有效分解音頻信號固有的稀疏結構特征,提升多通道的信號去噪效果。在對過完備原子庫匹配完成對音頻信號的去噪處理,獲取音頻信號之間的相關性,為后續音頻信號起止時刻識別提供數據計算依據。

1.2 音頻信號起止時刻識別

在得到無噪聲的音頻信號后,本文結合高頻內容(high frequency content,HFC)實現對音頻片段信號起止時刻的識別,根據信號不同頻帶能量的差異,對其進行差異化賦權。以此為基礎,權重值越大,對應的高頻分量越多,識別幀為音頻片段起始點的可能性就越大。其中,對高頻部分進行加權處理的計算方式可以表示為

其中,H(fr)表示加權處理后的高頻信號,y(fr)表示音頻信號的振幅,wm表示高頻信號的權重,d表示頻帶寬度,m表示高頻分量在頻帶上的分布。

按照這樣的方式,以每個高頻信號的峰值作為音頻片段的起始時刻,當高頻信號回落攜帶能量與其他時刻相同時,則認為此時為音頻信號的終止時刻??赡軙霈F單個的頻帶攜帶的能量遠遠大于其他時刻的情況,此時則表明該時刻為音頻信號的起始時刻,對應的,終止時刻的判斷與單個高頻信號的判斷方式一致,由此實現對音頻信號起止時刻的準確識別。

2 實驗測試

本文將鄭偉哲等、孫夢青和傅靖等提出的方法作為測試的對照組,開展了實驗分析測試。通過對比4種方法的識別效果,對本文設計音頻信號智能識別方法的準確性做出客觀評價。

2.1 測試數據準備

為了確保測試數據對于不同識別方法的公平性,本文測試的音頻數據為自主錄制,按照采樣率為40.0 kHz的通過標準,共采集了30組共88個音頻信號,形成的數據組分別編號為CSYF001、CSYF002、…CSYF030。在此基礎上,采用隨機選擇的方式取其中一組數據構建多樣本字典。在具體實施過程中,分別取88個音頻信號的第i幀,所有數據集共同構成樣本字典,圖1為對音頻信號中各幀信號的提取方法。

在上述基礎上,本文隨機選擇了200個音頻片段進行實驗測試,音頻的平均時長為320.0 ms,最長時長為396.0 ms,最短時長為265.0 ms,對應的平均信號幀數數目為722個,最多信號幀數數目為1 006個,最少信號幀數數目為521個。隨機選擇其中180個音頻片段作為訓練數據,20個音頻片段作為測試數據。在此基礎上,統計4種方法對音頻片段的測試識別結果。

2.2 測試結果

在上述基礎上,測試的20個音頻片段中包含信號數量14 400個,其中,中文音頻信號數量為9 250個,英文音頻信號數量為5 150個。本文對識別結果的分析分別對中文音頻信號和英文音頻信號的起始終止時刻識別情況3個角度進行,其中,具體的時刻識別情況見表1和表2。

表2 英文音頻信號起始終止時刻識別情況統計表

從表1中可以看出,在測試的4種方法中,鄭偉哲等方法對中文音頻信號起始終止時刻的識別結果誤差主要分布在±50~±100 ms之間,其中,誤差低于±50 ms的占比為40.75%,但是識別結果誤差在±100.0 ms以上的占比達到了13.98%,處于較高水平,表明其識別準確性仍存在一定的提升空間;孫夢青方法的識別結果與之相比有所提升,但是也表現出了同樣的問題,識別結果誤差在±100.0 ms以上的占比達到了12.30%。傅靖等方法的識別結果中,誤差在±100.0 ms以上的占比明顯下降,僅為8.99%,對其識別誤差的主要分布情況進行分析,誤差低于±50 ms的占比與鄭偉哲等和孫夢青方法相近,為40.71%,主要誤差分布在±50~±100 ms之間,占比達到了50.30%,對本文方法的識別結果進行分析,其中誤差在±100.0 ms以上的占比僅為5.72%,誤差低于±50 ms的占比達到了51.30%,明顯高于3種對比方法。測試結果表明,本文設計的音頻信號識別方法可以實現對中文音頻信號片段起始時刻的高精度識別。

表1 中文音頻信號起始終止時刻識別情況統計表

從表2 的數據結果中可以看出,在4種測試方法中,準確性均出現了不同程度的下降,其中鄭偉哲等、孫夢青和傅靖等提出識別方法中,誤差在±100.0 ms以上的占比分別達到了18.44%,16.76%和13.35%,均處于較高水平,誤差低于±50 ms的占比分別為36.99%,38.25%和36.95%,相比之下,本文方法識別結果的波動性相對較低,其中,誤差在±100.0 ms以上的占比為6.94%,仍然在10%以內,誤差低于±50 ms的占比為50.15%,同樣為測試結果的主要構成。表明本文提出的方法也可以實現對英文音頻信號起始和終止時刻的準確識別。

3 結語

傳統情況下以人耳為基礎的音頻信號起始時刻識別方法主觀性較強,且識別結果缺乏一定說服力。本文設計了一種基于稀疏分解的音頻信號智能識別方法,借助稀疏分解的方式實現對音頻中噪聲信號過濾,為音頻信號的準確識別提供了可靠基礎,大大提高了對音頻信號起始和終止時刻識別的精度。通過本文的研究,希望可以為音頻信號識別或聲音識別等相關工作的開展提供有價值的幫助。

猜你喜歡
原子音頻時刻
冬“傲”時刻
原子究竟有多???
原子可以結合嗎?
帶你認識原子
捕獵時刻
柏韻音頻舉辦Pureaudio 2021新產品發布會
開盤錄音帶音頻資料的數字化
超音頻復合脈沖GMAW電源設計
Pro Tools音頻剪輯及修正
一天的時刻
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合