?

持續元音和連續語段用于病理嗓音識別的比較

2021-05-21 08:42浙江醫藥高等??茖W校醫療器械學院趙祥欣
電子世界 2021年8期
關鍵詞:嗓音語段元音

浙江醫藥高等??茖W校醫療器械學院 鄒 鋒 趙祥欣

本文選用SVD嗓音數據庫中的元音/a/音和連續語段,提取其的Mel頻域倒譜系數(MFCC),支持向量機SVM的核函數采用高斯核函數,分別對各600例的正常者和病理嗓音患者的元音/a/音和連續語段進行訓練和識別。識別分類結果表明,連續語段的結果優于元音/a/音,因此在病理嗓音自動分類研究中可以采用連續語段作為聲學分析樣本。

隨著社會交往日益頻繁和生活習慣的改變,嗓音疾病的發病率也逐年增高,嗓音疾病是喉科臨床上的常見病、多發病,約占耳鼻喉科疾病的5%-10%。嗓音疾病會導致患者嗓音嘶啞、發聲困難、嚴重可導致完全失聲。更有甚者,聲帶小結和聲帶息肉若不及時治療,可易造成突發癌變。

嗓音疾病診斷通過發音質量的主觀、客觀評估、電子頻閃喉鏡、氣流動力學喉部功能評估、喉神經肌肉電功能評估等方面進行檢查。其中的儀器檢查都為診斷喉部病變情況、喉部肌肉和聲帶病變情況,屬于侵入性的檢查方式,對患者有一定的痛苦及損傷。正常和病理嗓音的聲學參數是會有一定的區別,通過嗓音的聲學參數分析,形成客觀自動評估技術,為嗓音病理診斷提供了一種明確的、量化的分級方式,是一種快速、非侵入性的自動檢測方法。該方法可去除傳統方法在時間、空間上的限制,能夠在病理早期就能做出診斷該評估方法降低了主觀評估的偶然性,而且方便易用實現,降低了醫生的負擔?;诼晫W分析技術已成為人工智能醫療的一個熱點方向。

病理嗓音的客觀自動評估技術是提取病理嗓音聲學客觀參數,采用機器學習技術進行分類。提取方面,傳統的擾動參數和頻譜參數已廣泛應用于分析病理嗓音的改變和描述嗓音質量在聲學分析是嗓音客觀評估中的重要部分,目前嗓音聲學評估的聲學信號樣本包括持續元音和連貫言語。元音能較好地反映聲帶振動的實質,因此大多數的研究都專注于持續元音,而不是連續語段,實際上連續語段更能反映出病理特性。語音信號包含了靜止的持續的元音,但它是隨著連續時間變化的,許多嗓音問題在持續元音中不能完全展現。本研究擬將對持續元音和連續語段為聲學樣本的識別進行比較,從而進行嗓音客觀評估中的聲學樣本的探索研究。

1 數據來源

本實驗數據來源于SVD庫,SVD庫(Saarbruecken Voice Database,德國薩爾布呂肯公開數據庫),它是由德國薩爾大學語音學院負責錄制可自由下載的數據庫。該數據庫包含1-3s持續的元音[i,a,u]和連續語段(德語)“Guten Morgen,wie geht es Ihnen?”。數據庫中所有錄制的聲音均以50KHz采樣,采用16位分辨率。本實驗從SVD庫挑選正常和病理嗓音的元音/a/音和連續語段,提取12維Mel頻域倒譜系數(MFCC)的聲學參數,采用支持向量機(support vector machine,SVM)對正常和病理組進行分類識別。

2 特征提取

由于本研究只是比較持續元音和連貫言語為聲學樣本的識別,本研究采用語音識別中非常重要的音頻特征MFCC作為單一聲學特征參數。

圖1 MFCC的計算過程

MFCC在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的研究成果,在有信道噪聲和頻譜失真的情況下具有較好的魯棒。它是Mel標度頻率域提取出來的倒譜參數,在語音識別中有很好的性能,還被用來檢測發音器官(嘴唇、舌頭)等在運動中微小的變化。

MFCC和實際頻率的轉換關系如下:

MFCC的計算過程如圖1所示。

3 分類器

由于支持向量機(SVM)模型在小樣本分類上方便可靠,病理嗓音患者的醫學樣本屬于小樣本,因此本研究采用支持向量作為分類器。

SVM是主要用于解決模式識別領域中的數據分類問題,屬于有監督學習算法的一種。是一種典型的二分類模型,其主要思想是通過在特征空間中尋找最大區間來實現線性分類。當為線性不可分時,核函數將輸入空間映射到高維特征空間。典型的核函數有多項式、RBF和Sigmoid。SVM為處理分類問題提供了強有力的機器,而其更好的泛化性能是基于結構風險最小化原則(SRM)。SVM對二分類問題可以得到很好的結果,病理嗓音客觀識別的研究中,不少研究者都采SVM來區分正常與病理嗓音者。

4 實驗及結果

本實驗聲音樣本為元音/a/音和連續語段,其中連續語段為德語句子“Guten Morgen,wie geht es Ihnen?”。從SVD庫挑選600例正常和600例病理嗓音作為實驗樣本,其中80%的數據作為訓練集,20%的數據作為測試集。

為了解決樣本長度不一致,采用補零法對齊法使得每個樣本時長一致,其中元音/a/音的每個樣本都為86幀數據,連續語段的每個樣本都為117幀數據。提取聲學樣本的12維Mel頻域倒譜系數(MFCC)為聲學特征參數。支持向量機SVM的核函數選擇高斯核函數,分別對元音/a/音和連續語段進行訓練和識別。

從準確率(AC)、準確率(PR)、召回率(RE)和F1分數四個方面評價分類效果。準確率、精密度和召回率可以直接反映分類的表現,F1分數是精密度和召回率整合在一起的判斷標準。元音/a/音和連續語段分類性能結果如表1所示。如表所示,連續語段較元音/a/音有較好的識別效果。

表1 元音/a/音和連續語段分類結果

5 討論

連續語段是符合正常會話的模式,其比持續元音包含更多的嗓音信息,從實驗結果發現其識別效果是較高的。然而,連續語段中間存在聲音開始、結束、存在聲帶的振動頻率的改變,意味要處理更復雜的聲學參數,這是無意是個挑戰。因此,基于連續語段的嗓音分類評估是一項在實踐領域更有意義的工作。

猜你喜歡
嗓音語段元音
元音字母和元音字母組合的拼讀規則
元音字母和元音字母組合的拼讀規則
【重點】語言文字運用:語段壓縮
淺談低年級語段仿寫的指導策略
黃綺珊:我的嗓音為什么是這樣?
“世界嗓音日”——中央音樂學院嗓音研究中心在行動
2016年第七屆友誼嗓音疾病診治高級研討班暨首期北京友誼醫院嗓音檢測和嗓音訓練學習班通知
Playing with “ar”
八大特色嗓音
依存消解、一致性計算與浮現和語段計算理論
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合