?

采用聲調基頻特征的民族語聲調識別

2021-01-26 03:42龍潤田
貴州民族研究 2020年11期
關鍵詞:平調基頻聲調

龍潤田

(首都師范大學 文學院,北京100089)

一、引言

普通話、漢語方言及大部分分布在中國南方的少數民族語言均具有聲調。這些語言的聲調具有很強的別義能力。在語音信號處理中,聲調作為語音的重要組成部分,其對于聲調的識別及合成研究亦具有重要的意義。

對于聲調識別,利用聲調與基音頻率間的關系實現語音的識別已成為研究者們的共識。常用的語音識別方法包括隱馬爾科夫模型(HMM)[1-2],神經網絡[3-4],支持向量機(SVM)[5-6]以及特征聚類[7]等。對于HMM、神經網絡以及SVM而言,這3類方法均需要在識別前進行聲調模型的訓練或設計分類器來對未知聲調進行識別。對于特征聚類的聲調識別,則通過不同聲調間參數的區分性,利用聲調特征進行聚類分析達到聲調識別的目的。除了識別算法外,聲調識別特征也是聲調識別的重要組成部分,目前的聲調識別特征主要包括語音聲學特征[1,2,6]、基頻特征[5,8]等。常用的特征包括基音頻率、短時能量以及基頻衍生的幾何特征,如基頻的長度、斜率、最值等。

對聲調的研究,語言學研究者更關注聲調的調類歸并、劃分及其歷史演變過程。但從田野調查中獲取的語音材料,在未經聽辨記音的情況下,往往不可能獲知其到底具有幾個聲調,這時,采用模型訓練的方法,并不能夠較為迅速準確地獲取聲調的類別和調值。對于特征聚類的識別方法,在聚類分析前一般需要事先給定聚類類別的數目,在不知道確切的聲調類別數目時,將會給聚類識別帶來較大的困難。同時,語言田野調查的錄音數據,常常不局限于一種語言。采用模型訓練、設計分類器的方法,在轉化語言后又需要重新訓練模型、設計分類器,時效性較差。

針對以上問題,文章從基頻曲線的區分特征出發,提出了一種基于基頻特征的聲調聚類識別方法。根據不同的語言調查情況采用不同的聚類算法對提取的基頻特征進行無監督自動分析聚類,以獲得聲調識別的結果,同時在此方法的基礎上建立了少數民族語單音節聲調識別系統。相較于針對單一語言的聲調識別系統,本系統可適用于絕大多數聲調語言的聲調識別標注。

二、聲調與基頻特征

大多數語音的原始數據是難以直接被計算機系統處理分析的,需要提取一些合適的表征特征來表示原始的語音數據。對于語音聲波本身包括了許多的干擾因素和冗余信息,例如,噪音干擾、電流干擾等。很多的語音信息蘊含在語音信號中,需要進行處理才能顯現。這時直接采用語音信號波形進行語音聲調識別分析并不現實。必須對語音信號選取相應特征,剔除語音中不必要信息以提高語音聲調識別的準確性。

在聲調研究中,不同的研究針對聲調描述方法各不相同,王士元根據區別性特征理論使用曲、高、央、中、升、降、凸七類對聲調進行描述[9],沈炯和劉俐李采用音區特征和曲拱特征描述聲調[10-11],朱曉農提出了分域四度標調法[12-13],金健等則從音高、調形凹凸、平拱時長及斜率的角度描述聲調[14]。在聲調識別中,彭剛、王士元提取了20種不同的特征來對廣東話的聲調進行識別[5],宋剛、姚艷紅則利用基頻曲線的9種不同特征進行普通話的基頻擬合與識別[8]。

本文對聲調曲線提取了10類不同的特征,分別是:(1) 基頻起始點和終止點的幅度差(音高變化),(2) 基頻曲線長度(時長),(3) 基頻的最大值,(4) 基頻最小值,(5) 基頻曲線極值點(拐點), (6) 極值點前基頻曲線的斜率,(7) 極值點以后基頻曲線的斜率,(8) 極值點前段基頻曲線的變化幅度,(9) 極值點后段基頻曲線的變化幅度,(10) 基頻的均值。該10類聲調曲線特征基本涵蓋了前述研究者所用的區分特征,并能夠較為完整合理地描述基頻曲線的變化。

三、聲調識別系統

一個完整的聲調聚類識別系統如圖1所示?;诼晫W特征參數的聲調聚類識別標注系統大致可分為參數提取和特征聚類識別兩個部分。

圖1 基于聲學特征參數聚類的聲調識別系統

在數據特征參數提取階段,首先需要對語音信號進行預處理,提取語音中的有聲段。由于聲調特征主要蘊藏在語音音節的韻母段中,因此在提取語音有聲段后,還需要進行聲韻的切分工作,而提取韻母段。對于聲韻切分而言,其精確程度決定了所提取的聲調基頻曲線的準確度。在進行聲韻切分后,采用STRAIGHT分析算法[15]提取語音的基頻曲線。在獲得基頻曲線后,由于多數聲調中均存在彎頭降尾,因此還需要對所提取的基頻曲線剔除掉彎頭降尾的影響。彎頭降尾的剔除包括錯誤基頻的處理和彎頭降尾的處理兩個部分。剔除彎頭降尾影響后的聲調基頻曲線即可看作為聲調的調型曲線。對于處理后的基頻曲線,采用線性擬合的方法進行規整處理,提取10類基頻特征用于聲調的特征識別。在本系統中,10類特征均是在擬合曲線上獲取的。因此,擬合曲線和原始基頻曲線的相似度會對最終的聲調識別結果產生很大的影響。

在特征識別階段,首先需要對每條聲調基頻曲線所提取的10類特征進行規整處理,將所有的特征放在同一度量下進行識別聚類,以防止奇異特征的參量過大導致聲調識別錯誤。對特征進行規整處理后,即可根據需要對聲調數據進行無監督的聚類識別。對于聲調的聚類識別可以分為兩種,當知道聲調的正確分類數目時,采用K-means 聚類對數據進行快速的聚類識別。當不知道聲調類別時,則可通過AP聚類算法[16]進行聲調的無監督自動聚類識別。對獲得的識別結果,則可通過聽辨類內的極小部分語音或在聲調調域內直接觀察即可確定聲調調值,據此給語音數據進行聲調標注。

四、民族語聲調識別測試

少數民族語和漢語方言的聲調識別標注測試采用已完成記音標注的語料進行。在聲調識別測試中,將所有語料的標注信息去除后進行無監督的語音聲調識別,將識別結果與標注信息比較計算識別正確率。

本文采用的語音聲調識別語料。由“斐風”田野調查錄音軟件錄制,包括:侗語邦寨話、壯語橫縣話、粵語廣州話、湘語長沙話共4種語言,每種語言包括700~3000個不等的單音節詞,覆蓋所有聲韻及聲調類型。其中侗語、壯語、湘語的發音人為男性,廣州話的發音人為女性。語料錄音的采樣頻率為44100Hz,16bit量化,單聲道波形文件。所有語音全部由專業語言研究者進行聽辨校驗,保證記音的準確性。

(一) 侗語邦寨話聲調識別結果

邦寨侗語共有9個舒聲調、6個促聲調。其中促聲調的8調和9’調、9調和10調的調值相同,6個調類實際歸并為4個調值[17]。后文為了敘述簡便,我們將8調和9’調全部標記為8調,9調和10調全部標記為9調。邦寨侗語在調型上包含5個平調,3 個升調和1個降調。根據本文所述方法對所有邦寨侗語語料進行已知聲調類別的聚類識別。

其聲調識別率如表1所示??v向為聚類所得調類調值,橫向為聽辨記音的調類調值。大體上,聚類結果與聽辨記音結果相類似,錯誤聚類結果較少,歸類錯誤的聲調主要集中在兩個聲調的交叉重合區域內。識別錯誤的情況主要存在于兩個相似聲調的重合區域。例如低平調1’調(調值11)、2 調(調值22) 存在相互識別的情況,同樣,高平調3調(調值33)、5調(調值55)、6調(調值44) 以及促聲調7’調(調值55) 也存在類似現象。其原因在于相互識別的聲調,其調型相同或相似,僅存在音高(基頻) 上的差異。

表1 侗語邦寨話聲調聚類識別結果表

(二) 壯語橫縣話聲調識別結果

橫縣壯語中共有10個聲調,其中舒聲調6個,促聲調4個。包含平調6個、降調2個和升調2個。對其進行自動分類的聲調識別,系統給出的最終聚類結果為10類,其基頻分布也與傳統音位學調類相一致。

橫縣壯語的聲調基頻的聚類識別率如表2所示:縱向為聚類所得調類,橫向為聽辨記音的調類。大體上,聚類結果與聽辨記音結果相類似,錯誤聚類結果較少。對于識別錯誤的情況。發現在橫縣壯語中,平調的識別率最低,降調的識別率最高。究其原因,主要是在橫縣壯語的聲調系統中,平調的個數占了60%。在平調中,存在3調(調值33)、4調(調值22) 這樣的低平調和5調(調值55) 這樣的高平調。對于兩個低平調,其調型差異較小,特征差異主要來自于聲調音高差異(基頻值)。類似的,對于1調(調值35) 和2調(調值13) 也有類似的情況,導致其聚類識別率較低。

表2 橫縣壯語聲調聚類識別結果表

(三) 粵語廣州話的聲調識別結果

廣州話有9個聲調。在作單字音研究時廣州話描寫為11個聲調。與9調描述相比其陰平調被劃分為上陰平和下陰平,同時在入聲中增加了一個變入[18]。11調的廣州話聲調系統中,共有7個舒聲調、4 個促聲調。從調型上看,有平調3個、升調2 個、降調2個。不考慮入聲區別僅從調型上來分,廣州話可以分為7類。使用本文所述方法對廣州話所有單音節詞語料提取相應的特征參數并進行聚類識別。針對于調型的聲調識別結果如下:

在采用的廣州話語料中,調型為平調的33調、22 調以及23調、21調的識別率較低,其原因在于33調與22調均為平調調型,且其在調域內相對接近,很容易將22調識別為33調判斷識別為33調,對于22調和21調以及23調和33調也存在類似的情況。

表3 廣州話聲調調型聚類識別結果表

(四) 湘語長沙話的聲調識別結果

長沙話屬于湘語長益片長沙方言,共有6個聲調。分別是陰平(調值33)、陽平(調值13)、上聲(調值41)、陰去(調值55),陽去(調值11)和入聲(調值24)。其中陰去的實際調值為45,陽去的實際調值為21。使用上述方法進行聲調自動分類識別分析,最終獲得6類分析識別結果,其基頻分布也與傳統音系學的調類相一致。

在長沙話的聲調識別結果中,調型相近或者相似的幾個聲調的聲調識別率較低。在調域中,33 調的調型和調值都與24調13調較為相似,這使得計算機在進行特征分析判斷的時候極有可能出現誤判。類似的,13調也有很多被誤判為33 調。

表4 長沙話聲調聚類分析識別結果表

五、結論

本文提出的特征聚類聲調識別方法對于聲調系統復雜的語言,其聲調識別正確率達到75%以上。建立的聲調聚類識別系統在語音調查聲調自動記音上具有一定的適用性。該方法是對田野調查語料的聲調進行自動聚類識別的一次嘗試。相對于傳統工程領域的聲調識別方法,聲調特征聚類算法不需要進行聲調建模,也沒有訓練的過程,這使得在處理大量數據時,聚類算法不僅能節約更多的時間,同時獲得較高的識別效果。

在識別過程中,調型相似的聲調,區分度較差,識別率較低。尋找聲調區分特征,提高聲調識別效率將是后續的工作方向。

少數民族語類型十分多樣。本聲調識別系統雖然對少數民族語和漢語方言的多種聲調類型進行識別測試,獲得了一定效果。但嚴格地來說,這只是一個小范圍內的嘗試,語料僅包含了南方少數民族語中常見的平調、升調、降調、曲折調。對于其他一些特殊形式的聲調,識別系統還沒有進行嘗試。

猜你喜歡
平調基頻聲調
語音同一認定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
非遺傳承視角下菏澤大平調傳承人才“四位一體”培養研究
聲調歌
拼音寶寶扛聲調
橋面鋪裝層對中小跨徑橋梁基頻影響分析
菏澤大平調的傳承及保護策略研究*
坐著轎車學聲調
單韻母扛聲調
成武大平調概述
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合