何 俊,張彩慶,張云飛,張德海,李小珍
(1.昆明學院信息工程學院,昆明 650214;2.云南大學外國語學院,昆明 650206;3.云南大學軟件學院,昆明 650206)
(*通信作者電子郵箱369885901@qq.com)
人工智能的蓬勃發展,特別是以深度神經網絡(Deep Neural Network,DNN)為代表的深度學習方法獲得突破性的進展,極大地促進了語音智能化的研究進程。然而,由于深度學習模型必須用大量準確的標注數據進行訓練才能獲得好的效果,近年來以人工為主的數據標注已經成為一個龐大的產業[1-2],但人工標注費時耗力、錯誤率高、質量參差不齊,因此自動或半自動數據標注的研究已然迫在眉睫。而情感是智能的一部分,是一種特殊的智能[3]。當前語音情感識別已成為人機交互領域的研究熱點。由于公開的小語種情感標注數據非常少[4],特別是彝語情感標注數據屬于稀缺資源,嚴重阻礙了彝語智能化發展進程。為了獲得彝語語音情感標注數據,本文以扶貧日志中大量的彝語語音記錄和文本數據為基礎,結合彝語的特點,分別在聲學層(Acoustics)和語言層(Language)提取識別特征,融合特征后用分類器進行訓練,以獲得大量自動標注數據,為彝語情感研究提供帶標注數據資源,推進彝語智能化研究進程。
本文的主要工作包括:
1)針對彝語情感詞綴豐富的特點,提出一種雙層情感特征提取、融合和對齊方法;
2)設計彝語情感特征融合、對齊和自動標注算法;
3)通過該方法可獲得大量彝語情感自動標注數據,為其他小語種數據標注研究提供方法參考。
近年來,研究者們對數據標注進行了大量研究和探索,眾包模式和許多商業平臺應運而生[5-6],并催生出一個勞動密集型的數據標注產業。文獻[7]中提出一種“興趣+收獲+報酬”數據標注模式,系統研究了社會標注模式的內在機理,所提出的標注策略在語音數據標注領域值得借鑒。然而,數據自動標注成為研究熱點后,人們希望通過自動或半自動標注數據來取代人力,并在圖像自動標注研究中取得較大成功[8-9]。但計算機生成的標注和人工標注仍存在較大差距,圖像自動標注還有很多問題亟須解決[10]。在小語種數據標注方面,研究者們利用學習和分類模型實現半自動標注,并取得了一些成果。如:文獻[11]中用隱馬爾可夫模型(Hidden Markov Model,HMM)對沒有時間標注的藏語訓練語音基元進行自動標注,取得了比較接近人的效果,但沒有擴展到整個語音數據標注。文獻[12]中利用強化學習方法標注壯語的詞性,并與神經網絡結合來緩解模型對訓練語料庫的依賴。文獻[13]中利用神經網絡模型對韻律邊界進行標注,融合了靜音時長和文本特征融合,可提高標注的效率,該方法對本文研究有一定的啟發。目前,語音情感識別研究工作在情感描述模型的引入、情感語音庫的構建、情感特征分析等方面已取得長足發展。文獻[14]中提出的FEELTRACE 情感標注系統為語音情感數據的標注提供了標準化工具;文獻[15]中的面向語音情感特征提取開放式工具包openSMILE,實現了包括能量、基頻、時長、Mel 倒譜系數等在內的常用語音情感特征的批量自動提??;文獻[16]中提出的大型多媒體情感數據庫SEMAINE為語音情感識別的研究和發展提供了公開的、豐富的、高質量的自然情感語料。這些研究成果為本研究工作提供了基礎。
綜上所述,國內外研究者對數據自動及半自動標注、圖像自動標注等方面進行了大量研究,并取得一些成果。盡管目前在語音情感識別方面已進行多年研究,但在小語種情感數據標注方面的研究還處于起步階段,而彝語數據自動標注的研究尚不多見。
目前絕大多數語言情感標注研究工作的特征提取都集中在聲學層,主要從韻律、頻譜和音質等方面,以幀為單位進行提取。而彝語由東部、南部、西部、北部、東南部和中部六大分支方言組成,各分支方言語音存在較大差異。此外,彝語在發展過程中不斷與漢語融合、演化,產生了大量漢語借來詞,使文字和發音變得更加復雜。這些因素給彝語數據情感標注帶來極大的障礙。但彝語除了在聲學層具有豐富的情感外,在語言文字上也有豐富的情感詞綴,這些詞綴對情感識別和標注有很大的幫助。如表1所示。
因此,本文在傳統語音情感特征單層提取方法的基礎上,加入文字情感特征,提出雙層特征彝語情感自動標注方法。本文方法的實現過程包括:彝語語料的聲學特征和語言特征提取、特征融合及對齊、情感分類和訓練、自動標注等步驟,彝語情感自動標注流程和框架如圖1所示。
圖1 彝語情感自動標注流程Fig.1 Flowchart of automatic emotion annotation of Yi language
表1 彝文情感詞綴示例Tab.1 Examples of emotional affixes in Yi language
情感特征提取的效果會直接影響情感自動標注的正確率。本文采取通用方法,從彝語語音中提取基頻、共振峰和梅爾倒頻譜系數三類特征。
1)基頻特征。通過對語音的基音頻率檢測將不同語音區分出來。采用相關函數法[17]進行計算,如式(1)所示。
其中:Ri(k)表示第i幀自相關函數;Si(m)表示一幀語音信號的第m個采樣值;N表示幀長;k表示時間的延遲量。函數與語音信號的周期一致,通過尋找自相關函數波峰的延遲即可找到語音信號的周期,從而進行基頻標注。
2)共振峰特征。共振峰包含在語音頻譜之中,頻譜包含的最大值即為共振峰。采用線性預測法進行計算[18],如式(2)所示。
其中:G表示增益;p表示階數;ak表示模型的系數。該方法能夠在由預測系數構成的多項式中精確地估計共振峰參數,可以得到一組優良的語音信號模型參數。
3)梅爾倒頻譜系數特征[19]。語音信號經過梅爾濾波器處理后可以得到近似人耳的頻譜信號,通過信號提取得到頻譜特征。計算方法如式(3)所示。
其中:f為采樣頻率;Q和D為語音的頻率參數,需要根據彝語特點訓練得到,Q通常在2 000 Hz左右,D在800 Hz左右,參數可通過模型訓練得到。
按下列方法提取語言層特征:
1)n-gram 分詞。利用n-gram 模型對彝文句子進行分詞,分別提取unigram、bigram、trigram 特征,表示為集合Fu、Fb和Ft。
2)情感詞綴特征提取。在分詞基礎上,按表1 示例的情感詞綴特征進行分類,即按照含有情感詞綴對詞匯進行分類,記為集合Fc。結合分詞特征結果集合,可以得到情感詞匯集合,如式(4)所示。
3)詞匯情感分類。將彝語情感分為7 種類型:中性(nertral)、生氣(anger)、害怕(fear)、高興(joy)、悲傷(sadness)、厭惡(disgust)、無聊(boredom)。在集合F中分別進行7 種情感標注,得到彝文情感詞匯標注集。
因為聲學層和語言層特征分別在幀層面和詞匯層面提取特征,完全在不同的問題空間中,要實現自動標注必須通過特征融合和對齊處理,之后才能采用分類器進行訓練。下面介紹分層特征融合和對齊方法。
為了實現特征融合,可將幀層面的高維特征映射到詞匯層面的低維特征,即從微觀特征映射為宏觀特征。設X=,X∈RD為幀特征的D維空間;,Y∈Rd為詞匯特征的d維空間。其中:d<<D,則定義F:X→Y為幀特征空間到詞匯特征空間的映射。由于幀和詞匯都是可識別的,因此該映射是一個線性變換。
由于語音是由聲道的連續運動而產生的,是一組前后相關性很強的序列。而語言特征則受到詞法、字典以及語言模型的約束,二者均為強相關序列??梢岳酶髯缘南嚓P性和加入<Blank>單元實現對齊,如圖2所示。
圖2 雙層特征對齊示意圖Fig.2 Schematic diagram of double-layer feature alignment
參考生成式序列模型(Generative Sequence Model,GSM)思路,融合生成雙層特征,如式(5)所示。
其中:l1和l2分別是聲學特征序列和語言特征序列;π是融合后的特征狀態序列,πt是第t個狀態;P(πt|πt-1)是轉移概率,P(πt)是先驗概率;B是融合特征序列集合。
式(6)說明B決定了特征序列融合的集合,通過在l2的每兩個詞匯之間插入可選的<Blank>單元實現特征對齊。融合后的特征放入同一個特征空間,并作為同一個特征序列交給分類器處理。
分類器一定程度上可能會影響自動標注的效果。為探索不同分類器對彝語數據情感標注正確率的影響情況,采用多種分類進行對比研究,尋求最佳方法。目前已有不少模型分類器被語音情感識別研究者們所嘗試,使用最廣泛的有隱馬爾可夫模型(Hidden Markov Model,HMM)[11]、卷積神經網絡(Convolutional Neural Network,CNN)[20]、支持向量機(Support Vector Machine,SVM)[21]、k最鄰近(k-Nearest Neighbor,k-NN)[22]、長短期記憶(Long Short-Term Memory,LSTM)[23]等模型和算法。結合這些分類器在語音識別領域的性能表現情況,本文選擇HMM、CNN 和SVM 三種代表性模型進行對比實驗。
HMM 模型以句子為自動標注基本單位,每個HMM 將融合后的詞匯特征序列為模型的觀察狀態,7 種情感類型為模型的隱含狀態。利用訓練數據集完成初始狀態、轉移矩陣等參數訓練后,得出每一個彝語句子情感狀態的預測結果,根據模型預測結果進行情感自動標注。CNN模型同樣以句子為單位進行分類,第1層使用一維的卷積層,卷積核數設為16,第2層采用32 個卷積核,窗口長度確定為10,卷積步長設定為1,下采樣因子為2。為防止過擬合,在訓練中更新參數時按0.3的概率隨機斷開輸入神經元。每個樣本循環20 輪進行訓練。不斷調整優化參數,根據分類結果進行自動標注。SVM 模型的訓練思路與傳統的語音識別分類處理方法類似,先設置參數C和γ的值為0.2,然后再根據模型的表現,每次乘以0.1作為一個步長,搜索最優參數,直至模型訓練完成,按照每一個句子的情感識別結果進行標注。先完成三種模型的分類訓練,比較自動標注的效果,然后選擇效果較優的方法完成后續實驗。
算法1 先分別提取聲學層和語言層的情感特征再生成特征序列,然后根據需要插入<Blank>單元,最后將對齊后的特征序列進行合并。假設彝語語料按詞匯為單位計算的長度為n,每個詞匯的平均幀數為m,則最壞情況下的時間復雜度為O(n2×m)。若每次都是首次完成對齊,則時間復雜度O(n×m),因此可以采用適當調大模型的對齊閾值來減少時間開銷。
算法2 以句子為單位進行標注,根據分類器識別或預測結果逐一進行情感標注。若一個句子中出現大于一種的情感特征,如:同時出現“生氣”“害怕”兩種特征,則分類器會根據概率選擇可能性最大的一種情感特征進行標注。
標注自動化程度與訓練數據質量、模型性能、質量檢測和糾錯方法等都有密切的關系,其中模型性能與建模是否充分結合語種特點有較大關系。云南省少數民族精準扶貧日志數據庫中記錄了大量訪談語音和記錄數據,其中一些彝族聚集區的語音是彝語數據,這些數據包含音源基本信息(姓名、性別、年齡、地址、時間等)。從數據中抽取原始語音數據并整理對應的彝語文字,篩選部分不含其他語種、噪聲少、停頓少的優質語料作為實驗數據。得到的彝語語音數據共840 min,其中男性460 min,女性380 min,對應的彝文有12 545 個句子,不含13歲以下兒童和70歲以上老人,音頻格式以WAV為主,彝文格式為TXT 文件。實驗數據集如表2 所示。發音和詞匯區別都以北部方言為參照對象[24],區分方法參考《中文語音識別系統通用技術規范》(GB/T 21023—2007),且忽略個體發音區別因素。情感詞綴占比是指該方言樣本數據中帶情感詞綴的句子數占句子總數的百分比;發音區別占比是指該方言樣本數據中發音有區別的句子數占句子總數的百分比;詞匯區別占比定義類似[25]。
此外,手工標注部分數據采用Praat 工具完成,但標注過程難免會引入少量錯誤,為了降低實驗難度,本研究忽略該誤差,假設人工標注結果完全正確,并作為自動標注正確與否的參照標準。同時,由于分支方言間詞匯區別不大,忽略該因素。
表2 彝語實驗數據集統計數據Tab.2 Statistical data of Yi language experimental dataset
首先,分別采用HMM、CNN 和SVM 三種分類器對樣本數據的7種情感進行自動標注,實驗結果如表3所示。
表3 三種分類器自動標注和人工標注正確句子數量比較Tab.3 Number comparison of correct sentences by automatic and manual annotation with three classifiers
表3 給出人工(Artificial)對12 545 個句子的標注結果和HMM、CNN、SVM 三種分類器自動標注的正確句子數量,標注結果按nertral、anger、fear、joy、sadness、disgust、boredom 等7 種情感類型進行句子數量的統計。為了便于比較,三種分類器自動標注結果只給出與人工標注一致的數量,即假設標注為正確的句子數量。
其次,以SVM 為分類器,分別對僅使用聲學層特征、僅使用語言層特征和雙層特征融合三類情況進行自動標注實驗,實驗結果如表4所示。
表4 四種標注方法正確句子數量比較Tab.4 Number comparison of correct sentences of four annotation methods
表4 給出上述四類標注方法的7 種情感類型的句子標注結果,分別是:人工標注(Artificial)、僅采用聲學層特征的自動標注(Acoustics)、僅采用語言層特征的自動標注(Language)和雙層特征融合情況下的自動標注(Fusion)四種結果。與表3 相同,三種自動標注方法(后三列)只給出與人工標注一致的數量,即假設標注為正確的句子數量。
本文將正確的自動標注句子數量與人工標注句子數量的比值定義為自動標注正確率,如式(7)所示。
其中:ALA表示自動標注正確率;ANCS表示自動標注正確句子數量;NMMS表示人工標注句子數量。
表5 是在表4 基礎上對自動標注正確率進行統計的結果。
表5 自動標注正確率統計 單位:%Tab.5 Statistics of automatic annotation accuracy unit:%
1)三種分類器自動標注和人工標注對比分析,結果如圖3所示。結合表3統計結果可知,三種分類器自動標注的平均正確率為63.5%,其中HMM 為62.6%、CNN 為63.7%、SVM為64.2%,說明不同分類器對自動標注的正確率影響不大,而SVM 略優于其他兩種分類器。另外,自動標注對不同情感類型的標注正確率有較大差異,下面將進一步對比。
圖3 自動標注與人工標注對比Fig.3 Comparison of automatic and manual annotation
2)自動標注數量和正確率對比分析如圖4~5 所示。從圖4 可以看出,四種方法標注的正確句子數量存在較大差異,其中:人工標注全部樣本12 545個句子,Acoustics正確標注句子6 033 個,Language 正確標注句子4 315 個,Fusion 正確標注句子8 051個,說明雙層特征融合方法的正確標注句子數量比僅提取一層特征方法有明顯增加。
圖4 四種標注方法的正確標注數量對比Fig.4 Number comparison of correct annotations of four annotation methods
結合表4 實驗結果可以看出,Acoustics 的ALA為48.1%,Language 的ALA為34.4%,正確率并不高。Fusion 的ALA為64.2%,說明雙層特征融合方法使自動標注的正確率明顯提高。此外,從圖5 可以看出7 種情感類型的ALA存在較大差異。
圖5 自動標注與人工標注的正確率對比Fig.5 Accuracy comparison between automatic and artificial annotation
3)7個情感類型的自動標注結果對比如圖6所示。從圖6可以看出,除了nertral 情感類型標注正確率(67.6%)比較高以外,anger、joy 情感的標注正確率(60.2%、55%)明顯高于boredom 和disgust 等情感類型,其中boredom 的標注正確率僅37.1%,說明不同情感類型的識別和自動標注效果差異較大,對生氣、高興等相對“外在”的情感類型自動標注正確率較高,而對無聊、厭惡等相對“含蓄”的情感類型更不容易識別和自動標注,是后續人工補充核查的重點。
圖6 雙層融合標注與單層標注的正確率對比Fig.6 Accuracy comparison between double-layer fusion and single-layer annotation
綜上所述,通過對比實驗和分析可以得出結論:雙層特征融合方法使自動標注正確率明顯提高,從僅聲學層的48.1%和僅語言層的34.4%提高到雙層融合的64.2%。驗證了本文所提出方法的有效性。三種分類器自動標注結果差異較小,而不同情感類型的自動標注效果差異較大,該結果可為后續人工核查提供參考依據。
本文針對彝語的特點,提出分別從聲學層和語言層提取情感特征并進行特征融合和對齊,再用分類器進行情感識別后完成自動標注的方法。從扶貧日志數據中篩選彝語語音和整理出對應的彝文作為樣本數據,完成數據自動標注實驗,并以人工標注的結果為參照進行對比分析。實驗結果表明,本文提出的雙層特征融合方法使自動標注正確率明顯提高,驗證了該方法的科學性和有效性。下一步可深入研究不同情感類型自動標注正確率提升方法。