?

智能輔聽系統對改善人工耳蝸植入者聽聲效果的研究△

2024-01-29 08:30項麗陽李娟娟韓彥王金劍楊典楊婷君銀力黃穗
聽力學及言語疾病雜志 2024年1期
關鍵詞:耳蝸受試者語音

項麗陽 李娟娟 韓彥 王金劍 楊典 楊婷君 銀力 黃穗

當前主流的多通道人工耳蝸產品均能讓大部分植入者在安靜環境下聽清和交流,但在噪聲或混響環境中,植入者的言語識別能力下降,因此提高植入者在噪聲環境下的言語可懂度依舊是人工耳蝸研究領域的一大挑戰。一個重要解決方式是引入或改進聲音信號處理技術,尤其是音頻降噪算法。然而,單一的聲音處理策略難以應對現實復雜的使用環境,較為理想的做法是針對不同的環境噪聲特點開啟特異性降噪算法。傳統的實現方式是讓植入者在使用過程中根據所處場景手動選擇合適的聽聲程序,但絕大部分的植入者因為怕麻煩或不夠專業而始終使用標準程序[1]。為此,聲音場景識別算法被引入到人工耳蝸等輔聽設備中[2,3],搭載此算法模塊的智能輔聽系統能夠自動識別所處場景,并開啟合適的聲音處理策略,從而避免手動切換聽聲程序,方便植入者自如應對復雜環境。諾爾康智能輔聽系統主要分為三大模塊(圖1):聲音場景識別模塊、策略配置模塊以及語音增強模塊。聲音場景識別技術從聲音信號中識別出所處的場景環境后,由策略配置模塊根據場景對語音增強模塊的各個算法策略進行統籌配置,選擇最適合當前場景的處理策略。語音增強模塊中包含諸多聲音處理策略,供策略配置模塊調用,通過對聲音數字信號進行算法處理,提升語音的舒適度、清晰度和可懂度。其中搭載了自動增益控制、單麥降噪技術“EVoice”、雙麥降噪技術“ABeam”以及增強音調感知的“CTone”策略等。EVoice降噪技術基于單通道信噪比估算聯合使用改進的維納濾波法進行降噪,在相對較低的信噪比下且背景噪聲較穩定時具有明顯的降噪效果,能夠使語譜噪聲下的言語接受閾(speech reception threshold,SRT)降低2.2 dB[4]。CTone策略通過加強與基頻(F0)變化相關的時域振幅包絡而增強植入者對音調的感知,能夠在安靜環境下改善植入者對聲調、單音節以及雙音節的識別準確度,提高漢語的可懂度[5]。ABeam是一種基于延時相加、差分麥克風陣列以及維納濾波的自適應雙麥降噪技術,可動態追蹤信號源和噪聲源的來源方向,自適應控制算法參數, 整體算法復雜度適中,降噪效果較好。本文將介紹ABeam策略的臨床實驗方案及結果。

1 資料與方法

1.1聲音場景識別模塊構建

1.1.1模型數據庫構建 聲音場景識別支持5個分類:語音、噪聲、帶噪語音、音樂和安靜。其中安靜的識別是通過檢測輸入聲音的能量是否超過閾值來實現,而其余四類則是通過場景識別分類器進行判別。用于聲音場景識別模型訓練的音頻樣本主要來源于網絡公開的聲音樣本庫下載和實地場景采集,將搜集到的聲音樣本進行人工分類和篩選。帶噪語音樣本來源于實地采集和后期合成。將音頻統一預處理成單聲道16 kHz采樣率的wav格式,并按照1 s時長進行裁切,之后設置合適的閾值線刪去聲壓級較低的樣本。最終獲得的數據庫樣本包括59 138 s的語音、71 395 s的噪聲、39 607 s的音樂以及59 387 s的帶噪語音。為使類別平衡,隨機選取每個類別39 000個樣本(10.8 h)用于模型構建,其余樣本部分用于后續的實時聲音場景識別性能評估。

1.1.2聲音場景識別模型構建

1.1.2.1特征篩選 前期實驗通過遞歸特征消除(recursive feature elimination)、隨機森林(random forest,RF)和極限樹(extra-trees,ET)等特征選擇法,依據重要度排序,從大量音頻特征中篩選出了16個對場景識別較為重要的特征,包括基于頻域的6個特征和基于倒譜域的10個梅爾倒譜系數(mel-frequency cepstral coefficients,MFCC)。頻域的6個特征包括3個帶通能量率(band energy ratio)相關的特征[直流分量比值、低頻(0~1 000 Hz)能量比值以及高頻(4 500~7 750 Hz)能量比值]、譜熵(spectral entropy)、譜通量(spectral flux)以及譜互相關系數(spectral cross-correlation coefficient)。

1.1.2.2分類模型篩選 在上述大數據集中每個分類隨機選取3 000個樣本構建一個較小的數據集,其中,80%作為訓練集,20%作為測試集。對每個樣本提取上述16個特征值構建特征值庫。之后,構建和訓練不同的模型學習特征值輸入到場景輸出的映射。這些機器學習模型包括支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)、極限樹(extra-trees,ET)、全連接神經網絡(fully-connected neural network,FC)、長短時記憶網絡(long short term memory networks,LSTM)、門控循環網絡(gated recurrent unit,GRU)以及卷積神經網絡(convolutional neural networks,CNN)。訓練每種模型時,調節模型的參數設置,使得模型在測試集上的預測準確度盡可能高。

1.1.2.3場景識別模型構建與性能評估 確定模型架構后,在前述較大的數據集上進行模型訓練和性能評估。通過10次五折交叉驗證的方法,將數據集分成5份,輪流用其中4份做訓練集剩余1份做測試集,記錄訓練好的模型在測試集上的識別結果,上述過程重復10次,以50個預測結果的均值來評估模型的預測性能。

1.1.3聲音場景識別綜合決策模塊 在模型預測后加入一個場景綜合決策模塊,該模塊基于動態累積投票積分,綜合考慮歷史場景識別結果,只有在系統穩定識別為某個場景的情況下才會發生場景切換,如此便可以盡量保證場景切換的穩定性,防止聲音處理策略頻繁更換給植入者帶來不良的聽聲體驗。

1.1.4實時聲音場景預測性能測試 將上述包括綜合決策模塊在內的整個聲音場景識別系統在人工耳蝸數字信號處理器(DSP)上實現,通過藍牙傳輸方式,將預測結果顯示在手機應用程序界面。隨機挑選一些不在模型訓練庫中的測試聲音樣本,拼接成5 min的測試文件,每個測試文件中的樣本來源于同一類聲音場景。音樂測試文件包括純音樂和帶人聲音樂兩類。測試文件數分別為語音9個,噪聲8個,帶噪語音8個,純音樂7個,帶人聲音樂6個。用揚聲器(Edifier R1600TIII)播放測試文件,人工耳蝸麥克風距離揚聲器0.5 m,播放白噪聲,調節揚聲器音量使人工耳蝸麥克風處的聲壓級達到75 dB SPL。測試過程中人工記錄app界面每次場景變化時的音頻播放時間以及預測結果。

1.2策略配置模塊 聲音處理策略配置模塊根據場景識別結果,自動配置合適的策略,改善植入者在各場景下的聽聲體驗。諾爾康的策略配置模塊見圖1,橫向箭頭指代特定場景下開啟哪種策略,例如:安靜場景下開啟自動增益,噪聲場景下開啟單/雙麥降噪算法。

1.3語音增強模塊

1.3.1研究對象 為評估語音增強模塊中的ABeam技術的降噪效果,招募13例人工耳蝸植入者(6男7女),年齡18~50歲(中位年齡46歲)。所有受試者均為成年語后聾植入者,母語均為漢語,單耳植入諾爾康人工耳蝸(植入體為CS-10A),測試時植入者的體外機換為三代機聲音處理器Voyager,并將其調試圖下載到處理器中聲音編碼策略為高級峰值選擇(advanced peak selection,APS),對應下文所述的“OFF”程序。受試者均可在安靜環境下進行有效交流,并在測試前簽訂知情同意書。

1.3.2臨床實驗流程 實驗過程中首先評估植入者在相對安靜情況下對開啟“ABeam”的主觀聽聲反饋。植入者被邀請至一間較為安靜(本底噪低于40 dB A)的房間進行面對面的交流,先測試“ON”后測試“OFF”程序,每個程序試聽時長為0.5~1 h,詢問并記錄受試者的主觀聽聲感受反饋。之后在環形聲場中進行噪聲環境下的言語識別率(speech recognition score,SRS)測試,測試的兩個程序分別為ABeam開啟“ON”和關閉“OFF”?!癘N”時Abeam策略作為一個預處理步驟整合到APS策略中(通道峰值選擇之前)。測試的噪聲源角度包括90°、180°和270°三個角度,噪聲類別為語譜噪聲(speech shaped noise,SSN),目標語音來自中文言語評估測試短句(Mandarin speech perception test-sentences,MSP)[6],包含10個句表,每個句表包含10個短句,每句有7個字。實驗測試條件為組合3個播放角度、2個程序共計6種,為每位受試者無重復偽隨機選擇其中6個句表的目標語音對應6種實驗條件(受試者、測試語句的組別選擇與測試條件的對應均做了一定的平衡考慮,盡可能做到各個情況出現的概率均等)。

1.3.3環形聲場及控制平臺 實驗在隔聲室(本底噪聲低于30 dB A)進行,內置環形聲場,12個揚聲器以30°的角度等間隔環形排列,半徑為1 m,每個揚聲器距離地面高度為1 m(圖2)。使用基于Matlab軟件開發的聲場控制實驗平臺的控制揚聲器播放。實驗前在揚聲器陣列的圓心位置放置一個全向麥克風接收聲音輸入用于反饋調整揚聲器的輸出聲壓級,用于自動校準揚聲器,實驗時移走。

圖2 環形聲場實驗室示意圖

1.4測試指標

1.4.1場景識別系統的預測性能

1.4.1.1不同種類模型在較小數據集測試集上的預測準確率 將訓練優化好的各模型在小數據集測試集上的預測結果與相應的人工標注結果進行比較,如果兩者相符,記為識別正確,計算每個模型預測正確的概率,即正確預測總數占整體測試樣本數的百分比。

1.4.1.2全連接神經網絡模型在較大數據集測試集上的預測準確率 每次訓練完畢,將在大數據集上訓練好的神經網絡模型預測結果與人工標注結果進行比較,如果兩者相符,記為識別正確,計算模型在整個測試集上預測正確的概率,即正確預測總數占整體測試樣本數的百分比作為該次模型的整體預測準確率。類似的,對于每個分類而言,統計每類真實標簽的樣本中被正確識別的總數占該類樣本總數的百分比作為模型對該類模型的預測準確率。之后,計算10次五折交叉驗證結果的整體預測準確率以及各分類的預測準確率。

1.4.1.3DSP實時場景識別準確率 對于每個測試文件,根據手動記錄的手機app界面顯示的場景切換時刻以及場景預測結果,分析每個預測分類的顯示時間占比,以正確分類的時間占比作為場景識別系統對該文件的識別準確率。之后,計算系統對每個分類下各個測試文件的識別準確率。

1.4.1.4DSP實時場景識別切換次數 對于每個測試文件,根據手動記錄的app界面顯示的場景切換時刻以及場景預測結果,獲得場景切換次數的結果。之后,計算系統對每個分類下各個測試文件的識別結果的切換次數。

1.4.2ABeam主觀聽聲效果VAS評估 使用視覺模擬評分法(visual analogue scale,VAS)量化受試者各個維度的主觀聽聲感受(表1),分別給兩個程序的使用感受進行評分。主觀評價指標主要包括背景噪聲、語音清晰度、聽聲舒適度、語音失真情況以及聽聲響度。

表1 聽聲效果VAS評估

1.4.3ABeam言語識別率評估 固定目標語音的播放角度為0°(受試者正對面方向),聲壓級為70 dB SPL;噪聲播放聲壓級由聲場控制實驗平臺程序自動根據設定的信噪比決定,本實驗中設定信噪比為5 dB。每組語料中的一句話播放結束時,要求受試者復述所聽內容,通過麥克風傳達給隔聲室外的測試者,由測試者操作程序界面選擇受試者正確復述出的字詞,之后進入該組下一句的播放,一組10句話測試完畢,程序自動統計受試者對整組語料的言語識別率。

1.5統計學方法 采用Matlab 2016a軟件對數據進行統計分析。組間比較采用配對t檢驗,檢驗水平α=0.05。P<0.05為差異有統計學意義。

2 結果

2.1模型篩選實驗結果 在小數據集上的模型篩選實驗結果表明在特征輸入保持一致的情況下,使用若干機器學習模型所能達到的預測準確度差異不大(表2)。從計算量、模型性能以及在DSP上的實現容易度等多方面綜合考慮,選擇使用人工神經網絡模型。通過調整模型架構(包括網絡層數和每層的節點數量),發現雙隱含層(每個隱含層包括10個神經元節點)的神經網絡模型(圖3)已經能獲得預期性能(在此小數據集上達到95%以上的預測準確率)。

表2 不同種類模型的場景識別預測性能評估

圖3 人工神經網絡模型架構

2.2場景識別系統模型性能評估結果

2.2.1模型在測試集上的預測性能 通過10次五折交叉驗證的方法統計模型在較大數據集上的預測性能,整體識別準確率為(90±0.5)%,其中語音98%±0.3%,噪聲92%±0.8%,音樂81%±1%,帶噪語音88%±2%。

2.2.2DSP實時場景預測性能 實時場景預測系統對各個測試文件的識別準確率以及場景切換次數統計結果見表3??梢?本系統對每個分類的識別準確度均可達90%以上,在5 min的測試過程中平均場景切換次數少于兩次。

表3 聲音場景識別系統對各個測試文件在人工耳蝸上的實時預測性能

2.3ABeam臨床測試結果

2.3.1聽聲效果VAS評估結果 13例受試者中有2例主觀反饋結果(VAS評估結果)遺失(言語識別率結果并未遺失),表4統計了剩余11例的聽聲效果VAS評估結果,可見,是否開啟ABeam對背景噪聲強度、語音清晰度、聽聲舒適度以及聽聲響度有顯著影響(P<0.05),而對語音失真并無顯著影響(P>0.05)。

表4 不同程序下聽聲效果VAS統計結果(分,

2.3.2言語識別率統計結果 各噪聲源角度下,13例受試者在開啟(“ON”)和關閉(“OFF”)ABeam算法時的SRS統計結果見表5??梢?在5 dB信噪比下,開啟ABeam算法受試者的SRS結果與不開啟有極顯著差異(t=4.23,μ=38,P<0.001)。當噪聲源位于180°時,開啟ABeam算法能顯著提升SRS(t=3.80,μ=12,P<0.01);而其它角度下,盡管是否開啟ABeam算法對SRS結果無顯著影響(P>0.05),但從均值上可以看出開啟后受試者SRS有上升趨勢。綜合三個噪聲源角度的測試結果,開啟ABeam后SRS平均可提升15.92%。

表5 不同程序下不同噪聲源角度言語識別率統計結果

3 討論

本文重點介紹了諾爾康人工耳蝸智能輔聽系統的聲音場景識別模塊以及雙麥降噪算法ABeam的臨床測試結果。前者在各個測試場景下的識別準確度均可達到較高水平,且識別較為穩定。但當前支持的場景數量較少,僅有語言、噪聲、帶噪語音、音樂和安靜5種,分類不夠細致,尤其是噪聲類別,這會限制聲音處理策略的優化配置,未來將增設常見的特定噪聲種類的識別,如風噪、車噪等。其他產品當前所支持的場景識別數量都與本研究所用的諾爾康產品相差不大,如Cochlear人工耳蝸的Smart Sound iQ技術支持6種場景識別[3],Med-EL人工耳蝸支持5個場景,Advanced Bionics人工耳蝸支持場景數稍多,為7個。因此,人工耳蝸上搭載的場景識別技術普遍還有較大的改進空間。然而,人工耳蝸設備的實時性和低功耗要求在一定程度上限制了較復雜的場景識別算法的應用,如何在較低的算力資源下改進聲音場景識別的預測性能成為這一研究領域的挑戰。此外,不止場景識別模塊,其他各聲音處理策略的開發也都需要兼顧算力和算法性能。

當前的策略配置模塊采用固定的場景-策略搭配模式,這種搭配方式,盡管開發者認為較為優化,但其實并未顧及到每個人的聽聲需求,更為合理的一種做法是獲取植入者的使用習慣和偏好,并對策略配置進行個體化的調控,這也是未來智能輔聽系統的一個發展方向。

在噪聲源和信號源空間分離的情況下,相較使用單麥降噪算法,基于雙麥克風輸入信號的方向性麥克風技術能更加有效地提高輸出信號的信噪比,顯著提升植入者的聽聲感受[7,8]。本文對ABeam策略的臨床使用性能做了一個初步探索,結果表明開啟ABeam(“ON”)較不開啟(“OFF”)能夠有效改善受試者的主觀聽聲效果,且能在一定程度上抑制來自側后方的背景噪聲,提升植入者的語音可懂度。但本研究受試者數量及實驗條件組合較少,未來將增設更多情況下的測試,如改變信噪比、噪聲種類、噪聲源方向、噪聲源數量、室內存在回聲和使用移動噪聲源方式(噪聲源位置在測試中隨時間發生變化)等,還將增加受試植入者數量及加入兒童人工耳蝸植入者,對ABeam算法在更多情況下的表現性能做評估。

本文僅對整個智能輔聽系統的性能進行了初步研究,選用的研究方法是從各個子模塊各自的實現性能上來間接反應整個系統的實現性能;更直接的方式是招募更多植入者,設計安靜和不同噪聲環境的測試情景,以植入者自身作為對照,對比使用智能輔聽系統和各自平時所用的標準程序這兩種情況下的聽聲效果。

人工耳蝸從最初的單電極刺激方式發展到如今的多通道刺激,植入者的聽聲效果在不斷改善,而與此同時,植入者對產品的期待也越來越高,希望能獲得與正常聽力者相近甚至趕超的聽聲效果。智能輔聽系統的出現和應用是人工耳蝸發展與成熟的必經之路,如何在有限的計算資源前提下提高可識別場景的種類以及識別準確度,并根據聲音場景特點開發和配置合適的聲音處理策略是該領域的研究重點和難點。

猜你喜歡
耳蝸受試者語音
涉及人的生物醫學研究應遵循的倫理原則
涉及人的生物醫學研究應遵循的倫理原則
耳蝸微音器電位臨床操作要點
涉及人的生物醫學研究應遵循的倫理原則
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
涉及人的生物醫學研究應遵循的倫理原則
對方正在輸入……
DR內聽道像及多層螺旋CT三維重建對人工耳蝸的效果評估
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合