?

基于REMOS 的遠距離語音識別模型補償方法

2014-02-23 07:03李勁松孫明偉
關鍵詞:混響麥克風聲源

楊 勇,李勁松,孫明偉

(重慶郵電大學計算機科學與技術研究所,重慶 400065)

0 引言

封閉環境中的遠距離語音識別[1],測試語音容易受到混響效果的影響?;祉憰е抡Z音幅值變化、相位延時和共振峰偏移。此外,混響還會產生其他新的譜峰,拖尾的混響聲部分還會造成音節的相互掩蔽。通?,F有語音識別系統都是在無混響或弱混響環境中采用(準)純凈語音訓練得到識別模型所需的參數[2]。在一個真實的封閉環境中使用該識別模型時,由于訓練環境和測試環境發生失配,導致語音訓練集與測試集不匹配,從而系統識別率會發生急劇下降。

為了消除混響的影響,一般來說可以從信號域、特征域和模型域3個方面來進行處理[2]。比如語音增強、麥克風陣列屬于信號域方法,特征規整屬于特征域方法,模型補償屬于模型域方法。信號域方法可以獲得較好的語音處理效果,但其原理復雜、傳聲器體積龐大且昂貴[3];特征規整方法應用在語音的前端處理,處理效果不如信號域理想,且過于復雜的處理算法影響系統的實時性[4];訓練帶有混響的語音數據[5],以及線性和非線性的模型補償[6],是最近幾年來的一些模型補償新方法,但往往這些方法都沒有考慮到環境因素,即缺乏環境適應性。

混響建模(reverberation modeling for speech recognition,REMOS)[7]是 Armin Sehr等提出的一種在模型域解混響的新方法,該方法實質是在模型域模擬混響信號的產生特點,根據實際語音分幀長度,求出房間沖擊響應(room impulse response,RIR)[7]的幀數目,建立混響模型(reverberation model,RM),利用混響模型參數在模型域對每一幀清晰語音特征向量補償相同幀數目的混響補償值。Armin Sehr完成了在mel頻域[7]、對數域補償以及相應的性能分析,實驗證明REMOS能有效地提高語音識別的混響魯棒性[7]。之后又在REMOS基礎上提出按幀補償的隱馬爾可夫模型 (hidden Markov model,HMM)自適應方法(REMOS-based frame-wise model adaptation,REMOS-FMA)[8],該方法將 REMOS 理論應用到HMM自適應方法中,使得REMOS有了實際應用價值。但該方法在模型域補償階段對HMM參數進行的混響補償是一種固定補償。在實際語音識別應用中,聲源位置是未知的,且同一房間中不同區域的局部RM差異很大,若在不同區域仍然使用同一個RM,將會導致補償不精確。此外,若聲源位置發生變動,但在模型域的混響補償沒有做相應的變化,也會造成補償變得不精確,從而導致識別率不能得到有效提高。

針對這一問題,本文應用最大后驗概率思想,結合RIR序列的特征,提出一種位置劃分的模型自適應方法(location divided model adaptation,LDMA)。位置的劃分實際是一種對RIR優化集的聚類過程,該方法首先建立與RIR序列相綁定的混響模型,求出RIR序列的優化集,通過 K-means聚類算法[9]對RIR優化集進行聚類,從而達到對綁定混響模型的聚類。對所屬相同類的混響模型進行合并處理,再把合并后的混響模型載入Viterbi算法[10]中,對清晰語音的HMM模型進行按幀的補償。最后采用后驗概率方法挑選最佳補償,使得模型域的混響補償能最接近精確補償。

1 混響模型概念

如果忽略加性干擾,麥克風在混響環境中接受的信號x(n)可以描述為清晰語音信號與房間沖激響應h(n)在時域的卷積

(2)式中:smel,hmel和 xmel分別為清晰語音、RIR、混響語音的mel域fft數值向量;k為語音幀標識;⊙表示是元素對應項相乘;m為混響幀標識,代表了一定的幀延時;M為混響幀數目。RIR序列可由聲學測量儀器得到,也可用經典鏡像方法(image method)[11]計算得到。M可以通過(3)式計算得到,L為RIR序列長度,W為語音加窗長度,d為語音幀兩兩重疊長度。

混響模型反映了在特定房間、已知麥克風位置以及聲源位置下產生的RIR集的統計概率特性。RM是一個l×m的二維矩陣,每一行代表一個mel信道l,每一列代表一個確定的幀延時,每一個矩陣元素是RIR序列的mel域特征的獨立同分布高斯隨機過程。簡單的說,不同的矩陣元素之間具有統計獨立性[7]。

2 基于混響模型的模型域補償方法

前文已經探討了混響問題對語音時頻域的影響,以及混響模型的基本概念。REMOS-FMA是一種利用混響模型在模型域進行補償的方法。它利用事先建立好的RM,在Viterbi解碼時期,對HMM模型參數進行補償,并且考慮前面語音幀對當前語音特征造成的延時影響。該方法實質是在模型域模擬混響語音的形成特點,在當前要識別的語音模型參數上疊加混響幀的特征參數,來達到減小訓練集與測試集之間差異的目的。但該方法仍然存在一定的弊端:①該方法存在補償不夠精確的問題,用RM中提供的均值向量與清晰語音的HMM參數做點乘運算,但RM是RIR集在mel頻域向量轉換到mel特征域向量得到的,由頻域轉換到特征域需要經過濾波處理,如果再以特征域與清晰語音的HMM參數做點乘運算,將會使補償不夠精確;②該方法在補償時沒有針對性,缺乏自適應性,處在同一房間的不同位置,RIR序列有很大的差異,FMA在利用RM進行補償時,并沒有考慮到這種差異性,而是用多個特定位置求得的RM進行特定補償。如果聲源位置發生變化,或測試語音位置不在訓練RM時的幾個特定位置上,但仍然使用同一個RM參數去補償清晰HMM參數時,這樣補償顯然是不合適的。

針對這2個問題,本文提出了一種新的基于位置劃分的模型自適應方法。對第1個問題,本文引入了輔助矩陣來改進混響模型;對第2個問題,本文提出了基于K-means的位置劃分以及最大后驗概率的思想來解決該問題。

3 基于位置劃分的模型自適應方法

3.1 引入輔助矩陣修正混響模型

在固定位置進行模型域補償。所謂固定位置,即混響語音x(n)由s(n)和h(n)在時域卷積直接得到,而h(n)在由鏡像方法計算時,需要提供確定的位置參數。語音特征提取過程中,由頻域轉換到特征域一般來說有多種方法,例如文獻[11]中提到了對每個mel濾波器內的頻域值進行求和運算,劍橋大學的開源語音識別引擎HTK[12]的實現方式則是先對每個mel濾波器內相鄰的2個頻域值求歐式距離,再對所有歐式距離值進行求和運算。相比之下,HTK的這種計算方式具有更好的魯棒性[12]。最后在每個語音幀中求得l個(假設取l個mel濾波器組)mel頻率特征。由頻域轉換到mel特征域以后,混響補償可表示為

(4)式中:Smel,Hmel和 X'mel分別為清晰語音、RIR、混響語音的mel域特征向量;X'mel為Xmel的估計值;l為mel信道標識。文獻[7]中證明采用Monte-Carlo方法計算得到的Hmel比直接通過RIR序列計算mel域特征向量更精確,Monte-Carlo方法如(5)式所示

語音從頻域轉變到特征域,將RIR的mel域特征向量與清晰語音的mel域特征向量分開計算,會與真實的混響語音的mel域特征向量Xmel存在誤差。所以我們引入輔助矩陣

(6)式中:a(l)為l×l的輔助矩陣,如(7)式所示,可通過求廣義逆方法確定該矩陣

3.2 位置劃分

上文討論了如何在固定位置獲輔助矩陣來修正RM的問題,也指出了FMA方法在補償端不具有位置自適應的問題。若想要達到位置自適應的目的,可以通過在不同位置獲得的RM對HMM模型進行有區別的補償,通過最大后驗概率的思想選取最佳的補償。但如果在一個房間訓練了上千個隨機位置所對應的RM,則在每次補償都需要進行上千次試探性補償,這對語音識別的實時性來講是無法接受的。由于相鄰位置的RIR序列有著極為相似的特征[7],所以如果能對位置進行適當的劃分,利用一類位置的RM代替固定位置的RM,并在補償精度與時間復雜度之間做出權衡,對識別效率來講是有益的。

由于RM矩陣很難找出明顯聚類特征,對基于位置的RM矩陣進行聚類是困難的,考慮到每一個RM矩陣都是在一個特定位置計算得到,而不同位置有對應的RIR序列。所以若將特定位置的RIR序列與對應的RM矩陣綁定,求出RIR優化集,再對RIR優化集的特征進行聚類,即可得到基于位置的RM矩陣的聚類結果,聚類步驟如圖1所示。

圖1 K-means聚類流程圖Fig.1 K-means clustering flow chart

首先對同一房間、固定麥克風位置,利用鏡像法生成RIR集,用3.1中的方法計算得到對應位置的修正后的RM,聚類前首先對N個RIR進行分幀處理,求出優化序列,幀大小與HTK中語音特征提取幀大小一致,假設為M點每幀,處理過程如下。

RIROS(RIR optimized sequences)為 RIR優化序列,i為RIR優化序列的維數,j為幀標識,M可由(3)式計算獲得,最后得到的RIR優化序列實際是RIR序列的分幀加權特征。由于每一個RIR序列都綁定有一個RM矩陣,當多個RIR優化集通過K-means聚為一類時,對應的均值補償矩陣與方差補償矩陣也需要做合并處理。假設將相同環境和相同麥克風位置條件下得到的RIR優化集聚為c個類,它的物理意義就是將位置劃分成了c個部分。將每個部分中的RM進行合并,合并過程如式(10)和式(11)所示,cT為第i類中RIR優化序列的數目,下標i為類標識(1≤i≤n)??傻玫趇個RM類的補償均值向量與方差向量

3.3 Viterbi算法嵌入

將這c個類的RM均值向量、與方差向量代入Viterbi解碼網絡中,具體方法如下。

由清晰語音訓練得到的HMM輸出概率均值向量位于MFCC(Mel frequency cepstrum coefficient)倒譜域中,需要轉換到mel頻域才能進行模型域的補償。MFCC域與mel域的相互轉換計算式為

通過Viterbi算法在當前狀態讀出每一個模型的輸出均值向量與方差向量,用3.2中實施聚類修正后的RM參數做出按幀的補償,從直達語音幀和混響語音幀兩方面模擬輸入語音的混響形成,具體方法如下。

1 )首先需要計算直達語音的模型補償,直達語音即在空間中未經過任何反射直接從聲源傳入麥克風的語音幀。對于直達語音的倒譜特征向量來說,均值向量等同于清晰語音的均值向量加上RM第0列的均值向量

(13)式中:k為幀標識;r為類標識。同樣,方差向量等同于清晰語音的方差向量加上RM第0列的方差向量

2 )然后是混響語音幀的補償,需要在當前幀的清晰語音的均值向量上疊加前面M個幀的混響均值向量。由于方差向量對于混響語音幀的影響很小,且較難估算,因此,忽略混響幀的方差補償。

3 )補償后的當前幀均值向量為直達語音幀均值向量加上混響語音幀的均值向量

由于忽略了混響語音幀的方差向量值,所以補償后的當前幀方差向量約等于直達幀的方差向量值。

(18)式中,bij為狀態的輸出概率。利用最大后驗概率的思想,從r個補償結果中選擇出最佳補償結果

(19)式中,aij為HMM的狀態轉移概率。

4 實驗分析

本節通過對RIR優化集聚類結果進行分析,并與幾種傳統的基于HMM的語音識別模型域補償方法進行比較,從多個方面證明了LDMA在語音識別中處理帶混響的語音數據是有效的。實驗環境:2.3 GHz雙核CPU,2 GByte內存,操作系統為 windows xp sp3,HTK版本號為3.4.1,編程工具為vs2010和matlab R2010a。實驗中采用an4語料庫作為實驗語料來源。an4語料庫是卡內基梅隆大學(Carnegie Mellon University,CMU)錄制的無任何雜音的清晰語音庫,由an4_clstk訓練庫和an4test_clstk測試庫組成。其中an4_clstk訓練庫由74個不同人錄制的949個語音文件,an4test_clstk測試庫由10個不同人錄制的130個語音文件,訓練庫和測試庫由完全不同的人錄制。利用VS2010對HTK識別引擎源代碼進行修改,重新編譯生成動態鏈接庫,識別時加載保存的RM文件,實現LDMA方法。

4.1 RIR優化集的聚類實驗

聚類實驗的設置,其目的是驗證和測試對RIR優化集聚類,從而實現對封閉環境不同區域進行有區別補償的可行性。在實驗過程中,首先定義房間幾何尺寸、聲源位置以及隨機的麥克風坐標參數。通過鏡像算法產生5 000組模擬的RIR序列,然后通過優化RIR集得到RIR優化集,最后利用K-means聚類聚類算法對RIR優化集進行聚類,得到聚類結果。

圖2是在長寬高分別為10 m,8 m,3 m的房間進行10個聚類的示意圖。每一幅圖中都包含5 000個隨機點,每一點代表一個由隨機位置產生的RIR序列計算得來的RIR優化向量。

圖2 利用K-means將RIR優化集聚為10類效果圖Fig.2 Implement K-means algorithm on RIR optimized sets in 10 classes

圖2展示了對RIR優化集實施K-means聚類后,將房間的聲學空間分為多個類的情況。圖2中的3幅圖分別為3組不同麥克風坐標情況下的聚類圖,從左至右麥克風的三維坐標依次為(6 m,6 m,1.6 m),(5m,4m,1.6m)和(0m,0m,1.6m)。圖2中虛線為類間的分割線,不同的聲學空間呈現出不同的聚類形狀,聚類效果明顯。說明對處于每一個局部聲學空間中的語音進行有針對性的模型補償是可行的。

4.2 不同模型域補償方法的對比實驗

本節把LDMA與幾種主流的模型域去混響方法進行了對比。其中,混響HMM方法是指將清晰語音模型用混響語音模型來代替,即語音訓練集加入了混響效果;HMM-MLLR[13]是一種典型的非線性模型補償方法,該方法從非清晰語音中得到的一些經驗數據,通過一組線性回歸變換函數,對清晰語音高斯分量的均值和方差進行變換,使其更好地擬合非清晰語音。所有實驗過程都采用相同的訓練方法,最終的HMM均為狀態數為5的三音素模型,輸出概率模型為單高斯概率密度函數。為更好地驗證本方法在固定位置聲源與隨機位置聲源2種情況下,采用局部混響模型比采用全局混響模型進行補償的精度更高,設置了固定位置聲源與隨機位置聲源的對比試驗。在2組試驗中,R1,R2,R3分別為作者所在研究所的實驗室、會議室和辦公室,3個房間的大小依次為 R1(10 m,8 m,3 m),R2(5 m,6 m,m)以及R3(3 m,3 m,3 m),且3個房間中LDMA 的聚類數n都統一為20。

在固位置位置聲源的對比試驗中,設置麥克風三維坐標為6m,6 m和1.5 m,聲源坐標為4 m,5 m和1.5 m,在此位置上對清晰語音加入相應混響,實驗結果如表1所示。

表1 在不同房間使用固定位置混響語音的實驗結果Tab.1 Experimental results through implementing same locate reverberantion on test speech in different rooms

從表1中可以看到,“Clear”表示清晰的測試語音,可以看到清晰語音有較高的識別率,在對R1,R2和R3中的固定位置的混響語音進行測試時,由于混響程度隨著房間空間的增大而增大,測試語音與清晰語音模型之間的差異性也就越大,所以在較大房間R1中識別率最低,而在小房間R3的識別率最高。此外,混響HMM由于環境未發生改變,即聲源位置固定,所以能獲得較為理想的識別效果。MLLR由于只考慮了環境的模擬問題,未考慮混響帶來的語音幀疊加問題,因此MLLR對解決混響問題效果一般,更多的是用于解決說話人自適應。FMA與LDMA都是采用清晰語音訓練得到的HMM模型,但FMA方法用全局的混響模型參數對清晰語音HMM模型進行補償,性能低于利用局部混響模型參數進行補償的LDMA。

在隨機位置聲源的實驗中,麥克風三維坐標統一為6 m,6 m和1.5 m,其中混響語音A在距麥克風5~6 m的隨機位置對清晰語音加混響得到,由于不同位置的混響特征序列是不同的,因此由隨機位置得到的混響語音的混響程度是不同的,混響語音B和C采用同樣的方法分別在距麥克風3~4 m和1~2 m錄制得到,以測試在不同區域內采用隨機位置聲源的各方法的性能優劣。實驗結果如表2所示。

表2 在不同房間使用隨機位置混響語音的實驗結果Tab.2 Experimental results through implementing random locate reverberantion on test speech in different rooms

從表2中可以看到,混響HMM在不同環境以及不同程度的混響語音中性能較為穩定,但混響HMM的實現方法表明了它是一種不靈活的方法,該方法在訓練時采用混響語音進行訓練,即訓練集與測試集都需要在混響程度上保持一致性。這意味著在測試時如果改變了聲源位置或者更換了房間,訓練集與測試集將會出現不匹配,導致性能下降。因此,表2中的混響HMM平均性能會低于表1。同樣,由于FMA在補償階段一直使用同一個混響模型進行補償,而LDMA能在多個局部混響模型中進行有效地選擇,所以LDMA帶來的性能提升相對于固定位置聲源時更明顯。

綜合2個試驗,LDMA都有較好的性能,且在測試語音為隨機位置聲源時,LDMA的性能提升幅度更大,這是由于LDMA在識別階段利用最大后驗概率方法選出了最佳的混響補償類,因此,在隨機位置試驗中得到的性能與固定位置時很接近。在R3中由于房間尺寸很小,房間中不同位置的聲學空間差異會變得很小,這種情況下對聲學空間進行聚類,類間差異也會減小,所以LDMA帶來的性能提升是極其有限的。但是在R1這種相對較大的房間內,LDMA對性能的提升就很明顯。

4.3 LDMA的實時性分析

實時性方面,對于固定位置聲源的情況,由于LDMA不需要在多個局部混響模型中進行選擇,因此對實時性并無影響。但對于隨機位置聲源的情況,由于LDMA在選擇最佳混響模型時,需要分別加載多個混響模型,使得方法的實時性受到影響,其中混響模型的數量由聚類數決定。本實驗通過在HTK源碼中加入識別時起始時間點檢測代碼,從而計算出130個測試語音在不同聚類數下的平均識別時間。圖3展示了聚類數與識別率之間的關系,圖4展示了聚類數與識別單條語料時所耗時間之間的關系。

圖3 不同房間中聚類數對識別率的影響Fig.3 Effect on recognition rate by clustering number in different rooms

從圖3中可看到,當聚類數在2-6之間時,對識別率的提升較為明顯,尤其在R1和R2這種相對較大的房間中,位置劃分的作用比較明顯。當聚類數大于10時,雖然識別率有所提升,但提升幅度較小。如圖4所示,若在補償時遍歷所有的混響模型,LDMA識別單條語料的時間與聚類數n之間基本呈線性上升關系,n=0時,即不對RIR優化集進行聚類操作。

圖4 LDMA實時性與聚類數關系圖Fig.4 Relation between LDMA real-time and clustering number

綜上所述,LDMA的聚類數選擇在2-6之間,可以在保持較高實時性的情況下,有效提升混響環境中的識別率,尤其是在類似于R1和R2空間較大的房間中,分區域的進行補償顯得更為重要,性能提升更加明顯。表3給出了多種識別方法的單條語料識別時間對比。

表3 LDMA與其他幾種方法的實時性能對比Tab.3 Contrast of real-time performance between LDMA and several othermethods

由圖3可以看到,混響HMM由于在解碼階段不需要對模型參數進行計算,所以實時性與普通HMM一樣。MLLR采用了在線的非線性模型補償函數,單條語料的識別時間有所上升。FMA方法的實時性能與LDMA在聚類數為0時相同。由于實時性能還與采樣點數、特征向量維數、模型訓練方法有關,通常單條語料的識別時間不超過500 ms就能滿足實時性的需求[14],能看出LDMA方法可在較小的實時性能損耗情況下有效提升識別正確率。

另外,在試驗中發現,靠近麥克風位置的混響模型被選中的概率遠遠大于其他位置的模型。這是由于實際應用當中,聲源往往更多地出現在麥克風的周邊位置,而很少出現在其他位置,例如房間的幾個角落,所以在識別時舍棄部分混響模型將可以進一步提升方法的實時性。這可以作為未來的研究工作。

5 結論

本文利用最大后驗概率的原理,基于對房間不同區域進行有區別補償的思想,在按幀的HMM模型補償的基礎上,提出一種在封閉環境中新的模型補償方法。實驗結果表明,該方法能有效消除混響效果的影響,進一步提升遠距離語音識別的精度。另外該方法可以方便地在開源語音識別工具包ATK(an application toolkit for HTK)[15]的底層庫文件中實現,從而應用到語音識別的應用程序中。下一步要研究的工作就是在保持一定的識別精度的同時,通過保持一定的聚類數提升方法的實時性,可以在選擇混響模型時有針對性的進行選擇或者利用歷史經驗淘汰一些并不常用的混響模型等,這些方法都很有探討價值。

[1]MATTHIASW?lfel,MCDONOUGH John.Distant Speech Recognition[M].Germany:John Wiley& Sons Ltd.2009.

[2]GOMEZ R.Robust Speech Recognition Based on Dereverberation Parameter Optimization Using Acoustic Model Likelihood[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(7):1708-1716.

[3]NOBUTAKA Ito,HIKARU Shimizu.Diffuse Noise Suppression sing Crystal-Shaped Microphone Arrays[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7):2101-2110.

[4]張德會,陳光冶.復倒譜域語音信號去混響研究[J].聲學技術,2009,28(1):39-44.

ZHANG Dehui,CHEN Guangye.Speech signal dereverberation with cepstral processing[J].Technical Acoustics,2009,28(1):39-44.

[5]SEHR A,HOFMANN C,MAASR.Multi-style training of hmms with stereo data for reverberation-robust speech recognition[C]//Hands-free Speech Communication and Microphone Arrays(HSCMA).Germany:IEEE Press,2011:196-200.

[6]呂勇,吳鎮揚.基于最大似然多項式回歸的魯棒語音識別[J].聲學學報,2010,35(1):88-96.

LV Yong,WU Zhenyang.Maximum likeli-hood polynomial regression for robust speech recognition[J].ACTA ACUSTICA,2010,35(1):88-96.

[7]SEHR A,MAAS R,KELLERMANN W.Reverberation model based decoding in the logmelspec domain for robust distant-talking speech recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(7):1676-1691.

[8]SEHR A,MAAS R,KELLERMANN W.Frame-wise hmm adaptation using state-dependent reverberation estimates[C]//International Conference on Acoustics,Speech,and Signal Processing(ICASSP).Germany:IEEE Press,2011:5484-5487.

[9]ALAVINIA S.Single channel speech/music segregation based on a novel K-means clustering schema[C]//Signal Processing and Information Technology(ISSPIT),Iran:IEEE Press,2011:567-572.

[10]BUERA L.Unsupervised Data-Driven Feature Vector

Normalization With Acoustic Model Adaptation for Robust Speech Recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(2):296-309.[11]廖啟鵬,孔榮.基于最小相位分解的語音去混響[J].

通信技術,2011,44(6):78-82.

LIAO Qipeng,KONG Rong.Dereverberation based on Minimum Phase Decomposition[J].COMMUNICATIONS TECHNOLOGY,2011,44(6):78-82.

[12]YOUNG Steve,EVERMANN Gunnar,GALESMark,et

al.The HTK Book(for HTK Version 3.4)[M].UK:Cambridge University Engineering Department,2009.[13]KIM D,GALESM.Noisy Constrained Maximum-Likelihood Linear Regression for Noise-Robust Speech Recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(2):315-325.

[14]HUGGINS Daines.Pocket sphinx:A Free,Real-Time Continuous Speech Recognition System for Hand-Held Devices[C]//International Conference on Acoustics,Speech,and Signal Processing(ICASSP).USA:IEEE Press,2006:185-188.

[15]YOUNG Steve.ATK Manual(Version 1.6)[M].UK:Cambridge University Engineering Department,2007.

(編輯:田海江)

猜你喜歡
混響麥克風聲源
GRAS發布新12Bx系列、支持TEDS的測量麥克風電源模塊
虛擬聲源定位的等效源近場聲全息算法
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
基于GCC-nearest時延估計的室內聲源定位
海洋混響特性分析與建模仿真研究?
淺談音響效果器的應用
麥克風的藝術
運用內積相關性結合迭代相減識別兩點聲源
用于室內環境說話人識別的混響補償方法
麥克風
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合