?

復高斯混合模型分布式語音分離方法研究

2021-04-19 12:38郭心偉刁明芳鄭成詩李曉東
信號處理 2021年4期
關鍵詞:空域協方差分布式

郭心偉 刁明芳 鄭成詩 李曉東

(1. 中國科學院聲學研究所, 北京 100190; 2. 中國科學院大學, 北京 100049;3. 中國人民解放軍總醫院第六醫學中心, 北京 100048)

1 引言

無線聲傳感網絡(Wireless Acoustic Sensor Networks, WASNs)一般由多個節點組成,每個節點包括一個或多個傳聲器、一個處理單元和一個能夠實現節點之間交換數據的無線通信模塊[1-2]。相比于傳統的單傳聲器陣列,WASNs可以覆蓋更大范圍的區域,增加了存在靠近目標源的節點的可能,因此一些節點可以拾取到具有更高信噪比和直達混響比的信號[3- 4]。作為下一代的音頻獲取和處理技術,WASNs有許多潛在的應用,例如聲學事件監測[5- 6]和智能家居系統[7- 8]。

復高斯混合模型(Complex Gaussian Mixture Model, CGMM)是常用的多說話人分離模型,其利用語音信號的統計特性來進行多說話人分離。相比單傳聲器陣列,WASNs提供了更加豐富的空域信息,有望提升CGMM的分離性能。常規的集中式的CGMM要求每個節點發送自己的接收信號向量以便每個節點都能獲得WASNs的所有接收信號向量,因此在每個節點形成了維度非常高的信號向量。在CGMM用期望最大化(Expectation Maximization, EM)算法迭代估計后驗概率和模型參數的過程中,每個節點需要多次對該高維信號向量進行處理,例如空域協方差矩陣求逆[9-11],導致了非常高的計算復雜度和非常高的能量消耗。此外,CGMM迭代估計的分離性能與EM算法的初始值密切相關[12]。當只有一個說話人存在時,通??梢杂媒邮招盘柕南嚓P矩陣進行空域協方差矩陣的初始化。當有多個說話人存在時,通常需要預先對訓練數據集進行處理來實現不同說話人的空域協方差矩陣的初始化;而在實際應用場景中,訓練數據集通常很難獲取。

本文提出了一個復高斯混合模型下的分布式多說話人分離及其基于到達角度(Direction of Arrival, DOA)量測自聚類的空域協方差矩陣初始化方法。在不同節點之間的接收信號向量條件獨立的前提假設下[13-14],本文推導出分布式CGMM迭代過程中的所有接收信號向量對應的空域協方差矩陣的求逆和后驗概率等參數的估計可以逐節點進行;然后,每個節點融合其他節點的接收信號向量對應的空域協方差矩陣和后驗概率等參數來更新全局的相關參數?;诖?本文提出用基于DOA的導向矢量的相關矩陣來初始化每個節點的空域協方差矩陣??紤]該方法存在DOA模糊問題,即不同節點上具有相同索引的DOA并不一定對應同一個說話人。為了解決DOA模糊問題以使不同節點能夠協同工作,本文進一步提出了基于DOA量測自聚類的方法來從不同節點上選出對應同一個說話人的DOA量測值組合。同時,這個方法從空域上區分了不同的說話人,避免了分離問題中常見的排序問題[15-16]。最后的實驗結果證實了本文提出的方法的有效性。

2 信號模型

(1)

其中,f代表頻率索引,l代表幀索引,上標T代表轉置,yj(f,l)是第j個節點的接收信號向量。

若有K個說話人,y(f,l)可建模如下:

(2)

3 集中式復高斯混合模型

考慮到語音信號在時頻域的稀疏性[17],即每個時頻點至多只有一個說話人,接收信號可聚集到K+1個類別,其中每個類別只包含一個說話人的含噪語音或者只包含噪聲。因此,式(2)中的信號模型可表示為[9]:

y(f,l)=h(ν)(f)s(ν)(f,l) (ν=d(f,l))

(3)

其中,d(f,l)代表時頻點(f,l)的類別索引。ν可以取值k+n或n,其對應的類別分別為第k個說話人的含噪語音s(k+n)(f,l)或噪聲s(n)(f,l)。

假設s(ν)(f,l)服從一個復高斯分布:

(4)

其中,φ(ν)(f,l)對應信號方差。因此,當已知時頻點(f,l)的類別索引時,接收信號y(f,l)的條件分布為:

(5)

其中,R(ν)(f)為空域協方差矩陣且對應h(ν)(f)h(ν)H(f)。通過對類別索引d(f,l)求邊緣分布,可得接收信號y(f,l)服從的CGMM為

(6)

CGMM的參數α(ν)(f),φ(ν)(f,l)和R(ν)(f)可以通過最大似然法估計。最大似然法估計可以通過EM算法實現。根據[9],代表d(f,l)=ν的后驗概率λ(ν)(f,l)可以通過下式計算:

(7)

其中,Θ′代表上一次參數估計的集合。在M-step中,CGMM的參數更新如下:

(8)

在收斂以后,λ(ν)(f,l)可以作為時頻點(f,l)的掩蔽的估計。

集中式CGMM要求每個節點發送自己的接收信號向量以使每個節點都能獲得WASNs的所有接收信號向量,因此在每個節點形成了M×1的高維信號向量y(f,l)。在式(7)和式(8)的迭代過程中,需多次對該高維信號向量對應的不同類別的R(ν)(f)求逆,計算復雜度高且能量消耗大。

4 分布式復高斯混合模型

復高斯混合模型下的分布式多聲源分離算法(Distributed Complex Gaussian Mixture Model, DCGMM)利用了不同節點之間的接收信號向量條件獨立的前提假設[13-14],使得EM算法迭代過程中的空域協方差矩陣的求逆、信號方差和后驗概率的估計可以逐節點局部進行。然后,每個節點融合其他節點對應的參數來更新全局的參數。最后,EM算法收斂后即可獲得全局后驗概率λ(ν)(f,l)。

4.1 分布式復高斯混合模型推導

根據不同節點之間的接收信號向量條件獨立的前提假設,式(6)中的所有接收信號向量對應的空域協方差矩陣即R(ν)(f)有如下的塊對角形式:

(9)

(10)

(11)

此時,對于DCGMM來說,其E-step為:

(12)

其M-step為:

(13)

其中,Blkdiag(·)表示R(ν)(f)具有式(9)的塊對角形式。

表1 計算復雜度對比

4.2 分布式復高斯混合模型的空域協方差矩陣初始化

圖1 DOA模糊示意圖.θ1,1,θ1,2和θ2,1,θ2,2分別是node 1和node 2估計的兩個說話人的DOA.但是,node 1和 node 2并不知道對方的哪個DOA量測值和自己的DOA量測值對應同一個說話人Fig.1 The illustration of DOA ambiguity. θj,k, j∈[1,2],k∈[1,2] are the DOA measurements about the two speakers including speaker 1 and speaker 2 at node j. However, it is unclear that which DOA measurements from different nodes correspond to the same speaker

(14)

其中,A(j,∶)代表矩陣A的第j行,b(j)代表向量b的第j個元素。

(15)

對應固定密度,即rk固定的樣本點分布橢圓上。這個橢圓的面積Vk衡量了樣本點相對于中心的分散程度,且可以表示為:

(16)

因此,行列式det(Σk)1/2與Vk在數學意義上等價,可以用作衡量樣本點分散程度的代價函數,越大的det(Σk)1/2意味著樣本點越發散。

(17)

我們的目標是尋找最優的DOA量測值組合:

(18)

(19)

去進行初始化。

4.3 3-step啟發式聚類算法

窮舉最大似然方法需要計算所有可能的DOA量測值組合對應的橢圓面積來尋找對應同一個說話人的DOA量測值組合。隨著說話人個數K或節點個數J的增加,組合個數將急劇增加,導致計算復雜度不能接受。因此,本文提出了一個基于自聚類量測組合的3-step啟發式聚類算法。它首先選擇初始節點,并且組合它們的DOA量測值來獲得潛在的說話人位置。然后,用潛在說話人位置去匹配剩余節點的DOA量測值來預先拒絕錯誤的組合。最后,使用不同說話人的被選中的DOA量測值組合去構造分組矩陣,以便最終選擇對應同一個說話人的DOA量測值組合。

4.3.1 選擇初始節點去估計潛在說話人位置

Algorithm 1 組合m個初始節點的DOA量測值for k=1 to K q=0 Bk是一個空矩陣 for κ2=1 to K ? for κm=1 to K q=q+1 Row (Bk)q=[k,κ2,…,κm]∥m個索引被存儲在匹配矩陣Bk的第q行 end endend

4.3.2 匹配剩余節點的DOA去預先拒絕錯誤的組合

逐個添加剩余節點并用潛在說話人位置去匹配它們的DOA量測值以便預先拒絕掉許多錯誤的DOA量測值組合。

(20)

角度差的誤差βk,q, j的定義如下:

(21)

對節點j∈[m+2,J]重復上面的匹配過程,同時,更新Bk和ρ。對每個說話人k∈[1,K]執行該步驟,從而極大降低錯誤的DOA組合數目。

4.3.3 構造分組矩陣去最終選擇對應同一個說話人的DOA量測值組合

經過上面的匹配步驟后,對于每一個說話人,有ρ個被選中的組合,即Bk∈Nρ×J。根據式(17),可以獲得Bk中的每個組合對應的橢圓面積。把Bk對應的ρ個橢圓面積按從小到大的順序排列,然后只保留前ρ2個橢圓面積對應的組合(為了避免丟失對應同一個說話人的DOA量測值組合,ρ2通常需要取較大的值,例如,ρ2=2K)。

從每個匹配矩陣Bk,k∈[1,K]中挑選一個DOA量測值組合去構造一個K×J的分組矩陣,該矩陣的第k行對應第k個說話人。由于一個說話人只能使用每個節點的一個DOA量測值,因此,如果一個分組矩陣的某一列中有重復的索引,那么該分組矩陣將被刪除,如 Algorithm 2。對于每一個分組矩陣,求它的K個橢圓面積的和。最終,對應最小和的分組矩陣將被選中?;诒贿x中的分組矩陣中每一行的DOA索引,可以選出對應K個說話人的DOA量測值組合,并根據式(19)對DCGMM的空域協方差矩陣進行初始化。

Algorithm 2 構造K個說話人的分組矩陣q=0 for q1=1 to ρ2 ? for qk=1 to ρ2 ? for qK=1 to ρ2 F=Row(B1)q1?Row(Bk)qk?Row(BK)qKé?êêêêêêêù?úúúúúúú∥構造一個K×J的分組矩陣 ifF 的每一列中沒有重復的索引 then q=q+1 Gq=F end end endend

5 算法測試與分析

仿真房間的長寬高分別是5 m、5 m和3 m。WASNs有J=4個節點,分別為node 1~node 4,每個節點有Mj=6個傳聲器,這些傳聲器組成了陣元間距為3 cm的均勻線陣。房間內有K=2個說話人,且這2個說話人功率相等。圖2展示了節點和說話人的位置。除語音信號外,還有高斯白噪聲,輸入信噪比記為SNR。

圖2 仿真用到的聲學場景.每個節點位于每面墻的中央,且距墻30 cm,節點和說話人距地面的高度為1.5 mFig.2 The acoustic scenario used in the simulation. The nodes are located at the center of each of the four walls, 30 cm from the walls. All nodes and all sources are in the same horizontal plane, 1.5 m above ground level

觀察圖3(a)發現,node 1、node 3與node 2、node 4上具有相同索引的DOA并不對應同一個說話人,即存在DOA模糊問題。圖3(b)展示了不同的DOA量測誤差下的失配比例,即沒有從不同節點上找到對應同一個說話人的DOA量測值組合的次數與Monte-Carlo次數的比例。當DOA量測值誤差項的標準差σ不超過4°時,在每一次的Monte-Carlo中,自聚類量測組合方法總能找到對應同一個說話人的DOA量測值組合。當σ大于4°時,開始出現失配,并且隨著誤差項的增大,失配比例也增大;這是因為對應同一個說話人的DOA量測值組合的子集對應的位置估計的誤差增大,導致不同子集對應的位置估計的發散程度,即式(16)中的橢圓面積增大,甚至大于不是對應同一個說話人的DOA量測值組合的橢圓面積。

圖3 自聚類量測組合方法解決DOA模糊問題的結果Fig.3 The result of the self-clustering measurement combination method to solve the DOA ambiguity problem

具有理想初始值(每個說話人對應的空域協方差矩陣已知)的集中式算法和本文提出的分布式算法分別記為Oracle 1和Oracle 2,使用本文提出的初始化方法的分布式算法記為SC-MC。圖4對比了在混響時間T60=0.3 s和 SNR=30 dB的情況下,不同方法在60次Monte-Carlo運行下分離的說話人信號的平均SDR、STOI和PESQ。圖5對比了某一次Monte-Carlo運行下不同方法分離的說話人信號的語譜圖。觀察發現,當具有理想初始值時,本文提出的分布式算法的性能要優于集中式算法,這得益于在分布式算法的推導過程中使用了式(9)中的具有塊對角形式的空域協方差矩陣,這個結果與[19- 20]中的結論一致。當使用本文提出的初始化方法時,分布式算法的性能接近具有理想初始值的集中式算法,且幾乎沒有隨DOA誤差的增大而下降,這表明了本文提出的初始化方法的魯棒性。

圖4 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.3 s, SNR=30 dB)Fig.4 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.3 s and SNR=30 dB

圖5 不同方法分離的第2個說話人信號的語譜圖(T60=0.3 s,SNR=30 dB)Fig.5 The spectrograms of the speaker 2 obtained by different methods under T60=0.3 s and SNR=30 dB

圖6對比了在混響時間T60=0.5 s和 SNR=30 dB的情況下,不同方法分離的說話人信號的平均SDR、STOI和PESQ??梢园l現,本文提出的SC-MC甚至比具有理想初始值的集中式算法Oracle 1具有更好的性能。

圖6 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.5 s, SNR=30 dB)Fig.6 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.5 s and SNR=30 dB

圖7對比了在混響時間T60=0.3 s和 SNR=10 dB的情況下,不同方法分離的說話人信號的平均SDR、STOI和PESQ??梢园l現,相比于Oracle 1和 Oracle 2, 本文提出的SC-MC的性能有一些降低,這表明SC-MC對噪聲比較敏感。

圖7 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.3 s, SNR=10 dB)Fig.7 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.3 s and SNR=10 dB

6 結論

本文研究了CGMM下的分布式語音分離及其空域協方差矩陣初始化的問題。通過使用塊對角形式的空域協方差矩陣,降低了CGMM參數迭代估計過程中的計算復雜度。DOA量測自聚類方法確保了用基于DOA的導向矢量的相關矩陣去初始化每個節點對應的空域協方差矩陣時,不同節點仍能協同工作。這種初始化方法從空域角度區分了不同的說話人,避免了排序問題,而且獲得了與具有理想初始值的集中式算法十分接近的性能。

猜你喜歡
空域協方差分布式
我國全空域防空體系精彩亮相珠海航展
用于檢驗散斑協方差矩陣估計性能的白化度評價方法
分布式光伏熱錢洶涌
分布式光伏:爆發還是徘徊
多元線性模型中回歸系數矩陣的可估函數和協方差陣的同時Bayes估計及優良性
二維隨機變量邊緣分布函數的教學探索
基于貝葉斯估計的短時空域扇區交通流量預測
淺談我國低空空域運行管理現狀及發展
不確定系統改進的魯棒協方差交叉融合穩態Kalman預報器
基于能量空域調控的射頻加熱花生醬均勻性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合