混響環境下基于卷積模型的欠定盲源分離

2021-04-19 12:40劉宏清

信號處理 2021年4期

李帥劉宏清彭鵬羅臻周翊

(1. 重慶郵電大學通信與信息工程學院,重慶 400065; 2. 重慶郵電大學重慶市移動通信重點實驗室, 重慶 400065; 3. 重慶德新機器人檢測中心有限公司, 重慶 401147)

1 引言

盲源分離已成為信號處理領域的一個熱門研究主題,其起源于人們對雞尾酒會問題的研究[1- 6]?！懊ぁ北硎驹跊]有先驗知識的條件下,僅從觀測到的混合信號中提取出源信號。隨著盲源分離理論研究的深入,基于盲源分離的麥克風陣列多路語音信號處理的應用研究逐漸引起人們的關注。

根據麥克風陣元和聲源相對數量,盲源分離可分為兩類:第一類屬于超定或正定的情況,即麥克風陣元數大于或等于聲源數,第二類是欠定情況,即麥克風陣元數小于聲源數。獨立成分分析(Independent Component Analysis, ICA)是有效解決第一類盲源分離問題最為流行的方法[1]。該方法通過找到非高斯數據的線性表示形式,以使得組成部分在統計上獨立或盡可能獨立。對于欠定情況,由于受固有不利條件的限制,混合矩陣無法直接求逆,導致ICA方法將失效。近年來,隨著語音信號處理研究的深入,學者們通過利用時頻域中語音信號的稀疏性來實現信源分離已得到廣泛應用[4-7]。然而上述方法都是在窄帶假設下進行的,即從聲源到麥克風之間的沖激響應的長度小于短時傅里葉變換(short-time Fourier transform, STFT)的窗長,例如時頻域中的瞬時混合模型。但是,這種窄帶近似在高混響環境中并不能很好地發揮作用;而且有研究發現:基于窄帶近似的方法在高混響環境中的性能會急劇下降[8-9]。為了減輕這個問題,文獻[4]引入了源信號的滿秩空間協方差矩陣,但是在高混響場景中分離性能仍不夠理想。文獻[8]提出了一種半盲條件下的寬帶凸方法,該方法在混響環境下表現出良好的分離性能,但是其運算量高。最近,文獻[10]提出了基于卷積傳輸函數和頻域套索優化模型的聲源半盲分離算法,該研究結果表明:在混響場景中,采用時頻域中的卷積混合模型更合適。受文獻[10]的啟發,文獻[11]深入研究了高混響環境下的盲源分離,并取得非常不錯的分離性能。

由上述討論可看出,大多數基于時頻域處理的盲源分離算法都只是將時域中的卷積混合信號利用STFT變換到時頻域中,進而采用窄帶近似轉換為時頻域中的瞬時混合形式來進行處理,因而在高混響環境下性能并不理想。于是,本文針對高混響場景,將時頻域中的瞬時模型擴展到卷積模型,即信號模型在時頻域依舊是卷積混合的形式,結合房間沖激響應(RIR)[14]的統計特性,構建一時頻域聯合優化問題;進而充分利用優化問題的線性可分離且為凸函數的特性,我們采用了交替方向乘子法(ADMM)[12]對該優化問題進行求解。仿真結果表明:與現有盲源分離算法相比,本文算法具有非常明顯的性能優勢。

2 問題表述

在時域中,麥克風陣列接收信號遵循如下混合模型:

(1)

其中sj(t)和xi(t)分別表示源信號和觀測信號,I和J分別為麥克風和聲源的數量,aij(t)表示從第j個聲源到第i個麥克風之間的房間沖激響應(RIR),*代表卷積運算,ei(t)為背景噪聲。

2.1 瞬時窄帶近似

令xi(f,n),sj(f,n),ei(f,n)分別代表式(1)中xi(t),sj(t),ei(t)的STFT系數,其中f=0,…,F-1和n=0,…,N-1分別表示頻率和時間幀的索引,F和N分別為頻點的數目和時間幀的數目。根據窄帶假設,將式(1)中的卷積混合模型轉換為時頻域中的瞬時混合模型[7,9],即

(2)

其中x(f,n)=[x1(f,n),…,xI(f,n)]T,aj(f)=[a1j(f),…,aIj(f)]T,e(f,n)=[e1(f,n),…,eI(f,n)]T。由于算法在每個頻點上進行操作,簡潔起見,下文討論中將略去頻率索引f。于是,在各頻點f上,式(2)用矩陣形式表示:

X=AS+E

(3)

其中X∈CI×N,A∈CI×J,S∈CJ×N,E∈CI×N分別表示觀測信號,混合矩陣,源信號以及噪聲。文獻[11]中還提出了模型(3)的另一種形式:

X=Aα+E

(4)

值得注意的是(4)中的α∈CJ×N和式(3)中的S是不同的,這里的α是綜合STFT系數,用來避免分析STFT系數S帶來的附加約束[13]。通過時頻表示,選擇從合成信號中表示系數族,而不是分析系數族。綜合方法提供了一種將先驗信息或約束引入表示形式的通用方法,考慮到這種利用先驗知識的嘗試,因此問題就變成了“如何更好地合成信號,使其合成系數的某些行為具有特權？”。于是,利用α的稀疏性,可以通過求解如下無約束優化問題來實現盲源分離:

(5)

其中||·||F,||·||1,λ分別表示Frobenius范數,1范數以及正則化參數。λ用來平衡數據保真項||X-Aα和正則項為一示性函數,可避免不必要的解并且減輕縮放模糊問題。一種常用的示性函數為:

(6)

其中aj表示矩陣A的第j列。

2.2 卷積窄帶近似

從理論上講,瞬時窄帶近似僅在RIR長度小于STFT窗長時才有效;因此,當RIR的長度大于STFT的窗長時,式(2)中的模型無效;但這種情況在實際中很少見,通常對STFT的窗長采取限制以確保音頻信號的局部平穩性[10]。因此在高混響的情況下,時頻域中的卷積模型更為合適[11],其具體形式如下

(7)

(8)

式(8)代表對應時間索引t的卷積,其中k0表示STFT幀步長,

(9)

利用矩陣表達,對于每個頻點f,式(7)中的卷積近似可寫成

(10)

(11)

為了聯合估計混合系統和源信號,設計如下優化問題:

(12)

(13)

(14)

其中ρ(t)表示房間沖激響應的幅度包絡,它取決于混響時間RT60:

ρ(t)=σ10-3t/RT60

(15)

其中σ是縮放因子。顯然,懲罰項式(14)被設計為迫使RIR呈指數下降,從而滿足房間沖激響應的聲學統計。由于時頻域中的卷積核通過式(8)與時域中的房間沖激響應相關聯,因此在本文中,時頻域的懲罰項我們采取相同的形式,即

(16)

3 提出的算法

為了求解式(5)和式(12)的兩個優化問題,本文選擇使用交替方向乘子法(ADMM)作為優化算法來求解。首先從模型式(5)開始,基于ADMM算法,推導相應的求解過程,文中稱作窄帶ADMM(narrowband ADMM, N-ADMM)算法。類似地,基于式(12)的卷積模型,我們也給出了相應的求解過程,文中稱為卷積ADMM(convolutive ADMM, C-ADMM)算法。

3.1 窄帶ADMM

為了應用ADMM算法對優化問題式(5)進行求解,引入輔助變量Z1,于是,優化問題式(5)可表示為

(17)

對應地,式(17)的增廣拉格朗日函數為

(18)

其中η1是對偶變量,γ1是懲罰項參數。窄帶ADMM通過使用以下更新規則迭代更新原始變量和對偶變量來最小化增廣拉格朗日函數:

(19)

為了解決式(19)中第一個子問題,引入以α為自變量的函數

(20)

對式(20)在αk處采用二階泰勒展開到二次項,則有

(21)

(22)

值得注意的是,求解(19)中的第二個和第三個子問題都采用了近端方法[20],其中1范數的近端算子是軟閾值算子的近端算子由歸一化算子給出。

3.2 卷積ADMM

同樣地,對于優化問題式(12),引入輔助變量Z2,得到如下約束受限的優化問題:

(23)

優化問題(23)的增廣拉格朗日函數如下:

(24)

其中η2和γ2分別為對偶變量和懲罰項參數。

觀察到式(24)的增廣拉格朗日函數和式(18)很相似,這意味著利用N-ADMM算法求解式(18)的步驟同樣適用于C-ADMM算法,于是在表1中,C-ADMM算法的步驟總結如下,并進行了適當的修改。

表1 C-ADMM算法步驟

4 仿真實驗

在該節,針對4種不同條件下的分離性能對比,其中包括不同混響時間,不同的信噪比,不同的聲源個數,以及不同的噪聲類型,對文中提出的混響環境下基于卷積模型的欠定盲源分離算法進行性能評估,并將其與四種傳統盲源分離算法對比,包括卷積近端近似線性最小化(用C-PALM表示)[11],退化解混估計技術(用DUET表示)[6],1范數最小化方法(用L1-MIN表示)[7],滿秩空間協方差矩陣方法(用Full-rank表示)[4]。需要指出的是,由于所有實驗均考慮了混響,因此N-ADMM僅用于初始化C-ADMM。

4.1 實驗設置

各種算法的分離性能通過信號失真比(signal to distortion ratio, SDR),信號干擾比(signal to interference, SIR),源圖像空間失真比(source image to spatial distortion ratio, ISR),以及信號偽像比(signal to artifact ratio, SAR)[19]來評價。其中SDR體現了每個估計源的整體質量,SIR衡量了來自其他源的干擾程度,ISR度量了空間失真量,SAR主要是評估了算法本身產生的一些偽像對信號的干擾。

圖1 合成混合信號的房間配置Fig.1 Room configuration for synthesized mixtures

4.2 采用模擬合成數據的仿真實驗對比

根據欠定情況,仿真時,將麥克風陣元數和聲源數分別設為2和3。圖2顯示了在無噪聲環境中各種算法在不同混響時間下的分離性能。顯然,由于采用了卷積近似模型和ADMM優化框架,所提出的算法C-ADMM在SDR,SIR,ISR和SAR這四個性能指標上均優于其他方法,Full-rank,DUET,以及L1-MIN這三種算法在混響較高時性能普遍變差,主要是因為它們的信號模型只考慮了瞬時混合情況,無法適用于混響高的環境。當混響時間為50 ms到550 ms時,C-ADMM在所有指標上均比C-PALM提升將近1 dB。值得注意的是,在低混響條件下,滿秩方法(Full-rank)的SAR比C-PALM高,這是因為滿秩空間協方差模型更適用于混響較低的情況。由于瞬時窄帶近似不再適用于房間沖激響應的長度超過STFT窗長的情況,因此DUET和L1-MIN在混響情況下的效果較差。從圖2中的各個性能指標可以看出,采用卷積模型的算法性能要優于瞬時模型。

接下來對比了不同算法在不同信噪比下的性能表現,仿真中選擇高斯白噪聲作為背景噪聲,混響時間固定為130 ms,結果如圖3所示。從圖3可看到,當輸入信噪比為0 dB的時候,所有方法都展示出了較差的性能,尤其是SDR和SAR均為負值。在低信噪比的情況下,C-ADMM的分離性能優于C-PALM,其中在SIR指標上提升的較多。在高信噪比的情況下,C-ADMM在四個性能指標上相比C-PALM有1 dB左右增益,這顯示了所提出算法對抗噪聲的魯棒性。

圖2 不同算法在不同混響時間下的分離性能Fig.2 Separation performance of different algorithms under different reverberation time

表2中對比了不同聲源數量下的分離性能,仿真中將麥克風陣元數設定為2,混響時間設定為130 ms。正如預料,所有算法性能均隨聲源數的增加而下降,但是文中所提出算法的性能仍優于其他算法,因此所提算法相比于其他算法更加穩健。

表2 不同聲源數量的性能對比(SDR/SIR/ISR/SAR,單位:dB)

最后,比較了各種算法在不同噪聲類型下的分離性能,用來驗證所提出算法在各種場景下的有效性,結果如表3所示。分別在0 dB,5 dB,10 dB,以及15 dB測試了5種類型的噪聲,混響時間固定為130 ms,其中babble指餐廳內嘈雜噪聲,volvo指車內噪聲,leopard指軍用車輛噪聲,m109指坦克內部噪聲,pink指粉紅噪聲。結果顯示:各種算法的分離性能均隨噪聲的增加而降低,并且在不同的噪聲類型下性能也會有所不同。但是無論哪種情況,文中所提算法C-ADMM的性能始終要優于其他算法。此外,通過分析表3中的實驗結果,不難發現:不同噪聲類型對算法性能的影響是有差別的,盡管提出算法相比于其他算法依舊保持著良好的性能優勢。

圖3 不同算法在不同信噪比下的分離性能Fig.3 Separation performance of different algorithms under different signal-to-noise ratios

表3 不同噪聲類型下的性能對比(SDR/SIR,單位:dB)

4.3 采用實際錄音的實驗對比

分別測試了SISEC 2013提供的一些真實混合錄音,其中包含了3個聲源和4個聲源的情況,表4列出了不同算法得到的SDR和SIR。對于3個聲源的混合語音,C-ADMM算法與C-PALM相比,SDR在混響時間為130 ms和250 ms時分別提升了0.27 dB和0.36 dB,而SIR分別提升了0.49 dB和0.65 dB。對于4個聲源的混合語音,C-ADMM算法與C-PALM相比,SDR分別提升了0.34 dB和0.41 dB,SIR分別提升了0.58 dB和1 dB。這些指標都展示了所提算法C-ADMM具有出色的分離性能。

表4 在SISEC 2013實測數據上的分離性能(SDR/SIR,單位:dB)

5 結論

針對欠定情況下的盲源分離問題,本文基于時頻域中的卷積近似模型,提出了源信號和混合系統的聯合估計,最終的優化問題由ADMM優化框架交替求解。通過對比實驗發現,提出算法均比C-PALM,Full-rank,L1-MIN以及DUET等方法性能優越,這表明卷積窄帶近似模型比瞬時窄帶近似模型更適合于高混響的場景,同時,ADMM優化框架可取得更接近原優化問題的最優解。隨著近幾年深度學習的發展和應用,在未來工作中,我們將研究如何將深度學習應用到聲源分離中,并將其與基于信號處理的經典算法進行比較。