?

基于相位聲碼器的多軌個性化耳鳴掩蔽治療聲合成新方法*

2024-01-18 12:20陳婭南何培宇謝子奇李永康方安成潘帆
生物醫學工程研究 2023年4期
關鍵詞:頻段音頻個性化

陳婭南,何培宇,謝子奇,李永康,方安成,潘帆

(四川大學 電子信息學院,成都 610065)

0 引言

耳鳴是在無外界聲源或電刺激情況下,患者自身感覺耳內(或顱內)產生無意義的聲音[1]。其發病率較高[2-3],常使患者感到焦慮、抑郁,伴隨失眠等負面反應,影響生活質量。因此,對耳鳴治療方法的探究具有重要意義。

耳鳴的聲治療是用聲音來改變患者對耳鳴的感知和反應,從而緩解病情的方法[4]。自耳鳴掩蔽的概念被引入后,出現許多有效的聲治療方法[5]。目前國內外推出的聲治療方法有:耳鳴掩蔽療法(tinnitus masking therapy,TMT)、耳鳴習服療法(tinnitus retraining therapy,TRT)、個體化切跡音樂療法、海德堡神經音樂療法、五音療法、強直聲療法等[6-8]。國內臨床最常用的為掩蔽療法[9],該療法通常選用與患者耳鳴頻率相匹配的窄帶噪聲或白噪聲作為掩蔽聲源,雖在一定程度緩解了耳鳴的不適,但其本身引入了新的干擾,甚至會導致聽力損傷[10]。研究表明,因掩蔽音成分單一,難以兼具可聽性和治療有效性,部分患者對其難以耐受[11]。程堅等[12]進行臨床掩蔽治療時,發現掩蔽音高于耳鳴聲,部分患者難以配合治療;Cuesta等[13]使用定制的寬帶噪聲可聽性也不佳,導致患者退出治療率達30%;梁輝等[14]為避免單一噪音的掩蔽治療產生不良反應,在噪聲掩蔽基礎上增加音樂治療。研究發現,音樂噪聲雖優于單純噪音掩蔽,但若長時間治療,其可聽性仍欠佳;宮琴等[15]提出了基于耳鳴治療音能量均衡的方法,使治療音兼顧療效和悅耳程度,但無法滿足患者的主觀偏好。

臨床研究證實,自然音可作為大多數耳鳴患者的掩蔽聲源,有助于打破耳鳴與不良情緒之間的惡性循環,在一定程度上減輕耳鳴困擾[16-17]。針對傳統掩蔽療法存在的問題,漆蕾宇、鄧茗月等[18-19]對治療音做出了一定改進,不僅兼顧了TRT與TMT的療效,還克服了現有治療音因長時間播放導致重復性記憶等問題。盡管蔡麗等[20]對自然音做了音調變換處理,但其可聽性不佳;漆蕾宇等[18]在相關研究基礎上加入分形音樂,合成新的治療音,一定程度上改善了治療音的可聽性,但采用的線性比例重疊相加法不適用于拼接自然音片段首尾響度過大的情況;鄧茗月等[19]合成的康復音符合患者的個人主觀偏好,但無法高效匹配患者的耳鳴頻段。方琦[21]經臨床研究認為,豐富的聲音環境會降低聽覺通路內的增益及中樞對耳鳴的敏感度,使患耳感受到耳鳴減弱。因此,本研究將生物自然聲和環境背景自然聲作為基礎音,結合相位聲碼器(phase vocoder,PV)和漸變混合算法,提出了一種個性化多軌耳鳴掩蔽治療音(multi-track personalized tinnitus masking therapy sound,MT-PTMTS)合成方法。該方法用生物自然音匹配患者耳鳴頻段,通過PV進行音調變換,保證治療音的客觀個性化;并以環境背景自然聲來滿足耳鳴患者的主觀偏好,同時利用迭代函數系統(iterated function system,IFS)分形算法確保合成的治療音時長可控、并滿足長時間治療且相似不重復,使治療音兼具客觀個性化、主觀偏好性、舒適可聽性和治療有效性。

1 掩蔽治療音合成原理

本研究利用PV算法控制個性化生物自然音庫的生成,并結合已收集的環境背景自然音庫,最終通過IFS分形序列和漸變混合算法合成掩蔽治療聲,其原理及總體思路見圖1。

圖1 MT-PTMTS的合成過程

該掩蔽治療聲由生物自然音(biological natural sound,B-NS)和環境背景自然音(ambient background natural sound,AB-NS)兩個元素組成。

圖1中①部分描述了B-NS的合成過程。首先,對不同種類的B-NS片段進行試聽并篩選,將適合作為個性化基礎的B-NS片段進行保留。然后利用基于PV的音調變換方法,將B-NS片段擴展形成多樣化的生物自然音庫。同時根據音頻能量集中的不同頻段對庫內音頻進行劃分、歸類等,以滿足患者個性化耳鳴頻段的匹配需求。

圖1中②部分描述了AB-NS的合成過程。為滿足患者在治療中存在的主觀偏好需求,本研究構建了環境背景自然音庫;同時,利用漸變混合算法將AB-NS片段平滑地拼接起來。

最后,本研究通過控制分形序列的長度來保證合成的B-NS時長可控。將處理后的B-NS與AB-NS兩軌音頻疊加,生成最終的MT-PTMTS,使治療音滿足耳鳴患者個體需求的同時,也確保治療的有效性及可聽性。

2 生物自然音頻庫的生成

2.1 相位聲碼器

在對B-NS進行音調變換時,通常需要解決兩個問題:一是如何改變音頻的音高,即改變音頻頻率能量集中的區間;二是如何保證音頻的語速不變,即音頻時長不變。PV作為解決上述問題的算法,其核心原理是利用相位差法,即計算相鄰兩幀間的相位差實現頻率轉換。

設語音信號為x(t),其短時傅里葉變換(short-time fourier transform,STFT)表示為:

X(n,k)=|X(n,k)|ejφ(n,k)

(1)

其中,n為第n幀,k為第k個頻率分量,|X(n,k)|為幅度,φ(n,k)為相位。假設將語音的頻率增加一個倍頻f0,則相鄰兩幀間的相位差為:

Δφ(n,k)=φ(n,k)-φ(n-1,k)

(2)

因相鄰兩幀間的時間差為Δt,則式(2)可表示為:

(3)

其中,N為每幀信號的長度,ψ(n,k)為高頻部分的相位畸變,可忽略不計。

ejθ=cosθ+jsinθ

(4)

據式(4),可將相位差表示為正弦和余弦函數的形式:

(5)

(6)

同時,PV通過在頻域上進行插值和抽取的方式,可避免原始音頻因音調變換而失真。其基本思想是將音頻信號分解成短時傅里葉變換域中的一系列片段,并對每段都進行頻譜分析和重組,見圖2。在每段中,信號的幅度譜保持不變,相位譜則通過插值計算進行修改,實現音頻變調且速度不變。

2.2 生物自然音庫的生成

為改善掩蔽治療音的可聽性,采用頻率能量集中的B-NS代替傳統治療中的窄帶噪聲,避免窄帶噪聲帶來的聽感不佳、忍耐度低、治療有效性差等問題。因此,將收集到的各類B-NS整合為自然音庫的同時,應確保音庫的個性化;在選取基礎自然音片段時,應充分考慮耳鳴患者所對應的耳鳴頻率和個體情況。為實現上述目標,本研究利用PV對患者所選的B-NS片段進行處理,使其頻率能量集中在患者的耳鳴頻段附近,并將其分割為能量集中的B-NS小片段,最后根據類別對分割后的B-NS小片段進行編號,形成基于患者個性化需求的生物自然音庫。

圖2 PV的基本實現過程

3 基于自然音庫和漸變混合算法合成的掩蔽治療音

3.1 漸變混合算法

由于AB-NS片段的多樣性,在拼接處存在不確定性。因此,本研究在AB-NS拼接處采用漸變混合算法。與蔡麗等[20]所用的線性疊加算法不同,漸變混合算法可在拼接處對信號進行動態處理,通過對相鄰兩個音頻的采樣數據進行加權平均實現,見圖3。漸變混合算法通過特定函數控制兩個源信號,實現混合點處緩慢且漸進的過渡,而非直接切換,可避免明顯的跳變或聲音失真。即在過渡區需要計算相鄰音頻的交叉淡入淡出點,并使用漸變函數控制音頻信號的增強或減弱,以實現響度和頻譜的平滑過渡,消除拼接突兀感,并提高混合效果的質量和真實感。

以線性漸變函數為例,假設有兩個自然音片段A和B,采樣值分別為a(n)和b(n),其中n為采樣點的序號。漸變混合的目的是在給定的時間范圍內,從A逐漸過渡到B。首先,確定漸變的采樣點數量,假設為N;對于每個采樣點的序號n,計算混合系數c(n)?;旌舷禂蹈鶕斍安蓸狱c在漸變過程中所處位置的比例確定,見式(7):

(7)

然后,由c(n)計算混合后的音頻信號y(n),直到達到指定的漸變時間范圍N。在此期間,混合系數從0逐漸增至1,使片段A逐漸過渡到片段B。對每個采樣點的序號n,可使用式(8)計算混合后的采樣值:

y(n)=(1-c(n))×a(n)+c(n)×b(n)

(8)

其中,a(n)是片段A在第n個采樣點的采樣值,b(n)是片段B在第n個采樣點的采樣值。

3.2 掩蔽治療音的合成

B-NS根據耳鳴患者的耳鳴頻率進行匹配,并選擇合適的自然音類型,對自然音片段進行音調變換,隨后對其進行編號,建立基于患者的個性化生物自然音庫。由于耳鳴的聲治療通常需要連續刺激半小時,為此,本研究結合文獻[20]的方法,采用分形序列作為映射序列來控制生物自然音的生成時長,以確保治療的有效性。

為使治療音能在耳鳴同頻率進行聲音刺激之余,還能對患者起到一定程度的舒緩作用,本研究引入第二音軌,根據患者主觀偏好選中的環境背景自然音片段,利用漸變混合算法進行平滑過渡和拼接,形成AB-NS。最后將B-NS與AB-NS疊加,形成最終的掩蔽治療音MT-PTMTS。

4 實驗結果與分析

本研究分別從主觀和客觀兩方面對合成的MT-PTMTS進行了評價。招募志愿者進行試聽實驗,驗證其可聽性,以主觀衡量其質量;其次,基于耳鳴模型,從客觀上評估了其有效性。此外,本研究對合成的B-NS、MT-PTMTS進行了1/f波動分析,并分析驗證了B-NS音調變換的效果及漸變混合算法的拼接效果。

圖3 漸變混合算法實現過程

4.1 音頻分析

為使MT-PTMTS能匹配患者的耳鳴頻段,實現個性化治療,本研究利用PV對B-NS進行音調變換。為驗證頻段的有效變化,以B-NS處理前后的頻率峰值為對比指標,共分析了3種生物自然音的頻率峰值變化,見表1、2、3。同時,為直觀顯示頻段變化,本研究將相同B-NS進行升降調的時頻圖與原始B-NS時頻圖進行對比,見圖4。其中,3個蟬鳴片段的變調目標頻段均為2.5~3.5 kHz,3個蟋蟀鳴叫片段的變調目標頻段均為7~8 kHz,3個鳥鳴片段的變調目標頻段分別為2~2.5、1.5~2.5、0.5~2.5 kHz,由對比片段處理前后的頻率峰值可知,使用PV對B-NS進行音調變換是有效的。

實驗結果表明,利用PV對B-NS進行升降調處理,均可改變自然音的能量集中頻段。因此,本研究處理B-NS的方法,可根據患者的個體差異生成不同頻段的B-NS,既能與患者進行個性化匹配,也能豐富MT-PTMTS的多樣性。

為驗證漸變混合算法在AB-NS拼接中的連續性,本研究將兩段不同的海浪聲音頻進行拼接。在進行漸變混合算法拼接時,將前段音頻尾端2倍采樣率的點和后段音頻首端2倍采樣率的點作為混合區域進行拼接。圖5、6為直接拼接和利用漸變混合算法拼接后音頻的時域圖和時頻圖對比。

圖4 變調生物自然音與原始生物音的時頻圖對比

據圖5、6實驗結果可知,當對兩段不同音頻進行拼接時,直接拼接會導致過渡點處數據拼湊生硬、不連續性。此外,時頻圖中也會明顯表現出音頻銜接不自然的情況,導致拼接處聲音的突變和不自然。反之,使用漸變混合算法拼接會存在一個混合的過渡區,使兩段音頻在一定時間內銜接起來,同時拼接處無明顯突變、過渡更加自然。實驗結果表明,漸變混合算法能確保AB-NS拼接處的連續性、平滑性。

圖5 直接拼接與漸變混合拼接的時域圖對比

圖6 直接拼接與漸變混合拼接的時頻圖對比

4.2 波動分析

“1/f波動”是一種在局部呈無序狀態,而在宏觀上具有一定相關性且讓人感到舒適與和諧的波動,介于“1/f0波動”和“1/f2波動”之間。人耳對6~8 Hz/s的顫音感覺較為舒服,因此,功率密度符合1/f波動的音頻通常被認為更加自然和愉悅[22]。同時,1/f波動也可用來驗證音頻的相似不重復特性,即音頻中不同頻率分量間相對強度的分布。其在功率譜中可表示為頻率f處的功率譜密度s(f)與頻率f成反比的關系,見式(9)。對式(9)左右兩邊同時取對數可得式(10)。研究表明,當-0.5≤β≤1.5時,可認為信號符合1/f波動特性。

S(f)∝f-β

(9)

lg(S(f))∝-βlg(f)

(10)

圖7 IFS序列和生物自然音映射序列的功率譜擬合曲線

圖7為IFS序列映射合成的B-NS功率譜密度擬合曲線,斜率分別為-0.938 4(β=0.938 4)、-0.937 4(β=0.937 4),β值均在0.5~1.5之間,說明IFS序列本身符合1/f波動特性,且其變換后所得映射序列也未破壞該特性。圖8為MT-PTMTS的功率譜擬合曲線,斜率為-1.339(β=1.339),可認為合成的治療音MT-PTMTS符合1/f波動特性,能給人怡然悅耳的感覺。

圖8 掩蔽治療音的功率譜擬合曲線

4.3 耳鳴模型分析

為進一步驗證本研究合成MT-PTMTS能否在一定程度上對耳鳴起抑制作用,本節基于文獻[23]提出的自適應耳鳴模型進行了刺激分析,該模型依據人耳耳蝸中不同部分對頻率響應不同的特點,將人耳聽覺范圍均分為20個頻率范圍不同的分路。當耳蝸中某一通路受損時,該通路的自發信號會被進行相應放大而形成耳鳴,對比MT-PTMTS輸入前后耳鳴模型的輸出時頻圖變化,可驗證MT-PTMTS的有效性。

表1 蟬鳴片段變調前后頻率峰值變化

表2 蟋蟀鳴叫片段變調前后頻率峰值變化

表3 鳥鳴片段變調前后頻率峰值變化

假設耳蝸中第3、8、16通路相同情況受損,圖9為三條不同分路受損后分別產生中心頻率為2 550、7 550、15 550 Hz(三者均為理論頻率)的耳鳴;實驗時長為80 s,其中,第三條聽覺通路所覆蓋的頻率范圍為2 050~3 050 Hz。本次實驗輸入的MT-PTMTS根據第3通路合成,其時頻圖見圖10,可知該治療音的頻率能量大約集中在2~3 kHz。

圖9 無MT-PTMTS輸入時耳鳴模型輸出

圖10 MT-PTMTS時頻圖

假設患者的個性化耳鳴頻段等于模型第3聽覺通路所覆蓋頻率范圍,從第20 s開始向模型輸入MT-PTMTS,60 s時將其撤離。由圖11可知,在MT-PTMTS輸入的40 s間,耳鳴明顯得到抑制,第3通路的輸出功率減小,其余兩通路基本無變化;當MT-PTMTS撤離時,模型輸出功率隨之增大,第3通路耳鳴再次復發。實驗結果說明,本研究合成的MT-PTMTS能有效抑制患者對應頻段的耳鳴,即達到治療有效性的同時實現個性化耳鳴頻段匹配。

圖11 MT-PTMTS輸入時耳鳴模型輸出

4.4 試聽分析

試聽實驗中,將文獻[19]、[20]中使用的自然音與本研究的B-NS進行對比。在原音頻相同的情況下,根據不同方法對其進行音調變換,合成時長為30 s的B-NS;將經PV及文獻[19]方法處理的B-NS分別標記為frag_1、frag_2,將文獻[20]中使用的fc-NS標記為frag_3。30名聽力正常的受試志愿者在相對安靜的環境中依次試聽原音頻、frag_1、frag_2、frag_3,完成所有試聽后,分別對三個B-NS片段的幾項指標在0~10范圍內進行評分,將結果取平均后,見表4。

表4 自然音片段評分

試聽結果表明,frag_1及frag_3均表現出良好的舒緩度,但frag_1與原音頻的偏離度最低、自然音飽滿度最高,具有令人舒緩且流暢的優點,與仿真結果相吻合,一定程度上改善了掩蔽治療音的可聽性。而frag_2舒緩度與流暢度均不理想,與原音頻的偏離度也較大,不適合作為掩蔽治療音。此外,試聽實驗將MT-PTMTS與文獻[20]中合成的康復音片段進行對比,分別記為frag_4與frag_5。實驗環境同上,試聽過程中受試者分別對表2指標在 0~10 分范圍對2種治療音進行評分。統計平均結果見表5。

表5 治療音評分

結果表明,本研究合成片段frag_4自然音的飽滿度較高,即在治療音時長范圍內代替窄帶噪聲的生物自然音的占比較高,相較文獻[20]合成康復音而言,能讓患者擁有更豐富的治療體驗,進一步發揮自然音的效用。

5 結語

本研究提出了一種基于PV和漸變混合算法的多音軌個性化耳鳴掩蔽治療音的合成方法。該方法通過音調變換實現了合成掩蔽治療音中耳鳴頻段的個性化匹配,其中,將傳統掩蔽療法中常使用的窄帶噪聲替換為生物自然音,改善了治療音的可聽性;同時加入環境背景自然聲進行融合,滿足患者主觀偏好的同時也豐富了聽覺體驗。試聽結果表明,本研究合成的治療音在主觀上呈現舒緩自然的效果,可滿足治療時長的需求;客觀上音調變換也能匹配患者的耳鳴頻段,并符合1/f波動特性;在輸入耳鳴模型后,該治療音能有效抑制對應的耳鳴頻段。綜上所述,本研究方法能夠提供個性化的耳鳴掩蔽治療音,改善患者的聽覺體驗和治療效果,對耳鳴聲治療有一定參考價值。

猜你喜歡
頻段音頻個性化
5G高新視頻的雙頻段協同傳輸
gPhone重力儀的面波頻段響應實測研究
堅持個性化的寫作
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
新聞的個性化寫作
音頻分析儀中低失真音頻信號的發生方法
上汽大通:C2B個性化定制未來
推擠的5GHz頻段
Pro Tools音頻剪輯及修正
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合