?

聽覺的聲學現象和原理(1)

2018-03-23 01:03莫福源
聽力學及言語疾病雜志 2018年2期
關鍵詞:基底膜響度純音

莫福源

1 序言

近一個世紀以來,科技迅猛發展,極大影響了人們的生活。語音和音頻信號處理是聲信號處理的一個重要分支,其最終結果要用人耳去聽,因而,基于聽覺的聲學現象和原理被深入研究并廣泛應用于日常生活中,其中最值得一提的是“人耳掩蔽效應”。人們現在能夠以極低廉的價格進行全球通訊,也能以極小的體積和成本享受隨身攜帶的高品質音樂,除了信號處理理論和技術的發展外,還精確地測量了人耳的掩蔽特性,將數字量化噪聲盡可能被語音或音樂信號所掩蔽,使語音或音頻信號的數碼率壓縮40倍甚至更多,而人們感覺不出語音或音樂信號有什么畸變??梢娙祟惵犛X器官是多么的精細和奇妙,它的聽覺生理原理和心理現象完全可以為我們所用而造福人類。

聽覺的生理和心理現象內容較廣,包括人耳結構及聲學特性,人耳對聲信號分析和感知的機理,對語音感知和理解的一些有用的特點,如“掩蔽效應”、“聲強度和聽覺主觀響度關系”、“雙耳效應”、“聽覺心理聲學”等。語音信號處理和音頻信號處理是兩個專門學科分支,內容很多;人耳和人體的其他器官一樣,是一個十分復雜而又精妙的器官,且有別于其他器官,因為人耳的聽覺感知還涉及大腦對耳部接收信號的分析、理解等更為深層次的機理;這些研究工作因為需要人體實驗,目前報道的研究結果很少。以下僅介紹聽覺的聲學現象和原理,由此得到的重要成果將作為例子敘述,即著重介紹聽覺聲學的物理概念和現象,舍去信號處理數學公式等十分復雜的理論和方法。

2 人耳結構及其聲學特性

聲信號從外耳經中耳傳入,在內耳基底膜(basilar membrane)上進行頻率分析;圖1是人耳的縱剖面圖。

2.1外耳 外耳由耳廓和聲道(外耳道)組成,耳廓是一個喇叭形的聲音收集器,其功能隨人類進化而逐步退化,人類的該功能較一些動物而言相對較弱。外耳道終端為鼓膜封閉,形成一個一端開口一端封閉的共鳴器,長約一英寸;它使3 000 Hz到4 000 Hz的信號因共鳴而放大二到四倍,傳入的語音信號的能量在此頻段已下降許多,在此因共鳴而得到提升,提高了語音的清晰度。

圖1 人耳結構圖

2.2中耳 中耳的功能是放大聲信號。在鼓膜和內耳前庭窗(也稱卵形窗)之間有錘骨、砧骨和鐙骨,三塊骨頭形成杠桿,將鼓膜上的位移放大1.5倍,即將聲信號放大了1.5倍;此外鼓膜面積是前庭窗的25倍,根據聲傳輸理論,聲信號聚焦在前庭窗上,放大了25倍;這兩個放大作用結合起來,使聲壓放大35倍,聲能量放大達到1 000倍以上。因此人耳可在安靜環境下,捕捉到極為微弱的聲信號,有研究認為人耳可以感覺出鼓膜上分子級大小的位移信號,因此人耳能聽到一根纖細繡花針掉到地上的聲音就不足為奇了。中耳的肌肉和骨頭聯合起來,在有強聲信號時,和鐙骨相聯的肌肉使鐙骨離開卵圓窗,同時改變鐙骨的振動方向,將縱向振動改變為橫向振動,降低聲傳輸效率,使傳到內耳的聲強減弱,起到保護內耳的作用;但對突如其來的強聲信號,耳部來不及做好保護準備,就會使耳部受損傷。正常聽力的人在最敏感的頻段(1 000~6 000 Hz),從能感知的最小聲信號到不使耳疼痛的最大聲信號能量比達到1012(120 dB)[1]。

2.3內耳 內耳是顱骨內一個小而復雜的結構(圖2),其主要部分是一個盤成蝸牛殼狀的腔體,稱為耳蝸(cochlea)。耳蝸的生理機理較為復雜,其主要功能是對接收到的聲信號進行頻譜分析,在神經纖維上產生電脈沖,傳入大腦產生聽覺。

內耳簡化后,可以看作一個卷起的膜片,稱為基底膜?;啄ぜs長1.5厘米,靠近前庭窗處最寬,約0.5毫米,薄而繃緊;其最遠端最窄,約0.04毫米,肥厚而松弛?;啄ど喜紳M了神經纖維,稱為毛細胞,一排內毛細胞,約3 500條,三排外毛細胞,共有約20 000條;當不同頻率的聲音經卵圓窗以行波形式傳到基底膜上時,在基底膜的不同位置產生振動,最高頻率(約20 000 Hz)在基底膜輕薄的頂端產生振動;最低頻率(200 Hz)以下,在基底膜肥厚的遠端產生振動;頻率和基底膜位置的關系見圖3;振動引起神經纖維(毛細胞)生成電脈沖,傳入大腦而感知聲音。實驗證明,只有振動幅度達到一定程度才有電脈沖產生[2]。

圖2 內耳結構圖

圖3 不同頻率信號在基底膜上產生振動位置示意圖

3 人耳主觀感知和客觀聲信號之間基本關系

3.1人耳感知聲強和聲頻率范圍 人耳的靈敏度是十分驚人的,實驗證明,在3 000 Hz可聽見1 pW/m2(10-12W/m2),此時鼓膜位移小于10 pm(10-12m),比氫分子直徑還小10倍;鼓膜面積是厘米級,即在聽域上能感知的最小聲功率為10-16,是人講話聲功率的10-10倍,而在不損傷耳(未到達人耳的痛域)時,人耳能感知的聲能量和最小感知聲能量之比達1012;這是目前人造儀器難以達到的動態范圍,因為動態范圍如此大,只能用對數刻度來表示,用公式表示:

10*log(E/Emin)。

(1)

E表示聲能量,Emin表示最小參考聲能量,即聽覺安靜域值的聲能量,其單位是分貝(dB),E=Emin時為0 dB,E=1012Emin時為120 dB[1]。

人耳感知聲音的頻率范圍是20~20 000 Hz,20 Hz以下為次聲波,人耳聽不到,次聲波對研究地震信號和大氣聲信號的傳播、接收有很大用處;20 000 Hz以上為超聲,人耳也聽不到。在可聽的20~20 000 Hz的頻率范圍內,語音信號所要求的頻寬不大,通常300~3 400 Hz就夠了;但語音信號的第四和第五共振峰達4 000~5 000 Hz,如果保留這些共振峰對提高語音的清晰度有好處,也使語音聽起來更豁亮。聽音樂對頻寬的要求很高,高保真的HiFi系統要求達到20 000 Hz,有些音樂發燒友,甚至能感知20 000 Hz以上的頻率成分。

3.2響度

3.2.1等響曲線 人耳對聲強度的感知不是一個簡單的線性比例關系,聲強增加一倍,人耳感知的響度不會增加一倍。聲強是一個物理量,完全可以用儀器測出來;響度是人主觀感覺的心理量,兩者之間的關系很復雜,不但和頻率有關,而且因人而異。如何確定這兩者的關系,科學家做了很多細致的測試實驗,選擇了大量聽力正常、無耳疾的青年人(18~30歲)作為測試對象,用1 000 Hz純音信號的響度作為基準,響度級的單位為phon(方),40 dB強度時的響度級為40 phon,依次類推,從0 dB到120 dB;其他頻率的響度級靠調節強度,使聽者主觀感覺和1 000 Hz時的響度一樣;例如,1 000 Hz時40 phon的響度,在500 Hz時強度要提高4.2 dB,才感到和1 000 Hz的響度一樣;在250 Hz時要提高8.6 dB,125 Hz時要提高提高16.1 dB,20 Hz時要提高50.5 dB……,這樣對不同測聽者測得的數值取平均值,得到了如圖4所示的國際標準等響曲線[1]。

不同年齡段正常聽力的聽覺域會隨年齡增大而改變,圖5是聽覺感知的安靜(最小感知)域值變化圖,可以看出主要是高頻域值提高[3]。

3.2.2響度的數字標度 響度級的方(phon)標度是心理學家漸強標度的一個例子,它只說明了一種相對的關系,如:響度60方的純音比40方的純音響,它們又都比10方的純音響等等,但沒表明究竟響多少倍。為此心理學家設計了一種數字標度,其單位是宋(song),現在人為規定1 000 Hz強度級40 dB的純音響度為一宋,然后讓某個聽音人交替聽兩個純音,一個為一宋的純音,調節另一個強度使它的響度為一宋的兩倍,即兩宋,如一宋的響度是它的兩倍,則為0.5宋,依次類推,測出響度宋和響度級方的關系。通常人們會想象不同測聽者得到的結果會有較大差別,但令人驚奇的是不同的聽音人居然得出了穩定可靠的結果,于是就有了圖6純音響度(宋為單位)和它的響度級(以方為單位)的關系[1]。

圖4 國際標準等響曲線

圖5 不同年齡段聽覺域值的變化

圖6 響度和響度級實驗曲線

3.2.3響度和信號波形的關系 響度和能量不是正比關系的另一個有趣現象是同樣能量的信號,甚至它們的頻譜分量都一樣,其中峰值因子高的聽起來更響;例如:用計算機產生兩個數字序列的周期信號,第一個序列為10,-10,10,-10,10,-10,10,-10,10,-10;第二個序列為0,0,0,0,31.6,0,0,0,0,0;兩者能量完全相同,但后者要比前者響得多。也可以用一個周期信號經過一個全通(all-pass)濾波器,調節全通濾波器增益,使兩者能量相同,前者峰值因子高,聽起來響一些;后者響度低些,但刺耳的感覺有改善。在語音編碼和合成中,常采用全通濾波器改善音質的策略[4]。

3.3音高和頻率 音高和頻率也有類似響度和聲強的關系,通常頻率高的聲音聽起來音高要高些,反之音高會低些。然而音高是心理感知的主觀量,它和頻率的關系是很復雜的。純音的音高和強度還有關系,特別在低頻時,例如,打擊一個150 Hz的音叉,并將其逐步靠近耳部,越接近耳部音高越低。復合音強度對音高的影響很微小,這對音樂家來說是好事,否則,他們彈一支響度很響的曲目,要用“D”調,輕彈此曲時必須改為“C”調,豈不麻煩[2]。

3.3.1音高的數字標度 音高盡管是心理量,也應該測量和客觀頻率的關系。因為音高和強度有關,在強度不變的情況下,純音頻率越高,音高感覺也越高。有實驗[2]用兩個40方的純音,一個音的頻率固定,調節另一個音的頻率,使聽者感到音高為固定音音高的一半;實驗用了10個固定音和5個聽音人,這樣“半個音高”的測量方法,比想象的要容易,5個人判斷的結果高度一致,由此得到了音高和頻率的關系圖(圖7)。

圖7 純音音高和頻率關系

音高的單位為“美(mel)”,音高和頻率是不成比例的,500美對應400 Hz,2 000美對應4 000 Hz…。

這樣的測量有何實際意義?在語音信號處理和音頻信號處理中,很多參數都不是在線性頻率域或對數頻率域提取和運算的。例如:在當前成熟語音識別方案中,不管用隱馬爾科夫模型或人工神經網絡作為識別的方法,它們的參數都是在mel刻度提取的,文獻中最為大家公認的參數是“梅爾倒譜系數MFCC(mel frequency cepstrum coefficients)”。實驗證明在這種刻度提取的參數比其他刻度提取的參數有更好的識別率,因而幾乎所有的語音識別系統都采用MFCC參數,且已成共識[5]。

主觀音高和頻率的非線性關系在語音信號處理和音頻信號處理中還有一種表示方法,稱為Bark刻度,也稱臨界帶刻度。從人耳基底膜分析聲音的原理圖(圖3)可見,不同頻率聲音在基底膜的不同位置引起振動,如果用基底膜的位置來劃分,可以將基底膜分為24份,編號0~23,分別對應不同的頻率。每個Bark刻度大致對應100 Mel,從生理解剖分析可看到每個Bark刻度的基底膜包含了大致相等數目的毛細胞。臨界帶劃分的原理和方法,將在“掩蔽效應”一節作較為詳細介紹。

3.3.2復合音的音高 復合音的音高十分復雜,涉及聽覺機理、心理感知等復雜因素,是至今仍不能很好解釋的難題。人說話的語音、樂器的曲調,甚至機器的轟鳴聲都會讓人耳感到有一定的音高。不同聲音的音高有幾個規律可尋:語音和音樂聲的頻譜較復雜,它們是由不同分量(一個分量可以看作一個純音)組成,其音高由它的最低分量確定;一個由相近頻率成分組成的窄帶信號,音高接近其中心頻率;當一個復合音由等差頻率成分組成時,音高為其差值。例如一個由400、600、800和1 000 Hz純音組成的復合音,音高為200 Hz純音的音高,同理,由700、800、900和1 000 Hz純音組成的復合音,音高是100 Hz純音的音高;如果將這兩個復合音混合起來,音高仍為100 Hz純音的音高[1,2]。

猜你喜歡
基底膜響度純音
新生小鼠耳蝸基底膜的取材培養技術*
聽力學名詞釋義(2)
ABR、40Hz-AERP和ASSR與主觀純音聽閾測定的相關性研究
健聽青年短純音ABR測試結果分析
數字電視節目響度標準化的探討
高壓氧綜合治療高頻下降型突發性聾療效分析
皮膚中基底膜的結構與功能
豚鼠耳蝸基底膜振動的測試方法
汽車制動工況下車內時變噪聲響度特征
電視伴音響度測量及控制技術
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合