?

全景聲技術及應用

2021-06-15 03:27白泉
衛星電視與寬帶多媒體 2021年6期
關鍵詞:虛擬現實

白泉

【摘要】本文以全景聲為核心內容,闡述全景聲的誕生歷史、技術原理、技術發展以及實際應用。通過圖文的形式更加直觀的闡述觀點和問題,并結合實際加以求真論證。作者希望通過本篇論文幫助大家認識了解全景聲的技術和應用。

【關鍵詞】Ambisonics;VR(虛擬現實);音頻編解碼;WAVES;Pro Tools

中圖分類號:TN94 ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? DOI:10.12246/j.issn.1673-0348.2021.06..005

隨著我國物質經濟實力的不斷提高,國民對于物質文化的需求也水漲船高,特別是對于精神文化需求逐年遞增。為此我們的技術儲備也必須不斷地完善進取才能滿足人民日益增長的物質文化需求。建國初期在黑白電視時代,我們聲音只有一個通道叫單聲道。后來隨著技術的進步,彩色電視時代步入家庭從而加速了聲音單聲道到立體聲的轉變。到了高清1080P甚至超高清4K分辨率時代,我們誕生了5.1、7.1環繞立體聲。技術的飛速發展給人民群眾帶來了更加接近真實的視聽感官體驗。2010年以后,隨著VR頭戴設備的誕生,我們進入了一個顛覆以往所有視聽技術的時代——虛擬現實!那么聲音便誕生出了與之相適應的技術革命——全景聲!

1. 全景聲技術概述

講到全景聲我們不得不先從Ambisonics這種聲音格式講起。那么什么是Ambisonics?

1.1 Ambisonics的前世今生

說起Ambisonics的歷史是非常曲折的。Ambisonics以牛津大學教授Michael Gerzon(1945-1996)的理論成果為基礎,二十世紀70年代,由英國國家研究發展公司主持開發Ambisonics,并成功實現了“四聲道理論(quadraphonics)”的高保真沉浸空間全景360聲音。

當年Ambinsonics搞得風風火火,甚至注冊了商標(2010年過期)并申請了專利(大部分已經過期)。是的,盡管Ambisonics具有當時最完美的功能和效果,英國國家研究發展公司具有雄厚的技術基礎和許多優勢,但是Ambisonics并沒有獲得商業上的成功。在實際推廣過程中,卻由于種種因素的制約,始終沒有形成大規模的市場需求,最終被擱置,甚至在一段時間內只有在愛好者粉絲中的堅持才算幸存下來。即使制作Ambisonics話筒方面一直有“持續性”研究的公司,有商業的回報,也經歷了無數次轉手收購才存活下來(先是Calrec,后來相繼被AMS、Siemens、Soundfield Research、現在是RODE所收購)。其實只要再撐幾年,隨著技術的不斷進步,特別是VR虛擬現實的發展變能讓Ambisonics重新紅火起來。由此我們可以看到,聲音技術的誕生到應用商業化是漫長的過程,甚至是有賴于視覺的技術革命才能得以發展。

1.2 Ambisonics的定義

Ambisonics是一種用于記錄,混音和重放三維360度音頻的方法。它是在20世紀70年代被發明的,但直到最近隨著VR行業的發展,全景聲音頻解決方案才被更多人認知。

Ambisonics音頻格式有時會與傳統環繞聲技術相混淆,但他們是不一樣的,是有很大的區別,而正是這些差別特性,造成新興的VR和全景視頻都采用Ambisonics而不是經典的環繞聲格式作為首選音頻格式。

雖然傳統的環繞聲技術比簡單的雙聲道立體聲更加有沉浸效果,但是它們基礎的原理是相同的,它們都通過將音頻發送到特定的揚聲器陣列來創建聲音場景。立體聲將音源發送給兩個揚聲器、5.1環繞立體聲將音源發送到6個全頻揚聲器和一個超低音、杜比7.1發送到7個全頻揚聲器外加一個超低等等。

相比之下,Ambisonics與其他多聲道環繞聲格式不同,其傳輸通道不帶揚聲器信號。相反,它們包含與B格式聲場無關的揚聲器,然后將其解碼為聽眾的揚聲器設置。這個額外的步驟允許音頻工作者根據聲源方向而不是揚聲器的位置來思考設計。并且為聽眾提供了用于播放揚聲器的布局和數量。因此,大大增加了靈活性。Ambisonics音頻格式可以解碼任何揚聲器陣列。并且可以完整的、不間斷的還原音源而不受任何特定編解碼播放系統的限制。如圖(1)是從立體聲、5.1到全景聲的3D人耳模擬圖

1.3 Ambisonics的技術解析

廣泛應用于VR和全景視頻的Ambisonics音頻格式其中包括一種稱為Ambisonics B格式的4通道格式。Ambisonics可以理解為M/S立體聲拾音制式的三維擴展。Ambisonics音頻格式為高度和深度增加了另外的差異通道。所得到的音頻信號集稱為B格式(Ambisonics B Format)。它使用至少四個通道來再現完整的三維聲場。是一種拾取和播放聲音的技術,專門用來模擬原始三維聲場效果的聲音系統。

它通過拾音“四面體陣列”(麥克風振膜排列的這種不尋常的布置被稱為四面體陣列,由四個指向不同方向的心形話筒組成)實現三維度全覆蓋的360°沉浸式全景環繞聲音。Ambisonics除了水平X Z軸向環繞聲音,還包括拾音位置或者聽眾即Y軸上下的聲源。與普通環繞聲不同,播放效果更類似于Dobly Atoms(這里必須強調一點的是Dobly Atoms目前只解決了半球形的聲場,并沒有解決720度球型聲場的重現與還原)。如(圖2)是一個全景聲話筒,來自RODE公司的NT-SF

1.4 Ambisonics的編解碼

編碼:一個簡單的Ambisonic panner(或編碼器)可以獲取源信號S和W兩個參數,即水平θ和仰角?。它通過以不同的增益將音頻信號分布在Ambisonics組件上,將信號源定位在所需的角度:

全方位的W通道始終獲得相同的恒定輸入信號,無論角度如何。因此,它的平均能量或多或少與其他通道的平均能量相同,W衰減約3dB(精確地除以2的平方根)。我們認為他們的價值在角度和仰角,并將結果與輸入信號相乘。其結果是,輸入在所有組件中完全相對應的麥克風拾取它一樣響。

解碼:基本的Ambisonic解碼器與一組虛擬麥克風非常相似。對于完美的規則布局,可以通過將虛擬心形麥克風指向每個揚聲器的方向來生成簡化的解碼器。這里是一個正方形:

的跡象X和Y組件是重要組成部分,其余都是增益因素。該Z組件被丟棄,因為不可能在一個平面上只用四個揚聲器重現高度線索。實際上,真實的Ambisonics解碼器需要許多心理聲學優化才能正常工作。如圖(3)是用于方形揚聲器布局的樸素單頻段同相解碼器。

當然了,這篇文章我們討論的主要是Ambisonics的一階形態,更高階的形態我們在這里不展開闡述,以圖4作為參考。

圖解:Ambisonic B格式組件的視覺表示直至三階。黑色部分表示極性反轉的區域。請注意前兩行如何對應于全向和八字形麥克風極性圖案。

了解了全景聲技術的基石,我們不難推出全景聲的概念了。首先來說人類只有兩個耳朵,但可以在三維空間中定位范圍(距離),上下前后左右方向、以及任意一側。因為通過大腦,內耳和外耳(耳廓)的雙耳時間差,雙耳響度差一起工作來推斷位置。這種將聲源本地化的能力可能在人類和祖先中已經發展成為一種進化的必要性,因為眼睛只能看到觀看者周圍的世界的一小部分,并且視覺在黑暗中受到阻礙,而聽覺不受光線的影響,聲源本地化的能力則以不同的精度在所有的方向起作用。那么全景聲用一句話概括就是一種全球通用的環繞聲技術:除了水平面之外,它還覆蓋了聽者上方和下方的聲源。它高精度的還原了真實環境下人耳的聽覺體驗,而且這種聲音的還原再現很難讓人分辨出這是真實的還是虛擬的。

2. 全景聲制作流程

2.1 全景聲的聲音采集

全景聲的聲音采集目前采用全景聲話筒外加單聲道點話筒分軌錄制,最后通過DAW混音。目前市面上的全景聲話筒種類不多,國外的有森海塞爾AMBEO VR MIC 、RODE NT-SF1,國內有時代拓靈Twirling720。他們大多采用“四面體陣列”拾音,需要強調一點的是,采用全景聲話筒錄制,接口箱、聲卡或者調音臺必須留有4路XLR接口,以便接入4路音頻信號。如圖(5)是SENNHEISER AMBEO VR MIC的話筒內部圖。

我以聲卡Zoom F8外加AMBEO VR MIC 話筒簡述錄制全景聲步驟。

將錄音設備連接到三腳架上,調整角度。理想的情況下是將它盡可能的以垂直方向靠近相機。如果它的距離與VR攝像機太過遙遠,聲音便不會那樣的身臨其境,因為你的眼睛(相機)和耳朵(話筒)應該是在同一個水平上的。擰緊話筒支架,將話筒指向朝上。

將XLR線連接到Ambeo底部,按順序將四通道的輸入插到F4多軌現場錄音機的輸入接口。

連接好AMBEO VR MIC話筒和ZOOM F8錄音機后,進入菜單點INPUT,選擇希望錄制的Ambisonic格式。F8的固件4.0現在包括Ambisonics解碼,允許以以下格式錄制360個音頻:●FuMa●Ambix●AmbisonicA(立體聲監視器)●FuMa(雙)●Ambix(雙)●FuMa+Ambix●FuMa+AmbisonicsA●Ambix+ Ambisonics A

錄制Ambisonics所有格式都會記錄在Poly WAV文件。當在Ambisonics模式下使用F8時,增益會自動關聯,因此可以使用一個旋鈕進行控制。這對于正確監視和調整ambisonic錄音中的音頻電平至關重要。采樣率只能設置為192 kHz時,Ambisonic模式關閉。必須說明的是Ambisonic只能文件保存為4軌Poly文件,不能保存為多單聲道或立體聲文件。在Ambisonic模式錄音時,可以點PFL監聽輸入聲音,當PFL為PFL模式下,你聽到的是轉換Ambisonic B格式之前的聲音,當PFL為SOLO模式下,你聽到的是轉換Ambisonic B格式之后的聲音。

在編碼的實際應用上,AMBEO只需要通過一對編碼立體聲輸入通道和4個解碼重放通道(reproducing channel),就能夠實現對聽眾周圍360度三維范圍內聲場效果的精確模擬和復制。當然,所使用的輸入通道和重放揚聲器越多,聽眾的聽音環境就越接近于三維體圓球形。從編解碼方式來看,采用Ambisonics方式錄制得到的聲音信號可以通過計算變換后得到很多相關的格式,雙聲道,立體聲、5.1、7.1,甚至是11.1、22.2等各種多聲道環繞聲格式。

2.2 全景聲的后期制作

聲音錄制下來以后就是后期的制作,全景聲的后期制作和原來的立體聲,環繞立體聲5.1或者7.1完全不同,它需要DAW掛載特殊的全景聲插件來處理720°度聲像的變化,而之前不管是立體聲還是5.1、7.1環繞立體聲都是在一個平面即360°上來通過聲像位置的變化來設計聲場。

DAW的選擇:業內通用的DAW是avid的Pro Tools。Pro Tools HD 12.8.2使用高保真度立體聲音響開啟了新的3D音頻工作流程,并提供開始使用Facebook Spatial Workstation插件創建虛擬現實(VR)和360音頻內容的工具。同時最新版的Pro Tools 12.8.2為第一,第二和第三階的Ambisonics增加了新的總線和音軌格式,為插件創建和操作Ambisonics音頻和混音提供了框架。First Order總線有4個通道,并且是由傳統聲場麥克風產生的格式。更高階的高保真度立體聲系統會使用更多通道(第二階為9,第三階為16)以增加混合中點聲源的位置分辨率。

在手機上觀看全景視頻,或者使用Samsung Gear VR或Google Cardboard等頭戴式顯示器(HMD)。Pro Tools為這些體驗提供了一個完整的球形視圖,通過用手指滑動或轉動頭部來環視四周。由于Ambisonics具有統一的環繞聲音場,可以與播放時的視覺體驗相匹配,因此它是360和VR音效的理想媒體。在大多數情況下,全景視頻和VR的聲音通過耳機傳送。當移動屏幕或轉動頭部時,設備會旋轉Ambisonic的聲場以匹配觀看方向,并將其轉換為立體聲耳機輸出。

使用熟悉的后期制作或音樂混合工作流程從頭開始制作Ambisonics格式的內容。Dolby Atmos Renderer插件與Facebook Spatial Workstation集合和Audio Ease的360pan套件中的插件一樣,可將混音源(單聲道,立體聲,5.1等)定位到Ambisonics混音。如圖(7.1、7.2)是Pro Tools制作全景聲的軟件界面

監聽的選擇:在監聽部分目前有兩種途徑,一種是以標準制式擺放全景聲監聽音箱。這種方式以杜比5.1.4、7.1.4揚聲器制式為業內標準,主要針對電影和電視行業的音頻后期混音監聽。如圖(8)是杜比5.1.4的音箱位置圖。

除了揚聲器監聽外,還有另外一種途徑監聽全景聲的制作那就是耳機監聽。市面上現在已經推出了全景聲的耳機監聽,在DAW中也加入了耳機監聽全景聲的插件包。如圖(9)是WAVES的 B360 Ambisonics Encoder。

B360 Ambisonics Encoder能夠將單聲道,立體聲和環繞聲音頻轉換為Ambisonics B格式音頻,從而為YouTube 360,Facebook 360或其他虛擬現實(VR)視頻提供360°全景混音。Ambisonics B格式是制作360°全景聲場的行業標準。與傳統基于聲道的單聲道,立體聲和環繞聲不同,B格式能夠用4個聲道的信息表現整個全景聲場。當你想要將一些單聲道,立體聲或環繞聲音頻素材添加到Ambisonics混音當中,你需要先將它們轉換為B格式。B360 Ambi- sonics Encoder能夠讓你通過兩個基本步驟完成轉換。你也可以將B360插入到你的立體聲或環繞聲母線中,它會幫你把整個混音轉換為Ambisonics B格式。你也可以將B360插入每一個軌道,從而分別將這些聲音精確地定位在立體混響混音的3D聲場當中。

在以上兩種方式中,你都可以通過B360將多種類型的聲音素材置入到一個三維聲場當中,同時還可以控制混音的寬度,高度和角度。通過直觀的界面和流暢的操控,B360將讓你的立體混響混音流程變得前所未有的快捷,簡單。

關于全景聲的耳機,我在這里介紹一下Mobius: Immersive Cinematic 3D Audio Headphone。如圖(10)

圖10:Mobius: Immersive Cinematic 3D Audio Headphone

Mobius捆綁了來自Waves的最新3D音頻插件,包括B360 4編碼器和NX 4 Mix Room。對于任何使用虛擬和增強的人來說,這兩個關鍵工具都是重要的。

Mobius的平面磁驅動器針對空間音頻進行了優化,先進的3D聲音仿真算法,使用6軸(四元數)跟蹤與3軸加速度計和3軸陀螺儀進行連續智能頭部跟蹤,使聲場隨著頭部位置的變化而發生變化。使用Mobius的實時頭部追蹤功能編輯,將單聲道,立體聲,5.1或7.1元素引入DAW的時間線。Mobius還可以精確地跟蹤每秒1000次的最微小的頭部動作,并提供3D 仿真算法用來創建房間內聲音的空間混響感和直達聲。

Mobius允許使用的音頻工作站有(Avid Pro Tools,Logic Pro,Ableton Live,Digital Performer,Nuendo,Cubase,Reaper等)并與控制界面實時創造性地刻錄音頻,而無需佩戴VR耳機。

3. 全景聲應用當下處境

與傳統體驗方式一樣,4體驗中聲音與畫面同等重要,是衡量整體體驗質量高低的一項關鍵指標。而空間音頻則是構建逼真VR體驗的關鍵??臻g化的聲源提供了三維位置數據,與杜比全景聲技術十分相似,可以讓用戶時時感覺到聲音傳來的具體位置,營造一直極強的臨場感。

從電影電視到游戲音樂無不與聲音相關,2017年世界范圍內個人終端只有YouTube和Facebook是支持全景聲播放的公眾性開放平臺。2019年后中國的愛奇藝和騰訊等視頻平臺開始陸續支持支持少量全景聲音視頻節目。但全景聲的電視節目目前還微乎其微,目前最高也就停留在環繞立體聲。換句話說,即便有,對于受眾來說從終端輸出這些聲音需要從編解碼到專業軟硬件等一系列的技術性問題需要商業化解決方案。群體性的觀眾規模目前主要集中在杜比全景聲影院。遺憾的是目前全景聲影片和全景聲影院與目前傳統立體聲電影和影院比仍舊比例失衡。因此,發行平臺數量上的限制也就使得內容創作者制作全景聲的熱情大大降低。畢竟經過自己潛心打造的東西不能得到有效的傳播對于任何人來說都不是那么容易接受的一件事。不過,隨著人們越來越重視聲音的逼真性體驗感,我們有理由相信未來主流媒體以及互聯網音視頻平臺將陸續全面支持全景聲的影音節目。

參考文獻:

[1]來自維基百科:https://en.wikipedia.org/wiki/Ambisonics

[2]來自avid官網:http://www.avidblogs.com/Ambisonics-vr360-audio-pro-tools-hd/?promo_id=ProToolsHD,productteaser,ProAudioAmbisonicsBlogPromo,10182017&promo_name=ProAudioAmbisonicsBlogPromo&promo_position=productteaser

[3]來自插件提供商waves:https://www.waves.com/nx

[4]來自杜比官網:https://www.dolby.com/cn/zh/brands/dolby-atmos.html

[5]來自audeze的官網:https://www.audeze.com/products/mobius-series/mobius-creators-edition

[6]來自同期錄音網:http://www.locationsound.cn/portal.php?mod=list&catid=31

猜你喜歡
虛擬現實
虛擬現實,讓學習更“沉浸”
虛擬現實LG 360 VR眼鏡
View Master虛擬現實顯示器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合