《虛擬實境之聲音 - 淺談 Spatial Audio / Ambisonic 聲音處理技術》|DigiLog 聲響實驗室
對於喜歡虛擬實境、360 度影片或是喜歡欣賞電影的朋友,就算不是創作者,多多少少應該也曾好奇過那些 3D 音效是怎麼做到的,這次的文章會藉由一些比較新的收音技術、器材、後期混音、聆聽方式做簡單的介紹。
不過在那之前,讓我們先來看一段影片直接體驗看看吧!
(建議戴上耳機在手機上用 Youtube 觀看,用電腦的話瀏覽器請使用Google Chrome、Firefox、Internet Explore、Opera。Safari目前不支援)
在 360 度影片中,有幾個值得一提的事情:
- 聲音會隨著我們所看的景象移動
- 不需要昂貴的機器也可以從手邊的裝置輕鬆服用
- 雖硬體限制低、但軟體/使用平台卻有很多限制
- 很難跟他人一起共享
這種處理 3D 聲音的技術並不全然是一個全新的領域,他所運用到的是所謂的 ambisonic 格式(目前尚未有正式的中文翻譯)與我們常聽到的單聲道、立體聲、5.1、7.1不同,ambisonic 是一種,記錄完整 360 度環景的聲音處理格式,廣泛被應用在不論收音、後期處理、聆聽場合的解決方案。在 1970 年代就已經問世,但更因為近幾年由於 VR、AR 等相關領域興起,開始才有了活躍的討論應用。
但在詳細說明 ambisonic 之前,我們需要先建立一下目前常見的聲音處理技術分類做簡單的認識。
聲音處理技術類型
技術的出現,便是為了解決問題。
實現原本大家想做卻做不到的事情。對於聲音技術的需求,從 20 世紀初的留聲機,單純只有錄音、播放的單聲道格式,娛樂領域的發展開始追求更自然、更豐富的聲音,而有了立體聲,更別忘了還有 5.1, 7.1 甚至更多聲道的格式了,而這也就是我們最熟悉、最直覺能理解的 Channel Based(聲道導向)。
Channel Based(聲道導向)
解釋
以「聲道」作為基準,去分配各個物件、音軌位於聲道間的聲音大小,也是最傳統、發展最完全的定位方式。我們常聽到的 mono,stereo, 5.1, 7.1 都是這種類型。
種類
後來也有增加了上下排環繞的聲道格式,目前最多聲道的格式有 NHK 的22.2。
可以發現其實到越來越高聲道數的格式,每家廠牌的建議配置也不太一樣。
廠商
電影、劇場類的裝置常見的廠商有杜比 ( Dolby Digital )、DTS、SDDS 等;家庭劇院的話則沒有 SDDS。
不同廠商有自己的聲道版本、音訊壓縮等的不同,目前最常見的格式為 5.1,廣泛被各種播放設備、影視作品作為標配或選配。
應用上的優缺點
優點:
- 聆聽:作為發展最為完備的導向類型,舉凡傳統、數位電視、DVD、電影等都能夠有廣泛的支援。
- 後期:以要觀眾要聽到什麼,就怎麼去處理的脈絡去製作,聲音聽起來最自然。
- 收音:收音方法、設備發展完整,例如像下圖的 decca tree 或可作為 5.1 聲道收錄整體聲音的工具。
缺點:
- 聆聽:設備通常不太能兼容不同聲道格式,需要透過 up / down mixing 的方法,讓不同聲道格式來模擬其他格式,並且每推出新的聲道格式,就必須添購新的播放設備、甚至是新的播放空間,對大部分的人來說是很難負荷的。
- 後期:聲道格式數量的不同影響到監聽時所需的監聽喇叭數量,聲音的方向定位也較為困難。
- 收音:門檻高,收音方法複雜且昂貴。
畢竟人耳對於聲音定位是非常精準的(不然我們大概永遠找不到那個掉在房間某處的手機了……),聲道導向為了去滿足對於聲音的擬真度,不斷推出更多聲道的格式,並沒有辦法完全解決隨之而來的困難,所以在 2012 年左右,新的導向類型,Object Based (物件導向)問世。
Object Based(物件導向)
解釋
每個「聲音物件」在哪個方向有多少音量,記錄完整的物件資訊。
廠商、種類
Dolby Atmos
DTS:X
VBAP (Vector Base Amplitude Panning)
像是在台北的國賓大戲院就有支援 Dolby Atoms 的影廳喔!
應用上的優缺點
優點:
- 聆聽:由於跳脫了聲道上的的思維,只單純記錄每個物件的聲音的資訊,定位效果很好,不同的播放設備也可以通用對應他所在的位置,甚至支援傳統 Channel Based 的軟硬體上只需要小小的更新就可以直接使用。
- 後期、收音:收音不需要考慮他真實存在的方向,很適合原本就是創造出來的電影特效。
缺點:
- 聲源較集中,難保持真實性,格式檔案大
Object Based 的格式雖然擁有很好的定位能力,但格式檔案太大的問題卻很難解決,隨之而來就是高成本製作的問題,此時就有了我們這次的討論重點,Scene Based(場景導向)。
Scene Based(場景導向)
解釋
場景導向,每個「場景」有多少聲音資訊,從場景正中央收錄完整的場景資訊,而不記錄個別的物件資訊。
Ambisonic
應用
目前最常見的為 ambisonic B-format,ambisonic 是 Scene Based 中的一種。
收音
Ambisonic 的麥克風是一種錄音手法 M/S prosessing 的延伸,與其他的麥克風長相很不一樣,最少擁有 4 個 capsule ,為 1st Order Ambisonic (FOA),但這四個 capsule 並不是指播放出來的聲道方向,而是一個紀錄整個 360 度場景的 ambisonic A-format ,不過在單字轟炸前我們還是先來看一下 M/S prosessing 是什麼吧!
應用到 FOA 的麥之後則是不只左右的廣度,更多了上下、前後兩個維度。
4 channel = 環景 360 度聲音資訊
通常我們會以 WXYZ 代表
- W:全指向
- X:前後的雙指向
- Y:左右的雙指向
- Z:上下的雙指向
AmbiX or FuMa
如果看一些 ambisonic 麥克風的介紹,會有強調自己可以任意隨設備擺置來翻轉方向的特色。
一是ambisonic 收音常搭配環景的攝影器材使用,由於都放在場景中央,麥克風會收到攝影機運作的聲音、攝影機也會拍到麥克風;二是不同的解碼格式會有不同的方向,最常用的格式為 AmbiX 以及 FuMa,他們的差別最主要是 channel 的順序,AmbiX 是 WYZX;FuMa 則是 WXYZ,值得慶幸的是這些格式間的轉換目前也都有 plugins 可以直接轉換了。
編碼與解碼
從 M/S prosessing 原知,麥克風錄的格式並不是我們丟到 daw 之後,就會聽到整個環景聲音,麥克風的格式與我們真的要聽到的 Scene based 的格式必須經過解碼才可以使用,但這些事情聽起來很複雜,不過通常這個步驟通常也不用自己來,在 FOA 收音的狀態下,知道 A-format 是麥克風錄音的格式,B-format 是解碼之後的格式,透過麥克風附的軟體或是 plugin 就可以做到了。
HOA (Higher Order Ambisonic)
Ambisonic 麥的定位精準度的影響來自 capsule 的多寡,如上述所提的為 1st Order ,按照球諧函數類推,2nd Order 就要 9 個,3rd Order 需要 16 個。
廠商
近幾年來有許多廠商紛紛推出 ambisonic 格式的麥克風,例如 Sennheiser 的 AMBEO VR 麥克風、ZOOM 的 H3-VR 錄音裝置等,High Order 也有很多不同用途的麥克風,像是 3rd Order ambisonic 的 ZYLIA。
混合收音
不過 ambisonic 麥克風終究有其限制,被擺在場景正中央使得他很難詳細的紀錄所有聲音,而三種導向的關連並不是試圖互相取代,而可以會採取混合收音的方法,除了 ambisonic 的麥克風之外會再架單獨收音等麥克風作為後期調整,可以聽聽看彼此的差別。
後期
Ambisonic 格式的強大,在於後期製作時與其他格式的相容性非常的高,由於他對於其他導向的格式包容性很強,不論 mono, surround, object based 都可以透過轉檔放進來一起調整編輯,也可以輕易匯出成非 ambisonic 的格式相容於各種聆聽場合。相對的,了解複雜的格式們間以及軟體的功能、可以應用的平台、限制也變得十分重要。
理解現在最泛用的格式是哪些,對於自己會需要什麼樣的器材是非常重要的, Ambisonic 雖然有更高 order 的麥克風可以提昇聲音定位的精準度,但是以現在主流支援 360 影片的平台,以 youtube 及 facebook 為例的話,兩者有不同
DAW
ambisonic 以 FOA 的格式在 DAW 中編輯的話,需要支援 4 channel 的格式,不過這時 channel 的用法不是 channel based 指的那種幾個聲道播放的 channel ,而是 FOA 麥克風所錄製的四條 channel ,支援 4 channel 的 DAW 最有名的應該是 Pro tools,但更值得一提的應該是更容易入手的 REAPER,可以說是對於剛踏入門的朋友們的福音呢!
除了麥克風本身的解碼軟體之外,waves 也曾推出過編輯、轉檔、監聽 ambisonic 的 plugins、google也有推出 Resonance Audio 的跨平台開發工具,可以使用於網頁、程式、DAW 等環境。
聆聽
任何支援立體聲的耳機、支援 ambisonic 音訊格式的硬體、平台、裝置(例:youtube、facebook 等)
喇叭與耳機
喇叭與耳機的收聽 3D 聲響,最大的差別就在於有沒有透過耳朵的辨位處理,喇叭將聲音播放到整個空間中,耳機則是直接送到耳道裡,就像如果將 ambisonic 格式轉錄成 5.1 ,我們可以自由的在喇叭中間移動旋轉來聽聲音的方位,但這顯然不會是聆聽 ambisonic 的最佳選擇,想要透過喇叭忠實呈現 ambisonic 的聲響的話,需要一個平均分布於聆聽者等距離的球體上,但這顯然對於一般人來說是很難達成的,最常見的方法還是透過耳機—— Binaural 格式。
Binaural 也是一種錄音方法,直接透過模擬頭顱的麥克風來收錄聲音,來忠實收錄人所聽到的聲音,Binaural audio 的格式簡易的說是使用 stereo (例如:耳機聆聽)來重現 3D 的聲響。Ambisonic 轉錄成 Binaural 格式時,透過 head-tracking 的方式即可達到隨頭部移動聲音也相對移動的效果,但這樣的處理還是會顯得不太自然,這關係到人耳如何接收及辨認聲音的方位,)移動就必須要帶入模擬耳朵在空間中移動時聽起來的聲音的修正,也就是而這修正可以想成是一個模擬耳朵的 filter,這 filter 的名稱被稱為—— HRTF(頭部相關傳遞函數)。
我們的耳朵其實是非常靈敏複雜的,就像我們用一雙眼睛分辨眼前物體的遠近大小一樣,我們可以輕易地靠著一對耳朵精準在三維空間的定位聲音的來源,這 filter 中有幾個比較重要的參數如下。
HRTF(Head-Related Transfer Functions 頭部相關傳遞函數)
兩耳時間延遲量差 / ITD(Inter Aural Time Delay)
音源到達兩個耳朵的時間差,例如,如果聲音從正前方傳來,聲音會同時到達雙耳,若在正右方傳來
則到達右耳距離則會比到達左耳的多了一個頭顱的距離。
兩耳音量大小差 / IAD(Inter Aural Amplitude Difference)
除了到達的時間的差距,也會因為經過頭顱會被吸收掉音量,所以左右耳聽到的音量也會有所不同。
但這兩個數值還是會有誤判的情形,例如,正前方與正後方對於耳朵來說 ITD 與 IAD 都是相同的,耳朵必須靠著其他的數據來做判斷。
耳廓繞射效應
耳廓的重要性可以靠著把耳朵輕輕的蓋住,請別人拿鑰匙圈在固定的位置上下移動並甩動,會發現其實有點難辨別到底他在哪個位置,聲音在複雜的耳廓間的反射也是影響我們辨位的重要因素之一。
但從這些參數可見,其實它所參考的數據來自人體本身,也就是說這些數據對於每個人都會有些許的差距,頭顱大小、耳朵構造等,要真的用耳機忠實呈現整個 ambisonic 的完整樣貌,目前除非每個人都可以輕易量測自己的 HRTF ,否則還是很難做到非常精準。
立體聲喇叭收聽 Binarual Audio 的可能性
就像最一開始提到的影片,沈浸式體驗有個特色,就是很難與其他人一起分享,只能一個戴上裝置體驗,但建構一個完整的 ambisonic 監聽系統又顯得不切實際,不過透過立體聲喇叭直接播放 binarual audio 又會有左耳聽得到右耳聲音的狀況(這現象稱為 crosstalk),目前市面上也有少數產品是透過消除 crosstalk 來透過喇叭聆聽 binarual audio 的產品,不過聲音上目前的技術會有一定的失真。
挑戰
這項技術目前似乎還是停留在有諸多限制、沒有被真正廣泛運用的階段,同時對於聲音的要求,相較視覺上的有感程度,追求聲音極致這件事似乎顯得沒有那麼迫切。
如果大家有這樣的工具,又會想要作為什麼用途呢?
參考資料
- In-phase Audio
- An Introduction to Ambisonics with John Escobar | 360° | VR | Spatial Audio Recording | Berklee Online
- WAVES
- CDM
- Resonance Audio
- HRTF音頻3D定位技術綜述
- Interaural Level Differences
- Universal Audio MID-SIDE MIC RECORDING BASICS
- SonicScoop
- WIKI: Surround Sound
關於我們 —
我們是 DigiLog 聲響實驗室,專注於電腦音樂、合成器、聲音技術及數位音樂等相關領域,無論是數位音樂或是類比合成器,DigiLog 期待讓每個人都能發掘聲音的不同面向。
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!
- 来自作者
- 相关推荐