沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用
來源:時(shí)代拓靈 編輯:ZZZ 2024-02-21 10:03:59 加入收藏
沉浸式音頻技術(shù)近年來逐漸擴(kuò)大其應(yīng)用范圍,常見應(yīng)用于VR,影視,會(huì)議等場(chǎng)景。本文由時(shí)代拓靈創(chuàng)始人&CEO,孫學(xué)京博士LiveVideoStack線上分享的內(nèi)容整理而成,從聲場(chǎng)采集,傳輸,渲染播放算法以及軟硬件等方面詳細(xì)介紹了沉浸式音頻技術(shù)的制作、播放及發(fā)展與應(yīng)用。
大家好,我是來自時(shí)代拓靈的孫學(xué)京。本次分享將主要介紹沉浸式音頻的從采集制作一直到播放整個(gè)鏈條上所需要的一些軟件和硬件的技術(shù),詳情如下:
1、沉浸式音頻簡(jiǎn)介
1.1什么是沉浸式音頻?
什么是沉浸式音頻?大家最近可能經(jīng)常聽到“沉浸式音頻”,“全景聲”這兩個(gè)名詞,那么它們與之前的環(huán)繞聲或者3D音頻有什么本質(zhì)的區(qū)別嗎?
通俗地講,它們之間可能有很多的相似之處。但就技術(shù)層面來說,從底層架構(gòu),到最終的展現(xiàn)形式都有非常大的變化。
首先我們把傳統(tǒng)的5.1音頻擴(kuò)展為不僅包含聲道也包含對(duì)象和場(chǎng)景。目前,沉浸式音頻類型主要分為三大類:基于聲道Channel based audio(CBA)、基于對(duì)象Object-based audio(OBA)、基于場(chǎng)景Scene-based Audio(SBA)。
目前市面上一些主流的系統(tǒng)主要是Dolby Atmos、MPEG-H以及影視行業(yè)的SMPTE 2098協(xié)議。其主體還是基于Dolby Atmos,但同時(shí)它還允許其它不同標(biāo)準(zhǔn)被兼容在此協(xié)議內(nèi),也就是說Dolby Atmos某種意義上是SMPTE 2098的一個(gè)子集,我們可以在兼容Dolby Atmos的同時(shí),推出自己的標(biāo)準(zhǔn)。因此我相信,接下來沉浸式音頻將來會(huì)迎來一個(gè)非常大的利好。
1.2沉浸式音頻-傳統(tǒng)到3D音效
基于揚(yáng)聲器的沉浸式音頻,常見的是5.1或7.1,如果是耳機(jī)設(shè)備,則會(huì)有HRTF雙耳3D環(huán)繞的音頻。5.1音頻實(shí)際上是固定的聲道位置,由左前、右前、左后、右后構(gòu)成,而7.1就是在5.1基礎(chǔ)上再加兩個(gè)背后的聲道位置,.1就是低頻通道的意思。
目前新的沉浸式音頻,不再局限于平面式的聲道,進(jìn)一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳,頂部都會(huì)布有很多的喇叭;如果是家庭的話,我們經(jīng)常叫做5.1.2,就是在頂上再設(shè)置兩個(gè)音箱,或者7.1.4就是在頂上再設(shè)置4個(gè)音箱。
真正想要達(dá)到一個(gè)非常好的沉浸式效果,頂部的高度信息帶來的對(duì)人的感官?zèng)_擊感是非常強(qiáng)烈的,比如下雨或者打雷的聲音。即使在平時(shí)可能感覺不到很明顯的差別,但當(dāng)你真的專注于音頻效果時(shí),增加了高度信息的音頻感覺就會(huì)非常震撼。
這種變革如果停留在傳統(tǒng)的5.1格式上是很難實(shí)現(xiàn)的。盡管傳統(tǒng)的做法通過布多層的方式也可以模擬出高度信息,但是并沒有從根本上,即制作混音端來改變底層的架構(gòu)。因此,高度信息的增加實(shí)際上是對(duì)影視行業(yè)沉浸式音頻制作的巨大改變。加入高度信息的音頻會(huì)有很高的沉浸感,并且底層的渲染技術(shù)比傳統(tǒng)的5.1混音要復(fù)雜很多,方位的渲染精度也會(huì)大大的提升,所以整體的渲染質(zhì)感有很大的提升。另外,近幾年在AR或者VR時(shí)代,非常強(qiáng)調(diào)交互的特性。比如VR頭顯設(shè)備的頭部跟蹤、旋轉(zhuǎn),不僅要旋轉(zhuǎn)視頻,同時(shí)還需要旋轉(zhuǎn)聲場(chǎng)。這些都是傳統(tǒng)的5.1音頻(事先混音)很難實(shí)現(xiàn)的,而新的渲染技術(shù),沉浸式音頻架構(gòu)是可以實(shí)現(xiàn)的。
至于其它的應(yīng)用方面,在看電視節(jié)目的時(shí)候,沉浸式音頻還可以靈活的根據(jù)不同的場(chǎng)合控制選擇不同的語言,選擇聲場(chǎng)中不同的方位進(jìn)行體驗(yàn)等。這些都是通過傳輸一個(gè)對(duì)象或者傳輸一個(gè)聲場(chǎng)的概念來實(shí)現(xiàn)的,而傳統(tǒng)的5.1或者立體聲傳輸是沒辦法實(shí)現(xiàn)的(無法實(shí)現(xiàn)單音軌分離)。
最后一點(diǎn),制作與播放設(shè)備的分離。無論是5.1音箱、立體聲耳機(jī)或是其它設(shè)備,其中的混音都由渲染引擎中的軟件算法來實(shí)現(xiàn)。在制作的時(shí)候,混音師就會(huì)假想出一個(gè)球形的空間場(chǎng)景,也就不再完全依賴必須有一個(gè)5.1的混音廳才能將聲音混好,并且完成一次混音就可以在任何地方進(jìn)行播放。
1.3 Object Audio
DolbyAtmos的混音界面如圖右下角所示,是一個(gè)模擬電影院的方盒子,屏幕在前方。其中小球代表的是音頻對(duì)象,其在三維空間中會(huì)有一個(gè)運(yùn)動(dòng)的軌跡?;煲魩煏?huì)戴耳機(jī)或者通過自己的混音環(huán)境來體驗(yàn)混音(音頻對(duì)象)的軌跡,但實(shí)際最終播放的時(shí)候有可能是一個(gè)5.1或者7.1.4的混音環(huán)境,這個(gè)是由渲染引擎來完成的。
對(duì)象音頻是現(xiàn)在比較流行,并且逐漸占據(jù)主流的。其源自于游戲,杜比作為一個(gè)商業(yè)公司將對(duì)象音頻徹底商業(yè)化推行到影院中,并進(jìn)行了許多商業(yè)算法上的創(chuàng)新,解決了很多復(fù)雜的場(chǎng)景問題。
對(duì)象音頻的一項(xiàng)核心組成部分就是元數(shù)據(jù),我們實(shí)際上是通過位置、擴(kuò)展度或者運(yùn)動(dòng)特性等來描述對(duì)象音頻,這些元數(shù)據(jù)都要傳輸?shù)戒秩径?,同時(shí)會(huì)進(jìn)行一些編碼壓縮操作。對(duì)象音頻的渲染方法一般是基于Panning,就是聲音如何通過幅值、相位的關(guān)系在多個(gè)喇叭或者耳機(jī)里產(chǎn)生一定的方位感。
1.4 Scene-Based Audio
Scene-Based Audio主要是以MPEG-H為代表(實(shí)際指MPEG-H中Scene-Based Audio部分所占比例較高)。Scene-Based Audio主要是用來描述場(chǎng)景的聲場(chǎng),其核心的底層算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音頻的底層技術(shù)也不完全是新的,算法以及新的技術(shù)都是漸進(jìn)的,近幾年隨著帶寬的加大,隨著復(fù)雜度即算力的增強(qiáng),以及AR、VR新的交互方式的產(chǎn)生促進(jìn)了技術(shù)的迅勐提升。Ambisonic也煥發(fā)了青春,VR成功將其帶到了大眾的面前。Ambisonic描述三維空間中的聲場(chǎng),例如一階Ambisonic更多的是通過極坐標(biāo)。
一階Ambisonics:FOA
Ambisonics中存在一種階的概念,一階Ambisonics我們稱之為FOA(First-Order Ambisonics),零階即沒有任何方向,也就是全向麥克風(fēng)來描述聲場(chǎng)。通常情況下,在Ambisonic中B格式為中間格式,聲場(chǎng)采集設(shè)備得到的原始信號(hào)為A格式。為了便于后續(xù)的運(yùn)算,無論麥克風(fēng)是什么樣子,通常都會(huì)轉(zhuǎn)化為通用格式即B格式。
如圖,X代表一個(gè)點(diǎn)元,通過Ambisonic的(W,X,Y,Z)表示,將其映射到一個(gè)聲場(chǎng)中是非常簡(jiǎn)單的,主要是應(yīng)用了三角函數(shù)進(jìn)行一系列公式的計(jì)算。將其通用化后在高階時(shí)的表現(xiàn)即為球面諧波函數(shù)。
高階Ambisonics:HOA
描述聲場(chǎng)其實(shí)就是通過物理學(xué)的球面諧波函數(shù)來描述聲波在空間中的傳播,存在非常高的階數(shù),如之前提到的零階、一階函數(shù),甚至三階函數(shù)(右下角圖)。
2、聲場(chǎng)采集技術(shù)
2.1雙耳錄音
接下來介紹聲場(chǎng)采集技術(shù),在音頻平臺(tái)中比較常見的有雙耳錄音,模仿人類大腦工作方式,模擬人左/右耳聽到的聲音。常見的使用工具為3Dio人工頭麥克風(fēng)。
上圖為VR時(shí)代,3Dio的升級(jí)(復(fù)雜)版本,適合于四個(gè)方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場(chǎng)采集的上限,拋開人耳個(gè)性化的差異,達(dá)到的仿真效果要比HRTF等要好得多。這個(gè)錄音的輸出格式通常叫作Quad Binaural(QB)。
2.2 Ambisonic錄音
Ambisonic聲場(chǎng)錄音的優(yōu)勢(shì)是更加靈活,通過錄音設(shè)備得到的Ambisonic信號(hào),可以直接做很多的后續(xù)處理。但是如果用Ambisonic信號(hào)轉(zhuǎn)成Binaural,效果在某一點(diǎn)上會(huì)遜色于Binaural信號(hào)。我們也曾做過一些比較,如果是用于VR 360度的聲場(chǎng)采集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音整體表現(xiàn)會(huì)比較平均,也就是最好方向比QB差,但也會(huì)比QB最差的方向要好一些。
有關(guān)聲場(chǎng)采集的算法以及麥克風(fēng)的設(shè)備,相對(duì)來說比較復(fù)雜。簡(jiǎn)單地說,與其它設(shè)備的麥克風(fēng)陣列使用類似,都有同樣的需求:核心參數(shù)有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風(fēng)還是ECM麥克風(fēng)。早期一般會(huì)選擇ECM,但ECM的一致性稍差,所以比較貴的麥克風(fēng)出場(chǎng)時(shí)都會(huì)自帶匹配的校準(zhǔn)參數(shù)。目前新的麥克風(fēng)更多的是MEMS,一致性相對(duì)較好,可以達(dá)到,可以滿足很多需求。Ambisonic聲場(chǎng)采集得到的陣列信號(hào),在剛性球體上,可以近似的用剛性球體球面諧波函數(shù),把傳感器得到的信號(hào)轉(zhuǎn)成球面諧波函數(shù)的一些系數(shù)來表示,然后針對(duì)系數(shù)進(jìn)行后續(xù)的聲場(chǎng)的旋轉(zhuǎn)等操作。
3、沉浸式音頻的制作,存儲(chǔ),傳輸
那么,有了沉浸式音頻聲場(chǎng)的采集,之后應(yīng)該如何進(jìn)行進(jìn)行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業(yè)比較常用的。主流的Pro Tools目前已經(jīng)全面支持Dolby Atmos,也可以支持一些高階的HOA;Reaper因?yàn)槠涔δ軓?qiáng)大,價(jià)格便宜,性價(jià)比高,被越來越多的音頻行業(yè)人士所喜愛。
以上提到的我們稱為音頻工作站,實(shí)際上大部分的工作還是通過插件來完成的,工作站完成主流的工作,靠插件來完成具體的如混響算法或者VR相關(guān)的一些工作。常見的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。
時(shí)代拓靈公司的插件,叫做Twirling Works,最初是為了VR制作來設(shè)計(jì)的。
多通道音頻壓縮一般是通過提取相位差、幅值差等一些Parametric Stereo,多通道通常選擇降維或者去相關(guān)的方式。
MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細(xì)節(jié)部分的信號(hào)取出來。將無方向的,環(huán)境聲音信號(hào)分離開。
HOA的優(yōu)勢(shì)是存在分層的編碼機(jī)制,如果在帶寬精度要求不高,帶寬不夠的時(shí)候,可以傳輸輸入較少的低階信號(hào),如果帶寬足夠的話,則可以傳輸高階信號(hào)。
對(duì)象音頻的編碼主要是來自杜比的科學(xué)家的貢獻(xiàn),首先是兼容5.1開發(fā)了Joint object coding(JOC),可以將多個(gè)對(duì)象音頻下混到5.1聲道,通過傳統(tǒng)的5.1通道,生成的信號(hào)可以被5.1解碼器很好的兼容播放。并且如果同時(shí)支持對(duì)象音頻,就可以將其還原成為支持Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理,面向更多的對(duì)象,可以通過一些準(zhǔn)則如:對(duì)象的重要性,能量等對(duì)多個(gè)對(duì)象做聚類。
4、渲染與播放
渲染與播放是非常關(guān)鍵的一個(gè)部分,渲染的方式通常叫做Panning,在三維空間中的渲染方式稱為Vector-based Amplitude Panning。
HOA的渲染相對(duì)更復(fù)雜一些,主要需要考慮的是如何將不同的HOA的信息給到不同的喇叭。
以上是優(yōu)化HOA decoding所使用的準(zhǔn)則之一Max rE。
以上是Decoding的幾種不同方式,傳統(tǒng)的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進(jìn)展,盡可能的使得渲染更均勻,最大程度保證音質(zhì)不受損。
5、基于IP的媒體實(shí)現(xiàn)音頻制作和體驗(yàn)轉(zhuǎn)換
隨著基于IP媒體的出現(xiàn)和對(duì)更好的娛樂體驗(yàn)的追求,音頻終于在廣播中呈現(xiàn)它應(yīng)有的突出作用。你甚至可以稱之為下一代音頻革命。行業(yè)對(duì)沉浸式音頻的接受將對(duì)現(xiàn)場(chǎng)直播產(chǎn)生巨大的影響——它已經(jīng)在改變著音樂、劇院、影院、演播室、娛樂音樂、電影制片廠和錄音行業(yè)。
沉浸式音頻成為現(xiàn)實(shí)
把在水平面上運(yùn)行的環(huán)繞聲擴(kuò)展到三維音頻體驗(yàn)(空間音頻),沉浸式音頻賦予創(chuàng)作人員和工程師在傳達(dá)情感方面有更高自由度以及對(duì)耳聞目睹的內(nèi)容增加視角的更強(qiáng)大工具。目的是讓觀眾從任何方向(如果不是所有方向)都沉浸其中。
沉浸式音頻使用從空間中一個(gè)或多個(gè)點(diǎn)捕捉聲場(chǎng)中聲音的三維聲,創(chuàng)建能夠混合適應(yīng)不同類型的音響系統(tǒng)的“音頻對(duì)象”。由于能夠操控聲場(chǎng)或選擇特定的流,音頻對(duì)象打開由制作團(tuán)隊(duì)和聽眾自身創(chuàng)造獨(dú)特體驗(yàn)的大門。靈活性和選擇是關(guān)鍵。
通過沉浸式音頻,觀眾/聽眾可以選擇特定的音頻對(duì)象,將其包含在他們看到和聽到的廣播節(jié)目版本內(nèi)。就像一個(gè)附加的攝像機(jī)信號(hào)選項(xiàng),如“進(jìn)球攝像機(jī)”或“裁判攝像機(jī)”,可以選擇不同的音頻信號(hào),將聽眾帶入比賽或其它現(xiàn)場(chǎng)體驗(yàn)的不同部分。觀眾/聽眾可以改變他們的空間位置,從而獲得一個(gè)增加更大的現(xiàn)實(shí)性和如置身比賽中的感覺的不同視角。附加的聲音可能是來自配話筒的運(yùn)動(dòng)員,或者一級(jí)方程式賽車車手和工作人員之間的通話,或者其它任何可以在制作過程中捕捉的音頻元素。
增加的聲源和數(shù)據(jù)增大復(fù)雜性
現(xiàn)在傳統(tǒng)的聲場(chǎng)是立體聲和環(huán)繞聲:5.1和7.1,具有左、中、右、左環(huán)繞、右環(huán)繞和重低音/低頻效果。沉浸式音頻引入多兩層——除了環(huán)繞聲基本層之外,還有一個(gè)高度層和頂層。
音頻對(duì)象具有描述如何在聲場(chǎng)內(nèi)還原音頻的相關(guān)元數(shù)據(jù),這些數(shù)據(jù)描述了位置、擴(kuò)散、運(yùn)動(dòng)特征及其它還音信息,給予對(duì)象根據(jù)位置或通過特定的揚(yáng)聲器進(jìn)行靈活定位必不可少的獨(dú)立性。
在沉浸式音頻實(shí)現(xiàn)中,廣播公司將發(fā)現(xiàn)需要應(yīng)對(duì)和管理更多的音頻流。隨著這種格式在制作工作流程中占有一席之地,考慮到它比傳統(tǒng)的立體聲和環(huán)繞格式可能更復(fù)雜,一個(gè)關(guān)鍵的挑戰(zhàn)將是擴(kuò)展服務(wù)。
與在標(biāo)準(zhǔn)的環(huán)繞聲工作流程中相比,沉浸式音頻的音頻源、音頻流和對(duì)象的數(shù)量更高,為保持工作流程的定時(shí)/同步完整性,可能需要更全面的PTP網(wǎng)絡(luò)規(guī)程?;A(chǔ)設(shè)施的主要考慮因素將是流量和帶寬管理、QoS處理和適當(dāng)?shù)腜TP網(wǎng)絡(luò)層次結(jié)構(gòu)處理。
從廣義上看,交換基礎(chǔ)設(shè)施方面的一個(gè)響應(yīng)是與自動(dòng)播出、控制和調(diào)度平臺(tái)集成,因?yàn)樗鼈兺ㄟ^控制的方式反映了工作流程的意圖。更具體地說,處理基礎(chǔ)設(shè)施,廣播公司將需要使用可以顯示用于控制和配置的北向API的PTP可知的管理型IP交換機(jī)。
從網(wǎng)絡(luò)的角度來看,廣播公司可能會(huì)考慮根據(jù)類別,將音頻源和對(duì)象捆綁在一起,例如源位置、被“收集”的聲音類型和要捕獲的特定效果。音頻流作為可以四處移動(dòng)的對(duì)象得到管理,當(dāng)?shù)讓踊A(chǔ)設(shè)施能夠以對(duì)人類大腦有意義的方式聚合數(shù)據(jù)時(shí),這是有益的。
為了保持?jǐn)?shù)據(jù)流和數(shù)據(jù)的邏輯組織,與能夠靈活地管理此流量、憑借VLAN進(jìn)行分組并確保加入恰當(dāng)?shù)腝oS的交換基礎(chǔ)設(shè)施協(xié)同工作是很有用的。這在其它類型的通信(如內(nèi)部通話、元數(shù)據(jù))依賴于相同的基礎(chǔ)設(shè)施場(chǎng)合的工作流程中特別重要。
為支持沉浸式工作流程,Artel的AoIP、管理型和支持PTP的交換機(jī)提供這種水平的流量控制/管理和PTP功能。該公司Quarra系列交換機(jī)中的邊界時(shí)鐘功能提供對(duì)PTP網(wǎng)絡(luò)進(jìn)行分區(qū)的工具,以實(shí)現(xiàn)更好的性能。(音頻源智能分區(qū)可以防止PTP主時(shí)鐘過載狀態(tài))。特別是對(duì)于直播活動(dòng),廣播公司可能會(huì)考慮根據(jù)哪些交換機(jī)服務(wù)哪些源來部署他們的網(wǎng)絡(luò)。
先進(jìn)的IP交換機(jī)簡(jiǎn)化采用
沉浸式音頻仍然處于相對(duì)早期的發(fā)展階段,還沒有標(biāo)準(zhǔn)配置獲業(yè)界采用。廣播公司已經(jīng)對(duì)5.1.2、5.1.4和7.1.4進(jìn)行了試驗(yàn),5.1.4似乎提供了出色的3D體驗(yàn),同時(shí)還使得基礎(chǔ)設(shè)施轉(zhuǎn)換可管理。
6、行業(yè)現(xiàn)狀與相關(guān)應(yīng)用
有關(guān)行業(yè)現(xiàn)狀,聲場(chǎng)采集部分一階Ambisonics(FOA,F(xiàn)irst-Order Ambisonics)已經(jīng)很常見了,并且同時(shí)也出現(xiàn)很多高階Ambisonics(HOA,Higher-Order Ambisonics)的采集。VR對(duì)于Ambisonic存在很強(qiáng)大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家對(duì)此技術(shù)有了更多的認(rèn)知和重視。
專業(yè)領(lǐng)域則主要是Object Audio和HOA兩大趨勢(shì),接下來隨著5G、AR、VR的發(fā)展沉浸式音頻技術(shù)的未來是非??善诘?。
關(guān)于沉浸式音頻技術(shù)的相關(guān)應(yīng)用,毫無疑問影視娛樂,VR是最主要的應(yīng)用,例如各家影院的杜比全景聲可以說是非常常見的。此外,在我認(rèn)為會(huì)議其實(shí)是非很好的應(yīng)用點(diǎn),大家都希望能有一個(gè)很好的沉浸式的會(huì)議體驗(yàn)。另外,還有聲場(chǎng)采集以及在其它聲學(xué)領(lǐng)域的應(yīng)用,例如聲學(xué)事件監(jiān)測(cè),定位等也逐漸開始出現(xiàn)一些應(yīng)用。
來源:孫學(xué)京
評(píng)論comment