沉浸聲專題討論一:《沉浸聲—聲音情景的重構(gòu)與創(chuàng)造(上)》
來源:中國傳媒大學 編輯:ZZZ 2024-07-22 14:13:52 加入收藏
沉浸聲——聲音情景的重構(gòu)與創(chuàng)造(上)
魏增來 耿依楊 徐曉軼
中國傳媒大學
摘要
沉浸聲技術(shù)是近年來音頻領(lǐng)域的熱點之一。本文首先解析了人耳聽覺感知的內(nèi)容和過程,指出“聲源特征”、“空間特征”及“個人特征”是影響聽覺感知的三個主要因素;此后從電聲重現(xiàn)聲音情景的發(fā)展歷程入手,探討了沉浸聲的基本概念,并結(jié)合影響聽感的三個要素,分析了沉浸聲通過耳機重放和揚聲器重放這兩個主要實現(xiàn)手段的基本原理;在此基礎(chǔ)上,本文探討了沉浸聲用以重構(gòu)復刻和聯(lián)想創(chuàng)造聲音情景的這兩個主要用途;最后筆者分別從呈現(xiàn)感知層面和使用操作層面提出了當前沉浸聲技術(shù)所面臨的主要問題,并對未來沉浸聲的發(fā)展目標進行了展望。
關(guān)鍵詞:
沉浸聲 聲音情景 聲源特征 空間特征 個人特征 寫實還原 寫意創(chuàng)造
正文
隨著技術(shù)發(fā)展和時代進步,近年來,沉浸聲這一概念成為了音頻界最為熱點的詞匯,并出現(xiàn)了眾多與之類似的稱謂,如全景聲、全向聲、3D音頻、空間音頻等,但究其根本,如何理解這些名詞,到底什么樣的聲音又可以被稱之為沉浸聲呢,業(yè)界也存在一定的爭鳴。以此為背景,筆者嘗試從人耳聽覺感知入手,逐步梳理電聲化重現(xiàn)聲音情景的發(fā)展歷程,進而對沉浸聲的定義及其用途進行探索和討論。
一、人耳聽覺感知
所謂人耳聽覺感知,可以簡單理解為人對聲波產(chǎn)生行為反應的過程。在日常生活中,具體表現(xiàn)為發(fā)聲體通過振動而產(chǎn)生的聲波,經(jīng)由空氣傳播到人耳,并在人耳結(jié)構(gòu)中完成一系列信號傳輸和轉(zhuǎn)換后,最終在大腦聽覺皮層形成有效信息的生物感知過程。盡管基于聲源、空間環(huán)境等“因”的不同,我們通過聽覺所能獲取到的“果”,即語義信息、聽感體驗等也都不盡相同,但人類形成聽覺的過程和原理卻是一致的。當談及聽覺感知時,首先需要明確兩個最為關(guān)鍵的問題,即“聽什么”和“如何聽”。
(一)“聽什么?”
當人耳接收聲音信息時,主要有兩方面因素會對聽感產(chǎn)生影響,一是聲音元素,二是空間聲學環(huán)境信息。所謂聲音元素,泛指直接振動發(fā)聲的聲源,如人聲、樂器、物體撞擊、鳥鳴等。不同聲源有著不同的聲音特征,通??捎身懚取⒁粽{(diào)和音色來描述。以小提琴為例,每把琴、每次演奏的音量、音調(diào)以及相關(guān)的基波、諧波以及頻譜包絡等因素均有所不同,這些因素共同構(gòu)成了聲源的特征,而聲源特征的變化對聽覺感知產(chǎn)生的影響是不言而喻的。
此外,當聲源處在某一空間中發(fā)聲時,其所表現(xiàn)出來的聲音將不可避免地受到該空間聲學環(huán)境的影響,例如由于界面的反射聲波而使聲源的響度加強并產(chǎn)生混響感等。同樣以小提琴為例,同一位演奏家在室外、音樂廳、大教堂、錄音棚、消聲室內(nèi)等不同場所使用同一把小提琴演奏相同曲目時,聽眾通過聽覺所捕獲的琴聲聽感肯定是不同的,甚至同一空間內(nèi)位于不同位置的聽眾所捕獲的聽感也有一定差異,因為聽音位置不同時,直達聲音量、方位以及反射聲音量、方位都會不同,它們的共同作用一定會帶來聽感的不同。這時,人耳所接收的聲音信息中不僅會包括聲源本身的聲音特征,同時也會包含聲源所處的空間環(huán)境的聲音特征,具體如圖1所示,這也就是說空間特征一定會對聽覺感知產(chǎn)生影響。
圖1:人耳所接收的“聲源特征”及“空間特征”示意圖
綜上所述,聽覺感知是與聲源本身以及聲源所處的空間環(huán)境緊密聯(lián)系的,聲源特征和空間特征共同構(gòu)成了人耳能夠感知和獲取到的聽覺特征信息,所謂“聽什么”,實際上就是收聽“聲源特征”和“空間特征”。
(二)“如何聽?”
所謂“如何聽”,本文中主要指人耳接收聲音信息并將其轉(zhuǎn)換成具體的、可被聽者理解的含義的這一過程,包括客觀感知和主觀映射兩個環(huán)節(jié)。其中,客觀感知環(huán)節(jié)與耳朵的生理結(jié)構(gòu)以及耳內(nèi)各個部位所對應的功能息息相關(guān)。當聲源在空間中通過振動產(chǎn)生聲波并經(jīng)由介質(zhì)傳播到人耳后,由耳廓和外耳道所構(gòu)成的外耳首先對聲波進行聚合并傳導至中耳;中耳則通過鼓膜、鼓室、聽小骨、咽鼓管等的共同作用將聲波進一步放大并傳導至內(nèi)耳;內(nèi)耳再利用前庭、半規(guī)管、耳蝸以及神經(jīng)束等,將聲波信號轉(zhuǎn)換為生物電信號,并傳導至大腦聽覺皮層。這一環(huán)節(jié)眾多研究已非常清楚地進行了闡述,本文不再贅述。概括來說,聽音者通過外耳、中耳、內(nèi)耳和大腦聽覺皮層的共同作用,完成了對聲音信息的客觀感知。
此外,在整個聽音的過程中,還有最為重要的主觀映射環(huán)節(jié),也就是聽音者如何將聽到的客觀聲學信息(如音節(jié)、起伏包絡、響度、頻率、音色等)轉(zhuǎn)換成可以理解的含義及其他相關(guān)信息的環(huán)節(jié)。筆者認為,主觀映射的過程一部分可能來自于我們的基因,但絕大部分應該源于我們從呱呱墜地后經(jīng)過長期的聽覺與其他如視覺、觸覺、嗅覺等多重感覺聯(lián)結(jié)在一起時,所共同建立起的主觀映射聯(lián)系。以語言為例,當我們從小聽到漢語、英語、日語等不同語言的某一句話或某一個詞語,如“請跑過去”、“抓住你的胳膊”等,并通過后續(xù)一系列與之相關(guān)的過程或動作或感覺獲得相應結(jié)果后,我們就可以將這種聲音特征與某種含義建立關(guān)聯(lián),而通過長期的這種類似關(guān)聯(lián)后,我們則可以建立起這種聲音特征與特定含義之間的映射關(guān)系。甚至當這種主觀映射達到更高階段,如說話者帶著不同的語氣和情緒來陳述同一句話時,也能夠使聽者獲取到不同的語義信息。當然,這一過程中,同樣也會逐漸建立起聽音者對聲源空間方位及所處空間環(huán)境的判斷映射。這種現(xiàn)象的產(chǎn)生與日常生活中不斷的聯(lián)覺體驗及其主觀映射的建立不可分割。
在闡述“如何聽”這一過程時,不得不提到人的“雙耳效應”、 “頭相關(guān)傳遞函數(shù)(HRTF)” 和“雙耳聲(Binaural)”這三個概念,其示意可見圖2。我們都知道,人類是通過兩只耳朵來采集聲音并據(jù)此進行主觀映射的。由于橫向排布的兩只耳朵與聲源間的不同距離會造成時間差,從而形成相位差,同時頭部的遮擋也會造成音色差,且距離差和頭部遮擋還會造成響度差,上述雙耳間的相位差、音色差以及響度差這些因素均會對聽者的定位感知和環(huán)境感知方面造成一定影響,導致客觀感知層面產(chǎn)生不同的聽感并影響到主觀映射的建立,這就是所謂的雙耳效應。此外,當人通過兩只耳朵接收聲音時,還會受到耳廓、頭、肩形狀以及毛發(fā)甚至衣物等相關(guān)部位或因素的影響,它們匯同雙耳效應,共同對聲波的傳輸產(chǎn)生一定的作用,使得進入耳朵的聲音類似于經(jīng)過了一個特定的綜合濾波器,這個特定濾波器這就是所謂的“頭相關(guān)傳遞函數(shù)(Head-Related Transfer Function, HRTF )”,它包含了聲波與人體發(fā)生作用后所引起的所有譜特征。由于不同的人體在上述人體結(jié)構(gòu)及其影響因素上具有一定的差異性,因此,每個人的頭相關(guān)傳遞函數(shù)其實也是不同的、個性化的。而且,即便我們位于同一空間的同一位置收聽同樣的聲源信息,每個人經(jīng)過其個體的頭相關(guān)傳遞函數(shù)濾波后所感知到的聲音客觀信息也是不同的,并進而影響到其主觀映射的建立和后續(xù)判斷。因此,我們可以認為,任何人在空間中感知聲音時,一定會受到個性化頭相關(guān)傳遞函數(shù)的影響,這種影響就形成了所謂的“雙耳聲”,而這種雙耳聲,在聲音的聲源特征、空間特征的基礎(chǔ)上,又不可避免地加載了每位聽者獨特的個人特征。
圖2:雙耳效應、頭相關(guān)傳遞函數(shù)及雙耳聲示意
(三)聽覺感知三要素
綜上所述,筆者認為,在現(xiàn)實生活中,個人對任何聲源的感知實則就是在聲源特征、空間特征和個體特征這三個要素的共同影響下產(chǎn)生聽覺,再基于心理聲學建立起長期主觀映射的復雜過程。聲源特征、空間特征和個體特征是構(gòu)成聽覺感知的最重要的三個基于物理層面的要素。
(四)現(xiàn)實生活中的“沉浸聲”
實際在日常生活中,我們其實每天處于來自于各個方向不同聲源所發(fā)出的,且結(jié)合了當前空間環(huán)境特征所提供的各級次反射的聲音的包圍中,它們在受到我們個人HRTF特征影響后被大腦所感知。這也就是說,我們在生活中始終“沉浸”于這種最原始、也最為真實和自然的聲場中,這種聲場,正是目前沉浸式聲音技術(shù)所不斷追求的最終還原目標。因此要實現(xiàn)對沉浸聲的良好理解和應用,就需要從聲源特征、空間特征和人體特征這三個聽覺感知要素入手,它們都會對最終的整體聽覺感知產(chǎn)生重要的影響。
二、電聲化重現(xiàn)聲音情景的發(fā)展歷程
聲音情景的電聲化重現(xiàn)就是指通過電聲方式實現(xiàn)某個聲音情景中各類聲音元素的虛擬再現(xiàn)和相關(guān)空間聲學環(huán)境的虛擬重構(gòu),從而為聽眾復刻該特定的聲音情景的過程,如流水潺潺的溪谷、演奏熱烈的音樂廳等。其實,如前所述,我們?nèi)粘T谏钪校冀K都“沉浸”于這種原始、真實和自然的聲場中。而這種聲場,正是電聲技術(shù)所不斷追求的最終還原目標。
(一)從單點還原到三維還原
19世紀70年代留聲機的誕生使人們迎來了最早的音響系統(tǒng),它采用單點(單聲道)還原方式,重現(xiàn)了所播放聲音情景的部分特征(主要為聲源特征)。但在時代的發(fā)展之下,它逐漸難以適應人們越來越高的審美追求,因此,到20世紀20年代,英、法、美等國家開始使用立體聲系統(tǒng),相比較于單聲道方式,它能夠提供較好的音質(zhì)和一定的水平空間定位感,使聲源特征和空間特征都適當?shù)靡约訌?,但同時也存在著較多的局限,對此,很多文獻已進行了詳細探討,本文不再贅述。之后,到了1977年,杜比實驗室成功研發(fā)出了包括左、中、右、后四個聲道在內(nèi)的商用環(huán)繞系統(tǒng)——Dolby Stereo,這一系統(tǒng)的研發(fā)既成為了后續(xù)主流的Dolby Digital5.1聲道系統(tǒng)的前身,也標志著重放系統(tǒng)進入了多聲道環(huán)繞時代。之后基于影院音響系統(tǒng)的應用,又逐步開發(fā)出了側(cè)向、頂向和后向的揚聲器來用于環(huán)境聲的重放,從而起到輔助和烘托整體氛圍的作用,并逐漸將其應用于影院之外的其它場景中(如唱片、現(xiàn)場擴聲等)。因此,聲音情景的電聲化重現(xiàn)歷程可以簡單概括為從最早的幾乎不具備任何空間特征的單聲道再現(xiàn),逐漸演變?yōu)槟軌虿糠殖尸F(xiàn)水平空間特征的立體聲(Stereo)或前置多聲道再現(xiàn),再到之后可以在水平和縱深兩維方向上展現(xiàn)空間特征的再現(xiàn),到如今又逐步發(fā)展到可以在水平、縱深和高度三個維度上體現(xiàn)空間特征的再現(xiàn),這一過程,實際上就是人類不斷嘗試更好地重現(xiàn)現(xiàn)實生活中真實場景的探索。
(二)何謂“沉浸聲”或“Immersive Sound”?
行文至此,筆者也想基于自己的理解,給出所謂沉浸聲或?qū)挠⑽拿~“Immersive Sound”的定義。應該講,目前業(yè)界對于沉浸聲并沒有形成統(tǒng)一且明確的定義,此類音頻的叫法也五花八門,包括全景聲、全向聲、3D音頻、空間音頻等,但查閱“沉浸”的中文語意,可以得到三個解釋,其一為“浸泡,浸入水中。多比喻完全處于某種境界或思想活動中”;其二為“全神貫注于某種事物”;其三則為“使......充滿”。而查閱英文單詞術(shù)語“Immersive”,則可以得到“used to describe a computer system or image that seems to surround the user——感覺圍繞在使用者周圍,慣用于描述計算機系統(tǒng)或圖像。” 或“(of a computer display or system)generating a 3-dimensional image which appears to surround the user——(計算機系統(tǒng)或顯示設(shè)備)產(chǎn)生出一種三維的、使人感覺被圍繞的畫面。” ,由此可見,無論中文還是英文,其解釋中最為核心的詞匯為“浸泡”、“完全處于”、“充滿”、“圍繞”、“三維”等,意即從四面八方包裹起來的意思,而“沉浸聲”加上后綴這個“聲”字后,我們還需要結(jié)合聲音學科及其發(fā)展歷程來研究其定義。所以,經(jīng)多維度考慮后,筆者認為:所謂沉浸聲或Immersive Sound,就是指與人類日常生活中實際聽覺感知極其類似的、可以從水平、縱深及高度三個維度呈現(xiàn)聲音信息的聲場。人類利用電聲系統(tǒng)從單點還原到一維還原再到兩維還原聲場的過程,實際上都可以看做是沉浸聲還原聲場(即三維還原聲場)的前期探索。
在這里特別值得一提的是,目前在沉浸聲擴聲系統(tǒng)的應用中,有一個名詞叫做前置式系統(tǒng)(Frontal System),它通常指布置在舞臺(或表演區(qū))前部,面向觀眾供聲的多組揚聲器,那它到底算不算沉浸聲系統(tǒng)呢?筆者認為,這個要依賴于其要重構(gòu)的聲音情景來看。研究表明,人耳對于聲音高度信息的變化并不敏感,所以當多個不存在明顯高度差異的聲源只排列于聽眾前方并且距觀眾有一定距離時,這種高度差異或其變化已不容易引起聽眾聽感的不同了,而這時,如果前置的多組揚聲器能夠準確虛擬出各聲源的發(fā)聲效果(包括其聲源音色、空間布局等),且不需要電聲系統(tǒng)重構(gòu)相關(guān)空間聲學環(huán)境特征的話,那么這種前置式系統(tǒng)也可以稱之為沉浸聲。以室外空曠場地舉行的流行音樂演唱會為例,首先,該空間可以近似的認為是自由場,不存在頂部、側(cè)向及后向反射聲;其次,流行音樂的演員全部都在舞臺上表演,也不存在位于觀眾側(cè)向、后向及頂部的演出用聲源,這時,如果良好的前置式系統(tǒng)能夠較好地虛擬再現(xiàn)出與我們視覺感知非常接近的聲音情景的話,我們將其稱為沉浸式擴聲也并無不妥。
由此可見,雖然從字面上講,沉浸聲是指可以從水平、縱深及高度三個維度呈現(xiàn)聲音信息的聲場,但從應用角度來看,能夠較為準確地還原出與人類視覺等其他感知維度在心里聲學層面所映射到的聽覺效果相接近的聲場,其實就可以稱之為沉浸聲。不過,通常而言,這種聲場必須具備呈現(xiàn)水平、縱深及高度三個維度聲音信息的能力,因為絕大多數(shù)日常生活中的聲音情景都是三維的。
(三)基于聲道與基于對象
當前,沉浸聲的制作與實現(xiàn)主要包括基于聲道(Channel Based)和基于對象(Object Based)兩種技術(shù)。其中在傳統(tǒng)的立體聲或5.1、7.1平面環(huán)繞聲或5.1.2等格式的三維沉浸聲中,聲道格式和揚聲器布局二者間需要統(tǒng)一,即理想的聲源制作端要求使用多聲道的拾音制式、同樣數(shù)量的多聲道母線分配機制和多聲道監(jiān)聽揚聲器(當然,也可以通過母線分配機制將少于監(jiān)聽揚聲器通道數(shù)量的拾音信號或非實際拾音獲取的信號進行重新的通道分配),同時重放端揚聲器數(shù)量和布局方式也要和制作端嚴格匹配,以此來對聲音場景及空間進行再現(xiàn),這樣的實現(xiàn)方式一般稱之為基于聲道的沉浸聲音頻。該技術(shù)主要應用于廣播、唱片、影院等固定揚聲器布局和模式的標準應用場景下,可遷移性及應用靈活性較差,因此,基于對象的沉浸聲音頻在這之后便應運而生。這種基于對象的沉浸聲技術(shù)對制作和重放揚聲器的布局沒有特定的要求,不管采用何種方式,聲源制作端只需要提供各個聲源對象的空間坐標信息,那么在重放端就能通過沉浸式引擎算法對聲源對象進行渲染,并分配給不同布局的重放揚聲器或耳機,即可再現(xiàn)包括空間特征在內(nèi)的聲音情景,因此這種技術(shù)具有更強的靈活性、適應性和可遷移性,近年來已成為了沉浸聲制作播出的主流方式。
三、沉浸聲的實現(xiàn)
對于沉浸聲的實現(xiàn)來說,其最終呈現(xiàn)載體通常而言有兩種方式,一種是通過耳機進行重放,另一種是通過揚聲器進行重放。
(一)耳機重放
通過前面的分析我們知道,影響聲音聽感的三個重要因素分別是聲源特征、空間特征和人體特征。針對將沉浸式聲音通過耳機重放這種再現(xiàn)方式來說,因為在此過程中,聲音將直接通過耳機進入到人耳(即左、右聲道信號分別被直接送入左耳和右耳),所以聲音在整個傳播過程中缺少了人體特征(即包含了雙耳效應的頭相關(guān)傳遞函數(shù))的影響,因此,在利用耳機實現(xiàn)沉浸聲重放時,非常重要的一點就是需要人為地對聲音進行人體特征的重構(gòu),無論這種重構(gòu)是在制作端還是在播出端。
如前文所述,人體特征主要表現(xiàn)為個性化的HRTF,所以,在用耳機實現(xiàn)沉浸聲這一過程中,一定需要加載與聽音者相匹配的HRTF才能完全還原聲音,根據(jù)聲音信號的電聲化重現(xiàn)過程來看,加載HRTF的方式無外乎三種:第一,在拾音環(huán)節(jié)加載HRTF;第二,在聲音信號制作環(huán)節(jié)加載HRTF;第三,在耳機重放環(huán)節(jié)加載HRTF。
1.拾音環(huán)節(jié)加載HRTF
如果想在拾音時加載HRTF,最理想的方式就是在演出現(xiàn)場將拾音器置于聽音者的雙耳進行拾音,將聽音者本人在特定空間的特定位置聽到的原始聲音記錄下來,這個信號既包括聲源特征和空間特征,也包含聽音者個性化的人體特征。之后,無論聽音者在任何空間、任何位置進行耳機重放時,都將完全還原拾音時的聲音狀態(tài)。這一方法雖然相對完美,但從實際應用的角度來看,并不具可操作性,因為不可能每個聽音者都能親自到現(xiàn)場進行雙耳拾音,所以可以適當妥協(xié),在最終效果和實用性之間進行平衡,如采用普適性的人工頭來代替聽音者完成現(xiàn)場的雙耳拾音工作。當然,在此過程中一定要注意一個細節(jié),即人工頭擺放于該聲場空間的哪個位置,重放時的聽感就會置身于此位置,例如將人工頭擺放在觀眾席位置拾音和擺放在樂隊指揮的位置進行拾音,重放時所得到的聲音聽感是不一樣的,即人體特征已被加載的前提下,不同聽音位置所拾取到的聲源特征和空間特征將會決定最終的聽感。圖3即為采用Neumman KU100人工頭或KEMAR人體模型進行拾音的示意。
圖3:Neumman KU100人工頭及
KEMAR人體模型拾音示意圖
2.信號制作環(huán)節(jié)加載HRTF
如果拾音時沒有采用真人雙耳拾音或人工頭拾音,那么所拾取的信號雖然具有一定的聲源特征和空間特征(如通過立體聲或環(huán)繞聲、沉浸聲制式所拾取的聲音),但卻不會包含人體特征。尤其是通過近距離單點拾音方式拾取的信號,其空間特征極其不明確。當然,除此之外,還有些聲音信號可能是非實際物理聲學所產(chǎn)生的合成音源或電子類音源,它們更不具備實際的空間特征,所以,對于這類聲音信號的沉浸聲重現(xiàn),就需要以創(chuàng)作者的視角來制作沉浸聲了,即需要給它們?nèi)藶榈?“加載”人體特征和空間特征。對于前者,目前已有眾多公司提供了沉浸聲雙耳渲染硬件設(shè)備或軟件插件,如圖4所示的Dolby、Anaglyph等,通過它們對原始信號的渲染,可以獲得類似雙耳聲的聽感,但在渲染之前,對于那些不具備空間特征的聲音信號,制作者還需通過各種聲像(Pan)類電位器、各類混響器、延時器等來賦予其空間特征。上述兩種方法結(jié)合在一起,可以共同幫助我們努力接近想要的沉浸式聲音效果。不過就目前而言,到底哪款雙耳渲染設(shè)備或插件的算法更逼真、更普遍適用、聽感更好,則需要更深一步進行相關(guān)的主觀評價實驗。
圖4:Dolby及Anaglyph的雙耳聲渲染插件
3.耳機重放環(huán)節(jié)加載HRTF
所謂在信號重放環(huán)節(jié)加載HRTF是指將帶有聲源特征和空間特征的聲音信號送入耳機重放時,首先經(jīng)過與聽音者相匹配的HRTF濾波器,從而將其轉(zhuǎn)化成雙耳聲來實現(xiàn)沉浸式重放。當然,最精準的效果就是加載聽音者自己的個性化HRTF,但這需要在專業(yè)的消聲室內(nèi)進行多角度、全方位的先期測量并做歸納運算,這實際上這很難實現(xiàn)。于是,妥協(xié)的方案有兩個,一個是加載經(jīng)過大數(shù)據(jù)統(tǒng)計平均而來的普適性HRTF;另一個則是可以在某一個空間環(huán)境里用某一款揚聲器重放脈沖信號來測量聽音者雙耳的全頻脈沖響應,以快速獲得該聽音人的個性化HRTF,實際上這個HRTF同時也加載了當時重放揚聲器以及重放空間環(huán)境的影響,可以說是一個綜合性的HRTF,而不是僅僅基于個人影響的HRTF。該類設(shè)備目前已有成熟的量產(chǎn)商用產(chǎn)品,如圖5所示的Smyth Realizer A16等,它們多用于通過耳機虛擬某一制作空間的聽覺感受,如好萊塢的某個杜比全景聲電影混錄棚等,以用于異地仿真混音等。
圖5:Smyth Realizer A16虛擬現(xiàn)實渲染器
(二)揚聲器重放
利用揚聲器重現(xiàn)沉浸聲時,聽音者依靠雙耳收聽聲音信息,本身就帶有了個人HRTF的影響,所以無需再考慮重構(gòu)人體特征了。此時,我們需要著重考慮聲源特征和空間特征的重構(gòu)。當然,這種重構(gòu)也依據(jù)聲音信號的電聲化重現(xiàn)過程,主要分為兩種方法。第一,在拾音環(huán)節(jié)予以確定;第二,在制作環(huán)節(jié)予以確定?;诔WR,我們知道,無論是話筒拾取的聲音信號,亦或電子化方式合成的聲音信號,其已基本具備較為清晰的聲源特征了,所以空間特征(包括聲源方位和聲場環(huán)境特征等,則是上述聲音重構(gòu)過程的核心工作。
1.在拾音環(huán)節(jié)確定聲源的空間特征
我們知道,利用立體聲拾音制式、環(huán)繞聲拾音制式及相關(guān)調(diào)整,即可獲取聲源的水平位置信息或者水平+縱深位置信息,那么同理,利用沉浸式拾音制式(或稱之為三維聲拾音制式),具體如Sennheiser Ambeo、Rode SoundField、LDK Cube等,則同樣可以獲取三維空間信息。之后,基于當前的技術(shù)現(xiàn)狀,通過與重放揚聲器通道的直接對應或經(jīng)相關(guān)的轉(zhuǎn)換算法后,通常即可得到基于聲道的沉浸聲,并可通過同樣聲道的揚聲器予以重放。當然,制作人員也可以更進一步,將所拾取到的聲音通道視為不同的聲源對象,并將其送入基于對象的相關(guān)沉浸聲處理器,依據(jù)制作場地監(jiān)聽的聽感進行再制作,以獲取更符合創(chuàng)作者期望或者具備更好聽覺效果的聲音。
2.在制作環(huán)節(jié)構(gòu)建聲源的空間特征
如果拾音時未采取沉浸式拾音制式,或者使用了電子合成類聲源,那么所得到的信號雖然具有一定的聲源特征,但其空間特征卻不明確,尤其是前述的通過近距離單點拾音拾取的信號,這一點與之前關(guān)于耳機重放的相關(guān)論述完全相同。因此,這部分信號的沉浸聲處理,需要以創(chuàng)作者的視角來進行相關(guān)制作(無論是錄音制作還是擴聲制作),即給它們?nèi)藶榈?“加載”空間特征并適當匹配調(diào)整聲源特征。具體的處理方法依據(jù)沉浸聲處理設(shè)備的不同而不同。不過,當前的各種沉浸聲處理器幾乎全部都可以提供三維聲像電位器或三維空間視圖,用以調(diào)控聲源對象的空間位置或運動軌跡,同時,個別產(chǎn)品還可以同步伴隨聲源對象音色的變化及空間混響的變化,當然,有的處理器則需要人為調(diào)整空間混響和音色。所有這些,都需要混音師在良好的沉浸式監(jiān)聽條件下依據(jù)監(jiān)聽效果來進行。處理完畢的成品信號,如果以聲道方式輸出,則需要之后的重放場地按制作時的監(jiān)聽條件配置同樣數(shù)量、同樣布局的揚聲器;而如果以聲源對象元數(shù)據(jù)(包括空間位置、聲源大小等)的方式輸出,則可以兼容更多的重放揚聲器布局方式,這種信號格式在最終重放時,會首先在現(xiàn)場用的沉浸聲處理器中建立重放場地的揚聲器布局模型,確定所要用到的揚聲器數(shù)量和位置,之后再以此為基礎(chǔ),結(jié)合聲源對象的元數(shù)據(jù)進行渲染計算,從而得到現(xiàn)場每一個揚聲器具體需要重放的信號內(nèi)容。
3.揚聲器重放沉浸聲的算法理論基礎(chǔ)
利用揚聲器重放沉浸聲,在實際執(zhí)行時,依然需要向三個空間維度的相關(guān)揚聲器各自饋送不同的聲音信號,使之在整個聽音空間內(nèi)合成為聲源對象的位置和相關(guān)的聲場環(huán)境。因此,無論何種沉浸聲處理器,其本質(zhì)就是利用渲染算法,將某一個聲源對象的元數(shù)據(jù),運算拆解成為不同的揚聲器通道信息并饋送給相關(guān)揚聲器。
在當前的技術(shù)發(fā)展下,利用揚聲器重放沉浸聲的基本技術(shù)原理主要分為兩類,即基于感知的虛擬聲音場景重建技術(shù)和聲場物理重建技術(shù),它們共同構(gòu)成了揚聲器重放沉浸聲算法的理論基礎(chǔ)。其中,基于感知的虛擬聲音場景重建技術(shù)主要包括基于矢量的幅度聲像控制技術(shù)(Vector-based amplitude panning,VBAP)和基于距離的幅度聲像控制技術(shù)(Distance-based amplitude panning,DBAP),該類技術(shù)主要考慮人耳的感知特性,所以實現(xiàn)起來相對簡單。而聲場物理重建技術(shù)的重要代表則主要基于高階球諧分解和重構(gòu)的聲重建理論(High Order Ambisonic,HOA)和波場合成理論(Wave field synthesis,WFS),基于這兩種理論的聲場重建技術(shù)主要追求對原始聲場的精確還原,因此無論是對重放設(shè)備還是重放環(huán)境都有較高的要求。
基于矢量的幅度平移技術(shù)最早由芬蘭赫爾辛基理工大學的Viile Pulkki于1997年提出,它的原理是利用2~3個揚聲器方向的單位向量線性組合出虛擬聲源方向的單位向量,即為不同揚聲器分配不同幅度的信號,利用各揚聲器到達人耳的聲級差來控制人耳對聲源(聲像)位置的感知。利用VBAP技術(shù)能較為準確地恢復500~600Hz以下的聲音的方向,但前提是各揚聲器要布置在同一球面,因此基于VBAP的揚聲器重放只能在一定范圍內(nèi)恢復聲源的方位。
基于距離的幅度平移技術(shù)由Lossius和Pascal Baltazar、Kostadinov和Reiss這兩對科學家提出,與VBAP不同的是該技術(shù)支持在非球面環(huán)境布置揚聲器陣列。雖然DBAP的精確度沒有VBAP高,但是DBAP應用起來更靈活,應用過程中不再受揚聲器和聽音者布局的限制。
聲場物理重建技術(shù)來源于1934年Steinberg和William Snow提出的“聲音幕簾(Acoustic Curtain)”概念。它指出我們可以用大量的傳聲器在一個面上組成一個緊密的傳聲器網(wǎng)格陣列,并用此陣列采集原始聲源的方位信息和聲場形狀,再依據(jù)惠更斯原理,利用同樣結(jié)構(gòu)的揚聲器網(wǎng)格陣列重放對應位置傳聲器所拾取的信號,即可還原出聲源的方位和聲場輻射信息。據(jù)此,1988年,Gus Berkhout受地震研究及原油開采勘探的啟發(fā)提出了波場合成理論。在理想狀態(tài)下,利用該理論可以完全還原出原始聲場,聽音者可在由二次聲源合成的聲場區(qū)域中任意走動,且聲像不會隨聽音者的位置的變化而變化。
此外,另外一種聲場物理重建技術(shù)則為基于高階球諧函數(shù)分解和重構(gòu)理論的聲場重建技術(shù),有關(guān)該技術(shù)的研究最早從二十世紀70年代開始,它利用球諧函數(shù)作為編碼和解碼的基矢量,通過逐級增加重放階數(shù)來逼近原始聲場信息。階數(shù)越高,用于表現(xiàn)聲源對象特征的基矢量越多,解析度也越細致,其共同作用后的呈現(xiàn)效果也越接近于實際。不過,此時也帶來了運算量和揚聲器數(shù)量幾何增加、揚聲器布局困難等諸多難題。
關(guān)于上述技術(shù)原理的具體細節(jié),目前已有很多文獻進行了探討,本文將不再贅述。但筆者個人認為,波場合成技術(shù)最具原理合理性,因而應該能夠獲得更佳的聲音情景重構(gòu)聽感效果。不過,利用波場合成技術(shù)的重放還有很多亟待解決的問題,比如揚聲器間距的控制與頻率混疊的問題、重放所需揚聲器數(shù)量過多、長陣列的時域效應等,同時,還要考慮緊密排列的揚聲器陣列如何可以安裝實現(xiàn)以及其造價問題。
理論上講,在采用其理想狀態(tài)揚聲器重放時,上述技術(shù)原理都能夠在某一聽音區(qū)域?qū)崿F(xiàn)聲源對象的較好重構(gòu),但從實際應用的角度來講,基于以上每種原理的的揚聲器渲染算法都還存在一定的問題,且各自的理想運算也較為復雜,所以目前絕大多數(shù)沉浸聲處理器大都采用上述兩到四項技術(shù)綜合后的算法,并分別進行了適當?shù)暮喕?,從而在重?gòu)聲場的準確性和可實現(xiàn)性中予以折中。
評論comment