淺析云技術(shù)在音頻系統(tǒng)中的運用

來源：數(shù)字音視工程網(wǎng) 編輯：SHAN90 2015-03-18 09:17:48 加入收藏

　　在2014年11月7日的信息化視聽峰會演講中，深圳雅樂實業(yè)有限公司副總經(jīng)理、技術(shù)總監(jiān)汪曉琦在國內(nèi)第一個提出了第五代音頻架構(gòu)和云備份概念，他在演講現(xiàn)場還...

　　在2014年11月7日的某峰會演講中，深圳雅樂實業(yè)有限公司副總經(jīng)理、技術(shù)總監(jiān)汪曉琦在國內(nèi)第一個提出了第五代音頻架構(gòu)和云備份概念，他在演講現(xiàn)場還利用一些演示側(cè)面來證實所講的技術(shù)可行性。

　　擴聲技術(shù)從誕生到現(xiàn)在，已經(jīng)歷經(jīng)的多種變革。除去各種設(shè)備對聲音處理的不同功能，從架構(gòu)關(guān)系上，大致可以分為五代：

　　1.第一代音頻架構(gòu)：純模擬架構(gòu)。體現(xiàn)為模擬連接、模擬處理。

　　純模擬的第一代技術(shù)包括從調(diào)音臺、均衡器、延時器、壓縮器、分配器、分頻器等多種聲音處理的設(shè)備，從設(shè)備本身解決了聲音的控制和處理，缺點是連接復雜、調(diào)試數(shù)據(jù)保存不易等;

　　2.第二代音頻架構(gòu)：數(shù)模結(jié)合架構(gòu)。體現(xiàn)為：數(shù)字處理、模擬連接;

　　第一代技術(shù)的缺點催生了新技術(shù)的誕生：數(shù)字周邊和數(shù)字調(diào)音臺，即第二代音頻技術(shù)：數(shù)模結(jié)合架構(gòu)。它們的出現(xiàn)解決了第一代的連接復雜，容易誤操作的缺陷。

　　同時，隨著社會對擴聲技術(shù)的需求增加，以及數(shù)字技術(shù)的發(fā)展，很多不需要專門調(diào)音師固定安裝的擴聲環(huán)境，提出了另外的需求，即結(jié)合調(diào)音臺與周邊處理的功能基礎(chǔ)上，增加更多的矩陣節(jié)點，將信號進行無損分配，此即第三代技術(shù)全數(shù)字架構(gòu)。

　　3.第三代音頻架構(gòu)：全數(shù)字架構(gòu)。體現(xiàn)為：數(shù)字處理、數(shù)字連接。

　　此架構(gòu)取消了調(diào)音臺、數(shù)字周邊和數(shù)字功放之間的模擬連接線，有的產(chǎn)品甚至取消了三者的概念，只有一臺全功能數(shù)字音頻矩陣，整合了調(diào)音臺、周邊處理和功放。此架構(gòu)最大的優(yōu)點是內(nèi)部的數(shù)據(jù)交叉利用達到過去沒有的條件，輕易做到64×64路甚至更大路數(shù)以上的矩陣(目前最高為256×256)，并且可以在DSP資源許可的范圍內(nèi)，無限制的模擬出無數(shù)的音頻處理模塊。因為此技術(shù)，催生出了中央機房的概念。很多酒店或會議大樓在設(shè)計時，利用一個中央機房就完成了全部的設(shè)備管理。

　　4.第四代音頻架構(gòu)

　　然而，社會的需求是不斷進步的，第三代技術(shù)的優(yōu)點使得用戶在使用此技術(shù)時，極大的節(jié)約了技術(shù)人員的數(shù)量，并提高了整體運行的穩(wěn)定性。但它的局限性是核心音頻矩陣之間的連接關(guān)系只能在一間機房內(nèi)完成，向外延伸的還是模擬線路。設(shè)備之間的數(shù)字連接不能支持公有協(xié)議。在應用這些技術(shù)的同時，人們希望將高品質(zhì)的聲音和系統(tǒng)處理能力傳輸?shù)侥M線路不能到達的地方。此需求催生出了第四代技術(shù)：在第三代技術(shù)的基礎(chǔ)上集成網(wǎng)絡傳輸?shù)哪芰?，將高品質(zhì)的聲音和對整個系統(tǒng)的管理工作延伸到了過去無法到達的區(qū)域。最有名的應用就是ConbraNet。這些技術(shù)應用在大型擴聲項目中，比如整棟大樓的廣播系統(tǒng)、大型公共環(huán)境擴聲等等。這就是第四代音頻架構(gòu)：數(shù)字網(wǎng)絡架構(gòu)。體現(xiàn)為：數(shù)字處理、數(shù)字連接、網(wǎng)絡擴展;

　　第四代技術(shù)解決了高品質(zhì)聲音的遠距離傳輸和對整個系統(tǒng)的整合管理的問題。將工作人員從每間會議室解放出來，在確保品質(zhì)的同時甚至減少的系統(tǒng)的整體投入。

　　整個系統(tǒng)的核心是建立在DSP程序的基礎(chǔ)上，DSP處理器可以同時進行多項任務的計算。比如一套系統(tǒng)不同端口獨立工作，可以同時支持多個會議室的工作，或者不同的廣播分區(qū)。全部的程序都是保存在一套音頻處理系統(tǒng)中(有很多時候不是獨立一臺主機完成的)，并且，用戶的調(diào)試數(shù)據(jù)如音量、EQ、路由關(guān)系等是一個隨時可能調(diào)整的變量。這些參數(shù)變量與系統(tǒng)程序一起構(gòu)成了整個系統(tǒng)穩(wěn)定運行的要素。

　　5.第五代音頻架構(gòu)

　　第四代技術(shù)極大的方便了音頻工作。隨著大型網(wǎng)絡化DSP系統(tǒng)的應用，又有了新的需求。大型項目對DSP的穩(wěn)定要求也越來越高，一旦DSP主機出現(xiàn)故障，則意味著整個系統(tǒng)將停止工作。即便能夠利用原始保存的程序恢復，但日常工作中經(jīng)常調(diào)整的變量參數(shù)也難以恢復到最終的狀態(tài)。不僅如此，由于第四代系統(tǒng)的DSP管理大型多分區(qū)系統(tǒng)時，無論那個分區(qū)需要重新修改程序——即上傳的時候，全部的系統(tǒng)都會停止工作，直到程序傳完。這又將對整個系統(tǒng)的工作造成一次嚴重的傷害。

　　還有，一個大型項目往往不是同時竣工，需要在建設(shè)過程中不斷增加功能。而第四代技術(shù)的DSP資源是由設(shè)計之初確定了的，無法擴展(多臺主機分別處理不同的區(qū)域的方法不屬于一個系統(tǒng))。這，又是大型系統(tǒng)建設(shè)的一個死穴。

　　隨著社會的發(fā)展，IT行業(yè)推動了云技術(shù)的應用，云技術(shù)包括云計算、云存儲、云備份等。云計算的特點是終端用戶無需關(guān)注云端的主機工作狀態(tài)，只需要考慮本地自己的工作要求即可。這些技術(shù)在比如電子郵件、微信、網(wǎng)盤等技術(shù)上已經(jīng)獲得了成熟的應用，得到社會的認可。

　　由于網(wǎng)絡音頻技術(shù)可以組建大型的擴聲系統(tǒng)，并極大解放管理人員的工作壓力，因此得到很廣的應用。在第四代音頻技術(shù)發(fā)展過程是體現(xiàn)出來的缺點是大型重要用戶不能接受的。結(jié)合目前云技術(shù)的特點，誕生了第五代音頻架構(gòu)技術(shù)的需求。

　　第五代音頻架構(gòu)的特點

　　1、系統(tǒng)架構(gòu)為云架構(gòu)：系統(tǒng)之間的連接為網(wǎng)絡連接，輸入模擬信號直接轉(zhuǎn)換成了網(wǎng)絡信號，輸出端亦由網(wǎng)絡信號直接輸出成模擬信號，即AN/NA連接;中央服務器來完成全部的計算工作，終端用戶無需考慮云端的工作狀態(tài);

　　2、系統(tǒng)資源可以動態(tài)分配：每個終端分區(qū)可以自由申請資源分配。并且在授權(quán)分配的資源內(nèi)可以自由上傳或修改程序而不會影響其它任何分區(qū)的工作;

　　3、云端資源可無限擴展：核心DSP數(shù)量可以無限量添加。添加方案可以是在服務器內(nèi)部增加DSP模塊硬件，或者是增加網(wǎng)絡服務器;

　　4、具有穩(wěn)定機制：核心服務器必須能夠在線熱備份。熱備份的內(nèi)容包括程序和用戶調(diào)整的數(shù)據(jù);

　　5、傳輸延時?。罕仨毚_保模擬語音輸入至中央服務器處理完成，回到本地擴聲過程不會引起用戶的任何感覺。目前技術(shù)為十個中間環(huán)節(jié)總傳輸延時小于2ms。

　　除此之外，還要求：

　　6、具有安全機制：確保系統(tǒng)內(nèi)音頻信號只能在指定的終端出現(xiàn)，不會出現(xiàn)泄密現(xiàn)象。

　　7、兼容性好：同時兼容目前主流的公有協(xié)議，如AVB、Dante、ConbraNet等。

　　第五代音頻架構(gòu)的優(yōu)勢

　　采用這種技術(shù)的優(yōu)勢主要有兩點，即核心資源自由分配和核心資源可無限擴展。

　　1.核心資源自由分配。

　　在DSP資源當中，有的用得比較多，有的用得比較少，有的經(jīng)常用，有的不經(jīng)常。按照過去的概念，我們是否要建立完整的DSP資源給每一個房間的用戶呢?假如說現(xiàn)在有三個項目，很簡單，各取所需就可以了。但是如果在實際應用過程中增加或者退出怎么辦?當然是希望系統(tǒng)能夠動態(tài)分配。假如說現(xiàn)在有20個會場，但是肯定不會同時使用，我們在資源配置上只需要準備一部分，保持適當?shù)娜哂嗔烤涂梢粤?。但是資源是否能夠滿足使用時的分配呢?假如說20個房間都是高峰使用怎么辦?這時就需要對資源做拓展。

　　2.核心資源可無限擴展。

　　可以做一個音頻的演示模擬，比如說在一場演講中，模擬臺下聽眾的聲音變得比較高，這種情況就需要提高演講人麥克風的音量，通常的辦法是操作人員去調(diào)音臺提高音量。但是還有沒有什么別的辦法呢?

　　第一種情況，外界的聲音提高了，但是話筒聲正常，外界聲音的變化對它沒有影響;第二種情況，我們轉(zhuǎn)用另外一種算法，外界聲音提高了，話筒的聲音也很迅速的提高，外界聲音降低，話筒的聲音則同步降至正常水平。這意味著很多東西可以用智能的算法來完成，而不需要用人力去解決。我們演示的是很簡單的功能，但是這個功能是否到此為止了?是否以后就只需要配備這個功能的會議室就夠了?當然不!我們不敢想象未來科技的發(fā)展會到一個怎樣的高度，未來肯定還會有更優(yōu)秀的解決方案，這就要求我們的資源能夠無限量的擴展。

　　用人力手動操作，可以用來解決假如一些問題，但是如果項目到了20個、50個、80個的時候還可以這樣解決嗎?顯然解決不了，只能用速度和算法來解決。智能化的算法的加入，帶來了不少的便利：第一是不需要操作技能;第二是不需要太多的人員數(shù)量;第三是不那么強調(diào)專注能力。在以前，假如音響師不專注，就無法和演講者互動配合;以前有很多音頻的處理是需要專業(yè)知識的，不具備這種技能的人很難勝任設(shè)備的操控使用。

　　算一筆設(shè)備與人力支出的賬

　　當今社會，人的技能朝設(shè)計端和應用端兩個方向發(fā)展，應用端的人才似乎更難找了。就好比企業(yè)用戶、酒店、政府單位等，招聘到一個合格的音響控制師比招到一個客戶經(jīng)理難得多。我們并不是提倡不用技術(shù)人員，只是在條件有限的情況下可以酌情減少，這對于成本控制是大有裨益的。

　　假如說我們減少一個普通的工作人員，他的底薪按照5000元計算，10年要投入75萬。假如說覺得這個人還不錯，想培養(yǎng)他，每隔三年左右有一次升值加薪的機會，就要114萬。如果把這個錢省下來，一部分用于培養(yǎng)核心技術(shù)人員，另外一些錢買智能化的設(shè)備，豈不是更好的結(jié)果嗎?

　　穩(wěn)定機制，備份是最重要的手段之一

　　我們看到第四代系統(tǒng)，都集中在中央服務器上，它要保留兩種數(shù)據(jù)。我們通常做一個項目的時候，往往會有一個竣工數(shù)據(jù)，但是這并不是客戶最終所需要的數(shù)據(jù)。例如我現(xiàn)在在演講，演講過程中話筒的音量不一定是竣工時期空場時調(diào)的最好音量。這顯然也不是我們要的結(jié)果。我們現(xiàn)在要的是能夠穩(wěn)定地保持數(shù)據(jù)狀態(tài)，備份就是最重要的手段之一。

　　我們一般建議備份有兩種機制，一種是集中式的架構(gòu)。如圖所示，上面是主機，下面是各種終端。可能有人會問，你剛才不是提到了網(wǎng)絡的問題，如果網(wǎng)絡中斷怎么辦?假如說有一個很保密的內(nèi)容，不傳輸數(shù)據(jù)到云終端去，不希望給第三方人接觸到，怎么辦?

　　這里還有另外一種方法，叫做分布集中式架構(gòu)。每一個子單元有一個獨立的運算系統(tǒng)，通常情況下，云端由主機來完成。或者說當我們需要保密的時候，或者不需要這個信息泄漏到會議室之外的時候，希望信息以云系統(tǒng)完成。

　　隨著IT行業(yè)巨頭如微軟、因特爾、賽靈思、谷歌等巨頭紛紛將目光投向音視頻市場，隨著AVnu組織宣布他們的時間同步協(xié)議AVB免費開放給任何需要的機構(gòu)，隨著云技術(shù)在音頻領(lǐng)域的更深入的應用，隨著IPv6的發(fā)展以及新一代高速網(wǎng)絡的發(fā)展，隨著社會發(fā)展過程中，傳統(tǒng)靠經(jīng)驗來完成工作的音頻工作者的退出，未來的音頻系統(tǒng)必定會改變成類似IT行業(yè)的可量化的工作模式。量化的要求為：過程量化、結(jié)果量化、學習量化。音頻系統(tǒng)的核心資源投資也由過去的計劃資源與使用資源1:1變成了1:3或更低，極大的節(jié)約的總體的成本支出。因此可以認為，使用云架構(gòu)的第五代音頻技術(shù)，它使得大型系統(tǒng)更安全、更便宜、系統(tǒng)的建設(shè)也將更靈活，將是未來大型音頻擴聲系統(tǒng)的主流方向和必然的選擇。

　　獲取新資訊，了解市場動態(tài)，掃一掃，關(guān)注數(shù)字音視工程網(wǎng)訂閱賬號