存儲感知世界的視頻編碼
來源:數(shù)字音視工程網(wǎng) 編輯:merry2013 2015-11-27 06:54:41 加入收藏
智慧城市發(fā)展有目共睹,作為一個生態(tài)系統(tǒng),感知是重要一部,通過以視頻監(jiān)控等為基礎搭建的感知物聯(lián)網(wǎng)是數(shù)據(jù)收集的重要環(huán)節(jié),而對數(shù)據(jù)進行存儲、分析則成為種種之中。那么在萬物聯(lián)網(wǎng)的世界,視頻監(jiān)控編碼分析、存儲有何挑戰(zhàn)?又如何解決?
視頻編碼與分析的技術挑戰(zhàn)
在編碼效率方面,大家可能知道,到現(xiàn)在為止,所有視頻系統(tǒng)里面用的都是非常常規(guī)的,通用的視頻編碼的算法和芯片。這個用法對不對呢?實際上這是不對的,但是現(xiàn)在已經(jīng)形成這種習慣了,都是這么用的,你不這么用,人家反倒會質(zhì)疑你。當然從市場化、從減小成本這個角度來說它是對的。但是從視頻監(jiān)控的目的來看,實際上是不對的。因為那個通用的編碼技術,它是為電視服務的,本身它這個出發(fā)點就是錯的。
目前視頻的自動分析做得不好。因為它在系統(tǒng)設計的時候,不是為了視頻自動分析這個目的,而是為了視頻存儲和以人為核心的視頻跟蹤,就是一定要有一個人坐在那里看那個大的顯示屏。靠這樣的一套指導思想來設計現(xiàn)有的智慧城市里面的視頻系統(tǒng),用這樣的一個架構去做自動分析,是根本無法實現(xiàn)的。
隨著時間的推移,監(jiān)控視頻的數(shù)據(jù)占整個大數(shù)據(jù)的比重基本上都在一半或者一半以上這樣一個數(shù)量級。所以數(shù)據(jù)的存儲和處理做好了,大數(shù)據(jù)的問題就解決了大部分?,F(xiàn)在這些大數(shù)據(jù)之所以沒有有效的利用起來,里面很多知識還沒有歸納總結(jié)出來,也是和現(xiàn)有的數(shù)據(jù)積累過程,以及這個系統(tǒng)設計的出發(fā)點是有關聯(lián)的。
針對這些問題,我們要找到一個技術上的切入點來處理。這個切入點,要更多的看目前智慧城市里急需的到底是什么。實際上就是急需事件的追蹤。例如說,有一個人報案,說某家銀行被搶了,劫匪坐了一輛白色的車跑掉了,你有沒有辦法在比較短的時間內(nèi)查到這輛車的位置。
智慧城市中視頻技術面臨的挑戰(zhàn),就是我們現(xiàn)在面臨的三大問題,一個是監(jiān)控視頻的數(shù)據(jù)存不下,一個是查不準,一個是擋不住。如果我們把這三個問題梳理一下,從技術上來說就是,一個是編碼的問題,一個是視頻分析與跟蹤的問題,融合起來還有跟GPS、音視頻結(jié)合起來使用的問題。
如果我們把它歸納為技術挑戰(zhàn),那就是兩個挑戰(zhàn),一個是高效視頻編碼的挑戰(zhàn),當然是面向監(jiān)控視頻的。第二個就是如何對分析和檢索進行支持。如果大家對視頻編碼和視頻分析稍微熟悉一點的話,你會發(fā)現(xiàn)一個很奇特的現(xiàn)象,就是做視頻編碼的人對視頻分析不感興趣,或者說不太做。反過來,做視頻分析的人對編碼怎么編,基本上做的也不多。為什么會出現(xiàn)這樣的情況?做編碼的人處理的對象是像素和塊,而做分析的人面對的是特征。這兩個一個是踩在地面上,一個是在山頭上,所以這兩伙人很難交匯。我們現(xiàn)在是希望解決這個問題,因為必須把這兩個事一起來做,你才可能做成一個面向智慧城市的技術。
高效視頻編碼標準
從標準的歷史上來看,實際上前30年中,基本上所有的貢獻、所有的技術都是圍繞著通信領域的視頻編碼和廣播里面的視頻編碼做的,前期主要是面向廣播的視頻編碼。當然也有面向通信的視頻編碼,后來也出現(xiàn)了兼顧通信和廣播的視頻編碼,但是所有這些編碼都不是面向監(jiān)控的。你可能會說,視頻通信不就是監(jiān)控的一種嗎?有的專家就說,如果你要看現(xiàn)在的視頻監(jiān)控,實際上它是發(fā)展了三代,第一代是模擬,第二代是數(shù)字,第三代是IP監(jiān)控。這個IP監(jiān)控是在網(wǎng)絡上,但是不是和編碼有針對性的,所以面向監(jiān)控的編碼,目前國際上沒有人做這樣的標準,只有中國人在做。
目前的編碼框架一個是變換編碼,一個是預測編碼,還有一個是商務編碼,把這三塊組合起來,稱為混合編碼框架結(jié)構。這種編碼技術已經(jīng)使用了30多年。中國從2002年開始,也組織了一個自己的標準,2006年第一版出來之后被ITUT接受為IPTV的一個格式。再后來被廣電和工信部聯(lián)合接受為我們國家地面數(shù)字電視機頂盒和地面數(shù)字電視一體機的標準,去年AVS的增強檔成了我們國家廣電的行業(yè)標準。去年我們?yōu)榱税堰@個標準國際化,也專門在IEEE的標準化協(xié)會下面成立了一個AVS的工作組,目前這個工作組已經(jīng)把第一版編碼所有的流程走完了。
到現(xiàn)在為止,監(jiān)控檔次實際上是AVS若干個檔次當中的一個。AVS的監(jiān)控檔次引入了一個背景建模技術,這是目前其它的標準里面還沒有非常明確的事情。我們做了一些數(shù)據(jù)分析發(fā)現(xiàn),對于監(jiān)控而言,它看的場景是比較固定的,不管攝像頭是固定不動的還是旋轉(zhuǎn)的,這都不要緊,實際上它的場景是固定的,一旦這個攝像頭安在這個地方,它就在這個場景下,如果你有辦法把這個場景學習下來,用它參與編碼,可以提高編碼效率。如果你用場景建模,它就可以降低以前的碼率,這樣就可以提高它的編碼效率。場景模型這方面就沒有太大的難度,就是我給你一個視頻,把視頻分為前景和后景,前景是場景沒有的東西,背景是原來的場景,如果能這樣有效的分開,任何一個視頻就可以分為前景和背景的組合,就可以分開進行編碼,對前景可以多用一點比特,使它幾乎沒有損失,對于背景,可以用相當?shù)膮?shù)代替它的場景,減少它的比特。
整個系統(tǒng)工作起來,需要對整個碼流進行定義,這些定義會告訴你現(xiàn)在參考的是背景模型,還是實際碼流。通常我們編碼的時候,它的參考幀都是固定給你的。我們現(xiàn)在就變成需要換參考幀的時候,你可以用模型,也可以用實際的幀,哪個效果更好,就用哪個。這樣我們就從語法上把這個機制建立起來了,而且這個機制可以允許你在原來的框架中增加背景建模。有了這樣一個機制,我們利用背景建模技術,不單在AVS上可以提高一倍的編碼效率,還可以把它嵌到H.264和HEVC里面,結(jié)果是一樣的,都可以提高原來一倍以上的編碼的效率。這是面向視頻監(jiān)控,面向背景建模的編碼技術。
關于視頻分析
現(xiàn)在的分析技術都是基于把原來的編碼圖象解開了以后來做?,F(xiàn)在的問題是有沒有辦法不用解碼就進行分析。這個也是我們需要做實時響應的要點?,F(xiàn)在的系統(tǒng)設計,完全不是面向視頻分析的,因為它是存在那里,要用的時候把它解開,然后再進行分析的。我們現(xiàn)在試圖找一種方法,就是不用解開,或者不用全解,就來進行分析。
AVS有一個監(jiān)控檔次,就可以支持這件事。為了說明這件事可以支持,它可以從幀、區(qū)域、對象、事件等不同層面對這個東西進行描述。這里最關鍵的一個就是ROI區(qū)域,你要對它進行描述和表達,將來編碼進行闡述的時候,是對這一塊單獨來做的,當進行視頻的時候,你只需要對前景,或者說對ROI來分析。
這種思路其實不僅僅是可以用在AVS上,我有幾個學生專門把這種思路嵌到HEVC、H.264里面,不但編碼可以提高1倍以上,還可以把感興趣的區(qū)域定位出來。從處理速度上來講,不同的算法可能有的時間長一點,有的時間短一點。HEVC的塊的結(jié)構組合更靈活,利用它的塊的組合的特點,也可以做很多ROI的描述,也可以根據(jù)這種可變塊結(jié)構描述,做很高的編碼和識別的工作。
人臉識別是非常重要的,我們也有一個專門的課題做人臉識別的工作。人臉識別最理想的分辨率是100×100,最低的也要50×50,如果再小的話,識別效率就會差。編碼壓縮的力度越大,識別率就會降低得越快。
我們現(xiàn)在追求的目標不是光用人臉,實際是人臉和身體組合在一起去做跟蹤,這樣才會比較有效。因為光看人臉的話,如果分辨率不夠,你很難完成跟蹤的任務,特別是有時候他是背過身來的。我們要把這個對象從頭到腳跟蹤下來,然后找到他正面的圖象,看看是不是你要找的人,如果是的話,你就可以全部回溯,如果不是的話,你就把它丟掉。
現(xiàn)在智慧城市當中的視頻系統(tǒng)的設計,并不是面向智能分析和識別的,所以我們有必要去對這個系統(tǒng)設計進行一些影響,在高效的視頻編碼,我們應該可以有一些改進。另外基于感興趣區(qū)域的表達,我們也可以有所作為。如果把這兩者聯(lián)合起來,將會是一個很好的創(chuàng)新。
評論comment