語(yǔ)音識(shí)別技術(shù)分析
來(lái)源:數(shù)字音視工程網(wǎng) 編輯:數(shù)字音視工程 2013-01-06 10:17:10 加入收藏
聲音識(shí)別系統(tǒng)的發(fā)展得益于便宜的硬件,大多數(shù)的計(jì)算機(jī)都有聲卡和麥克風(fēng)。
但是聲音識(shí)別系統(tǒng)比指紋識(shí)別系統(tǒng)有更高的誤識(shí)率,因?yàn)槿说穆曇舨幌裰讣y那樣具備唯一性。
生物識(shí)別指從生理和行為特征上自動(dòng)辨識(shí)人類的身份,包括面部、虹膜、靜脈、語(yǔ)音、簽名和指紋識(shí)別,以及掌形識(shí)別。要被辨識(shí)的人必須親自站在識(shí)別器前,這樣的辨識(shí)技術(shù)不需要記密碼或攜帶識(shí)別證和智能卡。
隨著個(gè)人身份號(hào)碼和密碼使用的快速增長(zhǎng),有必要限制對(duì)這些敏感數(shù)據(jù)的訪問(wèn)。替代了個(gè)人身份號(hào)碼和密碼,讓生物識(shí)別技術(shù)使用更方便,能夠阻止對(duì)ATM機(jī)、識(shí)別證和智能卡、移動(dòng)電話、PC機(jī)、工作站和計(jì)算機(jī)網(wǎng)絡(luò)等未授權(quán)的訪問(wèn)或是欺詐性地使用。個(gè)人身份號(hào)碼和密碼可能會(huì)被忘掉,識(shí)別證類的方法如護(hù)照、駕照和保險(xiǎn)卡也可能被遺忘、被偷竊或丟失。
各種各樣的生物識(shí)別系統(tǒng)現(xiàn)在被用作實(shí)時(shí)識(shí)別。最常見(jiàn)的是面部識(shí)別和指紋識(shí)別,此外,還有其他運(yùn)用虹膜和視網(wǎng)膜掃描、語(yǔ)音、面部和掌形等的生物識(shí)別系統(tǒng)。
語(yǔ)音識(shí)別
語(yǔ)音信號(hào)表明了語(yǔ)言、語(yǔ)音生理上的呈現(xiàn)方式和類型,以及說(shuō)話者的身體和情緒狀態(tài)。20世紀(jì)60年代早期,貝爾實(shí)驗(yàn)室的Lawrence Kersta在計(jì)算機(jī)語(yǔ)者驗(yàn)證技術(shù)上邁出了重要的第一步,他在由復(fù)雜的電動(dòng)機(jī)械設(shè)備產(chǎn)生的聲譜圖中引入了聲波紋的概念,聲波紋同視覺(jué)比較的驗(yàn)證運(yùn)算法則相匹配。
為了進(jìn)行語(yǔ)者辨識(shí)而記錄人們的聲音,這需要用語(yǔ)音來(lái)展現(xiàn)說(shuō)話的行為和方式,語(yǔ)音識(shí)別是生物行為識(shí)別的一部分。語(yǔ)音信號(hào)是十分復(fù)雜的,它可以很容易地被普通的麥克風(fēng)捕捉。然而,同其他生物識(shí)別技術(shù)如指紋識(shí)別相比,聲音識(shí)別不是很穩(wěn)定。
自動(dòng)語(yǔ)者識(shí)別的先進(jìn)方法要求隨機(jī)的語(yǔ)者模型,模型具有不同的語(yǔ)音特點(diǎn),它可以區(qū)分高級(jí)和低級(jí)信息。高級(jí)信息包括方言、口音、談話風(fēng)格和主題樣式,這些特征現(xiàn)在只能被人辨識(shí)和分析。低級(jí)信息包括音高周期、節(jié)奏、音調(diào)、聲譜級(jí)和個(gè)人聲音的頻率和帶寬。
雖然較高質(zhì)量的聲音采集設(shè)備可以提高辨識(shí)的性能,但通過(guò)麥克風(fēng)或普通電話也可進(jìn)行。硬件的價(jià)格現(xiàn)在非常低,幾乎每一臺(tái)PC都有麥克風(fēng),或是很容易連接麥克風(fēng)。
聲音識(shí)別對(duì)沙啞或是模仿的聲音不是很有效。如果遇到這種情況,系統(tǒng)將不能辨認(rèn)使用者。此外如果麥克風(fēng)質(zhì)量很差或背景很嘈雜,辨識(shí)的準(zhǔn)確率會(huì)降低。聲音識(shí)別由于有較高的誤識(shí)率,所以它較少被單獨(dú)用到,往往會(huì)輔以更高辨識(shí)率的技術(shù),如指紋掃描。而且語(yǔ)音會(huì)隨著時(shí)間變化而改變,所以需要相應(yīng)的樣版和方法。
不同語(yǔ)者的語(yǔ)音變化和同一語(yǔ)者的語(yǔ)音變化
不同語(yǔ)者的語(yǔ)音變化是由個(gè)人不同的嗓音特征造成的,為區(qū)分不同的語(yǔ)者提供有用的信息。同一語(yǔ)者的語(yǔ)音變化是指語(yǔ)者不能以完全相同的方式重復(fù)同一詞匯或句子的發(fā)音。
同一語(yǔ)者的語(yǔ)音變化包括不同說(shuō)話速度、情緒狀態(tài)和說(shuō)話環(huán)境,它會(huì)導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)表現(xiàn)的下降。所以需要選擇可以顯示較少同一語(yǔ)者語(yǔ)音變化,而較多不同語(yǔ)者語(yǔ)音變化的參數(shù)。在許多語(yǔ)音識(shí)別的應(yīng)用中,通過(guò)要求使用者說(shuō)出含有和訓(xùn)練語(yǔ)句相同文本和詞匯的測(cè)試語(yǔ)句,來(lái)減少同一語(yǔ)者的語(yǔ)音變化。
語(yǔ)音識(shí)別系統(tǒng)被分為文本相關(guān)的和文本無(wú)關(guān)兩種。文本相關(guān)系統(tǒng)要求使用者重復(fù)指定的話語(yǔ),通常包含與訓(xùn)練信息相同的文本,文本無(wú)關(guān)的系統(tǒng)則沒(méi)有這樣的限制。在文本相關(guān)的系統(tǒng)中,大家熟知的詞匯或詞組信息可以用來(lái)提高辨識(shí)的表現(xiàn)。
語(yǔ)音識(shí)別系統(tǒng)提示客戶在新的場(chǎng)合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統(tǒng)也不會(huì)被錄音欺騙。文本相關(guān)的聲音識(shí)別方法可以分為動(dòng)態(tài)時(shí)間伸縮或隱馬爾可夫模型方法。文本無(wú)關(guān)聲音識(shí)別已經(jīng)被研究很長(zhǎng)時(shí)間了,不一致環(huán)境造成的性能下降是應(yīng)用中的一個(gè)很大的障礙。
工作原理
動(dòng)態(tài)時(shí)間伸縮方法使用瞬間的、變動(dòng)倒頻。1963年Bogert et al出版了《回聲的時(shí)序倒頻分析》。通過(guò)交換字母順序,他們用一個(gè)含義廣泛的詞匯定義了一個(gè)新的信號(hào)處理技術(shù),倒頻譜的計(jì)算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運(yùn)用隱馬爾可夫模型的方法,頻譜特征的統(tǒng)計(jì)變差得以測(cè)量。文本無(wú)關(guān)語(yǔ)音識(shí)別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。
平均頻譜法使用有利的倒頻距離,語(yǔ)音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語(yǔ)者的一套短期訓(xùn)練的特征向量可以直接用來(lái)描繪語(yǔ)者的本質(zhì)特征。但是,當(dāng)訓(xùn)練向量的數(shù)量很大時(shí),這種直接的描繪是不切實(shí)際的,因?yàn)榇鎯?chǔ)和計(jì)算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來(lái)壓縮訓(xùn)練數(shù)據(jù)。Montacie et al在倒頻向量的時(shí)序中應(yīng)用多變量自回歸模式來(lái)確定語(yǔ)者特征,取得了很好的效果。
想騙過(guò)語(yǔ)音識(shí)別系統(tǒng)要有高質(zhì)量的錄音機(jī),那不是很容易買到的。一般的錄音機(jī)不能記錄聲音的完整頻譜,錄音系統(tǒng)的質(zhì)量損失也必須是非常低的。對(duì)于大多數(shù)的語(yǔ)音識(shí)別系統(tǒng),模仿的聲音都不會(huì)成功。用語(yǔ)音識(shí)別來(lái)辨認(rèn)身份是非常復(fù)雜的,所以語(yǔ)音識(shí)別系統(tǒng)會(huì)結(jié)合個(gè)人身份號(hào)碼識(shí)別或芯片卡。
語(yǔ)音識(shí)別系統(tǒng)得益于廉價(jià)的硬件設(shè)備,大多數(shù)的計(jì)算機(jī)都有聲卡和麥克風(fēng),也很容易使用。但語(yǔ)音識(shí)別還是有一些缺點(diǎn)的。語(yǔ)音隨時(shí)間而變化,所以必須使用生物識(shí)別模板。語(yǔ)音也會(huì)由于傷風(fēng)、嗓音沙啞、情緒壓力或是青春期而變化。語(yǔ)音識(shí)別系統(tǒng)比指紋識(shí)別系統(tǒng)有著較高的誤識(shí)率,因?yàn)槿藗兊穆曇舨幌裰讣y那樣獨(dú)特和唯一。對(duì)快速傅立葉變換計(jì)算來(lái)說(shuō),系統(tǒng)需要協(xié)同處理器和比指紋系統(tǒng)更多的效能。目前語(yǔ)音識(shí)別系統(tǒng)不適合移動(dòng)應(yīng)用或以電池為電源的系統(tǒng)。
評(píng)論comment