語音識別技術(shù)分析

來源：數(shù)字音視工程網(wǎng) 編輯：數(shù)字音視工程 2013-01-06 10:17:10 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機(jī):	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗證碼:	不能為空驗證碼錯誤

確定

聲音識別系統(tǒng)的發(fā)展得益于便宜的硬件，大多數(shù)的計算機(jī)都有聲卡和麥克風(fēng)。

　　但是聲音識別系統(tǒng)比指紋識別系統(tǒng)有更高的誤識率，因為人的聲音不像指紋那樣具備唯一性。

　　生物識別指從生理和行為特征上自動辨識人類的身份，包括面部、虹膜、靜脈、語音、簽名和指紋識別，以及掌形識別。要被辨識的人必須親自站在識別器前，這樣的辨識技術(shù)不需要記密碼或攜帶識別證和智能卡。

　　隨著個人身份號碼和密碼使用的快速增長，有必要限制對這些敏感數(shù)據(jù)的訪問。替代了個人身份號碼和密碼，讓生物識別技術(shù)使用更方便，能夠阻止對ATM機(jī)、識別證和智能卡、移動電話、PC機(jī)、工作站和計算機(jī)網(wǎng)絡(luò)等未授權(quán)的訪問或是欺詐性地使用。個人身份號碼和密碼可能會被忘掉，識別證類的方法如護(hù)照、駕照和保險卡也可能被遺忘、被偷竊或丟失。

　　各種各樣的生物識別系統(tǒng)現(xiàn)在被用作實時識別。最常見的是面部識別和指紋識別，此外，還有其他運(yùn)用虹膜和視網(wǎng)膜掃描、語音、面部和掌形等的生物識別系統(tǒng)。

　　語音識別

　　語音信號表明了語言、語音生理上的呈現(xiàn)方式和類型，以及說話者的身體和情緒狀態(tài)。20世紀(jì)60年代早期，貝爾實驗室的Lawrence Kersta在計算機(jī)語者驗證技術(shù)上邁出了重要的第一步，他在由復(fù)雜的電動機(jī)械設(shè)備產(chǎn)生的聲譜圖中引入了聲波紋的概念，聲波紋同視覺比較的驗證運(yùn)算法則相匹配。

　　為了進(jìn)行語者辨識而記錄人們的聲音，這需要用語音來展現(xiàn)說話的行為和方式，語音識別是生物行為識別的一部分。語音信號是十分復(fù)雜的，它可以很容易地被普通的麥克風(fēng)捕捉。然而，同其他生物識別技術(shù)如指紋識別相比，聲音識別不是很穩(wěn)定。

　　自動語者識別的先進(jìn)方法要求隨機(jī)的語者模型，模型具有不同的語音特點(diǎn)，它可以區(qū)分高級和低級信息。高級信息包括方言、口音、談話風(fēng)格和主題樣式，這些特征現(xiàn)在只能被人辨識和分析。低級信息包括音高周期、節(jié)奏、音調(diào)、聲譜級和個人聲音的頻率和帶寬。

　　雖然較高質(zhì)量的聲音采集設(shè)備可以提高辨識的性能，但通過麥克風(fēng)或普通電話也可進(jìn)行。硬件的價格現(xiàn)在非常低，幾乎每一臺PC都有麥克風(fēng)，或是很容易連接麥克風(fēng)。

　　聲音識別對沙啞或是模仿的聲音不是很有效。如果遇到這種情況，系統(tǒng)將不能辨認(rèn)使用者。此外如果麥克風(fēng)質(zhì)量很差或背景很嘈雜，辨識的準(zhǔn)確率會降低。聲音識別由于有較高的誤識率，所以它較少被單獨(dú)用到，往往會輔以更高辨識率的技術(shù)，如指紋掃描。而且語音會隨著時間變化而改變，所以需要相應(yīng)的樣版和方法。

　　不同語者的語音變化和同一語者的語音變化

　　不同語者的語音變化是由個人不同的嗓音特征造成的，為區(qū)分不同的語者提供有用的信息。同一語者的語音變化是指語者不能以完全相同的方式重復(fù)同一詞匯或句子的發(fā)音。

　　同一語者的語音變化包括不同說話速度、情緒狀態(tài)和說話環(huán)境，它會導(dǎo)致語音識別系統(tǒng)表現(xiàn)的下降。所以需要選擇可以顯示較少同一語者語音變化，而較多不同語者語音變化的參數(shù)。在許多語音識別的應(yīng)用中，通過要求使用者說出含有和訓(xùn)練語句相同文本和詞匯的測試語句，來減少同一語者的語音變化。

　　語音識別系統(tǒng)被分為文本相關(guān)的和文本無關(guān)兩種。文本相關(guān)系統(tǒng)要求使用者重復(fù)指定的話語，通常包含與訓(xùn)練信息相同的文本，文本無關(guān)的系統(tǒng)則沒有這樣的限制。在文本相關(guān)的系統(tǒng)中，大家熟知的詞匯或詞組信息可以用來提高辨識的表現(xiàn)。

　　語音識別系統(tǒng)提示客戶在新的場合使用新的口令密碼，這樣使用者不需要記住固定的口令，系統(tǒng)也不會被錄音欺騙。文本相關(guān)的聲音識別方法可以分為動態(tài)時間伸縮或隱馬爾可夫模型方法。文本無關(guān)聲音識別已經(jīng)被研究很長時間了，不一致環(huán)境造成的性能下降是應(yīng)用中的一個很大的障礙。

　　工作原理

　　動態(tài)時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序，他們用一個含義廣泛的詞匯定義了一個新的信號處理技術(shù)，倒頻譜的計算通常使用快速傅立葉變換。

　　從1975年起，隱馬爾可夫模型變得很流行。運(yùn)用隱馬爾可夫模型的方法，頻譜特征的統(tǒng)計變差得以測量。文本無關(guān)語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。

　　平均頻譜法使用有利的倒頻距離，語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法，語者的一套短期訓(xùn)練的特征向量可以直接用來描繪語者的本質(zhì)特征。但是，當(dāng)訓(xùn)練向量的數(shù)量很大時，這種直接的描繪是不切實際的，因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓(xùn)練數(shù)據(jù)。Montacie et al在倒頻向量的時序中應(yīng)用多變量自回歸模式來確定語者特征，取得了很好的效果。

　　想騙過語音識別系統(tǒng)要有高質(zhì)量的錄音機(jī)，那不是很容易買到的。一般的錄音機(jī)不能記錄聲音的完整頻譜，錄音系統(tǒng)的質(zhì)量損失也必須是非常低的。對于大多數(shù)的語音識別系統(tǒng)，模仿的聲音都不會成功。用語音識別來辨認(rèn)身份是非常復(fù)雜的，所以語音識別系統(tǒng)會結(jié)合個人身份號碼識別或芯片卡。

　　語音識別系統(tǒng)得益于廉價的硬件設(shè)備，大多數(shù)的計算機(jī)都有聲卡和麥克風(fēng)，也很容易使用。但語音識別還是有一些缺點(diǎn)的。語音隨時間而變化，所以必須使用生物識別模板。語音也會由于傷風(fēng)、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統(tǒng)比指紋識別系統(tǒng)有著較高的誤識率，因為人們的聲音不像指紋那樣獨(dú)特和唯一。對快速傅立葉變換計算來說，系統(tǒng)需要協(xié)同處理器和比指紋系統(tǒng)更多的效能。目前語音識別系統(tǒng)不適合移動應(yīng)用或以電池為電源的系統(tǒng)。

免責(zé)聲明：本文來源于網(wǎng)絡(luò)收集，本文僅代表作者個人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)

午夜欧美福利,日韩欧美不卡在线,欧美一区福利,99久久综合,国产色啪午夜免费视频,亚洲va久久久久综合,5252色欧美在线男人的天堂

我的位置：

語音識別技術(shù)分析

評論comment

重磅！建碁AOPEN攜ChromeOS OPS電腦BP5130亮相2025年臺北國際電腦展！

光影與文化的交響：奧圖碼投影科技重塑夜游文旅新體驗

建碁 AOPEN 邀請函 | 2025年臺北國際電腦展COMPUTEX 2025！

【Infocomm 2025】DAV專訪?？低曇詧鼍盎瘎?chuàng)新引領(lǐng)音視頻新時代

我的位置：

share

相關(guān)閱讀related

評論comment