淺談?wù)Z音識別技術(shù)論文

時(shí)間：2017-02-14 17:49:56 家文952由分享

淺談?wù)Z音識別技術(shù)論文

　　語音識別技術(shù)研究讓人更加方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)，對任何事都能夠通過語音交互的方式。小編整理了淺談?wù)Z音識別技術(shù)論文，歡迎閱讀!

　　淺談?wù)Z音識別技術(shù)論文篇一

　　語音識別技術(shù)概述

　　作者：劉鈺馬艷麗董蓓蓓

　　摘要：本文簡要介紹了語音識別技術(shù)理論基礎(chǔ)及分類方式，所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn)，最后討論了語音識別技術(shù)的發(fā)展前景和應(yīng)用。

　　關(guān)鍵詞：語音識別;特征提取;模式匹配;模型訓(xùn)練

　　Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

　　Keywords:Speech identification;Character Pick-up;Mode matching;Model training

　　一、語音識別技術(shù)的理論基礎(chǔ)

　　語音識別技術(shù)：是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級技術(shù)。語音識別以語音為研究對象，它是語音信號處理的一個(gè)重要研究方向，是模式識別的一個(gè)分支，涉及到生理學(xué) 、心理學(xué)、語言學(xué)、計(jì)算機(jī) 科學(xué) 以及信號處理等諸多領(lǐng)域，甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢等行為動(dòng)作可幫助對方理解)，其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。

　　不同的語音識別系統(tǒng)，雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同，但所采用的基本技術(shù)相似，一個(gè)典型語音識別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外，還涉及到語音識別單元的選取。

　　(一) 語音識別單元的選取

　　選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種，具體選擇哪一種，由具體的研究任務(wù)決定。

　　單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng)，但不適合大詞匯系統(tǒng)，原因在于模型庫太龐大，訓(xùn)練模型任務(wù)繁重，模型匹配算法復(fù)雜，難以滿足實(shí)時(shí)性要求。

　　音節(jié)單元多見于漢語語音識別，主要因?yàn)闈h語是單音節(jié)結(jié)構(gòu)的語言，而英語是多音節(jié)，并且漢語雖然有大約1300個(gè)音節(jié)，但若不考慮聲調(diào)，約有408個(gè)無調(diào)音節(jié)，數(shù)量相對較少。因此，對于中、大詞匯量漢語語音識別系統(tǒng)來說，以音節(jié)為識別單元基本是可行的。

　　音素單元以前多見于英語語音識別的研究中，但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成，且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母，這樣雖然增加了模型數(shù)目，但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響，音素單元不穩(wěn)定，所以如何獲得穩(wěn)定的音素單元，還有待研究。

　　(二) 特征參數(shù)提取技術(shù)

　　語音信號中含有豐富的信息，但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項(xiàng)工作，它對語音信號進(jìn)行分析處理，去除對語音識別無關(guān)緊要的冗余信息，獲得影響語音識別的重要信息。對于非特定人語音識別來講，希望特征參數(shù)盡可能多的反映語義信息，盡量減少說話人的個(gè)人信息(對特定人語音識別來講，則相反)。從信息論角度講，這是信息壓縮的過程。

　　線性預(yù)測(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù)，許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型是純數(shù)學(xué)模型，沒有考慮人類聽覺系統(tǒng)對語音的處理特點(diǎn)。

　　Mel參數(shù)和基于感知線性預(yù)測(PLP)分析提取的感知線性預(yù)測倒譜，在一定程度上模擬了人耳對語音的處理特點(diǎn)，應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明，采用這種技術(shù)，語音識別系統(tǒng)的性能有一定提高。

　　也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取，但目前性能難以與上述技術(shù)相比，有待進(jìn)一步研究。

　　(三)模式匹配及模型訓(xùn)練技術(shù)

　　模型訓(xùn)練是指按照一定的準(zhǔn)則，從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù)，而模式匹配則是根據(jù)一定準(zhǔn)則，使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配。

　　語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò) (ANN)。

　　DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù)，它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時(shí)時(shí)長不等的難題，在孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng)，目前已被HMM模型和ANN替代。

　　HMM模型是語音信號時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號的統(tǒng)計(jì)特性，其中一個(gè)是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈，另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣，語音等時(shí)變信號某一段的特征就由對應(yīng)狀態(tài)觀察符號的隨機(jī)過程描述，而信號隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn)，HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù)，簡稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù)，簡稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM，集DHMM和CHMM特點(diǎn))。一般來講，在訓(xùn)練數(shù)據(jù)足夠的，CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識別都已研究出有效的算法，并不斷被完善，以增強(qiáng)HMM模型的魯棒性。

　　人工神經(jīng)元網(wǎng)絡(luò) 在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類神經(jīng)元活動(dòng)的原理，具有自學(xué)、聯(lián)想、對比、推理和概括能力。這些能力是HMM模型不具備的，但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此，現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來，從而提高整個(gè)模型的魯棒性。

　　二、語音識別的困難與對策

　　目前，語音識別方面的困難主要表現(xiàn)在：

　　(一)語音識別系統(tǒng)的適應(yīng)性差，主要體現(xiàn)在對環(huán)境依賴性強(qiáng)，即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用，否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對用戶的錯(cuò)誤輸入不能正確響應(yīng)，使用不方便。

　　(二)高噪聲環(huán)境下語音識別進(jìn)展困難，因?yàn)榇藭r(shí)人的發(fā)音變化很大，像聲音變高，語速變慢，音調(diào)及共振峰變化等等，這就是所謂Lombard效應(yīng)，必須尋找新的信號分析處理方法。

　　(三)語言學(xué)、生理學(xué) 、心理學(xué)方面的研究成果已有不少，但如何把這些知識量化、建模并用于語音識別，還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。

　　(四)我們對人類的聽覺理解、知識積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識還很不清楚;其次，把這方面的現(xiàn)有成果用于語音識別，還有一個(gè)艱難的過程。

　　(五)語音識別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決，識別速度、拒識問題以及關(guān)鍵詞(句)檢測技術(shù)等等技術(shù)細(xì)節(jié)要解決。

　　三、語音識別技術(shù)的前景和應(yīng)用

　　語音識別技術(shù) 發(fā)展到今天，特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%，對特定人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展，這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片，大量生產(chǎn)。在西方經(jīng)濟(jì) 發(fā)達(dá)國家，大量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識別撥號功能，還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息，并且取得很好的結(jié)果。

　　語音識別是一門交叉學(xué)科，語音識別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)，語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤，通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè)。

　　參考文獻(xiàn) ：

　　[1]科大訊飛語音識別技術(shù)專欄. 語音識別產(chǎn)業(yè)的新發(fā)展. 企業(yè) 專欄.通訊世界,2007.2:(總l12期)

　　[2]任天平,門茂深.語音識別技術(shù)應(yīng)用的進(jìn)展.科技廣場.河南科技,2005.2:19-20

　　[3]俞鐵城.科大訊飛語音識別技術(shù)專欄.語音識別的發(fā)展現(xiàn)狀.企業(yè)專欄.通訊世界,2006.2 (總122期)

　　[4]陳尚勤等.近代語音識別.西安: 電子科技大學(xué)出版社,1991

　　[5]王炳錫等.實(shí)用語音識別基礎(chǔ).Practical Fundamentals of Speech Recognition.北京:國防工業(yè) 出版社,2005

　　[6](美)L.羅賓納.語音識別基本原理.北京:清華大學(xué)出版社,1999

點(diǎn)擊下頁還有更多>>>淺談?wù)Z音識別技術(shù)論文

国产成人v爽在线免播放观看,日韩欧美色,久久99国产精品久久99软件,亚洲综合色网站,国产欧美日韩中文久久,色99在线,亚洲伦理一区二区

淺談?wù)Z音識別技術(shù)論文

淺談?wù)Z音識別技術(shù)論文篇一

相關(guān)文章

熱門文章