- 首頁
- 產(chǎn)品百科
- 語音識別
語音識別技術簡介
2019/11/17 16:52:33 查看:1526
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識別的工作模式
音識別一般來說具有兩種工作模式:識別模式和命令模式。語音識別程序的實現(xiàn)也會根據(jù)兩種模式的不同而采用不同類型的程序。識別模式的工作原理是:引擎系統(tǒng)在后臺直接給出一個詞庫和識別模板庫,任何系統(tǒng)都不需要再進一 步對識別語法進行改動,只需要根據(jù)識別引擎提供的主程序源代碼進行改寫就可以了。命令模式相對來說實現(xiàn)起來比較困難,詞典必須要由程序員自己編寫,然后再進行編程,后還要根據(jù)語音詞典進行處理和更正。識別模式與命令模式大的不同就是,程序員要根據(jù)詞典內(nèi)容進行代碼的核對與修改。
語音識別環(huán)境設置
一般語音識別程序的環(huán)境設置步驟包括CTI服務器硬件默認參數(shù)采集與設定,識別硬件采集卡初始化,引擎端口設置等幾個部分。
1、CTI 服務器設置。
應用程序的所有工作都是根據(jù)CTI技術(Computer Telephone Integration)來工作的, 語音硬件平臺默認設定 CTI 服務器。
2、語音采集系統(tǒng)的初始化。
語音識別的平臺會通過判斷是否已經(jīng)輸入語音來進行工作,那么獲得語音就需要語音采集系統(tǒng)了。為了采集和輸出,我們一般采用語音卡作為工具。工作時,打開語音卡內(nèi)自帶的板卡,然后在程序中加入?yún)?shù)就可以運行了。
3、引擎端口設置。語音開發(fā)平臺已對硬件API接口函數(shù)進行提供, 因此只需對函數(shù)進行調(diào)用和賦值即可。
語音字典的編譯
語音字典的設置包括語法、識別語音的規(guī)則、語音模板制作等內(nèi)容,根據(jù)語音平臺的規(guī)則來進行。在語音字典設置時,首先要設置語音識別核心包,再根據(jù)自己編譯的語音的規(guī)則來完成字典的全部設置。
編制識別主程序
在編譯語音識別程序的后階段,程序員需要為主程序編寫GUI(Graphical User Interface) 界面,以便于用戶與計算機進行交互操作。
? 2018-2019 u3dz.com 版權所有 京ICP備16066575號-5