- 首頁
- 產(chǎn)品百科
- 語音識別
語音識別技術(shù)簡介
2019/11/17 16:52:33 查看:1138
語音識別技術(shù),也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識別的工作模式
音識別一般來說具有兩種工作模式:識別模式和命令模式。語音識別程序的實(shí)現(xiàn)也會根據(jù)兩種模式的不同而采用不同類型的程序。識別模式的工作原理是:引擎系統(tǒng)在后臺直接給出一個(gè)詞庫和識別模板庫,任何系統(tǒng)都不需要再進(jìn)一 步對識別語法進(jìn)行改動,只需要根據(jù)識別引擎提供的主程序源代碼進(jìn)行改寫就可以了。命令模式相對來說實(shí)現(xiàn)起來比較困難,詞典必須要由程序員自己編寫,然后再進(jìn)行編程,后還要根據(jù)語音詞典進(jìn)行處理和更正。識別模式與命令模式大的不同就是,程序員要根據(jù)詞典內(nèi)容進(jìn)行代碼的核對與修改。
語音識別環(huán)境設(shè)置
一般語音識別程序的環(huán)境設(shè)置步驟包括CTI服務(wù)器硬件默認(rèn)參數(shù)采集與設(shè)定,識別硬件采集卡初始化,引擎端口設(shè)置等幾個(gè)部分。
1、CTI 服務(wù)器設(shè)置。
應(yīng)用程序的所有工作都是根據(jù)CTI技術(shù)(Computer Telephone Integration)來工作的, 語音硬件平臺默認(rèn)設(shè)定 CTI 服務(wù)器。
2、語音采集系統(tǒng)的初始化。
語音識別的平臺會通過判斷是否已經(jīng)輸入語音來進(jìn)行工作,那么獲得語音就需要語音采集系統(tǒng)了。為了采集和輸出,我們一般采用語音卡作為工具。工作時(shí),打開語音卡內(nèi)自帶的板卡,然后在程序中加入?yún)?shù)就可以運(yùn)行了。
3、引擎端口設(shè)置。語音開發(fā)平臺已對硬件API接口函數(shù)進(jìn)行提供, 因此只需對函數(shù)進(jìn)行調(diào)用和賦值即可。
語音字典的編譯
語音字典的設(shè)置包括語法、識別語音的規(guī)則、語音模板制作等內(nèi)容,根據(jù)語音平臺的規(guī)則來進(jìn)行。在語音字典設(shè)置時(shí),首先要設(shè)置語音識別核心包,再根據(jù)自己編譯的語音的規(guī)則來完成字典的全部設(shè)置。
編制識別主程序
在編譯語音識別程序的后階段,程序員需要為主程序編寫GUI(Graphical User Interface) 界面,以便于用戶與計(jì)算機(jī)進(jìn)行交互操作。
聯(lián)系我們
- 北京朝陽區(qū)惠新西街天建大廈
- Email: 179288518@qq.com
- 技術(shù):
- 商務(wù):
- QQ:
- 工作時(shí)間 9:00pm – 18:00pm.
體感互動
關(guān)注我們
? 2018-2019 u3dz.com 版權(quán)所有 京ICP備16066575號-5