| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
人的發(fā)聲器官可以分為兩個(gè)部 分,即聲道和聲帶。如果直接讓機(jī)器人理解我們說(shuō)的話(huà),難度比較大,將人類(lèi)語(yǔ) 言轉(zhuǎn)化為機(jī)器人可以理解識(shí)別的信號(hào),就是一個(gè)很好的途徑。如果將整個(gè)過(guò)程看 為一個(gè)信號(hào)過(guò)程的話(huà),聲帶是發(fā)生源,聲道相當(dāng)于一個(gè)諧振時(shí)的聲帶振動(dòng),可用 一個(gè)脈沖串發(fā)生器代替。發(fā)一些有聲帶振動(dòng)的音時(shí),可用一個(gè)脈沖串發(fā)生器代 替。發(fā)一些無(wú)振音的時(shí)候,因?yàn)槁晭Р⒉徽駝?dòng),而是從喉管發(fā)出的,只是一般的 隨機(jī)氣流,可以用一個(gè)噪聲發(fā)生器代替。上文介紹過(guò),聲音的強(qiáng)弱是變化的,用 一個(gè)增益因子K 來(lái)表示的話(huà)
通過(guò)上面的辦法,我們可以把語(yǔ)音信號(hào)轉(zhuǎn)化為機(jī)器人能夠理解的電信號(hào), 那么機(jī)器人又要怎樣去理解呢?
由于人類(lèi)的語(yǔ)言非常復(fù)雜,無(wú)論哪個(gè)民族,其詞匯量都非常大,即使是同一個(gè) 人,他的發(fā)音也隨著環(huán)境及身體情況的變化而變化。目前在大詞匯語(yǔ)音識(shí)別方面處 于L先地位的IBM 語(yǔ)音研究小組,就是在70年代開(kāi)始了大詞匯語(yǔ)音識(shí)別研究工作 的 。AT&A 的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究 歷經(jīng)10年,其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。
關(guān)于語(yǔ)音識(shí)別,表4-1介紹了三種主要模式。
將語(yǔ)音信號(hào)的頻譜沿著時(shí)間軸加以展開(kāi),制成頻譜圖。此法是取語(yǔ)音信號(hào)的頻率 特性作為比較基礎(chǔ)。此種方法識(shí)別精度一般,適用于對(duì)少量語(yǔ)音的識(shí)別,及對(duì)特定 人說(shuō)話(huà)的場(chǎng)合
即線(xiàn)性預(yù)估編碼法,此法是對(duì)語(yǔ)音信號(hào)抽取LPC系數(shù),然后與參考樣板的LPC系 數(shù)加以比較,計(jì)算出其間的“差距”。LPC法是模擬人的發(fā)音器官構(gòu)造而設(shè)計(jì)的。因 此,LPC系數(shù)就代表發(fā)音器官腔調(diào)的不同狀態(tài)。此法也用于特定人的語(yǔ)音識(shí)別
此法可用于非特定人的語(yǔ)音識(shí)別。即要識(shí)別不同人的發(fā)音,并且對(duì)同一個(gè)人發(fā)同一 個(gè)音,每次發(fā)音也未必一致。這需要有大量的“儲(chǔ)存”與“比較”。此法是采用“統(tǒng) 籌”的理論,建立語(yǔ)音的狀態(tài)轉(zhuǎn)移模式。經(jīng)大量的語(yǔ)音資料得出模式的“概率”,選 出“相似率”Z高者
語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于 語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。在聲學(xué)模型方面,我們介紹一下 HMM 聲學(xué)模型。
HMM 聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱 馬爾可夫模型HMM 是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn),外界只能看 到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲 學(xué)特征。用HMM 刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一 狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè) 大大降低了模型的復(fù)雜度。HMM 的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、 Viterbi算法和前向后向算法。
總的來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變 為相應(yīng)的文本或命令的高技術(shù),其技術(shù)流程圖如圖4-17所示。語(yǔ)音識(shí)別技術(shù)主 要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車(chē) 聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車(chē)聯(lián)網(wǎng)中,只需按照一鍵通客服人員口述 要求即可設(shè)置目的地直接導(dǎo)航,安全、便捷。語(yǔ)音識(shí)別技術(shù)正朝著能識(shí)別任意人 發(fā)音的方向發(fā)展。
![]() |
| 機(jī)器人底盤(pán) Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤(pán) 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |