日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語(yǔ)音識(shí)別裝置及其方法

文檔序號(hào):2831056閱讀:230來(lái)源:國(guó)知局
專利名稱:語(yǔ)音識(shí)別裝置及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種使用語(yǔ)法片段的語(yǔ)音識(shí)別裝置,該語(yǔ)法片段是在對(duì)基 于語(yǔ)法表達(dá)的、要被識(shí)別的語(yǔ)句執(zhí)行語(yǔ)音識(shí)別處理時(shí),將基于語(yǔ)法表達(dá)的 語(yǔ)句劃分為 一個(gè)或多個(gè)語(yǔ)句片段的語(yǔ)法片段。
背景技術(shù)
在語(yǔ)音識(shí)別領(lǐng)域內(nèi), 一種通過(guò)對(duì)輸入語(yǔ)音的語(yǔ)音特征以及與基于語(yǔ)法 描述的要被識(shí)別的語(yǔ)句對(duì)應(yīng)的語(yǔ)音特征模型進(jìn)行匹配來(lái)進(jìn)行語(yǔ)音識(shí)別的語(yǔ) 音識(shí)別裝置被廣泛使用。
作為該描述識(shí)別詞匯的語(yǔ)法,可以使用基于語(yǔ)句網(wǎng)絡(luò)的表達(dá)、上下文
無(wú)關(guān)語(yǔ)法(Context-Free Grammar, CFG )以及有限狀態(tài)語(yǔ)法(Finite State Grammar, FSG )等。
這些語(yǔ)法被存儲(chǔ)在語(yǔ)音識(shí)別裝置的內(nèi)部的規(guī)定存儲(chǔ)裝置中,并且根據(jù) 語(yǔ)音識(shí)別處理的進(jìn)展從匹配單元參閱這些語(yǔ)法。在語(yǔ)音識(shí)別處理期間可以 進(jìn)4亍多次的這種參閱。因此,為了高速地進(jìn)4亍語(yǔ)音識(shí)別處理,語(yǔ)法應(yīng)該4皮 存儲(chǔ)在可以高速存取的存儲(chǔ)裝置中。當(dāng)要被識(shí)別的詞匯數(shù)量增加時(shí),描述 要被識(shí)別的詞匯的語(yǔ)法的大小也會(huì)相應(yīng)增加。因此,為了對(duì)大量的詞匯進(jìn) 行語(yǔ)音識(shí)別處理,就需要用于存儲(chǔ)語(yǔ)法的大容量存儲(chǔ)裝置。換句話說(shuō),語(yǔ) 音識(shí)別裝置需要具有可高速存取的大容量存儲(chǔ)裝置,以便于高速地對(duì)大量 詞匯執(zhí)行語(yǔ)音識(shí)別處理。
但是,可高速存取的存儲(chǔ)裝置需要比只能低速存取的存儲(chǔ)裝置要高的 成本。由于存儲(chǔ)裝置的成本隨著容量而增加,因此可高速存取的大容量存
儲(chǔ)裝置的成本會(huì)纟艮高。因此,由于上述的成本問(wèn)題,語(yǔ)音識(shí)別裝置就有可
能不具備可高速存取的大容量存儲(chǔ)裝置。在這種情況下,取而代之地就會(huì) 使用只能夠進(jìn)行低速存取但容量較大的存儲(chǔ)裝置。這種存儲(chǔ)裝置存在這樣
的問(wèn)題從匹配單元參閱語(yǔ)法的速度會(huì)降低,并且因此,語(yǔ)音識(shí)別處理的 速度也會(huì)降低。
作為一種用于解決該問(wèn)題的方法,提出有一種在日本專利No.3546633 中公開(kāi)的技術(shù)(下文稱為相關(guān)技術(shù))(參見(jiàn)第14頁(yè),圖l)。在該相關(guān)技 術(shù)中,語(yǔ)法被分為語(yǔ)法片段,其中每個(gè)語(yǔ)法片段是匯集一組語(yǔ)法規(guī)則并概 括化而成的,并且所有的這些語(yǔ)法片段都被存儲(chǔ)在只能夠進(jìn)行低速存取但 容量較大的存儲(chǔ)裝置(存儲(chǔ)裝置l:例如HDD)中。此外,在識(shí)別處理中 匹配單元所參閱的語(yǔ)法片段被存儲(chǔ)在能夠高速存取但容量較小的存儲(chǔ)裝置 (存儲(chǔ)裝置2:例如RAM)中。此外,根據(jù)由該匹配單元執(zhí)行的處理的進(jìn) 展,僅將該匹配單元應(yīng)該參閱的語(yǔ)法片段從存儲(chǔ)裝置1傳輸至存儲(chǔ)裝置2。 換句話說(shuō),當(dāng)匹配單元最近應(yīng)該參閱的語(yǔ)法片段沒(méi)有存儲(chǔ)在存儲(chǔ)裝置2中 時(shí),匹配單元執(zhí)行的處理暫時(shí)中斷,并且將相應(yīng)的語(yǔ)法片段從存儲(chǔ)裝置1 傳輸至存儲(chǔ)裝置2。當(dāng)完成該傳輸時(shí),再次開(kāi)始由該匹配單元執(zhí)行的處理。
根據(jù)該相關(guān)技術(shù),只有該匹配單元需要參閱的語(yǔ)法片段必須被存儲(chǔ), 因此存儲(chǔ)裝置1的容量能夠減小。
例如,考慮如下的情況對(duì)于具有諸如日本的地址之類的層次結(jié)構(gòu)的 要被識(shí)別的詞匯,為各層次的各組(縣名、市名、鎮(zhèn)名)準(zhǔn)備語(yǔ)法片段。 在這種情況下,匹配單元應(yīng)該參閱的語(yǔ)法片段限于與各層次中要被識(shí)別的 候選相關(guān)的語(yǔ)法片段。換句話說(shuō),在由該匹配單元執(zhí)行的處理中,當(dāng)出現(xiàn) "Kanagawa-ken"作為要被識(shí)別的縣名的候選時(shí),在接著的處理中僅參閱 描述了與該"Kanagawa-ken"相關(guān)的市名和鎮(zhèn)名的語(yǔ)法片段。結(jié)果,能夠 限制應(yīng)該存儲(chǔ)在上述存儲(chǔ)裝置1中的語(yǔ)法片段的數(shù)量,并且因此能夠進(jìn)一 步減小該存儲(chǔ)裝置1的容量。由于由該匹配單元參閱的語(yǔ)法片段被存儲(chǔ)在 可高速存取的存儲(chǔ)裝置1中,因此可以保持高速地從匹配單元參閱語(yǔ)法片 段。換句話說(shuō),才艮據(jù)相關(guān)技術(shù),能夠抑制與存儲(chǔ)裝置1的容量增長(zhǎng)相關(guān)的 成本增加,同時(shí)高速地執(zhí)行語(yǔ)音識(shí)別處理。
但是,在該相關(guān)技術(shù)中,當(dāng)匹配單元最近應(yīng)該參閱的語(yǔ)法片段沒(méi)有存
儲(chǔ)在存儲(chǔ)裝置2中時(shí),該匹配單元就會(huì)暫時(shí)停止處理,直到相應(yīng)的語(yǔ)法片 段被從存儲(chǔ)裝置1傳輸至存儲(chǔ)裝置2,并且當(dāng)該傳輸完成時(shí)由匹配單元再 次開(kāi)始該處理。在這種情況下,當(dāng)花費(fèi)時(shí)間來(lái)傳輸語(yǔ)法片段時(shí),由匹配單 元執(zhí)行的處理、即語(yǔ)音識(shí)別處理的執(zhí)行將被延遲一個(gè)與傳輸語(yǔ)法片段所需 的等待時(shí)間對(duì)應(yīng)的時(shí)間量。
一般地,為了將數(shù)據(jù)從某一存儲(chǔ)裝置傳輸至另一存儲(chǔ)裝置,就會(huì)產(chǎn)生 延遲時(shí)間,其中該延遲時(shí)間依賴于存儲(chǔ)裝置之間傳輸路徑的速度。在相關(guān) 技術(shù)中,由于設(shè)想從只能低速存取的存儲(chǔ)裝置1傳輸語(yǔ)法片段,因此也會(huì) 產(chǎn)生延遲時(shí)間,其中該延遲時(shí)間對(duì)應(yīng)于從存儲(chǔ)裝置1讀出語(yǔ)法片段的時(shí)間。 在相關(guān)技術(shù)中,延遲時(shí)間的總長(zhǎng)度為語(yǔ)音識(shí)別處理的延遲時(shí)間,因此語(yǔ)音 識(shí)別處理的速度也會(huì)相應(yīng)地降低。
換句話說(shuō),在相關(guān)技術(shù)中,存在如下問(wèn)題由于傳輸語(yǔ)法片段所需的 等待時(shí)間而使得語(yǔ)音識(shí)別處理的速度降低,因此就無(wú)法高速地對(duì)大量詞匯 執(zhí)行語(yǔ)音識(shí)別處理。

發(fā)明內(nèi)容
鑒于上述問(wèn)題,本發(fā)明的目的在于提供一種能夠防止由于傳輸語(yǔ)法片 段所需的等待時(shí)間而導(dǎo)致的語(yǔ)音識(shí)別處理速度的降低、從而實(shí)現(xiàn)高速的語(yǔ) 音識(shí)別處理的語(yǔ)音識(shí)別裝置及其方法。
根據(jù)本發(fā)明的實(shí)施例,提供了一種語(yǔ)音識(shí)別裝置,包括生成單元, 其被配置為對(duì)于具有任意的時(shí)間寬度的各幀,根據(jù)輸入語(yǔ)音的特征生成語(yǔ) 音特征序列;模型存儲(chǔ)單元,其具有多個(gè)基于語(yǔ)法表達(dá)的語(yǔ)句以及通過(guò)劃 分各個(gè)語(yǔ)句而得到的一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段,該模型存儲(chǔ)單元被配置 為存儲(chǔ)狀態(tài)轉(zhuǎn)移模型,該狀態(tài)轉(zhuǎn)移模型用與上述語(yǔ)音特征相關(guān)的狀態(tài)-狀態(tài) 轉(zhuǎn)移表示各個(gè)語(yǔ)句片段的語(yǔ)音特征的時(shí)間系列變化;第一語(yǔ)法存儲(chǔ)單元, 其存儲(chǔ)與屬于上述各語(yǔ)句的一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段相關(guān)的語(yǔ)法片段; 笫二語(yǔ)法存儲(chǔ)單元,其存儲(chǔ)至少一部分從第一語(yǔ)法存儲(chǔ)單元傳輸?shù)纳鲜稣Z(yǔ) 法片段,并能夠以比第一語(yǔ)法存儲(chǔ)單元所需的更短的讀取時(shí)間來(lái)讀出存儲(chǔ)
在其中的信息;第一匹配單元,其通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的 語(yǔ)法片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,來(lái)獲得由生成單元 針對(duì)每個(gè)幀生成的語(yǔ)音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;
語(yǔ)法傳輸單元,當(dāng)?shù)?一 匹配單元獲得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中最終狀態(tài) 的前向概率時(shí),其將與接續(xù)在所述連續(xù)的語(yǔ)句片段中的一個(gè)之后的后續(xù)語(yǔ)
句片段相關(guān)的語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元傳輸至第二語(yǔ)法存儲(chǔ)單元;第 二匹配單元,其通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段以及存儲(chǔ) 在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于接續(xù)在上述語(yǔ)音特征序列之后、 由生成單元針對(duì)每個(gè)幀生成的后續(xù)語(yǔ)音特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各 個(gè)狀態(tài)的前向概率;第三匹配單元,其通過(guò)參閱被傳輸?shù)降诙Z(yǔ)法存儲(chǔ)單 元的上述后續(xù)語(yǔ)法片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于 各個(gè)幀的后續(xù)語(yǔ)音特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率; 識(shí)別控制單元,其(1)對(duì)各個(gè)語(yǔ)句進(jìn)行識(shí)別,(2)使第一匹配單元工作, 直到開(kāi)始后續(xù)語(yǔ)法片段的傳輸,(3)從傳輸?shù)拈_(kāi)始到完成,與傳輸并行地 使第二匹配單元工作,U)—旦該傳輸完成,使第三匹配單元工作,以及 (5)重復(fù)(2)至(4)的操作,直到屬于各個(gè)語(yǔ)句的語(yǔ)句片段的所有操作 完成,以獲得各個(gè)語(yǔ)句的最終的前向概率;以及識(shí)別單元,其輸出一語(yǔ)句 作為語(yǔ)音特征序列的識(shí)別結(jié)果,其中該語(yǔ)句在多個(gè)語(yǔ)句的各個(gè)的最終的前 向概率中給出了最高的前向概率。
根據(jù)本發(fā)明的實(shí)施例,匹配操作與語(yǔ)法片段的傳輸并行地執(zhí)行,從而 能夠防止由于用于等待語(yǔ)法片段的傳輸?shù)牡却龝r(shí)間而導(dǎo)致的語(yǔ)音識(shí)別處理 的速度的降低,并且能夠?qū)崿F(xiàn)高速的語(yǔ)音識(shí)別處理。


圖1是示出才艮據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子的方框
圖2示出了要被識(shí)別的語(yǔ)句的例子;
圖3是描述要被識(shí)別的語(yǔ)句的語(yǔ)法的例子;
圖4是將描述要被識(shí)別的語(yǔ)句的語(yǔ)法劃分為一個(gè)或多個(gè)語(yǔ)法片段的例
子;
圖5是HMM的例子;
圖6是連接多個(gè)對(duì)應(yīng)于語(yǔ)句片段的HMM而成的HMM的例子; 圖7是具有多次轉(zhuǎn)移的HMM的例子;
圖8是用于說(shuō)明對(duì)與多個(gè)語(yǔ)句片段對(duì)應(yīng)的HMM狀態(tài)序列進(jìn)行匹配的
圖9是用于說(shuō)明根據(jù)第一實(shí)施例的由第一匹配單元執(zhí)行的匹配處理的
圖IO是表示執(zhí)行相關(guān)技術(shù)中的匹配處理的情況的圖; 圖11是用于說(shuō)明由第一匹配單元執(zhí)行的匹配處理的圖; 圖12是用于說(shuō)明由第二匹配單元執(zhí)行的匹配處理的圖; 圖13是用于說(shuō)明由第一匹配單元執(zhí)行的匹配處理的圖; 圖14是第一實(shí)施例的流程圖15是示出根據(jù)第二實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子的方框圖; 圖16是用于說(shuō)明由第一匹配單元和第二匹配單元執(zhí)行的匹配處理的
圖17是用于說(shuō)明由第三匹配單元執(zhí)行的匹配處理的圖;以及
圖18是第二實(shí)施例的流程圖。
標(biāo)號(hào)說(shuō)明
101:特征提取單元,102:第一語(yǔ)法存儲(chǔ)單元,103:第二語(yǔ)法存儲(chǔ)單 元,104:語(yǔ)法傳輸單元,105:模型存儲(chǔ)單元,106:識(shí)別控制單元,107: 第一匹配單元,108:第二匹配單元。
具體實(shí)施方式
第一實(shí)施例
現(xiàn)在參照?qǐng)D1至圖14描述才艮據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音識(shí)別裝置。(1)語(yǔ)音識(shí)別裝置的結(jié)構(gòu) 圖1是示出根據(jù)第一實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子的方框圖。
該語(yǔ)音識(shí)別裝置包括特征提取單元101、第一語(yǔ)法存儲(chǔ)單元102、笫二 語(yǔ)法存儲(chǔ)單元103、語(yǔ)法傳輸單元104、模型存儲(chǔ)單元105、識(shí)別控制單元 106、第一匹配單元107以及第二匹配單元108。
可以由存儲(chǔ)在計(jì)算機(jī)中的程序來(lái)實(shí)現(xiàn)各個(gè)單元101至108的功能。 下面通過(guò)對(duì)各個(gè)塊的說(shuō)明來(lái)詳細(xì)描述該語(yǔ)音識(shí)別裝置。 (2 )特征提取單元101
特征提取單元101對(duì)于具有某一時(shí)間寬度的每一幀,根據(jù)輸入的語(yǔ)音 信號(hào)生成語(yǔ)音特征序列X(t)=(x(l), x(2),…,x(T))。在該表示中,x(t)表 示第t幀t的語(yǔ)音特征。在這種情況下,設(shè)定l=<t=<T,并且t = 1對(duì)應(yīng)于 作為語(yǔ)音識(shí)別的目標(biāo)的輸入語(yǔ)音的開(kāi)始位置,并且t - T對(duì)應(yīng)于輸入語(yǔ)音的
結(jié)束位置。
具有一維或一維以上的元素的向量被用于語(yǔ)音特征。這樣的語(yǔ)音特征 向量以Mel頻率倒鐠系數(shù)(MFCC)為例。該MFCC是這樣的一種方法 通過(guò)對(duì)于幀t的語(yǔ)音頻鐠,取Mel濾波器組輸出的對(duì)數(shù)值,進(jìn)而應(yīng)用離散 余弦變換(DCT)進(jìn)行提取出較低階成分的倒頻i瞽(cepstrum)分析,來(lái) 生成語(yǔ)音特征向量。
在特征提取單元101中使用的語(yǔ)音特征,不限于MFCC,而可以使用 任意的語(yǔ)音特征。
(3)第一語(yǔ)法存儲(chǔ)單元102
第一語(yǔ)法存儲(chǔ)單元102存儲(chǔ)描述要被識(shí)別的語(yǔ)句的語(yǔ)法。該語(yǔ)法以一 個(gè)或多個(gè)對(duì)于語(yǔ)句片段的每一個(gè)劃分而成的語(yǔ)法片段的形式存儲(chǔ)。下面將 使用圖2至圖4來(lái)描述語(yǔ)句片段和語(yǔ)法片段的例子。 (3-1)語(yǔ)句片段
圖2是示出要被識(shí)別的語(yǔ)句的表,其是各自包括四個(gè)語(yǔ)句片段的7個(gè) 要被識(shí)別的語(yǔ)句的例子。在圖2中,用Wn (n:單詞編號(hào))表示構(gòu)成要被 識(shí)別的語(yǔ)句的語(yǔ)句片段。
(3誦2 )語(yǔ)法
圖3是描述圖2中所示的要被識(shí)別的語(yǔ)句的語(yǔ)法的例子。 圖3中的語(yǔ)法包括節(jié)點(diǎn)Nn (n:節(jié)點(diǎn)編號(hào))以及連接節(jié)點(diǎn)間的有向弧 線。節(jié)點(diǎn)中的ST和ED表示各個(gè)語(yǔ)法的開(kāi)始和結(jié)束。對(duì)于各個(gè)弧線,都 賦予語(yǔ)句片段Wn,并且通過(guò)沿著從開(kāi)始節(jié)點(diǎn)ST到結(jié)束節(jié)點(diǎn)ED延伸的弧 線來(lái)獲得要被識(shí)別的語(yǔ)句。例如,在圖3所示的語(yǔ)法中,通過(guò)從開(kāi)始節(jié)點(diǎn) ST開(kāi)始,沿著被賦予了單詞Wll、 W21、 W31以及W41的弧線,直到結(jié) 束節(jié)點(diǎn)ED,來(lái)獲得圖2中句子編號(hào)1所表示的要被識(shí)別的語(yǔ)句 "W11-W21-W31-W41"。 (3-3)語(yǔ)法片段
圖4例示了將基于圖3中的語(yǔ)法表達(dá)的語(yǔ)句劃分為一個(gè)或多個(gè)語(yǔ)句片 段、與這些語(yǔ)句片段相關(guān)的語(yǔ)法片段的例子。
在圖4的例子中,圖3中的語(yǔ)法被劃分為6個(gè)語(yǔ)法片段A-F。圖4中 的每個(gè)語(yǔ)法片段都由圖3中的語(yǔ)法以及弧線的一部分構(gòu)成。例如,圖4中 的語(yǔ)法片段A由圖3的語(yǔ)法中開(kāi)始節(jié)點(diǎn)ST、弧線Wll和W22以及能夠 從該弧線到達(dá)的節(jié)點(diǎn)Nil和N12構(gòu)成。
語(yǔ)法片段A中的節(jié)點(diǎn)Nil和語(yǔ)法片段B中的節(jié)點(diǎn)Nll為相同節(jié)點(diǎn), 其表示該語(yǔ)法片IS: A和語(yǔ)法片段B能夠通過(guò)節(jié)點(diǎn)Nil相接。換句話說(shuō), 語(yǔ)法片段B為語(yǔ)法片段A的后續(xù)語(yǔ)法片段。因此,當(dāng)語(yǔ)法通過(guò)弧線Wll 從語(yǔ)法片段A的節(jié)點(diǎn)ST到達(dá)節(jié)點(diǎn)Nil時(shí),它還能進(jìn)一步沿著源自語(yǔ)法片 段B的節(jié)點(diǎn)Nll的弧線繼續(xù)。這種關(guān)系同樣也可應(yīng)用于其他語(yǔ)法片段,并 且該語(yǔ)法片段與該其他語(yǔ)法片段通過(guò)相同的節(jié)點(diǎn)相連。
利用這種連接關(guān)系,圖4中的語(yǔ)法片段表示與圖3所示語(yǔ)法中相同的 要被識(shí)別的詞匯。
(3-4)劃分語(yǔ)法的方法
圖4示出的是圖3中的語(yǔ)法被劃分為6個(gè)語(yǔ)法片段的例子。但是,可 以根據(jù)語(yǔ)音識(shí)別裝置的用戶的需求來(lái)選擇劃分方法。
例如,可以如圖4中的語(yǔ)法片段C那樣,通過(guò)從語(yǔ)法片段的開(kāi)始直到
末尾沿著多個(gè)弧線來(lái)對(duì)語(yǔ)法進(jìn)行劃分。
作為選擇,也可以如語(yǔ)法片段F那樣,對(duì)語(yǔ)法進(jìn)行劃分,以便具有多 個(gè)在前語(yǔ)法片段。
不僅如圖4中的例子所示將語(yǔ)法劃分為6個(gè)語(yǔ)法片段,而可以將語(yǔ)法 劃分為 一個(gè)或多個(gè)的任意數(shù)量的語(yǔ)法片段。
并且,可以匯集例如圖4中的語(yǔ)法片段B和語(yǔ)法片段E那樣沒(méi)有彼此 接連關(guān)系的節(jié)點(diǎn)和弧線的集合而確定為一個(gè)語(yǔ)法片段,或者進(jìn)而細(xì)化語(yǔ)法 片段B而劃分為兩個(gè)語(yǔ)法片段。 (3-5)存儲(chǔ)內(nèi)容
第一語(yǔ)法存儲(chǔ)單元102存儲(chǔ)全部的圖4中所示的一個(gè)或多個(gè)語(yǔ)法片段。 換句話說(shuō),存儲(chǔ)為了描述要被識(shí)別的語(yǔ)句所需的所有語(yǔ)法片段。
因此,第一語(yǔ)法存儲(chǔ)單元102必須具有足夠的容量來(lái)存儲(chǔ)所有的語(yǔ)法 片段。這種情況下所需的存儲(chǔ)容量與語(yǔ)法的大小、即要被識(shí)別的語(yǔ)句的數(shù) 量成比例。當(dāng)要被識(shí)別的語(yǔ)句數(shù)量如所有的日本的地址那樣相對(duì)較大時(shí), 第一語(yǔ)法存儲(chǔ)單元102相應(yīng)地也需要具有較大的容量。
作為這樣的大容量存儲(chǔ)裝置,可以采用硬盤(pán)驅(qū)動(dòng)器(HDD) 該大容 量存儲(chǔ)裝置并不僅限于HDD,而也可以采用其他任意的存儲(chǔ)裝置。 (4 )第二語(yǔ)法存儲(chǔ)單元103
第二語(yǔ)法存儲(chǔ)單元103存儲(chǔ)圖4中所示的語(yǔ)法片段中的一個(gè)或多個(gè)語(yǔ)
法片段。
由于下面所述的原因,第二語(yǔ)法存儲(chǔ)單元103的容量相對(duì)小于笫一語(yǔ) 法存儲(chǔ)單元102。但是,基于下述原因,第二語(yǔ)法存儲(chǔ)單元103優(yōu)選地是 可高速存取的存儲(chǔ)單元。從第二語(yǔ)法存儲(chǔ)單元103獲取數(shù)據(jù)的讀出時(shí)間需 要比從第一語(yǔ)法存儲(chǔ)單元102獲取數(shù)據(jù)的讀出時(shí)間要短。
作為可高速存取的存儲(chǔ)裝置,可以采用隨機(jī)存取存儲(chǔ)器(RAM)。該 可高速存取的存儲(chǔ)裝置不限于RAM,而可以采用任意的存儲(chǔ)裝置。 (5 )語(yǔ)法傳輸單元104
語(yǔ)法傳輸單元104將語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ)
法存儲(chǔ)單元103,其中該語(yǔ)法片段是在由后面描述的第一匹配單元107執(zhí) 行的匹配處理中需要參閱的。
在后面描述的第一匹配單元107的匹配處理開(kāi)始之前的階段,包括有 語(yǔ)法的開(kāi)始節(jié)點(diǎn)的語(yǔ)法片段被預(yù)先從第一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ) 法存儲(chǔ)單元103。
在圖4所示例子中,包括開(kāi)始節(jié)點(diǎn)ST的語(yǔ)法片段A被預(yù)先傳輸給笫 二語(yǔ)法存儲(chǔ)單元103。該第一匹配單元107在存儲(chǔ)于第二語(yǔ)法存儲(chǔ)單元103 中的語(yǔ)法片段中參閱包括有開(kāi)始節(jié)點(diǎn)的語(yǔ)法片段,并開(kāi)始匹配處理。 (6)模型存儲(chǔ)單元105
模型存儲(chǔ)單元105存儲(chǔ)狀態(tài)轉(zhuǎn)移模型,其中該狀態(tài)轉(zhuǎn)移模型表示要被 識(shí)別的語(yǔ)句或語(yǔ)句片段的語(yǔ)音特征。下文中,該狀態(tài)轉(zhuǎn)移模型被簡(jiǎn)單表示 為"聲音模型"。
作為適于語(yǔ)音識(shí)別的聲音模型,可以是隱馬爾可夫模型(Hidden MarkovModel, HMM )。該HMM被用以下內(nèi)容定義 一個(gè)或多個(gè)狀態(tài) Si、初始狀態(tài)的集合SS、最終狀態(tài)的集合SF、從某一狀態(tài)Sj到某一狀態(tài) Si的轉(zhuǎn)移概率Aji、從某一狀態(tài)Sj到某一狀態(tài)Si的轉(zhuǎn)移路徑中語(yǔ)音特征向 量x的輸出概率Bji (x)以及狀態(tài)Si的初始概率PSi。在這種情況下,設(shè) 定Xi^〈NS并且l-〈j-〈NS,其中NS是構(gòu)成HMM的狀態(tài)總數(shù)。
圖5示出了 HMM的一個(gè)例子。圖5示出的是狀態(tài)數(shù)NS-4的HMM 的例子,并且其是在語(yǔ)音識(shí)別中通常使用的、稱為左-右型的拓樸(結(jié)構(gòu)) 的應(yīng)M。
作為HMM的特點(diǎn),能夠通過(guò)將對(duì)應(yīng)于某一語(yǔ)句片段的多個(gè)HMM連 接在一起來(lái)獲得更長(zhǎng)語(yǔ)句的HMM。例如,如圖6所示,通過(guò)將對(duì)應(yīng)于語(yǔ) 句片段Wll以及語(yǔ)句片段W21的兩個(gè)HMM連接在一起來(lái)獲得語(yǔ)句 "W11-W21"的HMM。下文中,以使用圖5中所示的HMM作為聲音模 型為前提來(lái)繼續(xù)說(shuō)明。
這里,所謂"狀態(tài)轉(zhuǎn)移模型(聲音模型),,,表示語(yǔ)音特征的時(shí)間系 列變化,并且該狀態(tài)轉(zhuǎn)移模型中的"各個(gè)狀態(tài),,表示在該時(shí)間系列變化中
的某一時(shí)間點(diǎn)上的語(yǔ)音特征。如圖5所示,通過(guò)利用轉(zhuǎn)移(箭頭)連接這 些狀態(tài),能夠?qū)⒄Z(yǔ)音特征的時(shí)間系列變化表示為整個(gè)聲音模型。更具體地, "各個(gè)狀態(tài)"輸出某一時(shí)間點(diǎn)上的語(yǔ)音特征的"輸出概率",并且使用輸 出概率根據(jù)如下的表達(dá)式(1)至(3)來(lái)計(jì)算"前向概率"。
作為聲音模式,能夠使用包括圖5中的例子的任何HMM。例如,使 用如圖7的HMM那樣具有多個(gè)轉(zhuǎn)移路徑的HMM。聲音模型不限于 HMM,而也可以采用如時(shí)間系列模板模型那樣具有狀態(tài)轉(zhuǎn)移的任意模型。 (7)第一匹配單元107
第 一 匹配單元107對(duì)語(yǔ)音特征序列以及聲音模型進(jìn)行匹配。
(7-1)匹配方法 下面4笛述該匹配方法。
(7-1-1 )計(jì)算自HMM的輸出概率
對(duì)于語(yǔ)音特征序列X,計(jì)算對(duì)應(yīng)于要被識(shí)別的某一語(yǔ)句w的HMM的 輸出概率P(Xlw)。這里,設(shè)定1=<評(píng)=<\¥,并且W是要被識(shí)別的語(yǔ)句 的總數(shù)。當(dāng)表達(dá)式P(X!w)被簡(jiǎn)寫(xiě)為P(X)時(shí),用表達(dá)式(l)、表達(dá)式(2)以及 表達(dá)式(3)來(lái)計(jì)算P(X)。
P(X)-maxi(ot(i, T))(其中SicSF) ... (1) oc(i, O)-PSi (其中SicSS) ... (2) oc(i, t) = max i(Aji*Bji(x(t))*a(j, t-l))…(3) 其中,a(i, t)是從HMM的初始狀態(tài)轉(zhuǎn)移到第t幀的HMM的狀態(tài) Si的前向;f既率。
在HMM中,由于從初始狀態(tài)到笫t幀的狀態(tài)Si的轉(zhuǎn)移路徑存在多個(gè), 因此應(yīng)該將前向概率計(jì)算為多個(gè)轉(zhuǎn)移路徑的各個(gè)的前向概率的總和。但是, 在表達(dá)式(3 )中,從多個(gè)轉(zhuǎn)移路徑中選擇提供最大的前向概率的轉(zhuǎn)移路徑, 并且將其前向概率確定為第t幀的狀態(tài)Si的前向概率。該方法被稱為維特
比(Viterbi)方法。在語(yǔ)音識(shí)別領(lǐng)域內(nèi),公知的,該維特比方法是求取多 個(gè)轉(zhuǎn)移路徑的前向概率的總和的方法的優(yōu)選近似。
第一匹配單元107,如表達(dá)式(1)所示,利用第T幀的狀態(tài)Si的前
向概率來(lái)計(jì)算針對(duì)于語(yǔ)音特征序列X的要被識(shí)別的語(yǔ)句w的輸出概率 P(X|w),其中狀態(tài)Si為SicSF。
還有,對(duì)于多個(gè)要被識(shí)別的語(yǔ)句w計(jì)算輸出概率P(Xlw),并且將其中 提供最大的輸出概率的要被識(shí)別的語(yǔ)句w輸出作為匹配結(jié)果。 (7-1-2)參閱變量的方法
從對(duì)應(yīng)于要,皮識(shí)別的語(yǔ)句w的HMM提供表達(dá)式(1)、表達(dá)式(2 ) 以及表達(dá)式(3)中依賴于HMM的變量,即初始狀態(tài)的集合SS、最終狀 態(tài)的集合SF、轉(zhuǎn)移概率Aji、輸出概率Bji以及初始概率PSi。
通過(guò)參閱由第二語(yǔ)法存儲(chǔ)單元103中存儲(chǔ)的一個(gè)或多個(gè)語(yǔ)法片段描述 的要被識(shí)別的語(yǔ)句及其語(yǔ)句片段,以及參閱存儲(chǔ)在模型存儲(chǔ)單元105中的、 對(duì)應(yīng)于要被識(shí)別的語(yǔ)句及其語(yǔ)句片段的HMM來(lái)獲得這些變量。
因此,為了足夠高速地執(zhí)行第一匹配單元107中的處理,應(yīng)該高速地 進(jìn)行對(duì)要被識(shí)別的語(yǔ)句及其語(yǔ)句片段的參閱。因此,需要能夠高速地參閱 存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中的一個(gè)或多個(gè)語(yǔ)法片段。換句話說(shuō),第二 語(yǔ)法存儲(chǔ)單元103優(yōu)選地能夠高速存取。
如表達(dá)式(3)所示的,用按照第t幀的增加的遞推公式來(lái)計(jì)算針對(duì)于 語(yǔ)音特征序列X的HMM的狀態(tài)Si的前向概率cx(i, t)。
因此,即使在并不是所有的語(yǔ)法片段都存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103 中,而是只有要被識(shí)別的語(yǔ)句的語(yǔ)句片段能夠被參閱時(shí),也可以開(kāi)始基于 表達(dá)式(3)的前向概率的計(jì)算。
例如,當(dāng)使用如圖4中所例示的語(yǔ)法片段時(shí),如果圖4的語(yǔ)法片段中 包括開(kāi)始節(jié)點(diǎn)ST的語(yǔ)法片段A存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中,則通過(guò)
的HMM,能夠開(kāi)始基于表達(dá)式(3)的前向概率的計(jì)算。 (7-2 )傳輸方法
為了能夠進(jìn)4亍上述參閱處理,該語(yǔ)法傳輸單元104預(yù)先將包含開(kāi)始節(jié) 點(diǎn)的語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ)法存儲(chǔ)單元103。
接著,語(yǔ)法傳輸單元104根據(jù)第一匹配單元107的處理的進(jìn)展,將后
續(xù)語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ)法存儲(chǔ)羊元103。 下面參照?qǐng)D4來(lái)描述該傳輸方法。
首先,開(kāi)展對(duì)于HMM的表達(dá)式(3)的前向概率的計(jì)算,其中該HMM 對(duì)應(yīng)于由圖4的語(yǔ)法片段A描述的語(yǔ)句片段Wll。
接著,當(dāng)開(kāi)展時(shí),計(jì)算對(duì)應(yīng)于該語(yǔ)句片段Wll的HMM的最終狀態(tài) 的前向概率。
接著,由于第一匹配單元107需要參閱對(duì)應(yīng)于該語(yǔ)句片段Wll的后續(xù) 語(yǔ)句片段W21和W22的HMM,以便于進(jìn)一步推進(jìn)該前向概率的計(jì)算, 因此語(yǔ)法傳輸單元104將語(yǔ)法片段B傳輸給第二語(yǔ)法存儲(chǔ)單元103。
隨后,第一匹配單元107通過(guò)參閱由作為所傳輸?shù)暮罄m(xù)語(yǔ)法片段的語(yǔ) 法片段B描述的后續(xù)語(yǔ)句片段W21和W22,進(jìn)而從模型存儲(chǔ)單元105參 閱與其對(duì)應(yīng)的HMM,能夠繼續(xù)基于表達(dá)式(3)的匹配處理。
以這種方式,通過(guò)語(yǔ)法傳輸單元104根據(jù)第一匹配單元107的處理的 進(jìn)展來(lái)傳輸所需的語(yǔ)法片段,能夠有效地限制用第二語(yǔ)法存儲(chǔ)單元103存 儲(chǔ)的語(yǔ)法片段的數(shù)量。例如,為了在參閱圖4中所示的語(yǔ)法片段時(shí)計(jì)算要 4皮識(shí)別的語(yǔ)句"W11-W21-W31-W41"的輸出概率,可以是^f又四個(gè)語(yǔ)法片 段A、 B、 D和F必須被存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中。這時(shí),通過(guò)以 提供比其他語(yǔ)句片段更高的前向概率的語(yǔ)句片段為對(duì)象,優(yōu)先地傳輸包括 有這些語(yǔ)句片段的后續(xù)語(yǔ)句片段的語(yǔ)法片段,能夠?qū)崿F(xiàn)對(duì)于要傳輸?shù)恼Z(yǔ)法 片段的有效選擇。因此,與第一語(yǔ)法存儲(chǔ)單元102的容量相比,第二語(yǔ)法 存儲(chǔ)單元103的容量能夠減小。 (7-3)問(wèn)題
但是,當(dāng)與相關(guān)技術(shù)中同樣只使用第一匹配單元107時(shí),會(huì)產(chǎn)生如下 問(wèn)題處理的執(zhí)4亍將被延遲與由語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸 所需的傳輸時(shí)間對(duì)應(yīng)的時(shí)間量。下面參照?qǐng)D8-10來(lái)描述該問(wèn)題。
圖8示出了 HMM狀態(tài)序列,該HMM狀態(tài)序列是在用圖4中所示的 語(yǔ)法片段的集合表達(dá)的語(yǔ)法以及要被識(shí)別的語(yǔ)句中,在計(jì)算針對(duì)語(yǔ)句 "W11-W21"的前向概率中應(yīng)該計(jì)算前向概率的HMM狀態(tài)序列,其中語(yǔ)
句"W11-W21"是與由語(yǔ)法片段A描述的語(yǔ)法片段Wll以及由語(yǔ)法片段 B描述的語(yǔ)法片段W21接續(xù)的語(yǔ)句。圖8中的縱軸示出了對(duì)應(yīng)于語(yǔ)句片段 Wll的HMM狀態(tài)序列S1 S3以及對(duì)應(yīng)于語(yǔ)句片段W21的HMM狀態(tài)序 列S4 S6。圖8中的橫軸示出了各個(gè)幀的語(yǔ)音特征序列。圖8中的縱軸與 橫軸的交點(diǎn)表示幀t的HMM的狀態(tài)Si,并且需要對(duì)于這些交集計(jì)算前向 概率oc(i, t)。這些交點(diǎn)之間的弧線表示HMM的狀態(tài)之間的轉(zhuǎn)移路徑。
第一匹配單元107通過(guò)根據(jù)表達(dá)式(3)計(jì)算各個(gè)交點(diǎn)的前向概率,來(lái) 推進(jìn)匹配處理。在初始狀態(tài)下,只有語(yǔ)法片段A被存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單 元103中。因此,只有對(duì)應(yīng)于由語(yǔ)法片段A描述的語(yǔ)句片段Wll的HMM 狀態(tài)序列Sl-S3才能夠被參閱。該情況在圖9中示出。
在圖9中,用虛線表示對(duì)應(yīng)于由還未被傳輸至第二語(yǔ)法存儲(chǔ)單元103 中的語(yǔ)法片段B描述的語(yǔ)句片段W21的HMM狀態(tài)序列。第一匹配單元 107首先計(jì)算對(duì)應(yīng)于語(yǔ)句片段W11的HMM狀態(tài)序列的前向概率。在圖9 所示的例子中,在第3幀(t=3)的時(shí)間點(diǎn),直到語(yǔ)句片段Wll的最終狀 態(tài)S3的前向概率oc(3, 3)的計(jì)算已完成。在圖9中,前向概率的計(jì)算結(jié)果 被圖示為陰影線的點(diǎn)。為了進(jìn)一步繼續(xù)前向概率的計(jì)算,需要參閱對(duì)應(yīng)于 由語(yǔ)法片段B描述的語(yǔ)句片段W21的HMM狀態(tài)序列。因此,在該時(shí)間 點(diǎn)上,語(yǔ)法傳輸單元104將語(yǔ)法片段B從第一語(yǔ)法存儲(chǔ)單元102傳輸至第 二語(yǔ)法存儲(chǔ)單元103。
這里,當(dāng)僅僅使用了第一匹配單元107時(shí),在語(yǔ)法片段的傳輸完成了 的時(shí)間點(diǎn),重新開(kāi)始第一匹配單元107的匹配處理。換句話說(shuō),如圖10 在框線內(nèi)所示出的,對(duì)于笫4幀(t=4)之后的幀的語(yǔ)音特征序列,計(jì)算對(duì) 應(yīng)于語(yǔ)句片段Wll和語(yǔ)句片段W21的HMM狀態(tài)序列S1 S6的前向概率。 這時(shí),前向概率的計(jì)算被暫時(shí)中斷,直到語(yǔ)法傳輸單元104完成了對(duì)于語(yǔ) 法片段的傳輸為止。因此,第一匹配單元107的處理被延遲與語(yǔ)法傳輸單 元104執(zhí)行的語(yǔ)法片段的傳輸所需的傳輸時(shí)間對(duì)應(yīng)的時(shí)間量,其在整體上 成為該語(yǔ)音識(shí)別裝置的處理延遲。
當(dāng)將為了在第tl幀~第t2幀(tl < t2 )之間執(zhí)行以HMM狀態(tài)序列中
的第i狀態(tài) 第j狀態(tài)(i<j)為對(duì)象的匹配處理、即前向概率的計(jì)算所需
的時(shí)間表示為D(tl:t2, Si:Sj)時(shí),用下面的表達(dá)式(4)來(lái)給出在圖8-10 所示的匹配處理中,為了直到第6幀(t = 6 )為止計(jì)算HMM狀態(tài)序列Sl-S6 的前向概率所需的時(shí)間D(l:6, S1:S6)。
D(l:6, S1:S6)-D1(1:3, S1:S3) + Dt(B) + Dl(4:6, S1:S6) "(4) 其中Dt(B)是在語(yǔ)法傳輸單元104中為了傳輸語(yǔ)法片段B所需的傳輸 等待時(shí)間,并且Dl()為第一 匹配單元107為了計(jì)算前向概率所需的時(shí)間。 一般地,當(dāng)在不同的兩個(gè)存儲(chǔ)裝置之間傳輸數(shù)據(jù)時(shí),就會(huì)產(chǎn)生某一長(zhǎng)度的 傳輸?shù)却龝r(shí)間。
當(dāng)使用只能低速存取的大容量存儲(chǔ)裝置作為第 一語(yǔ)法存儲(chǔ)單元102 時(shí),在開(kāi)始傳輸語(yǔ)法片段時(shí),也會(huì)產(chǎn)生用于從第一語(yǔ)法存儲(chǔ)單元102讀出 語(yǔ)法片段的等待時(shí)間。
根據(jù)這些因素,用于傳輸任意的語(yǔ)法片段g的時(shí)間Dt(g)會(huì)增加。因此, 即使能夠利用可高速存取的第二語(yǔ)法存儲(chǔ)單元103使前向概率的計(jì)算所需 的處理時(shí)間高速化,傳輸語(yǔ)法片段所需的時(shí)間也會(huì)增加,結(jié)果就會(huì)產(chǎn)生如 下問(wèn)題計(jì)算前向概率所需的時(shí)間D(tl:t2, Si:Sj)增加了。 (7-4)解決該問(wèn)題的手段
鑒于上述問(wèn)題,在第一實(shí)施例中,提供了將在后面描述的第二匹配單 元108和識(shí)別控制單元106,并且與語(yǔ)法片段的傳輸并行地激活該第二匹 配單元108,以4更解決該問(wèn)題。下面描述用于解決該問(wèn)題的操作。 (8)第二匹配單元108
與第 一 匹配單元107的情況同樣,第二匹配單元108也根據(jù)表達(dá)式(1 )、 表達(dá)式(2)以及表達(dá)式(3)對(duì)語(yǔ)音特征序列和聲音模型進(jìn)行匹配。但是, 在語(yǔ)法傳輸單元104傳輸語(yǔ)法片段時(shí),第二匹配單元108與語(yǔ)法片段的傳 輸并行地執(zhí)行匹配處理。下面參照?qǐng)D11~13來(lái)描述該處理的情況。圖11~13 與圖8~10同樣,示出了由第一匹配單元107和第二匹配單元108執(zhí)行的前 向概率的計(jì)算的情況。
(8-1)傳輸語(yǔ)法片段期間的處理
圖11與圖9同樣,示出了在第3幀(t=3)的時(shí)間點(diǎn),直到語(yǔ)句片段 Wll的最終狀態(tài)S3的前向概率a(3, 3)的計(jì)算已完成的狀態(tài)。圖11中所 示的前向概率的計(jì)算由如上所述的第一匹配單元107來(lái)執(zhí)行。
從這一時(shí)間點(diǎn)開(kāi)始,語(yǔ)法傳輸單元104將語(yǔ)法片段B從第一語(yǔ)法存儲(chǔ) 單元102傳輸至第二語(yǔ)法存儲(chǔ)單元103。
與該語(yǔ)法片段的傳輸并行地,第二匹配單元108對(duì)已經(jīng)存儲(chǔ)在第二語(yǔ) 法存儲(chǔ)單元103中的語(yǔ)法片段A執(zhí)行匹配處理、即對(duì)應(yīng)于由語(yǔ)法片段A描 述的語(yǔ)句片段Wll的HMM狀態(tài)序列的前向概率的計(jì)算。該狀態(tài)在圖12 中示出。
圖12示出了在由語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸期間,由第 二匹配單元108執(zhí)行的前向概率的計(jì)算的狀態(tài)。如圖12中的框線內(nèi)的區(qū)域 所示,第二匹配單元108對(duì)從第4幀(t=4)到第6幀(t=6)的語(yǔ)音特征 序列,計(jì)算對(duì)應(yīng)于由語(yǔ)法片段A描述的語(yǔ)句片段Wll的HMM狀態(tài)序列 S1 S3的前向概率。
第二匹配單元108中的前向概率的計(jì)算持續(xù)到語(yǔ)法傳輸單元104完成 了語(yǔ)法片段的傳輸為止。這里,如圖12所示,在第二匹配單元108完成了 針對(duì)笫6幀(t=6)的語(yǔ)音特征的前向概率的計(jì)算的時(shí)間點(diǎn),認(rèn)為語(yǔ)法傳輸 單元104執(zhí)行的對(duì)于語(yǔ)法片段的傳輸已完成。 (8-2)傳輸語(yǔ)法片段之后的處理
在語(yǔ)法片段的傳輸完成了的時(shí)間點(diǎn),由第二匹配單元108執(zhí)行的處理 結(jié)束,并且由第一匹配單元107執(zhí)行的匹配處理再次開(kāi)始。
這時(shí),第一匹配單元107的計(jì)算前向概率的范圍,是在圖13的框線內(nèi) 表示的范圍。換句話說(shuō),對(duì)于從第4幀(t=4)到第6幀(t=6)的語(yǔ)音特 征序列,計(jì)算對(duì)應(yīng)于由最近傳輸?shù)恼Z(yǔ)法片段B描述的語(yǔ)句片段W21的 HMM狀態(tài)序列S4 S6的前向概率。與示出了不使用第二匹配單元而僅用 笫一匹配單元107來(lái)計(jì)算前向概率的情況的圖IO相比,在圖13的框線內(nèi) 表示的范圍在計(jì)算前向概率的范圍上得以被限制
因此,與表達(dá)式(4)的情況相比,為了直到第6幀(t-6)計(jì)算HMM
狀態(tài)序列S1 S6的前向概率所需的時(shí)間D(l:6, S1:S6)減少了。更具體地, 用下面的表達(dá)式(5 )給出使用第二匹配單元108的情況下為了計(jì)算前向概 率所需的時(shí)間D(1:6, S1:S6)。
D(l:6, S1:S6)-D1(1:3, S1:S3) + Dt(B) + Dl(4:6, S4:S6) …(5) 其中傳輸語(yǔ)法片段B所需的時(shí)間Dt(B)等于在第二匹配單元108中對(duì) 于從第4幀(t=4 )到第6幀(t=6 )的語(yǔ)音特征序列計(jì)算HMM狀態(tài)序列 S1 S3的前向概率所需的時(shí)間。即,Dt(B)-D2(4:6, S1:S3)。因此,可以 將表達(dá)式(5)變形為表達(dá)式(6)。
D(l:6, S1:S6) = D1(1:3, S1:S3) + D2(4:6, S1:S3) + Dl(4:6, S4:S6)...
(6)
第一匹配單元107和第二匹配單元108之間在計(jì)算前向概率的時(shí)間上 沒(méi)有差別。即,D2(4:6, S1:S3) = D1(4:6, S1:S3)。因此,可以進(jìn)一步將表 達(dá)式(6)變形為表達(dá)式(7)。
D(l:6, S1:S6) = D1(1:3, S1:S3) + Dl(4:6, S1:S3) + Dl(4:6, S4:S6)= Dl(l:3, S1:S3) + D1(4:6, S1:S3) …(7)。 (8-3)并行處理的效果
如果對(duì)表達(dá)式(4)和表達(dá)式(7)進(jìn)行比較,則當(dāng)傳輸語(yǔ)法片段所需 的時(shí)間變?yōu)镈t(B)-0時(shí),表達(dá)式(7)等于表達(dá)式(4),并且左側(cè)小于表 達(dá)式(4)。
換句話說(shuō),通過(guò)由第二匹配單元108與語(yǔ)法片段的傳輸并行地執(zhí)行處 理,能夠從為了計(jì)算前向概率所需的時(shí)間D中消除傳輸語(yǔ)法片段B所需的
時(shí)間的影響。
因此,能夠通過(guò)減小第二語(yǔ)法存儲(chǔ)單元103的容量來(lái)抑制成本的增加, 并且能夠執(zhí)行高速的匹配處理,而不會(huì)受到由語(yǔ)法傳輸單元104執(zhí)行的語(yǔ) 法片段從第一語(yǔ)法存儲(chǔ)單元102至第二語(yǔ)法存儲(chǔ)單元103的傳輸所需的時(shí) 間的影響。
(9)識(shí)別控制單元106
識(shí)別控制單元106監(jiān)視語(yǔ)法傳輸單元104的語(yǔ)法片段的傳輸狀態(tài),并
根據(jù)傳輸狀態(tài)在第一匹配單元107與第二匹配單元108之間切換操作。
換句話說(shuō),當(dāng)語(yǔ)法傳輸單元104根據(jù)由第一匹配單元107進(jìn)行的匹配
處理的進(jìn)展開(kāi)始傳輸語(yǔ)法片段時(shí),識(shí)別控制單元106將操作從第一匹配單
元107切換至第二匹配單元108,以由該第二匹配單元108與語(yǔ)法片段的
傳輸并行地執(zhí)行匹配操作。
一旦語(yǔ)法傳輸單元104完成了語(yǔ)法片段的傳輸,識(shí)別控制單元106就
將操作從第二匹配單元108切換至第一匹配單元107,以重新開(kāi)始由該第
一匹配單元107執(zhí)4亍的處理。 (10 )操作
現(xiàn)在參照?qǐng)D14描述第一實(shí)施例的操作。圖14是表示第一實(shí)施例的操 作的例子的流程圖。
由于特征提取單元101的操作流程對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)是明了 的,因此在該流程圖中省略了對(duì)該部分內(nèi)容的描述。下面逐個(gè)步驟地(操 作步驟S1至S7)描述基于圖14所示的流程圖的操作。
(Sl):語(yǔ)法傳輸單元104根據(jù)由第一匹配單元107執(zhí)行的匹配處理 的進(jìn)展,判斷是否需要傳輸語(yǔ)法片段。當(dāng)需要傳輸語(yǔ)法片段時(shí),該處理前 進(jìn)至步驟S4。如果不需要,則處理前進(jìn)至步驟S2。
(S2 ):第一匹配單元107參閱存儲(chǔ)在笫二語(yǔ)法存儲(chǔ)單元103中的語(yǔ) 法片段,并進(jìn)行匹配處理。
(53) :當(dāng)由第一匹配單元107或第二匹配單元108執(zhí)行的對(duì)于與輸 入語(yǔ)音的末端對(duì)應(yīng)的語(yǔ)音特征的匹配處理完成時(shí),處理前進(jìn)至步驟S7。如 果沒(méi)有,則處理前進(jìn)至步驟S1,以繼續(xù)匹配處理。
(54) :語(yǔ)法傳輸單元104將笫一匹配單元107所需的語(yǔ)法片段從第 一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ)法存儲(chǔ)單元103。
(S5 ):第二匹配單元108參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中的語(yǔ) 法片段,并且與語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸并行地執(zhí)行匹配 處理。
(S6 ):識(shí)別控制單元106監(jiān)視語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的
傳輸?shù)臓顟B(tài)。當(dāng)語(yǔ)法片段的傳輸完成時(shí),處理前進(jìn)至步驟S3。當(dāng)語(yǔ)法片段 的傳輸未完成時(shí),處理前進(jìn)至步驟S5,在其中第二匹配單元108繼續(xù)處理。
(S7):第一匹配單元107或第二匹配單元108輸出提供最高的前向 概率的要被識(shí)別的語(yǔ)句,作為識(shí)別結(jié)果。
(11 )優(yōu)點(diǎn)
以這種方式,在第一實(shí)施例中,能夠通過(guò)減小第二語(yǔ)法存儲(chǔ)單元103 的容量來(lái)抑制語(yǔ)音識(shí)別裝置的成本的增加,并且能夠?qū)崿F(xiàn)高速的匹配處理, 而不會(huì)受到用于等待由語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段從第一語(yǔ)法存儲(chǔ) 單元102至第二語(yǔ)法存儲(chǔ)單元103的傳輸?shù)膫鬏數(shù)却龝r(shí)間的影響。 (12)變體
本發(fā)明并不限于第一實(shí)施例,在實(shí)施階段,在不脫離本發(fā)明的范圍的 情況下,可以對(duì)組成要素進(jìn)行修改??梢愿鶕?jù)需要通過(guò)對(duì)該實(shí)施例中所公 開(kāi)的多個(gè)組成要素進(jìn)行組合而按照各種方式對(duì)本發(fā)明進(jìn)行修改。例如,可 以從該實(shí)施例中公開(kāi)的所有組成要素中去掉一些組成要素。并且,可以根 據(jù)需要對(duì)不同實(shí)施例中的組成要素進(jìn)行組合。
例如,在上述實(shí)施例中,提供了兩個(gè)匹配單元,即第一匹配單元107 和笫二匹配單元108,并且利用識(shí)別控制單元106來(lái)切換這些匹配單元的 操作。
但是,也可以采用這樣一種結(jié)構(gòu)利用單個(gè)匹配單元代替第一匹配單 元107和笫二匹配單元108,并且該匹配單元根據(jù)來(lái)自識(shí)別控制單元106 的指示,對(duì)其內(nèi)部處理進(jìn)行切換,使得該匹配單元的操作等同于笫一匹配 單元107或第二匹配單元108的操作。
第二實(shí)施例
現(xiàn)在參照?qǐng)D11、圖12以及圖15-18來(lái)描述# 據(jù)第二實(shí)施例的語(yǔ)音識(shí)別裝置。
(1)第二實(shí)施例的特征 根據(jù)第一實(shí)施例中用于利用第一匹配單元107和第二匹配單元108執(zhí) 行的前向概率的計(jì)算的表達(dá)式(3),第t幀的前向概率的計(jì)算僅僅依賴于
前一幀t-l的前向^既率以及幀t的語(yǔ)音特征X(t)。因此,當(dāng)在匹配處理中計(jì)
算第t幀的前向概率oc(i, t)時(shí),可以僅存儲(chǔ)第t-l幀的前向概率oc(i, t-l) (l=<i=<NS),以對(duì)于第t幀的語(yǔ)音特征x(t)計(jì)算前向概率。
以這種方式,通過(guò)在計(jì)算第t幀的前向概率時(shí)僅存儲(chǔ)第t-l幀的前向概 率cc(i, t-l)而忽略掉其他計(jì)算完畢的前向概率,可以顯著降低為了存儲(chǔ)任 意的前向概率所需的存儲(chǔ)器量。
還有,通過(guò)僅參閱第t幀的語(yǔ)音特征x(t)而忽略掉第t幀之前的幀的語(yǔ)
音特征序列,也能夠顯著降低為了存儲(chǔ)任意的前向概率所需的存儲(chǔ)器量。 如下面所述,第二實(shí)施例的優(yōu)點(diǎn)就在于,在匹配單元執(zhí)行的前向概率 的計(jì)算的過(guò)程中,為了存儲(chǔ)前向概率以及語(yǔ)音特征序列所需的存儲(chǔ)器量被
顯著降低。
(2)語(yǔ)音識(shí)別裝置的結(jié)構(gòu)
圖15是示出了根據(jù)第二實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子的方框圖。
該語(yǔ)音識(shí)別裝置基本上具有與表示第一實(shí)施例的圖1中所示的方框圖 相同的結(jié)構(gòu),包才舌特征提取單元101、第一語(yǔ)法存儲(chǔ)單元102、第二語(yǔ)法 存儲(chǔ)單元103、語(yǔ)法傳輸單元104、模型存儲(chǔ)單元105、識(shí)別控制單元106、 第一匹配單元107以及第二匹配單元108。第二實(shí)施例還包括第三匹配單 元109、語(yǔ)音特征存儲(chǔ)單元110以及概率存儲(chǔ)單元111。
在下面的說(shuō)明中,僅對(duì)與第一實(shí)施例不同的部分進(jìn)行描述。 (3 )語(yǔ)音特征存儲(chǔ)單元110
語(yǔ)音特征存儲(chǔ)單元110與幀編號(hào)相關(guān)聯(lián)地存儲(chǔ)在語(yǔ)法傳輸單元104傳 輸語(yǔ)法片段期間、在由第二匹配單元108執(zhí)行的匹配處理中被參閱的語(yǔ)音 特征序列。下面參照?qǐng)D12和圖16來(lái)描述該操作。
圖12中框線內(nèi)的區(qū)域表示第二匹配單元108執(zhí)行的前向概率的計(jì)算的 狀態(tài)。在圖12所示的例子中,在從第4幀(t=4)至第6幀(t-6)之間, 計(jì)算與由語(yǔ)法片段A描述的語(yǔ)句片段Wll對(duì)應(yīng)的HMM狀態(tài)序列S1 S3 的前向概率。這時(shí),語(yǔ)音特征存儲(chǔ)單元IIO,如圖16中在框線內(nèi)(語(yǔ)音特 征序列)所例示的那樣,與幀編號(hào)關(guān)聯(lián)起來(lái)存儲(chǔ)在第二匹配單元108進(jìn)行
的匹配處理中被參閱的語(yǔ)音特征序列x(4)、 x(5)和x(6)。
(4) 概率存儲(chǔ)單元lll
當(dāng)?shù)谝黄ヅ鋯卧?07和第二匹配單元108,到與包括后續(xù)語(yǔ)句片段的 語(yǔ)句片段對(duì)應(yīng)的HMM狀態(tài)序列的最終狀態(tài)為止,計(jì)算出了前向概率時(shí), 概率存儲(chǔ)單元111就會(huì)與幀編號(hào)關(guān)聯(lián)起來(lái)存儲(chǔ)相應(yīng)的最終狀態(tài)的狀態(tài)編號(hào) 及其前向概率。
下面參照?qǐng)D11、 12和16描述該操作。
圖11示出了第一匹配單元107計(jì)算與由語(yǔ)法片段A描述的語(yǔ)句片段 Wll對(duì)應(yīng)的HMM狀態(tài)序列的前向概率的計(jì)算的狀態(tài)。在圖ll中,計(jì)算 笫3幀(t =3)的、與語(yǔ)句片段Wll對(duì)應(yīng)的HMM狀態(tài)序列的最終狀態(tài) S3的前向概率。
圖12的框線內(nèi)的區(qū)域示出了第二匹配單元108執(zhí)行的、與由語(yǔ)法片段 A描述的語(yǔ)句片段Wll對(duì)應(yīng)的HMM狀態(tài)序列的前向概率的計(jì)算的狀態(tài)。 該前向概率的計(jì)算與語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段B的傳輸并行地執(zhí)行。
圖16是將圖11和圖12組合在一起的圖,其匯總地示出了由此前描述 的第一匹配單元107和第二匹配單元108執(zhí)行的前向概率的計(jì)算的狀態(tài)。 圖16的框線內(nèi)的區(qū)域是由第一匹配單元107和第二匹配單元108計(jì)算的、 HMM狀態(tài)序列中的最終狀態(tài)S3的前向概率。
在圖17所示的例子中,在從第3幀(t=3 )到第6幀(t=6 )期間,計(jì) 算最終狀態(tài)S3的前向概率。這時(shí),概率存儲(chǔ)單元111與幀編號(hào)關(guān)聯(lián)起來(lái)存 儲(chǔ)圖17的框線內(nèi)所示的HMM狀態(tài)序列中的最終狀態(tài)S3的狀態(tài)編號(hào)以及 前向概率a(3, 3)、 ct(3, 4)、 oc(3, 5)和ot(3, 6)。
(5) 第三匹配單元109
從語(yǔ)法傳輸單元104完成了語(yǔ)法片段的傳輸?shù)臅r(shí)間點(diǎn)開(kāi)始,第三匹配 單元109對(duì)于存儲(chǔ)在語(yǔ)音特征存儲(chǔ)單元110中的語(yǔ)音特征序列,計(jì)算與由 語(yǔ)法傳輸單元104已傳輸了的后續(xù)語(yǔ)法片段描述的要被識(shí)別的詞匯及其語(yǔ) 句片段對(duì)應(yīng)的HMM狀態(tài)序列的前向概率。在計(jì)算該前向概率時(shí),參閱與
存儲(chǔ)在概率存儲(chǔ)單元111中的在前語(yǔ)句片段對(duì)應(yīng)的HMM狀態(tài)序列的最終 狀態(tài)的前向概率。下面利用圖17中的例子來(lái)描述該操作。
圖17的由虛線框包圍的區(qū)域示出了圖16的例子中存儲(chǔ)在語(yǔ)音特征存 儲(chǔ)單元110中的語(yǔ)音特征序列x(4)、 x(5)和x(6)以及存儲(chǔ)在概率存儲(chǔ)單元 111中的前向概率oc(3, 3)、 oc(3, 4)、 oc(3, 5)和oc(3, 6)。圖17的框線 內(nèi)示出了第三匹配單元109針對(duì)存儲(chǔ)在語(yǔ)音特征存儲(chǔ)單元110中的語(yǔ)音特 征序列的HMM狀態(tài)序列的前向概率的計(jì)算的狀態(tài)。這時(shí),為了計(jì)算圖17 的框線內(nèi)的HMM狀態(tài)序列的前向概率,就需要參閱圖17的由虛線框包 圍的語(yǔ)音特征序列x(4)、 x(5)和x(6)以及前向概率oc(3, 3)、 oc(3, 4)、 oc (3, 5)和a(3, 6)。這些值被存儲(chǔ)在如上所述的語(yǔ)音特征存儲(chǔ)單元110和概 率存儲(chǔ)單元111中。
為了利用第三匹配單元109計(jì)算第t幀的前向概率,除了存儲(chǔ)在語(yǔ)音 特征存儲(chǔ)單元110中的語(yǔ)音特征序列以及存儲(chǔ)在概率存儲(chǔ)單元111中的最 終狀態(tài)的前向概率以外,僅存儲(chǔ)第t-l幀的前向概率oc(i, t-l)即可。在圖 17所示的例子中,為了計(jì)算第5幀(t=5)的前向概率ot(i, 5)(4=<i=<5), 僅存儲(chǔ)在第4幀(t=4 )計(jì)算的前向概率oc (i, 4) (1=4)即可。并且,為了計(jì) 算第6幀(t=6)的前向概率,僅存儲(chǔ)在第5幀(t=5)計(jì)算的前向概率即 可,而無(wú)需存儲(chǔ)在第4幀(t=4)計(jì)算的前向概率。以這種方式,在第三匹 配單元109執(zhí)行的前向概率的計(jì)算中,計(jì)算過(guò)程中應(yīng)該存儲(chǔ)的前向概率oc (i, t)的數(shù)量能夠顯著減少。
在由第一匹配單元107和第二匹配單元108執(zhí)行的前向概率的計(jì)算中 也是,為了計(jì)算第t幀的前向概率,僅存儲(chǔ)第t-l幀的前向概率即可。因此, 計(jì)算過(guò)程中應(yīng)該存儲(chǔ)的前向概率的數(shù)量能夠顯著減少。
該第一 匹配單元107和第二匹配單元108僅參閱第t幀的語(yǔ)音特征x(t) 即可,而無(wú)需存儲(chǔ)其他的語(yǔ)音特征序列。 (6)識(shí)別控制單元106
該識(shí)別控制單元106監(jiān)視語(yǔ)法傳輸單元104的語(yǔ)法片段的傳輸狀態(tài), 并根據(jù)傳輸狀態(tài)在第一匹配單元107、第二匹配單元108以及第三匹配單
元109之間切換操作。
首先,當(dāng)語(yǔ)法傳輸單元104根據(jù)由第一匹配單元107進(jìn)行的匹配處理 的進(jìn)展開(kāi)始傳輸語(yǔ)法片段時(shí),識(shí)別控制單元106將操作從第一匹配單元107 切換至第二匹配單元108,以由該笫二匹配單元108與語(yǔ)法片段的傳輸并 行地執(zhí)行匹配操作。
接著, 一旦語(yǔ)法傳輸單元104完成了語(yǔ)法片段的傳輸,識(shí)別控制單元 106就將操作從第二匹配單元108切換至第三匹配單元109,以由第三匹配 單元109開(kāi)始執(zhí)4亍匹配處理。
接著,在第三匹配單元109完成了針對(duì)存儲(chǔ)在語(yǔ)音特征存儲(chǔ)單元110 中的語(yǔ)音特征序列的匹配處理的時(shí)間點(diǎn),識(shí)別控制單元106將操作從第三 匹配單元109切換至第一匹配單元107,以重新開(kāi)始由該第一匹配單元107 執(zhí)4亍的匹配處理。 (7 )操作
現(xiàn)在參照?qǐng)D18描述第二實(shí)施例的操作。圖18是表示第二實(shí)施例的操 作的例子的流程圖。
由于特征提取單元101的操作流程對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)是明了 的,因此在該流程圖中省略了對(duì)該部分內(nèi)容的描述。下面逐個(gè)步驟地(操 作步驟S1至S15)描述基于圖18所示的流程圖的操作。
(51) :語(yǔ)法傳輸單元104根據(jù)由第一匹配單元107執(zhí)行的匹配處理 的進(jìn)展,判斷是否需要傳輸語(yǔ)法片段。當(dāng)需要傳輸語(yǔ)法片段時(shí),該處理前 進(jìn)至步驟S4。如果不需要,則處理前進(jìn)至步驟S2。
(52) :第一匹配單元107參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中的語(yǔ) 法片,殳,并進(jìn)4亍匹配處理。
(53) :概率存儲(chǔ)單元111,在第一匹配單元107計(jì)算出的前向概率 中,與幀編號(hào)關(guān)聯(lián)起來(lái)存儲(chǔ)與具有后續(xù)語(yǔ)句的語(yǔ)句片段對(duì)應(yīng)的HMM狀態(tài) 序列的最終狀態(tài)的前向概率。
(54) :當(dāng)由第一匹配單元107或第二匹配單元108執(zhí)行的對(duì)于與輸 入語(yǔ)音的末端對(duì)應(yīng)的語(yǔ)音特征的匹配處理完成時(shí),處理前進(jìn)至步驟S7。如
果沒(méi)有,則處理前進(jìn)至步驟S1,以繼續(xù)匹配處理。
(S5):語(yǔ)法傳輸單元104將第一匹配單元107所需的語(yǔ)法片段從第 一語(yǔ)法存儲(chǔ)單元102傳輸至第二語(yǔ)法存儲(chǔ)單元103。
(S6 ):第二匹配單元108參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元103中的語(yǔ) 法片段,并且與語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸并行地執(zhí)行匹配 處理。
(57) :語(yǔ)音特征存儲(chǔ)單元110與幀編號(hào)關(guān)聯(lián)起來(lái)存儲(chǔ)在第二匹配單 元108執(zhí)行的前向概率的計(jì)算中參閱的語(yǔ)音特征序列。
(58) :概率存儲(chǔ)單元lll,在第二匹配單元108計(jì)算出的前向概率 中,與幀編號(hào)關(guān)聯(lián)起來(lái)存儲(chǔ)與具有后續(xù)語(yǔ)句的語(yǔ)句片段對(duì)應(yīng)的HMM狀態(tài) 序列的最終狀態(tài)的前向概率。
(S9 ):識(shí)別控制單元106監(jiān)視語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的 傳輸?shù)臓顟B(tài)。當(dāng)語(yǔ)法片段的傳輸完成時(shí),處理前進(jìn)至步驟SIO。當(dāng)語(yǔ)法片 段的傳輸未完成時(shí),處理前進(jìn)至步驟S6,在其中第二匹配單元108繼續(xù)處 理。
(510) :第三匹配單元109,對(duì)于存儲(chǔ)在語(yǔ)音特征存儲(chǔ)單元110中的 語(yǔ)音特征序列,參閱存儲(chǔ)在概率存儲(chǔ)單元111中的HMM狀態(tài)序列的最終 狀態(tài)的前向概率,并執(zhí)行匹配處理。
(511) :識(shí)別控制單元106監(jiān)視第三匹配單元109,并且當(dāng)?shù)谌ヅ?單元109的處理完成時(shí),處理前進(jìn)至步驟Sll。如果未完成,則處理前進(jìn) 至步驟SIO,其中第三匹配單元109繼續(xù)處理。
(512) :笫一匹配單元107、第二匹配單元108、第一匹配單元109 輸出提供最高的前向概率的要被識(shí)別的語(yǔ)句,作為識(shí)別結(jié)果。
(8 )優(yōu)點(diǎn)
如上所述,才艮據(jù)第二實(shí)施例,在第一匹配單元107、第二匹配單元108 以及第三匹配單元109執(zhí)行的前向概率的計(jì)算的過(guò)程中,用于存儲(chǔ)前向概 率和語(yǔ)音特征序列的存儲(chǔ)器量能夠顯著降低。 (9)變體
本發(fā)明并不限于上面描述的實(shí)施例,在實(shí)施階段,在不脫離本發(fā)明的 范圍的情況下,可以對(duì)組成要素進(jìn)行修改??梢愿鶕?jù)需要通過(guò)對(duì)該實(shí)施例 中所公開(kāi)的多個(gè)組成要素進(jìn)行組合而按照各種方式對(duì)本發(fā)明進(jìn)行修改。例 如,可以從該實(shí)施例中公開(kāi)的所有組成要素中去掉一些組成要素。并且, 可以根據(jù)需要對(duì)不同實(shí)施例中的組成要素進(jìn)行組合。
例如,在第二實(shí)施例中,提供了三個(gè)匹配單元,即第一匹配單元107、 第二匹配單元108以及第三匹配單元109,并且利用識(shí)別控制單元106來(lái) 切換這些匹配單元的操作。
但是,也可以采用這樣一種結(jié)構(gòu)利用單個(gè)匹配單元代替第一匹配單 元107、笫二匹配單元108、第三匹配單元109,并且該匹配單元根據(jù)來(lái)自 識(shí)別控制單元106的指示,對(duì)其內(nèi)部處理進(jìn)行切換,使得該匹配單元的操 作等同于第一匹配單元107、第二匹配單元108、第三匹配單元109的操作。
第三實(shí)施例
下面參照?qǐng)D1描述根據(jù)第三實(shí)施例的語(yǔ)音識(shí)別裝置。 根據(jù)第三實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子與圖1中所示的根據(jù)第一 實(shí)施例的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)例子相同。在第三實(shí)施例中,語(yǔ)法傳輸單元 104以及識(shí)別控制單元106的一部分操作與第一實(shí)施例不同。因此,僅對(duì) 笫三實(shí)施例中識(shí)別控制單元106的操作進(jìn)行說(shuō)明。
(1) 第三實(shí)施例的特征
根據(jù)第三實(shí)施例,在語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸中,當(dāng) 即使經(jīng)過(guò)了預(yù)定的時(shí)間也還未完成語(yǔ)法片段的傳輸時(shí),語(yǔ)法片段的傳輸就 會(huì)被中止。但是,可以根據(jù)在由第二匹配單元108執(zhí)行的處理中參閱的幀 的數(shù)量來(lái)確定該預(yù)定時(shí)間。
換句話說(shuō),它可以被確定為"從開(kāi)始語(yǔ)法片段的傳輸開(kāi)始的100毫秒"。 它還可以被確定為"從開(kāi)始語(yǔ)法片段的傳輸開(kāi)始、第二匹配單元108完成 了針對(duì)5幀的量的語(yǔ)音特征序列的前向概率的計(jì)算的時(shí)間點(diǎn)"。該時(shí)間的 值可以是任意的。
(2) 識(shí)別控制單元106
識(shí)別控制單元106監(jiān)視語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸?shù)臓?態(tài),并根據(jù)該傳輸?shù)臓顟B(tài)在第一匹配單元107和第二匹配單元108之間切
換操作。
這時(shí),當(dāng)語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸中止時(shí),與語(yǔ)法片 段的傳輸并行地操作的第二匹配單元108的處理也會(huì)停止,接著將操作從 第二匹配單元108切換至第一匹配單元107,并由該第一匹配單元107重 新開(kāi)始處理。作為選擇,第二匹配單元108的處理停止,并且語(yǔ)音識(shí)別裝 置的所有處理都停止,并將由語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸被 中止的情況通知給語(yǔ)音識(shí)別裝置的用戶。 (3 )優(yōu)點(diǎn)
根據(jù)第三實(shí)施例,在語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸中,當(dāng) 即使經(jīng)過(guò)了預(yù)定的時(shí)間也還未完成語(yǔ)法片段的傳輸時(shí),語(yǔ)法傳輸單元104 就會(huì)中止語(yǔ)法片段的傳輸,并且識(shí)別控制單元106將操作從第二匹配單元 108切換至第一匹配單元107,以繼續(xù)匹配處理。
一般地,在從一個(gè)存儲(chǔ)裝置到另一個(gè)存儲(chǔ)裝置的數(shù)據(jù)傳輸中,因存儲(chǔ) 裝置或數(shù)據(jù)傳輸路徑中出現(xiàn)的不能預(yù)料的問(wèn)題,數(shù)據(jù)傳輸速度有可能急劇 降低或者數(shù)據(jù)傳輸有可能失敗。當(dāng)在語(yǔ)法傳輸單元104執(zhí)行的語(yǔ)法片段的 傳輸期間出現(xiàn)這樣的語(yǔ)法片段的傳輸速度急劇降低或傳輸失敗時(shí),由該語(yǔ) 法傳輸單元104執(zhí)行的語(yǔ)法片段的傳輸就不能完成,因此該語(yǔ)音識(shí)別裝置 的操作狀態(tài)就會(huì)停滯不前。
因此,根據(jù)第三實(shí)施例,通過(guò)由語(yǔ)法傳輸單元104檢測(cè)這樣的語(yǔ)法片 段的傳輸速度的急劇降低或傳輸失敗,并使該語(yǔ)法傳輸單元104和識(shí)別控 制單元106進(jìn)行操作,來(lái)防止該語(yǔ)音識(shí)別裝置的操作狀態(tài)的停滯不前。
權(quán)利要求
1.一種語(yǔ)音識(shí)別裝置,包括生成單元,其被配置為對(duì)于具有任意的時(shí)間寬度的各幀,根據(jù)輸入語(yǔ)音的特征生成語(yǔ)音特征序列;模型存儲(chǔ)單元,其具有多個(gè)基于語(yǔ)法表達(dá)的語(yǔ)句以及通過(guò)劃分各個(gè)語(yǔ)句而得到的一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段,該模型存儲(chǔ)單元被配置為存儲(chǔ)狀態(tài)轉(zhuǎn)移模型,該狀態(tài)轉(zhuǎn)移模型用與上述語(yǔ)音特征相關(guān)的狀態(tài)-狀態(tài)轉(zhuǎn)移表示各個(gè)語(yǔ)句片段的語(yǔ)音特征的時(shí)間系列變化;第一語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)與屬于上述各語(yǔ)句的一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段相關(guān)的語(yǔ)法片段;第二語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)至少一部分從第一語(yǔ)法存儲(chǔ)單元傳輸?shù)纳鲜稣Z(yǔ)法片段,并能夠以比第一語(yǔ)法存儲(chǔ)單元所需的更短的讀取時(shí)間來(lái)讀出存儲(chǔ)在其中的信息;第一匹配單元,其被配置為通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,來(lái)獲得由生成單元針對(duì)每個(gè)幀生成的語(yǔ)音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;語(yǔ)法傳輸單元,其被配置為當(dāng)?shù)谝黄ヅ鋯卧@得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中最終狀態(tài)的前向概率時(shí),將與接續(xù)在所述連續(xù)的語(yǔ)句片段中的一個(gè)之后的后續(xù)語(yǔ)句片段相關(guān)的語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元傳輸至第二語(yǔ)法存儲(chǔ)單元;第二匹配單元,其被配置為通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于接續(xù)在上述語(yǔ)音特征序列之后、由生成單元針對(duì)每個(gè)幀生成的后續(xù)語(yǔ)音特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;第三匹配單元,其被配置為通過(guò)參閱被傳輸?shù)降诙Z(yǔ)法存儲(chǔ)單元的上述后續(xù)語(yǔ)法片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于各個(gè)幀的后續(xù)語(yǔ)音特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;識(shí)別控制單元,其被配置為(1)對(duì)各個(gè)語(yǔ)句進(jìn)行識(shí)別,(2)使第一匹配單元工作,直到開(kāi)始后續(xù)語(yǔ)法片段的傳輸,(3)從傳輸?shù)拈_(kāi)始到完成,與傳輸并行地使第二匹配單元工作,(4)一旦該傳輸完成,使第三匹配單元工作,以及(5)重復(fù)(2)至(4)的操作,直到屬于各個(gè)語(yǔ)句的語(yǔ)句片段的所有操作完成,以獲得各個(gè)語(yǔ)句的最終的前向概率;以及識(shí)別單元,其被配置為輸出一語(yǔ)句作為語(yǔ)音特征序列的識(shí)別結(jié)果,其中該語(yǔ)句在多個(gè)語(yǔ)句的各個(gè)的最終的前向概率中給出了最高的前向概率。
2. 根據(jù)權(quán)利要求l的裝置,其中上述第一匹配單元和第三匹配單元相 互集成在一起。
3. 根據(jù)權(quán)利要求l的裝置,還包括概率存儲(chǔ)單元,其被配置為與直到最終狀態(tài)的狀態(tài)編號(hào)以及直到幀中 的當(dāng)前一個(gè)幀的幀編號(hào)相關(guān)聯(lián)地,存儲(chǔ)由第一匹配單元獲得的連續(xù)的語(yǔ)句 片段中所述一個(gè)的最終狀態(tài)的前向概率以及由第二匹配單元獲得的后續(xù)語(yǔ) 句片段的最終狀態(tài)的前向概率;以及語(yǔ)音特征存儲(chǔ)單元,其被配置為與幀編號(hào)相關(guān)聯(lián)地存儲(chǔ)各個(gè)幀的后續(xù) 語(yǔ)音特征序列;其中第三匹配單元通過(guò)參閱所傳輸?shù)暮罄m(xù)語(yǔ)法片段、所存儲(chǔ)的最終狀 態(tài)的前向概率、狀態(tài)編號(hào)以及幀編號(hào),對(duì)于所存儲(chǔ)的后續(xù)語(yǔ)音特征序列, 獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率。
4. 根據(jù)權(quán)利要求l的裝置,其中當(dāng)即使經(jīng)過(guò)了預(yù)定時(shí)間后也還未完成 傳輸時(shí),語(yǔ)法傳輸單元停止后續(xù)語(yǔ)法片段的傳輸。
5. 根據(jù)權(quán)利要求4的裝置,其中當(dāng)即使經(jīng)過(guò)了預(yù)定時(shí)間后也還未完成 傳輸時(shí),識(shí)別控制單元使第一匹配單元工作。
6. —種語(yǔ)音識(shí)別方法,其由包括以下部件的語(yǔ)音識(shí)別裝置執(zhí)行 模型存儲(chǔ)單元,其具有多個(gè)基于語(yǔ)法表達(dá)的語(yǔ)句以及通過(guò)劃分各個(gè)語(yǔ)句而得到的一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段,該模型存儲(chǔ)單元被配置為存儲(chǔ)狀 態(tài)轉(zhuǎn)移模型,該狀態(tài)轉(zhuǎn)移模型用與上述語(yǔ)音特征相關(guān)的狀態(tài)-狀態(tài)轉(zhuǎn)移表示 各個(gè)語(yǔ)句片段的語(yǔ)音特征的時(shí)間系列變化; 第 一語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)與屬于上述各語(yǔ)句的 一個(gè)或多個(gè)連續(xù)的語(yǔ)句片段相關(guān)的語(yǔ)法片段;第二語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)從笫一語(yǔ)法存儲(chǔ)單元傳輸?shù)乃?步驟或一個(gè)步驟的語(yǔ)法片段,并能夠以比第一語(yǔ)法存儲(chǔ)單元所需的更短的 讀取時(shí)間來(lái)讀出存儲(chǔ)在其中的信息;該方法包括生成步驟,對(duì)于具有任意的時(shí)間寬度的各幀,根據(jù)輸入語(yǔ)音的特征生 成語(yǔ)音特征序列;第一匹配步驟,通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段以及 存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,來(lái)獲得在生成步驟中針對(duì)每個(gè)幀 生成的語(yǔ)音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;語(yǔ)法傳輸步驟,當(dāng)在第一匹配步驟中獲得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中 最終狀態(tài)的前向概率時(shí),將與接續(xù)在所述連續(xù)的語(yǔ)句片段中的一個(gè)之后的 后續(xù)語(yǔ)句片段相關(guān)的語(yǔ)法片段從第 一語(yǔ)法存儲(chǔ)單元傳輸至第二語(yǔ)法存儲(chǔ)單元;第二匹配步驟,通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段以及 存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于接續(xù)在上述語(yǔ)音特征序列之 后、在生成步驟中針對(duì)每個(gè)幀生成的后續(xù)語(yǔ)音特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;第三匹配步驟,通過(guò)參閱被傳輸?shù)降诙Z(yǔ)法存儲(chǔ)單元的上述后續(xù)語(yǔ)法 片段以及存儲(chǔ)在模型存儲(chǔ)單元中的狀態(tài)轉(zhuǎn)移模型,對(duì)于各個(gè)幀的后續(xù)語(yǔ)音 特征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率;識(shí)別控制步驟,(1)對(duì)各個(gè)語(yǔ)句進(jìn)行識(shí)別,(2)使笫一匹配步驟工 作,直到開(kāi)始后續(xù)語(yǔ)法片段的傳輸,(3)從傳輸?shù)拈_(kāi)始到完成,與傳輸并 行地使第二匹配步驟工作,(4)一旦該傳輸完成,使第三匹配步驟工作, 以及(5)重復(fù)(2)至(4)的操作,直到屬于各個(gè)語(yǔ)句的語(yǔ)句片段的所有 操作完成,以獲得各個(gè)語(yǔ)句的最終的前向概率;以及識(shí)別步驟,輸出一語(yǔ)句作為語(yǔ)音特征序列的識(shí)別結(jié)果,其中該語(yǔ)句在 多個(gè)語(yǔ)句的各個(gè)的最終的前向概率中給出了最高的前向概率。
7. 根據(jù)權(quán)利要求6的方法,其中上述第一匹配步驟和第三匹配步驟相 互結(jié)合在一起。
8. 根據(jù)權(quán)利要求6的方法,其中上述語(yǔ)音識(shí)別裝置還包括 概率存儲(chǔ)單元,其被配置為與直到最終狀態(tài)的狀態(tài)編號(hào)以及直到幀中的當(dāng)前一個(gè)幀的幀編號(hào)相關(guān)聯(lián)地,存儲(chǔ)由第一匹配步驟獲得的連續(xù)的語(yǔ)句 片段中所述一個(gè)的最終狀態(tài)的前向概率以及由第二匹配步驟獲得的后續(xù)語(yǔ) 句片段的最終狀態(tài)的前向概率;以及語(yǔ)音特征存儲(chǔ)單元,其被配置為與幀編號(hào)相關(guān)聯(lián)地存儲(chǔ)各個(gè)幀的后續(xù) 語(yǔ)音特征序列;在該方法中,第三匹配步驟通過(guò)參閱所傳輸?shù)暮罄m(xù)語(yǔ)法片段、所存儲(chǔ) 的最終狀態(tài)的前向概率、狀態(tài)編號(hào)以及幀編號(hào),對(duì)于所存儲(chǔ)的后續(xù)語(yǔ)音特 征序列,獲得狀態(tài)轉(zhuǎn)移模型的各個(gè)狀態(tài)的前向概率。
9. 根據(jù)權(quán)利要求8的方法,其中當(dāng)即使經(jīng)過(guò)了預(yù)定時(shí)間后也還未完成 傳輸時(shí),語(yǔ)法傳輸步驟停止后續(xù)語(yǔ)法片段的傳輸。
10. 根據(jù)權(quán)利要求9的方法,其中當(dāng)即使經(jīng)過(guò)了預(yù)定時(shí)間后也還未完 成傳輸時(shí),識(shí)別控制步驟使第一匹配步驟工作。
全文摘要
一種語(yǔ)音識(shí)別裝置包括第一語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)一個(gè)或多個(gè)語(yǔ)法片段;第二語(yǔ)法存儲(chǔ)單元,其被配置為存儲(chǔ)一個(gè)或多個(gè)語(yǔ)法片段;第一匹配單元,其被配置為通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段,執(zhí)行匹配處理;語(yǔ)法傳輸單元,其被配置為將后續(xù)語(yǔ)法片段從第一語(yǔ)法存儲(chǔ)單元傳輸至第二語(yǔ)法存儲(chǔ)單元;第二匹配單元,其被配置為與語(yǔ)法傳輸單元并行地進(jìn)行操作并且通過(guò)參閱存儲(chǔ)在第二語(yǔ)法存儲(chǔ)單元中的語(yǔ)法片段,執(zhí)行匹配處理;以及識(shí)別控制單元,其被配置為監(jiān)視由語(yǔ)法傳輸單元執(zhí)行的后續(xù)語(yǔ)法片段的傳輸?shù)臓顟B(tài),并通過(guò)根據(jù)語(yǔ)法片段的傳輸?shù)臓顟B(tài)切換其操作來(lái)使兩個(gè)匹配單元工作。
文檔編號(hào)G10L15/00GK101369425SQ20081016861
公開(kāi)日2009年2月18日 申請(qǐng)日期2008年8月15日 優(yōu)先權(quán)日2007年8月17日
發(fā)明者酒井優(yōu) 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1