語音識別裝置、具有語音識別裝置的車輛及其控制方法_2

文檔序號：9598804閱讀：來源：國知局

技術人員理解本發(fā)明的范圍。由權利要求的范疇限定本發(fā)明。
[0059]將簡要描述本說明書中所使用的術語，并且將詳細描述本公開。
[0060]盡管在考慮本公開的功能的同時，選擇本公開中廣泛使用的通用術語作為本公開中所使用的術語，然而，這些術語可根據本領域普通技術人員的意圖、司法先例以及新技術的引進等而變化。在特殊情況下，還可使用由本發(fā)明的申請人所任意選擇的術語。在這種情況下，需要在對本發(fā)明的詳細描述中給出其含義。因此，必須基于術語的含義以及整篇說明書的內容定義術語，而不是簡單地闡述術語本身。
[0061]應當理解，當本說明書中使用術語“包括(includes)、“包含(comprises) ”、“含有(including) ”、和/或“具有(comprising) ”時，指定了存在所述元件和/或部件，但并不排除存在或者添加一個或者多個元件和/或其組合。如此處使用的，術語“部分”、“模塊”、或者“單元”指可執(zhí)行至少一種功能或者操作，并且可被實施為軟件、或者硬件部件(諸如，場可編程門陣列(FPGA)或者專用集成電路(ASIC))或者軟件和硬件的組合的單元。然而，術語“部分”、“模塊”、或者“單元”不局限于軟件或者硬件。“部分”、“模塊”、或者“單元”可被配置在可尋址存儲介質中或者可被配置成在至少一個處理器上運行。因此，例如，“部分”、“模塊”、或者“單元”包括:諸如軟件部件、面向對象軟件部件、類部件、以及任務部件等各種部件、處理器、功能、屬性、程序、子例程、程序代碼段、驅動器、固件、微代碼、電路、數據、數據庫、數據結構、表格、陣列以及變量。
[0062]在下文中，將參考附圖詳細描述本公開的實施方式，使得本領域技術人員能夠容易實施本公開。在附圖中，為簡要描述，省去了與本說明書無關的部分。
[0063]應當理解的是，盡管本公開中使用術語“第一”、“第二”等描述各種部件，然而，這些部件不應受這些術語限制。這些術語僅用于區(qū)分一個部件與另一個。例如，在不背離本公開的范圍的前提下，第一部件可被稱為第二部件，并且類似地，第二部件可被稱為第一部件。如此處所使用的，術語“和/或”包括一個或者多個相關所列項的任一個及所有組合。
[0064]對于用于識別語音的單位，可以使用詞匯、音節(jié)、半音節(jié)、音素或者連音、雙連音等。然而，在下列描述中，為便于描述，假定了以音素單位識別語音。
[0065]圖1是根據本公開的實施方式的語音識別裝置的控制框圖。
[0066]參考圖1，根據本公開的實施方式的語音識別裝置100可包括語音接收器110、預處理器120、語音識別器130、聲學模型140以及上下文(context)模型150。
[0067]語音接收器110可接收用戶的語音并且輸出對應于接收語音的語音信號。語音接收器110可包括諸如擴音器等語音輸入裝置和放大通過語音輸入裝置所接收的聲音的放大器。
[0068]預處理器120可對用于語音識別的語音信號進行預處理。更具體地，預處理器120可從用戶的語音中檢測識別目標部分。例如，預處理器120可基于高斯模型(Gaussianmodeling)從接收的語音中檢測識別目標部分。
[0069]此外，預處理器120可從識別目標部分的語音信號中去除噪音成分。例如，預處理器120可使語音信號通過預定固定濾波器以去除語音信號中的噪音，或者可使語音信號通過根據外圍環(huán)境中噪音的變化的可變?yōu)V波器以去除語音信號中的噪音。
[0070]語音識別器130可基于聲學模型140和上下文模型150識別語音。
[0071]通過對各個音素的特征向量進行建?？蓜?chuàng)建聲學模型140。聲學模型140可用于確定與語音信號對應的音素。S卩，聲學模型140可對與每個音素對應的特征向量進行建模。
[0072]例如，根據隱馬爾可夫模型(HMM)，聲學模型140可被配置有多種狀態(tài)以及狀態(tài)之間的轉換概率，狀態(tài)代表各自具有聲學相似特征的語音部分。此外，聲學模型140可根據諸如動態(tài)時間規(guī)整(DTW)等時間排列而配置或者被配置有人工神經網絡。
[0073]通過對語音識別目標進行建模，更具體地，通過對作為語音識別目標的至少一個上下文信息進行建模?？蓜?chuàng)建上下文模型150。上下文模型150可限制識別空間。因此，通過限制識別空間，可以限制搜索的空間，從而使得識別時間和計算量減少并且語音識別準確度提高。
[0074]此處，上下文信息意指作為語音識別目標的至少一個字串(word string詞語符列)。例如，上下文模型150可被建模成語音網格形式，在該語音網格形式中，按順序連接作為語音識別目標的至少一個字串的音素。為了以語音網格形式建模上下文模型150，根據文本至音素(T2P)轉換或者字素至音素(G2P)轉換，上下文信息中包括的字串可以被轉換成音素。上下文信息可根據語音識別裝置100的目的而變化。例如，上下文信息可以是用于各種控制命令的字中的至少一個(一些)、搜索電話簿中的電話號碼的名稱、以及搜索多媒體的名稱。
[0075]此外，語音識別器130可測量用戶講話的長度，并且基于講話長度將權重值施加給候選組以識別用戶的語音。在下文中，將參考圖2詳細描述語音識別器130的操作。
[0076]圖2是根據本公開的實施方式的語音識別裝置100的語音識別器130的控制框圖。
[0077]參考圖2，語音識別器130可包括特征提取器131、候選組搜索單元132、講話長度測量單元133、權重施加單元134、以及輸出單元135。
[0078]特征提取器131可從語音信號中提取信號特征。盡管每個人使用相同的語言，然而因為語音根據人的性別、年齡、發(fā)音等而有所不同，并且根據語音是否是單獨發(fā)音或者是否是一個字或者一個句子而有所不同，所以必須檢測能夠充分代表語音的這些特征的特征。
[0079]因此，特征提取器131可從語音中提取特征向量，以去除不必要地重疊語音信號，并且在提高相同語音信號之間的一致性的同時，提高不同語音信號之間的區(qū)別度。
[0080]例如，特征提取器131可使用線性預測系數、倒譜(Cepstrum)、梅爾倒譜系數(MFCC)、濾波器組能等從預處理的語音信號中提取特征向量。
[0081]候選組搜索單元132可基于聲學模型140和上下文模型150創(chuàng)建對應于語音信號的候選組。
[0082]更具體地，候選組搜索單元132可根據通過特征提取器131提取的特征向量從聲學模型140中識別對應于語音信號的音素串。如上所述，因為通過對應于每個音素的特征向量(或者特征向量組)可建模聲學模型140，所以候選組搜索單元132可比較通過特征提取器131所提取的特征向量與聲學模型140，以識別對應于語音信號的音素串。
[0083]候選組搜索單元132可通過基于音素串搜索上下文模型150中的候選項，來創(chuàng)建候選組。更具體地，候選組搜索單元132可比較音素串與上下文模型150，以搜索在上下文模型150中具有高度可靠性的候選項，從而創(chuàng)建候選組。
[0084]如上所述，候選模型150可被建模成語音網格形式。因此，候選組搜索單元132可利用上下文模型150的語音網格而模式化匹配對應于輸入的語音信號的音素串，以計算每個識別目標上下文的語音網格與音素串之間的可靠性程度。
[0085]S卩，因為語音網格與音素串更為相似，所以確定為高度可靠性，并且因為語音網格與音素串較為不相似，所以確定為低度可靠性。
[0086]更詳細地，候選組搜索單元132可執(zhí)行N條最佳搜索N-best以創(chuàng)建候選組。更具體地，候選組搜索單元132可搜索在上下文模型150中具有最高可靠性程度的N個候選項以創(chuàng)建候選組。例如，候選組搜索單元132可選擇具有最高可靠性程度的5個候選項以創(chuàng)建候選組。
[0087]講話長度測量單元133可測量用戶講話的長度。更具體地，講話長度測量單元133可檢測講話開始(BoS)和講話結束(EoS)，并且計算BoS與EoS之間的差以計算用戶講話的長度。
[0088]權重施加單元134可基于通過講話長度搜索單元133測量的講話長度確定被施加給候選組的可靠性權重值。更具體地，權重施加單元134可將可靠性權重值確定為使得包括在候選組中的候選項之中具有與講話長度對應的音節(jié)長度的候選項具有高度可靠性。
[0089]用戶講話的長度通常與音節(jié)長度成比例。例如，單音節(jié)的講話長度通常短于三個音節(jié)的講話長度。因此，通過測量用戶的講話長度并且將更高可靠性權重值施加給具有更高可能性(即，對應于測量的講話長度)的音節(jié)長度的候選項，可以提高語音識別的成功率。
[0090]此外，通過根據講話長度施加可靠性權重值，可以改進對具有相對較短音節(jié)長度的單音節(jié)的識別性能。
[0091]可提前設置可靠性權重值。可以根據音節(jié)長度使用關于用戶講話長度的統計信息設置可靠性權重值。此外，可以基于來自使用語音識別裝置100的用戶的實際講話長度設置可靠性權重值。
[0092]例如，語音識別裝置100 (見圖1)可基于用戶從通過對用戶語言的識別所提供的N條最佳結果所選擇的候選項的音節(jié)長度與用戶的實際講話長度之間的關系而確定可靠性權重值。
[0093]輸出單元135可再配置施加了可靠性權重值的候選組并且輸出最終的候選組。此時，輸出單元135可輸出具有最高可靠性程度的上下文候選項或者輸出小于通過候選組搜索單元132所創(chuàng)建的N個候選項的候選項。
[0094]圖3是根據

完整全部詳細技術資料下載

當前第2頁1 2 3 4 5

相關技術