一種交互系統(tǒng)的語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別技術(shù)領(lǐng)域,具體涉及一種交互式系統(tǒng)的語音識別方法和裝置。
【背景技術(shù)】
[0002]隨著多媒體技術(shù)的發(fā)展,各種交互式系統(tǒng)都采用了語音交互的方式,以提高與用戶的互動(dòng)效率和提高趣味性。例如問答系統(tǒng),先通過語音或圖像顯示的方式向用戶拋出問題,然后用戶語音回答。再例如一些展示系統(tǒng),需要用戶發(fā)出語音指令來選擇展示哪些目錄中的內(nèi)容。在這些場景下都需要對用戶的語音進(jìn)行準(zhǔn)確識別,才能在問答系統(tǒng)下判斷用戶給出的語音答案是否正確,以及在展示系統(tǒng)下判斷用戶到底選擇了哪些目錄,以便展示相應(yīng)目錄中的內(nèi)容。
[0003]因此在交互系統(tǒng)中對用戶的語音進(jìn)行準(zhǔn)確和快速的識別是亟需解決的問題。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種交互式系統(tǒng)的語音識別方法和裝置。
[0005]依據(jù)本發(fā)明的一個(gè)方面,提供了一種交互系統(tǒng)的語音識別方法,其中,該方法包括:
[0006]根據(jù)互動(dòng)狀態(tài)及所述互動(dòng)狀態(tài)下的預(yù)期答案,在語音識別樣本庫中預(yù)先確定與互動(dòng)狀態(tài)及所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本;
[0007]將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本劃分為至少兩個(gè)樣本組,每個(gè)樣本組中至少包含一個(gè)預(yù)期樣本;
[0008]采集所述互動(dòng)狀態(tài)下的用戶的語音信號;
[0009]將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配。
[0010]可選地,該方法進(jìn)一步包括:
[0011]若在所述樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本,則確定用戶給出的答案為該預(yù)期答案。
[0012]可選地,該方法進(jìn)一步包括:
[0013]若未在所述樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本,則將所述語音信號與所述至少兩個(gè)樣本組中另一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配。
[0014]可選地,該方法進(jìn)一步包括:
[0015]若在所述另一個(gè)樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本,則確定用戶給出的答案為該預(yù)期答案。
[0016]可選地,該方法進(jìn)一步包括:
[0017]若未在所述另一個(gè)樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本,則確定用戶未給出預(yù)期答案。
[0018]可選地,該方法進(jìn)一步包括:
[0019]計(jì)算所述語音信號與預(yù)期樣本的匹配度值,如果匹配度值達(dá)到預(yù)設(shè)值,則確定所述語音信號與該預(yù)期樣本匹配,反之如果匹配度值未達(dá)到預(yù)設(shè)值,則確定所述語音信號與該預(yù)期樣本不匹配。
[0020]可選地,所述將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本劃分為至少兩個(gè)樣本組包括:
[0021]將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本,按照與所述預(yù)期答案的相似程度的不同劃分為至少兩個(gè)樣本組,或者按照用戶可能答復(fù)的預(yù)期答案的概率的不同劃分為至少兩個(gè)樣本組。
[0022]可選地,將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配包括:
[0023]將所述語音信號與至少兩個(gè)樣本組中的與所述預(yù)期答案的相似程度最高的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配,或者將所述語音信號與至少兩個(gè)樣本組中的包含用戶可能答復(fù)的概率最高的預(yù)期答案的一個(gè)樣本組進(jìn)行匹配。
[0024]可選地,將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配包括:
[0025]將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中優(yōu)先級最高的預(yù)期樣本進(jìn)行匹配。
[0026]可選地,該方法進(jìn)一步包括:
[0027]根據(jù)所采集的該互動(dòng)狀態(tài)下的歷史語音信號,相應(yīng)擴(kuò)充所述預(yù)期答案對應(yīng)的樣本組數(shù)量,或者,相應(yīng)擴(kuò)充所述預(yù)期答案對應(yīng)的一個(gè)樣本組包含的預(yù)期樣本數(shù)量,或者相應(yīng)擴(kuò)充所述語音識別樣本庫中的樣本數(shù)量;
[0028]可選地,在采集所述互動(dòng)狀態(tài)下的用戶的語音信號之前,該方法進(jìn)一步包括:
[0029]通過結(jié)合語音、圖像和視頻中任一種或多種的形式,展現(xiàn)互動(dòng)狀態(tài)。
[0030]依據(jù)本發(fā)明的另一個(gè)實(shí)施例,公開了一種交互系統(tǒng)的語音識別裝置,其中,該裝置包括:
[0031]預(yù)期樣本確定單元,適于根據(jù)互動(dòng)狀態(tài)及所述互動(dòng)狀態(tài)下的預(yù)期答案,在語音識別樣本庫中預(yù)先確定與互動(dòng)狀態(tài)及所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本;
[0032]分組單元,適于將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本劃分為至少兩個(gè)樣本組,每個(gè)樣本組中至少包含一個(gè)預(yù)期樣本;
[0033]采集單元,適于采集所述互動(dòng)狀態(tài)下的用戶的語音信號;
[0034]匹配處理單元,適于將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配。
[0035]可選地,所述匹配處理單元,適于當(dāng)在所述樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本時(shí),確定用戶給出的答案為該預(yù)期答案。
[0036]可選地,所述匹配處理單元,適于當(dāng)未在所述樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本時(shí),將所述語音信號與所述至少兩個(gè)樣本組中另一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配。
[0037]可選地,所述匹配處理單元,適于當(dāng)在所述另一個(gè)樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本時(shí),確定用戶給出的答案為該預(yù)期答案。
[0038]可選地,該裝置進(jìn)一步包括:
[0039]所述匹配處理單元,適于當(dāng)未在所述另一個(gè)樣本組中發(fā)現(xiàn)匹配的預(yù)期樣本,則確定用戶未給出預(yù)期答案。
[0040]可選地,所述匹配處理單元,適于計(jì)算所述語音信號與預(yù)期樣本的匹配度值,如果匹配度值達(dá)到預(yù)設(shè)值,則確定所述語音信號與該預(yù)期樣本匹配,反之如果匹配度值未達(dá)到預(yù)設(shè)值,則確定所述語音信號與該預(yù)期樣本不匹配。
[0041]可選地,所述分組單元,適于將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本,按照與所述預(yù)期答案的相似程度的不同劃分為至少兩個(gè)樣本組,或者按照用戶可能答復(fù)的預(yù)期答案的概率的不同劃分為至少兩個(gè)樣本組。
[0042]可選地,所述匹配處理單元,適于將所述語音信號先與至少兩個(gè)樣本組中的與所述預(yù)期答案的相似程度最高的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配,或者將所述語音信號與至少兩個(gè)樣本組中的包含用戶可能答復(fù)的概率最高的預(yù)期答案的一個(gè)樣本組進(jìn)行匹配。
[0043]可選地,所述匹配處理單元,適于先將所述語音信號先與至少兩個(gè)樣本組中的一個(gè)樣本組中優(yōu)先級最高的預(yù)期樣本進(jìn)行匹配。
[0044]可選地,該裝置進(jìn)一步包括:
[0045]擴(kuò)充單元,適于根據(jù)所采集的該互動(dòng)狀態(tài)下的歷史語音信號,相應(yīng)擴(kuò)充所述預(yù)期答案對應(yīng)的樣本組數(shù)量,或者,相應(yīng)擴(kuò)充所述預(yù)期答案對應(yīng)的一個(gè)樣本組包含的預(yù)期樣本數(shù)量,或者相應(yīng)擴(kuò)充所述語音識別樣本庫中的樣本數(shù)量;
[0046]可選地,該裝置進(jìn)一步包括:
[0047]展現(xiàn)單元,適于通過結(jié)合語音、圖像和視頻中任一種或多種的形式,展現(xiàn)互動(dòng)狀
??τ O
[0048]根據(jù)本發(fā)明的這種根據(jù)互動(dòng)狀態(tài)及所述互動(dòng)狀態(tài)下的預(yù)期答案,在語音識別樣本庫中預(yù)先確定與互動(dòng)狀態(tài)及所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本,將所述預(yù)期答案對應(yīng)的多個(gè)預(yù)期樣本劃分為至少兩個(gè)樣本組,每個(gè)樣本組中至少包含一個(gè)預(yù)期樣本,采集所述互動(dòng)狀態(tài)下的用戶的語音信號,將所述語音信號與至少兩個(gè)樣本組中的一個(gè)樣本組中的預(yù)期樣本進(jìn)行匹配的技術(shù)方案,由于將預(yù)期答案對應(yīng)的預(yù)期樣本預(yù)先找出來并分組,將用戶的語音信號直接與其中一組預(yù)期樣本進(jìn)行匹配,因此使得匹配的范圍縮小到一個(gè)可預(yù)期的小范圍,不僅提高了交互系統(tǒng)的語音識別的速度,而且提高了語音識別的準(zhǔn)確性。
[0049]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0050]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0051]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種交互系統(tǒng)的語音識別方法的流程圖;
[0052]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種交互系統(tǒng)的語音識別裝置的結(jié)構(gòu)圖;以及
[0053]圖3示出了根據(jù)本發(fā)明又一個(gè)實(shí)施例的一種交互系統(tǒng)的語音識別裝置的結(jié)構(gòu)圖。【具體實(shí)施方式】
[0054]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0055]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種交互系統(tǒng)的語音識別方法的流程圖。如圖1所示,該方法包括:
[0056]