一種語(yǔ)音識(shí)別的后處理方法及裝置和語(yǔ)音識(shí)別系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音技術(shù)領(lǐng)域,特別涉及一種語(yǔ)音識(shí)別的后處理方法及裝置和語(yǔ)音識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)用戶在進(jìn)行搜索操作時(shí),常常會(huì)利用語(yǔ)音識(shí)別來(lái)進(jìn)行。例如,在視頻搜索服務(wù)中,用戶可以在搜索欄中輸入語(yǔ)音命令來(lái)搜索需要的電視劇或電影片名。其具體過(guò)程是,用戶發(fā)出語(yǔ)音命令,語(yǔ)音識(shí)別引擎接收該語(yǔ)音命令,并根據(jù)語(yǔ)音識(shí)別引擎內(nèi)部的語(yǔ)言模型來(lái)識(shí)別語(yǔ)音命令,從而給出識(shí)別結(jié)果。但是,由于所搜索的內(nèi)容不一定符合自然語(yǔ)言的語(yǔ)法,并且語(yǔ)音識(shí)別引擎中的語(yǔ)言模型不一定能及時(shí)地?cái)U(kuò)充詞匯,因此,由于發(fā)音的相似性,用戶搜索的內(nèi)容可能會(huì)被識(shí)別成另外的詞,導(dǎo)致搜索結(jié)果出現(xiàn)錯(cuò)誤,識(shí)別精度不高。例如,搜索電影名《左耳》、電視劇名《花千骨》,搜索結(jié)果可能分別出現(xiàn)“卓爾”、“花千古”的錯(cuò)誤。
[0003]現(xiàn)有技術(shù)中,為了提高語(yǔ)音識(shí)別的精度,通常是修改語(yǔ)音識(shí)別引擎內(nèi)部的語(yǔ)言模型。
[0004]但是,通過(guò)修改語(yǔ)音識(shí)別引擎內(nèi)部的語(yǔ)言模型來(lái)提高識(shí)別精度,其時(shí)效性差。對(duì)于調(diào)用第三方語(yǔ)音識(shí)別引擎的情況,由于無(wú)法修改識(shí)別引擎內(nèi)部的語(yǔ)言模型,因此很難提高識(shí)別精度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例的目的在于提供一種語(yǔ)音識(shí)別的后處理方法及裝置和語(yǔ)音識(shí)別系統(tǒng),無(wú)需修改語(yǔ)音識(shí)別引擎內(nèi)部的語(yǔ)言模型,提高語(yǔ)音識(shí)別的精度。
[0006]為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種語(yǔ)音識(shí)別的后處理方法,包括步驟:
[0007]獲得語(yǔ)音識(shí)別引擎識(shí)別出的漢字短語(yǔ);
[0008]根據(jù)預(yù)存的漢字與拼音的對(duì)應(yīng)關(guān)系,將所述識(shí)別出的漢字短語(yǔ)轉(zhuǎn)化為第一拼音序列;
[0009]計(jì)算所述第一拼音序列與預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列的各個(gè)編輯距離;所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)有漢字短語(yǔ)及與其對(duì)應(yīng)的拼音序列;
[0010]獲得關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第一拼音序列的編輯距離最近的第二拼音序列;
[0011]將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果。
[0012]較佳的,所述計(jì)算所述第一拼音序列與預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列的各個(gè)編輯距離,為:
[0013]計(jì)算將所述第一拼音序列轉(zhuǎn)化成所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列時(shí)所需的各個(gè)最少編輯操作次數(shù),得到各個(gè)編輯距離。
[0014]較佳的,所述獲得關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第一拼音序列的編輯距離最近的第二拼首序列,為:
[0015]對(duì)所述各個(gè)編輯距離進(jìn)行排序,將編輯距離最小的拼音序列確定為第二拼音序列。
[0016]較佳的,所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)的漢字短語(yǔ)包括:影視片名、音樂(lè)片名、節(jié)目片名和/或視頻類(lèi)別名;
[0017]所述獲得語(yǔ)音識(shí)別引擎識(shí)別出的漢字短語(yǔ),包括:獲得語(yǔ)音識(shí)別引擎針對(duì)視頻語(yǔ)音命令識(shí)別出的漢字短語(yǔ);
[0018]所述將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果,為:將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的影視片名或音樂(lè)片名或節(jié)目片名或視頻類(lèi)別名,確定為語(yǔ)音識(shí)別結(jié)果。
[0019]為達(dá)到上述目的,本發(fā)明實(shí)施例還公開(kāi)了一種語(yǔ)音識(shí)別的后處理裝置,包括:
[0020]漢字短語(yǔ)識(shí)別模塊,用于獲得語(yǔ)音識(shí)別引擎識(shí)別出的漢字短語(yǔ);
[0021]第一拼音序列轉(zhuǎn)化模塊,用于根據(jù)預(yù)存的漢字與拼音的對(duì)應(yīng)關(guān)系,將所述識(shí)別出的漢字短語(yǔ)轉(zhuǎn)化為第一拼音序列;
[0022]編輯距離計(jì)算模塊,用于計(jì)算所述第一拼音序列與預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列的各個(gè)編輯距離;所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)有漢字短語(yǔ)及與其對(duì)應(yīng)的拼音序列;
[0023]第二拼音序列獲得模塊,用于獲得關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第一拼音序列的編輯距離最近的第二拼音序列;
[0024]語(yǔ)音識(shí)別結(jié)果確定模塊,用于將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果。
[0025]較佳的,所述編輯距離計(jì)算模塊具體用于:
[0026]計(jì)算將所述第一拼音序列轉(zhuǎn)化成所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列時(shí)所需的各個(gè)最少編輯操作次數(shù),得到各個(gè)編輯距離。
[0027]較佳的,所述第二拼音序列獲得模塊具體用于:
[0028]對(duì)所述各個(gè)編輯距離進(jìn)行排序,將編輯距離最小的拼音序列確定為第二拼音序列。
[0029]較佳的,所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)的漢字短語(yǔ)包括:影視片名、音樂(lè)片名、節(jié)目片名和/或視頻類(lèi)別名;
[0030]所述漢字短語(yǔ)識(shí)別模塊,具體用于:獲得語(yǔ)音識(shí)別引擎針對(duì)視頻語(yǔ)音命令識(shí)別出的漢字短語(yǔ);
[0031]所述語(yǔ)音識(shí)別結(jié)果確定模塊,具體用于:將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的影視片名或音樂(lè)片名或節(jié)目片名或視頻類(lèi)別名,確定為語(yǔ)音識(shí)別結(jié)果。
[0032]為達(dá)到上述目的,本發(fā)明實(shí)施例還公開(kāi)了一種語(yǔ)音識(shí)別系統(tǒng),包括:
[0033]客戶端、語(yǔ)音識(shí)別云服務(wù)器、語(yǔ)音識(shí)別引擎和關(guān)鍵詞數(shù)據(jù)庫(kù);
[0034]所述的客戶端,用于接收語(yǔ)音;
[0035]所述的語(yǔ)音識(shí)別引擎,用于將語(yǔ)音識(shí)別為漢字短語(yǔ);
[0036]所述的關(guān)鍵詞數(shù)據(jù)庫(kù),用于存儲(chǔ)漢字短語(yǔ)及與其對(duì)應(yīng)的拼音序列;
[0037]所述的語(yǔ)音識(shí)別云服務(wù)器,用于將從客戶端接收的語(yǔ)音發(fā)送至語(yǔ)音識(shí)別引擎,獲得語(yǔ)音識(shí)別引擎識(shí)別出的漢字短語(yǔ);根據(jù)預(yù)存的漢字與拼音的對(duì)應(yīng)關(guān)系,將所述識(shí)別出的漢字短語(yǔ)轉(zhuǎn)化為第一拼音序列;計(jì)算所述第一拼音序列與存儲(chǔ)在關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列的各個(gè)編輯距離;獲得關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第一拼音序列的編輯距離最近的第二拼音序列;將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果。
[0038]較佳的,所述關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)的漢字短語(yǔ)包括:影視片名、音樂(lè)片名、節(jié)目片名和/或視頻類(lèi)別名;
[0039]所述的語(yǔ)音識(shí)別云服務(wù)器,將從客戶端接收的視頻語(yǔ)音命令發(fā)送至語(yǔ)音識(shí)別引擎,獲得語(yǔ)音識(shí)別引擎針對(duì)視頻語(yǔ)音命令識(shí)別出的漢字短語(yǔ);將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所述第二拼音序列對(duì)應(yīng)的影視片名或音樂(lè)片名或節(jié)目片名或視頻類(lèi)別名,確定為語(yǔ)音識(shí)別結(jié)果。
[0040]由上述技術(shù)方案可見(jiàn),本發(fā)明實(shí)施例是在獲得語(yǔ)音識(shí)別引擎識(shí)別出的漢字短語(yǔ)之后,根據(jù)預(yù)存的漢字與拼音的對(duì)應(yīng)關(guān)系,將所述識(shí)別出的漢字短語(yǔ)轉(zhuǎn)化為第一拼音序列,然后計(jì)算第一拼音序列與預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中所有拼音序列的各個(gè)編輯距離。所述預(yù)設(shè)的關(guān)鍵詞數(shù)據(jù)庫(kù)中存儲(chǔ)有漢字短語(yǔ)及與其對(duì)應(yīng)的拼音序列。最后,將關(guān)鍵詞數(shù)據(jù)庫(kù)中與所計(jì)算出的編輯距離中最近的第二拼音序列所對(duì)應(yīng)的漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果。
[0041]也就是說(shuō),本發(fā)明實(shí)施例能夠在語(yǔ)音識(shí)別引擎識(shí)別出漢字短語(yǔ)之后,根據(jù)拼音之間的編輯距離,將關(guān)鍵詞數(shù)據(jù)庫(kù)中的對(duì)應(yīng)漢字短語(yǔ)確定為語(yǔ)音識(shí)別結(jié)果,無(wú)需修改語(yǔ)音識(shí)別引擎內(nèi)部的語(yǔ)言模型,從而提高了語(yǔ)音識(shí)別的精度。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0042]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單的介紹。顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0043]圖1為本發(fā)明實(shí)施例提供的一種語(yǔ)音識(shí)別的后處理方法的流程圖;
[0044]圖2為本發(fā)明實(shí)施例提供的一種語(yǔ)音識(shí)別的后處理裝置的結(jié)構(gòu)示意圖;
[0045]圖3為本發(fā)明實(shí)施例提供的一種語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0046]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整的描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0047]本發(fā)明實(shí)