語音識別后處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種語音識別后處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著人機交互的廣泛應用,人們對人機交互的準確度要求越來越高。語音識別作 為人機交互中的重要環(huán)節(jié),直接影響人機交互的體驗。然而,現(xiàn)有的語音識別系統(tǒng)經(jīng)常會由 于語音數(shù)據(jù)的不理想、聲學模型或語言模型的不完美而出現(xiàn)識別錯誤的結(jié)果,增加了語義 理解的難度,并降低了用戶體驗度。因此,需要對語音識別結(jié)果進行后處理,即對錯誤的識 別結(jié)果修正,將修正后的識別結(jié)果反饋給用戶。
[0003] 現(xiàn)有的語音識別后處理方法主要是首先通過領(lǐng)域?qū)<覙?gòu)建語義知識庫,給出具體 的詞法規(guī)則、句法規(guī)則及語義規(guī)則,構(gòu)建語義模板;然后將語音識別結(jié)果同語義知識庫中的 模板進行匹配,發(fā)現(xiàn)識別錯誤的詞;最后根據(jù)語義知識庫模板將識別錯誤的詞進行修正,得 到修正后結(jié)果。這種方法需要大量領(lǐng)域?qū)<覍χR庫中詞法規(guī)則、句法規(guī)則及語義規(guī)則進 行歸納和整理構(gòu)建語義知識庫模板,如果語義知識庫構(gòu)建的不完整或冗余較多時,后處理 效果較差。此外,這種方法需要大量的領(lǐng)域?qū)<疫M行標注,成本較高,花費時間較長。因此, 如何提高語音識別結(jié)果進行后處理的效果,準確修正語音識別結(jié)果中錯誤詞具有重大的意 義。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種語音識別后處理方法及系統(tǒng),以提高語音識別結(jié)果后處理的效 果,準確的修正語音識別結(jié)果中錯誤詞。
[0005] 為此,本發(fā)明提供如下技術(shù)方案:
[0006] 一種語音識別后處理方法,包括:
[0007] 預先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型;
[0008] 在接收到待識別語音數(shù)據(jù)后,對所述語音數(shù)據(jù)進行語音識別,得到識別結(jié)果;
[0009] 依次將所述識別結(jié)果中的各詞與通用詞典中的每個詞組成詞對,并提取詞對中所 述識別結(jié)果中各詞的語義特征及聲學特征,以及詞典詞的聲學特征;
[0010] 利用所述詞對的語義特征和聲學特征、以及所述錯詞檢測模型,依次檢測所述識 別結(jié)果中的各詞,并且如果檢測得到的對應當前詞的詞對為正確詞對的概率大于設(shè)定閾 值,則將所述詞對中的詞典詞替換所述當前詞;
[0011] 檢測完成后,輸出修正后的識別結(jié)果。
[0012] 優(yōu)選地,所述利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型包括:
[0013] 通過聚類方式確定語音識別容易出錯的詞對,得到錯詞對集合;
[0014] 利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0015] 優(yōu)選地,所述通過聚類方式確定語音識別容易出錯的詞對,得到錯詞對集合包 括:
[0016] 獲取訓練語音數(shù)據(jù);
[0017] 對所述訓練語音數(shù)據(jù)進行語音識別,得到識別文本;
[0018] 獲取包含所述識別文本中各詞的通用文本;
[0019] 利用所述識別文本訓練得到所述識別文本中各詞的詞向量,并將其作為所述詞的 識別詞向量,并利用所述通用文本訓練得到所述通用文本中各詞的詞向量,并將其作為所 述詞的通用詞向量;
[0020] 對所述識別文本中各詞的識別詞向量進行聚類,得到各詞的類別;
[0021] 根據(jù)所述通用詞向量計算每個類別中兩個詞之間的通用語義相似度;
[0022] 計算每個類別中兩個詞之間的聲學相似度;
[0023] 如果計算得到的兩個詞的通用語義相似度低于設(shè)定的第一閾值,并且聲學相似度 高于設(shè)定的第二閾值,則將所述兩個詞作為錯詞對加入到錯詞對集合中。
[0024] 優(yōu)選地,所述利用所述識別文本訓練得到所述識別文本中各詞的詞向量包括:
[0025] 對所述識別文本中的各詞進行向量初始化,得到各詞的初始詞向量;
[0026] 利用神經(jīng)網(wǎng)絡對各詞的初始詞向量進行訓練,得到所述識別文本中各詞的詞向 量。
[0027] 優(yōu)選地,所述根據(jù)所述通用詞向量計算每個類別中兩個詞之間的通用語義相似度 包括:
[0028] 計算每個類別中兩個詞的通用詞向量之間的距離;
[0029] 根據(jù)計算得到的兩個詞的通用詞向量之間的距離確定所述兩個詞之間的通用語 義相似度。
[0030] 優(yōu)選地,所述計算每個類別中兩個詞之間的聲學相似度包括:
[0031] 計算每個類別中兩個詞的聲學距離;
[0032] 根據(jù)計算得到的兩個詞的聲學距離確定所述兩個詞之間的聲學相似度。
[0033] 優(yōu)選地,所述利用所述錯詞對集合構(gòu)建錯詞檢測模型包括:
[0034] 提取所述錯詞對集合中每個錯詞對的標注信息,所述標注信息用于表示所述錯詞 對中其中一個詞是否應該識別為其中另一個詞;
[0035] 提取所述錯詞對集合中識別錯誤詞的語義特征,所述語義特征包括;錯詞的上下 文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量;
[0036] 提取所述錯詞對集合中每個詞所對應語音數(shù)據(jù)的聲學特征;
[0037] 利用提取的錯詞對的標注信息、語義特征及聲學特征,構(gòu)建錯詞檢測模型。
[0038] 一種語音識別后處理系統(tǒng),包括:
[0039] 檢測模型構(gòu)建模塊,用于預先利用語音識別容易出錯的詞對構(gòu)建錯詞檢測模型;
[0040] 接收模塊,用于接收待識別語音數(shù)據(jù);
[0041] 語音識別模塊,用于對所述接收模塊接收的語音數(shù)據(jù)進行語音識別,得到識別結(jié) 果;
[0042] 特征提取模塊,用于依次將所述識別結(jié)果中的各詞與通用詞典中的每個詞組成詞 對,并提取詞對中所述識別結(jié)果中各詞的語義特征及聲學特征,以及詞典詞的聲學特征;[0043] 修正模塊,用于利用所述詞對的語義特征和聲學特征、以及所述錯詞檢測模型,依 次檢測所述識別結(jié)果中的各詞,并且如果檢測得到的對應當前詞的詞對為正確詞對的概率 大于設(shè)定閾值,則將所述詞對中的詞典詞替換所述當前詞;
[0044] 輸出模塊,用于在所述修正模塊對所述識別結(jié)果中的各詞檢測完成后,輸出修正 后的識別結(jié)果。
[0045] 優(yōu)選地,所述檢測模型構(gòu)建模塊包括:
[0046] 錯詞對集合生成模塊,用于通過聚類方式確定語音識別容易出錯的詞對,得到錯 詞對集合;
[0047] 模型構(gòu)建模塊,用于利用所述錯詞對集合構(gòu)建錯詞檢測模型。
[0048] 優(yōu)選地,所述錯詞對集合生成模塊包括:
[0049] 訓練數(shù)據(jù)獲取單元,用于獲取訓練語音數(shù)據(jù);
[0050] 識別文本獲取單元,用于調(diào)用所述語音識別模塊對所述訓練語音數(shù)據(jù)進行語音識 另IJ,得到識別文本;
[0051] 通用文本獲取單元,用于獲取包含所述識別文本中各詞的通用文本;
[0052] 詞向量訓練單元,用于利用所述識別文本訓練得到所述識別文本中各詞的詞向 量,并將其作為所述詞的識別詞向量,并利用所述通用文本訓練得到所述通用文本中各詞 的詞向量,并將其作為所述詞的通用詞向量;
[0053] 聚類單元,用于對所述識別文本中各詞的識別詞向量進行聚類,得到各詞的類 別;
[0054] 通用語義相似度計算單元,用于根據(jù)所述通用詞向量計算每個類別中兩個詞之間 的通用語義相似度;
[0055] 聲學相似度計算單元,用于計算每個類別中兩個詞之間的聲學相似度;
[0056] 判斷單元,用于判斷每個類別中兩個詞的通用語義相似度是否低于設(shè)定的第一閾 值,并且所述兩個詞的聲學相似度是否高于設(shè)定的第二閾值,如果是,則將所述兩個詞作為 錯詞對加入到錯詞對集合中。
[0057] 優(yōu)選地,所述通用語義相似度計算單元,具體用于計算每個類別中兩個詞的通用 詞向量之間的距離,并根據(jù)計算得到兩個詞的通用詞向量之間的距離確定所述兩個詞之間 的通用語義相似度。
[0058] 優(yōu)選地,所述聲學相似度計算單元,具體用于計算每個類別中兩個詞的聲學距離, 并根據(jù)計算得到的兩個詞的聲學距離確定所述兩個詞之間的聲學相似度。
[0059] 優(yōu)選地,所述模型構(gòu)建模塊包括:
[0060] 標注信息提取單元,用于提取所述錯詞對集合中每個錯詞對的標注信息,所述標 注信息用于表示所述錯詞對中其中一個詞是否應該識別為其中另一個詞;
[0061] 語義特征提取單元,用于提取所述錯詞對集合中識別錯誤詞的語義特征,所述語 義特征包括;錯詞的上下文相關(guān)環(huán)境特征、錯詞的識別詞向量、錯詞的通用詞向量;
[0062] 聲學特征提取單元,用于提取所述錯詞對集合中每個詞所對應語音數(shù)據(jù)的聲學特 征;
[0063] 模型生成單元,用于利用提取的錯詞對的標注信息、語義特征及聲學特征,構(gòu)建錯 詞檢測模型。
[0064] 本發(fā)明實施例提供的語音識別后處理方法及系統(tǒng),預先利用語音識別容易出錯的 詞對構(gòu)建錯詞檢測模型,在對待識別語音數(shù)據(jù)進行語音識別后,將得到的識別結(jié)果利用該 錯詞檢測模型對其進行修正,從而可以提高語音識別結(jié)果后處理效果,準確修正語音識別 結(jié)果中的錯誤詞,提升用戶體驗度。
[0065] 進一步地,由于錯詞檢測模型的構(gòu)建是通過預先收集大量語音數(shù)據(jù),并進行語音 識別,根據(jù)識別文本發(fā)現(xiàn)語音識別容易出錯的詞,得到錯詞對集合,然后根據(jù)該錯詞對集合 中的各詞與語音識別相關(guān)的一些特征來構(gòu)建的,從而使后續(xù)對語音識別結(jié)果進行后處理的 過程不依賴于由專家構(gòu)建的語義知識庫,有效地避免了語音識別后處理過程受人為因素的 影響,進一步提高了處理效果。
【附圖說明】
[0066] 為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0067]圖1