連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備的制造方法

文檔序號(hào)：9930271閱讀：853來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語言信號(hào)識(shí)別技術(shù)領(lǐng)域，特別涉及一種連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備。
【背景技術(shù)】
[0002]目前的語音識(shí)別領(lǐng)域，HMM(HiddenMarkov Model，隱馬爾可夫模型)是語音識(shí)別的基礎(chǔ)，語音識(shí)別中的主流RNN聲學(xué)模型框架，主要還包含兩部分:雙向LSTM RNN和CTC輸出層。雙向RNN對(duì)當(dāng)前語音幀進(jìn)行判斷時(shí)，要使用歷史的語音信息和未來的語音信息，即需要語音有正確的開始幀和結(jié)束幀，才能正確識(shí)別，正確的開始幀必須是一句話的開始，它是數(shù)據(jù)的第一幀，正確的結(jié)束幀必須是一句話的結(jié)束，它是數(shù)據(jù)的最后一幀，只有滿足上述條件才能把一句話識(shí)別完整。
[0003]但是，在進(jìn)行語言識(shí)別時(shí)，語音識(shí)別電腦(或云端服務(wù)器)的緩沖有限，當(dāng)語音數(shù)據(jù)到來時(shí)，需要在數(shù)據(jù)緩沖區(qū)等待識(shí)別，隨著時(shí)間累計(jì)，必然造成電腦(或云端服務(wù)器)緩沖溢出，使電腦卡死(或服務(wù)器阻塞)，目前語音識(shí)別方法為了防止以上情況，一般通過限制語音長度和限制數(shù)據(jù)量來解決，這會(huì)導(dǎo)致當(dāng)連續(xù)語音超過限定值時(shí)被強(qiáng)行切斷，從而造成不正確結(jié)束幀，強(qiáng)行切斷幀的相關(guān)語音識(shí)別不準(zhǔn)確，其后的音頻數(shù)據(jù)則無法識(shí)別。

【發(fā)明內(nèi)容】

[0004]【要解決的技術(shù)問題】
[0005]本發(fā)明的目的是提供一種連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備，通過將連續(xù)語音切片成短語音數(shù)據(jù)序列進(jìn)行識(shí)別，以解決在連續(xù)長語音識(shí)別過程中，大段語音造成服務(wù)器緩沖區(qū)溢出的問題。
[0006]【技術(shù)方案】
[0007]本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的。
[0008]本發(fā)明首先涉及一種連續(xù)長語音識(shí)別方法，該方法包括步驟:
[0009]A、初始化緩沖區(qū)，設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值；
[0010]B、將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理；
[0011 ] C、按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀，識(shí)別各幀信號(hào)的類型，所述信號(hào)類型包括正常語音幀和靜音幀；
[0012]D、對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀，計(jì)算連續(xù)的靜音幀的總靜音時(shí)間，如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值，則將所述連續(xù)的靜音幀設(shè)置為停頓狀態(tài)，分別將兩個(gè)連續(xù)停頓狀態(tài)之間的語音信號(hào)保存在各個(gè)切片中，并在各個(gè)切片中追加一段靜音幀；
[0013]E、分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0014]上述步驟中，通過步驟D，將長語音切斷成短語句切片，并在執(zhí)行過程中丟棄長段不影響語音識(shí)別準(zhǔn)確率的靜音包，有效避免了大段語音造成服務(wù)器緩沖區(qū)溢出問題。具體地，對(duì)于連續(xù)的長語音信號(hào)，通過步驟C的分幀得到了信號(hào)類型為正常語音幀或靜音幀的分段信號(hào)，通過對(duì)連續(xù)的靜音幀的總靜音時(shí)間進(jìn)行判斷，從而判斷該連續(xù)的靜音幀是否為靜音包(即語音信號(hào)是否為停頓狀態(tài))，對(duì)于連續(xù)的兩個(gè)靜音包之間的信號(hào)，將其保存在切片中，通過步驟E進(jìn)行短語音信號(hào)識(shí)別。
[0015]作為一種優(yōu)選的實(shí)施方式，所述步驟B具體包括:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換，并將非人聲頻率部分的聲音系數(shù)設(shè)置為0，然后進(jìn)行小波變換，并根據(jù)場景調(diào)整相應(yīng)尺度小波系數(shù)，然后將處理后得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0016]作為另一種優(yōu)選的實(shí)施方式，所述步驟C根據(jù)各幀信號(hào)的平均能量值、過零率對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0017]作為另一種優(yōu)選的實(shí)施方式，所述步驟A中預(yù)設(shè)的的停頓時(shí)間閾值為100?150ms。
[0018]作為另一種優(yōu)選的實(shí)施方式，所述步驟D中追加的靜音幀的長度為30?50ms。
[0019]本發(fā)明還涉及一種連續(xù)長語音識(shí)別系統(tǒng)，包括初始化模塊、降噪模塊、分幀模塊、切片模塊、分片識(shí)別模塊，
[0020]所述初始化模塊被配置成:初始化緩沖區(qū)，設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值；
[0021 ]所述降噪模塊被配置成:將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理；
[0022]所述分幀模塊被配置成:按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀，識(shí)別各幀信號(hào)的類型，所述信號(hào)類型包括正常語音幀和靜音幀；
[0023]所述切片模塊被配置成:對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀，計(jì)算連續(xù)的靜音幀的總靜音時(shí)間，如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值，則將所述連續(xù)的靜音幀設(shè)置為停頓狀態(tài)，分別將兩個(gè)連續(xù)停頓狀態(tài)之間的語音信號(hào)保存在各個(gè)切片中，并在各個(gè)切片中追加一段靜音幀；
[0024]所述分片識(shí)別模塊被配置成:分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0025]作為一種優(yōu)選的實(shí)施方式，所述降噪模塊具體被配置成:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換，并將非人聲頻率部分的聲音系數(shù)設(shè)置為0，然后進(jìn)行小波變換，并根據(jù)場景調(diào)整相應(yīng)尺度小波系數(shù)，然后將處理后得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0026]作為另一種優(yōu)選的實(shí)施方式，所述分幀模塊根據(jù)各幀信號(hào)的平均能量值、過零率對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0027]作為另一種優(yōu)選的實(shí)施方式，所述初始化模塊預(yù)設(shè)的停頓時(shí)間閾值為100?150ms ο
[0028]作為另一種優(yōu)選的實(shí)施方式，所述切片模塊中追加的靜音幀的長度為30?50ms。
[0029]本發(fā)明還涉及一種硬件設(shè)備，所述硬件設(shè)備被配置成安裝有上述的任一連續(xù)長語音識(shí)別系統(tǒng)以對(duì)連續(xù)長語音進(jìn)行識(shí)別。
[0030]【有益效果】
[0031]本發(fā)明提出的技術(shù)方案具有以下有益效果:
[0032]本發(fā)明綜合運(yùn)用快速傅立葉變換和小波變換，并結(jié)合人類語言特點(diǎn)，準(zhǔn)確判斷人類語句間隙，快速準(zhǔn)確的將長語音切斷成短語句切片，并在執(zhí)行過程中丟棄長段不影響語音識(shí)別準(zhǔn)確率的靜音包，最后分段對(duì)各個(gè)切片進(jìn)行識(shí)別，有效避免了大段語音造成服務(wù)器緩沖區(qū)溢出問題。同時(shí)，切片滿足語音引擎識(shí)別所要求的開始幀和結(jié)束幀的約束，識(shí)別率等同于短語音。
【附圖說明】
[0033]圖1為本發(fā)明的實(shí)施例一提供的連續(xù)長語音識(shí)別系統(tǒng)的原理框圖。
[0034]圖2為本發(fā)明的實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的切片編號(hào)流程示意圖。
[0035]圖3為本發(fā)明的實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的分組切片識(shí)別流程示意圖。
【具體實(shí)施方式】
[0036]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行清楚、完整的描述。
[0037]實(shí)施例一
[0038]圖1為本發(fā)明實(shí)施例一提供的連續(xù)長語音識(shí)別系統(tǒng)的原理框圖。如圖1所示，該連續(xù)長語音識(shí)別系統(tǒng)包括初始化模塊、降噪模塊、分幀模塊、切片模塊、分片識(shí)別模塊。
[0039]本實(shí)施例中，初始化模塊被配置成:初始化緩沖區(qū)，設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值。具體地，初始化模塊預(yù)設(shè)的停頓時(shí)間閾值為120ms。
[0040]本實(shí)施例中，降噪模塊用于將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理。降噪模塊具體被配置成:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換，并將非人聲頻率部分的聲音系數(shù)設(shè)置為0(人的發(fā)聲頻率在10Hz到10000Hz范圍內(nèi))，以最大限度濾除人聲外噪聲，然后進(jìn)行小波變換，并根據(jù)場景預(yù)設(shè)閥值調(diào)整相應(yīng)尺度小波系數(shù)到預(yù)設(shè)小波系數(shù)，進(jìn)一步降低噪聲，將小波變換得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0041 ]本實(shí)施例中，分幀模塊被配置成:按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀，識(shí)別各幀信號(hào)的類型，其中信號(hào)類型包括正常語音幀和靜音幀。分幀模塊根據(jù)各幀信號(hào)的平均能量值、過零率、超預(yù)設(shè)閾值次數(shù)對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0042]本實(shí)施例中，切片模塊被配置成:對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀，計(jì)算連續(xù)的靜音幀的總靜音時(shí)間，如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值，則將該連續(xù)的靜音幀設(shè)置為停頓狀態(tài)，分別將兩個(gè)連續(xù)停頓狀態(tài)之間的信號(hào)順序保存在各個(gè)切片中。具體地，切片模塊的處理流程可以參考下述具體方法實(shí)施例。
[0043]本實(shí)施例中，分片識(shí)別模塊被配置成:分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0044]采用實(shí)施例一中的系統(tǒng)實(shí)現(xiàn)的連續(xù)長語音識(shí)別方法可以參考下述具體方法實(shí)施例。
[0045]實(shí)施例二
[0046]實(shí)施例二提供一種連續(xù)長語音識(shí)別方法，該方法包括切片編號(hào)流程和分組切片識(shí)別流程。
[0047]圖2為本發(fā)明實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的切片編號(hào)流程示意圖。如圖2所示，切片編號(hào)流程包括以下步驟:
[0048]1.1:初始化緩沖區(qū)，設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值。具體地，預(yù)設(shè)的停頓時(shí)間閾值為120ms。具體地，在內(nèi)存中開辟一段緩沖區(qū)，并分成百字節(jié)級(jí)的小段讀入待識(shí)別的音頻數(shù)據(jù)，在讀入音頻數(shù)據(jù)段(實(shí)際讀入字節(jié)數(shù)會(huì)小于等于設(shè)定值)后計(jì)算緩沖區(qū)是否已滿，如果緩沖區(qū)未滿且未到音頻數(shù)據(jù)尾端則繼續(xù)讀入音頻數(shù)據(jù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2