日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備的制造方法

文檔序號(hào):9930271閱讀:853來源:國知局
連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語言信號(hào)識(shí)別技術(shù)領(lǐng)域,特別涉及一種連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備。
【背景技術(shù)】
[0002]目前的語音識(shí)別領(lǐng)域,HMM(HiddenMarkov Model,隱馬爾可夫模型)是語音識(shí)別的基礎(chǔ),語音識(shí)別中的主流RNN聲學(xué)模型框架,主要還包含兩部分:雙向LSTM RNN和CTC輸出層。雙向RNN對(duì)當(dāng)前語音幀進(jìn)行判斷時(shí),要使用歷史的語音信息和未來的語音信息,即需要語音有正確的開始幀和結(jié)束幀,才能正確識(shí)別,正確的開始幀必須是一句話的開始,它是數(shù)據(jù)的第一幀,正確的結(jié)束幀必須是一句話的結(jié)束,它是數(shù)據(jù)的最后一幀,只有滿足上述條件才能把一句話識(shí)別完整。
[0003]但是,在進(jìn)行語言識(shí)別時(shí),語音識(shí)別電腦(或云端服務(wù)器)的緩沖有限,當(dāng)語音數(shù)據(jù)到來時(shí),需要在數(shù)據(jù)緩沖區(qū)等待識(shí)別,隨著時(shí)間累計(jì),必然造成電腦(或云端服務(wù)器)緩沖溢出,使電腦卡死(或服務(wù)器阻塞),目前語音識(shí)別方法為了防止以上情況,一般通過限制語音長度和限制數(shù)據(jù)量來解決,這會(huì)導(dǎo)致當(dāng)連續(xù)語音超過限定值時(shí)被強(qiáng)行切斷,從而造成不正確結(jié)束幀,強(qiáng)行切斷幀的相關(guān)語音識(shí)別不準(zhǔn)確,其后的音頻數(shù)據(jù)則無法識(shí)別。

【發(fā)明內(nèi)容】

[0004]【要解決的技術(shù)問題】
[0005]本發(fā)明的目的是提供一種連續(xù)長語音識(shí)別方法及系統(tǒng)、硬件設(shè)備,通過將連續(xù)語音切片成短語音數(shù)據(jù)序列進(jìn)行識(shí)別,以解決在連續(xù)長語音識(shí)別過程中,大段語音造成服務(wù)器緩沖區(qū)溢出的問題。
[0006]【技術(shù)方案】
[0007]本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的。
[0008]本發(fā)明首先涉及一種連續(xù)長語音識(shí)別方法,該方法包括步驟:
[0009]A、初始化緩沖區(qū),設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值;
[0010]B、將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理;
[0011 ] C、按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀,識(shí)別各幀信號(hào)的類型,所述信號(hào)類型包括正常語音幀和靜音幀;
[0012]D、對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀,計(jì)算連續(xù)的靜音幀的總靜音時(shí)間,如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值,則將所述連續(xù)的靜音幀設(shè)置為停頓狀態(tài),分別將兩個(gè)連續(xù)停頓狀態(tài)之間的語音信號(hào)保存在各個(gè)切片中,并在各個(gè)切片中追加一段靜音幀;
[0013]E、分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0014]上述步驟中,通過步驟D,將長語音切斷成短語句切片,并在執(zhí)行過程中丟棄長段不影響語音識(shí)別準(zhǔn)確率的靜音包,有效避免了大段語音造成服務(wù)器緩沖區(qū)溢出問題。具體地,對(duì)于連續(xù)的長語音信號(hào),通過步驟C的分幀得到了信號(hào)類型為正常語音幀或靜音幀的分段信號(hào),通過對(duì)連續(xù)的靜音幀的總靜音時(shí)間進(jìn)行判斷,從而判斷該連續(xù)的靜音幀是否為靜音包(即語音信號(hào)是否為停頓狀態(tài)),對(duì)于連續(xù)的兩個(gè)靜音包之間的信號(hào),將其保存在切片中,通過步驟E進(jìn)行短語音信號(hào)識(shí)別。
[0015]作為一種優(yōu)選的實(shí)施方式,所述步驟B具體包括:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換,并將非人聲頻率部分的聲音系數(shù)設(shè)置為0,然后進(jìn)行小波變換,并根據(jù)場景調(diào)整相應(yīng)尺度小波系數(shù),然后將處理后得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0016]作為另一種優(yōu)選的實(shí)施方式,所述步驟C根據(jù)各幀信號(hào)的平均能量值、過零率對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0017]作為另一種優(yōu)選的實(shí)施方式,所述步驟A中預(yù)設(shè)的的停頓時(shí)間閾值為100?150ms。
[0018]作為另一種優(yōu)選的實(shí)施方式,所述步驟D中追加的靜音幀的長度為30?50ms。
[0019]本發(fā)明還涉及一種連續(xù)長語音識(shí)別系統(tǒng),包括初始化模塊、降噪模塊、分幀模塊、切片模塊、分片識(shí)別模塊,
[0020]所述初始化模塊被配置成:初始化緩沖區(qū),設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值;
[0021 ]所述降噪模塊被配置成:將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理;
[0022]所述分幀模塊被配置成:按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀,識(shí)別各幀信號(hào)的類型,所述信號(hào)類型包括正常語音幀和靜音幀;
[0023]所述切片模塊被配置成:對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀,計(jì)算連續(xù)的靜音幀的總靜音時(shí)間,如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值,則將所述連續(xù)的靜音幀設(shè)置為停頓狀態(tài),分別將兩個(gè)連續(xù)停頓狀態(tài)之間的語音信號(hào)保存在各個(gè)切片中,并在各個(gè)切片中追加一段靜音幀;
[0024]所述分片識(shí)別模塊被配置成:分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0025]作為一種優(yōu)選的實(shí)施方式,所述降噪模塊具體被配置成:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換,并將非人聲頻率部分的聲音系數(shù)設(shè)置為0,然后進(jìn)行小波變換,并根據(jù)場景調(diào)整相應(yīng)尺度小波系數(shù),然后將處理后得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0026]作為另一種優(yōu)選的實(shí)施方式,所述分幀模塊根據(jù)各幀信號(hào)的平均能量值、過零率對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0027]作為另一種優(yōu)選的實(shí)施方式,所述初始化模塊預(yù)設(shè)的停頓時(shí)間閾值為100?150ms ο
[0028]作為另一種優(yōu)選的實(shí)施方式,所述切片模塊中追加的靜音幀的長度為30?50ms。
[0029]本發(fā)明還涉及一種硬件設(shè)備,所述硬件設(shè)備被配置成安裝有上述的任一連續(xù)長語音識(shí)別系統(tǒng)以對(duì)連續(xù)長語音進(jìn)行識(shí)別。
[0030]【有益效果】
[0031]本發(fā)明提出的技術(shù)方案具有以下有益效果:
[0032]本發(fā)明綜合運(yùn)用快速傅立葉變換和小波變換,并結(jié)合人類語言特點(diǎn),準(zhǔn)確判斷人類語句間隙,快速準(zhǔn)確的將長語音切斷成短語句切片,并在執(zhí)行過程中丟棄長段不影響語音識(shí)別準(zhǔn)確率的靜音包,最后分段對(duì)各個(gè)切片進(jìn)行識(shí)別,有效避免了大段語音造成服務(wù)器緩沖區(qū)溢出問題。同時(shí),切片滿足語音引擎識(shí)別所要求的開始幀和結(jié)束幀的約束,識(shí)別率等同于短語音。
【附圖說明】
[0033]圖1為本發(fā)明的實(shí)施例一提供的連續(xù)長語音識(shí)別系統(tǒng)的原理框圖。
[0034]圖2為本發(fā)明的實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的切片編號(hào)流程示意圖。
[0035]圖3為本發(fā)明的實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的分組切片識(shí)別流程示意圖。
【具體實(shí)施方式】
[0036]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行清楚、完整的描述。
[0037]實(shí)施例一
[0038]圖1為本發(fā)明實(shí)施例一提供的連續(xù)長語音識(shí)別系統(tǒng)的原理框圖。如圖1所示,該連續(xù)長語音識(shí)別系統(tǒng)包括初始化模塊、降噪模塊、分幀模塊、切片模塊、分片識(shí)別模塊。
[0039]本實(shí)施例中,初始化模塊被配置成:初始化緩沖區(qū),設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值。具體地,初始化模塊預(yù)設(shè)的停頓時(shí)間閾值為120ms。
[0040]本實(shí)施例中,降噪模塊用于將待識(shí)別的連續(xù)長語音讀入緩沖區(qū)并對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行降噪處理。降噪模塊具體被配置成:首先對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行快速傅立葉變換,并將非人聲頻率部分的聲音系數(shù)設(shè)置為0(人的發(fā)聲頻率在10Hz到10000Hz范圍內(nèi)),以最大限度濾除人聲外噪聲,然后進(jìn)行小波變換,并根據(jù)場景預(yù)設(shè)閥值調(diào)整相應(yīng)尺度小波系數(shù)到預(yù)設(shè)小波系數(shù),進(jìn)一步降低噪聲,將小波變換得到的數(shù)據(jù)替換原緩沖區(qū)的數(shù)據(jù)。
[0041 ]本實(shí)施例中,分幀模塊被配置成:按照預(yù)設(shè)的分幀時(shí)間長度對(duì)緩沖區(qū)內(nèi)的數(shù)據(jù)進(jìn)行分幀,識(shí)別各幀信號(hào)的類型,其中信號(hào)類型包括正常語音幀和靜音幀。分幀模塊根據(jù)各幀信號(hào)的平均能量值、過零率、超預(yù)設(shè)閾值次數(shù)對(duì)該信號(hào)的類型進(jìn)行識(shí)別。
[0042]本實(shí)施例中,切片模塊被配置成:對(duì)于各個(gè)正常語音幀后的首個(gè)靜音幀,計(jì)算連續(xù)的靜音幀的總靜音時(shí)間,如果總靜音時(shí)間大于預(yù)設(shè)停頓時(shí)間閾值,則將該連續(xù)的靜音幀設(shè)置為停頓狀態(tài),分別將兩個(gè)連續(xù)停頓狀態(tài)之間的信號(hào)順序保存在各個(gè)切片中。具體地,切片模塊的處理流程可以參考下述具體方法實(shí)施例。
[0043]本實(shí)施例中,分片識(shí)別模塊被配置成:分別對(duì)各個(gè)切片進(jìn)行識(shí)別。
[0044]采用實(shí)施例一中的系統(tǒng)實(shí)現(xiàn)的連續(xù)長語音識(shí)別方法可以參考下述具體方法實(shí)施例。
[0045]實(shí)施例二
[0046]實(shí)施例二提供一種連續(xù)長語音識(shí)別方法,該方法包括切片編號(hào)流程和分組切片識(shí)別流程。
[0047]圖2為本發(fā)明實(shí)施例二提供的連續(xù)長語音識(shí)別方法中的切片編號(hào)流程示意圖。如圖2所示,切片編號(hào)流程包括以下步驟:
[0048]1.1:初始化緩沖區(qū),設(shè)置分幀時(shí)間長度、停頓時(shí)間閾值。具體地,預(yù)設(shè)的停頓時(shí)間閾值為120ms。具體地,在內(nèi)存中開辟一段緩沖區(qū),并分成百字節(jié)級(jí)的小段讀入待識(shí)別的音頻數(shù)據(jù),在讀入音頻數(shù)據(jù)段(實(shí)際讀入字節(jié)數(shù)會(huì)小于等于設(shè)定值)后計(jì)算緩沖區(qū)是否已滿,如果緩沖區(qū)未滿且未到音頻數(shù)據(jù)尾端則繼續(xù)讀入音頻數(shù)據(jù)
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1