用于語音識(shí)別系統(tǒng)的增益處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及語音識(shí)別處理技術(shù)領(lǐng)域,尤其涉及一種用于語音識(shí)別系統(tǒng)的增益處理 方法及裝置。
【背景技術(shù)】
[0002] 隨著語音識(shí)別技術(shù)的發(fā)展,語音識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域越來越廣?,F(xiàn)有的語音識(shí)別 系統(tǒng)通常利用海量的音頻數(shù)據(jù)來訓(xùn)練一個(gè)通用的模型用于語音識(shí)別。
[0003] 然而,在實(shí)際使用語音識(shí)別系統(tǒng)時(shí),待識(shí)別的音頻數(shù)據(jù)的統(tǒng)計(jì)特性和訓(xùn)練數(shù)據(jù)不 可避免的會(huì)出現(xiàn)不匹配,這種不匹配尤其體現(xiàn)在音頻信號(hào)的幅度上。另外,語音識(shí)別系統(tǒng)通 常要求麥克風(fēng)接收到的音頻幅值高于一定的門限,一旦音頻幅值低于該門限,則識(shí)別系統(tǒng) 的性能大大降低。
【發(fā)明內(nèi)容】
[0004] 本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此,本申請(qǐng)的第一個(gè)目的在于提出一種用于語音識(shí)別系統(tǒng)的增益處理方法,該 方法實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整,使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語 音識(shí)別系統(tǒng)的門限值,而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配,提高了語音識(shí)別系統(tǒng)的 穩(wěn)健性。
[0006] 本申請(qǐng)的第二個(gè)目的在于提出一種用于語音識(shí)別系統(tǒng)的增益處理裝置。
[0007] 為達(dá)上述目的,本申請(qǐng)第一方面實(shí)施例提出了一種用于語音識(shí)別系統(tǒng)的增益處理 方法,包括:從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的 峰值;根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分塊增益,其 中,所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配;從所有分塊增益中從小到大選 擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理,獲取所述第一音頻數(shù)據(jù)的期望增益;應(yīng)用所 述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0008] 本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法,首先從輸入的預(yù)設(shè)幀長(zhǎng)的第 一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值;然后根據(jù)每個(gè)音頻段的峰值 以及預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分塊增益,其中,所述音頻期望幅值與語音識(shí) 別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配;從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中 值濾波處理,獲取所述第一音頻數(shù)據(jù)的期望增益;最后應(yīng)用所述期望增益對(duì)所述第一音頻 數(shù)據(jù)進(jìn)行幅度調(diào)整。由此,實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整,使得麥克風(fēng)接收到的音 頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值,而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配,提 高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
[0009] 為達(dá)上述目的,本申請(qǐng)第二方面實(shí)施例提出了一種用于語音識(shí)別系統(tǒng)的增益處理 裝置,包括:第一獲取模塊,用于從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng) 度獲取每個(gè)音頻段的峰值;第二獲取模塊,用于根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期 望幅值,獲取每個(gè)音頻段的分塊增益,其中,所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù) 據(jù)匹配;第一處理模塊,用于從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行 中值濾波處理,獲取所述第一音頻數(shù)據(jù)的期望增益;調(diào)整模塊,用于應(yīng)用所述期望增益對(duì)所 述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0010] 本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置,通過第一獲取模塊從輸入的 預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值;通過第二獲取 模塊根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分塊增益,其中, 所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配;通過第一處理模塊從所有分塊增益 中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理,獲取所述第一音頻數(shù)據(jù)的期望 增益;通過調(diào)整模塊應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。由此,實(shí)現(xiàn)了對(duì) 音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整,使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的 門限值,而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配,提高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
【附圖說明】
[0011] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0012] 圖1是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖;
[0013] 圖2是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖;
[0014] 圖3是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖;
[0015] 圖4是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖;
[0016] 圖5是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖;
[0017] 圖6是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖;
[0018] 圖7是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖;
[0019] 圖8是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,旨在用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。
[0021] 下面參考附圖描述本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法及裝置。
[0022] 圖1是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖。
[0023] 如圖1所示,該用于語音識(shí)別系統(tǒng)的增益處理方法包括:
[0024] 步驟101,從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音 頻段的峰值。
[0025] 具體來說,本發(fā)明實(shí)施例提供的用于語音識(shí)別系統(tǒng)的增益處理方法應(yīng)用于語音識(shí) 別系統(tǒng)中,對(duì)輸入的音頻數(shù)據(jù)的幅度進(jìn)行增益調(diào)整。
[0026] 首先,根據(jù)預(yù)設(shè)幀長(zhǎng)從語音識(shí)別系統(tǒng)輸入的音頻數(shù)據(jù)中確定當(dāng)前待處理的音頻數(shù) 據(jù)幀,即第一音頻數(shù)據(jù),(為了避免與本實(shí)施例中其他的音頻數(shù)據(jù)混淆,預(yù)設(shè)幀長(zhǎng)的當(dāng)前待 處理的音頻數(shù)據(jù)幀為第一音頻數(shù)據(jù)),其中,預(yù)設(shè)幀長(zhǎng)可以根據(jù)應(yīng)用需要和識(shí)別性能要求進(jìn) 行靈活設(shè)置,例如從50ms到250ms的音頻范圍內(nèi)選取80ms這個(gè)值作為預(yù)設(shè)幀長(zhǎng),則從當(dāng)前 輸入的音頻數(shù)據(jù)中選取80ms的音頻數(shù)據(jù)作為第一音頻數(shù)據(jù)進(jìn)行處理。
[0027] 然后從第一音頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值。其中,預(yù)設(shè) 的分割長(zhǎng)度可以根據(jù)應(yīng)用需要和識(shí)別性能要求進(jìn)行靈活設(shè)置,例如將分割長(zhǎng)度設(shè)置為l〇ms 時(shí),對(duì)80ms的第一音頻數(shù)據(jù)進(jìn)行分割處理即獲取8個(gè)音頻段,進(jìn)而獲取與8個(gè)音頻段分別 對(duì)應(yīng)的峰值。
[0028] 步驟102,根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分 塊增益,其中,所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配。
[0029] 預(yù)先根據(jù)語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)設(shè)置音頻期望幅值,從而使進(jìn)行增益調(diào)整后 的第一音頻數(shù)據(jù)的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值,而且與語音識(shí)別系統(tǒng)中的 訓(xùn)練數(shù)據(jù)相匹配。
[0030] 根據(jù)獲取的每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分塊 增益,需要注意的是,獲取每個(gè)音頻段的分塊增益的算法很多,可以根據(jù)應(yīng)用需要進(jìn)行選 擇,例如,預(yù)設(shè)的音頻期望幅值與每個(gè)音頻段的峰值的比值作為每個(gè)音頻段的分塊增益。
[0031] 步驟103,從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波 處理,獲取所述第一音頻數(shù)據(jù)的期望增益。
[0032] 具體地,從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處 理,其中,Μ可以根據(jù)應(yīng)用需要進(jìn)行設(shè)置,比如為3,或者5,將Μ個(gè)分塊增益的中間值作為所 述第一音頻數(shù)據(jù)的期望增益。
[0033] 步驟104,應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0034] 應(yīng)用獲取的期望增益與該第一音頻數(shù)據(jù)進(jìn)行相乘,對(duì)第一音頻數(shù)據(jù)的幅度進(jìn)行調(diào) 整,并采用語音識(shí)別系統(tǒng)對(duì)調(diào)整后的第一音頻數(shù)據(jù)進(jìn)行識(shí)別處理。
[0035] 為了更加清楚的描述本實(shí)施例提供的用于語音識(shí)別系統(tǒng)的增益處理方法,以第一 音頻數(shù)據(jù)的預(yù)設(shè)幀長(zhǎng)為80ms ;預(yù)設(shè)的分割長(zhǎng)度為10ms ;預(yù)設(shè)的音頻期望幅值為25000為例 具體說明如下:
[0036] 對(duì)80ms的第一音頻數(shù)據(jù)按照每10ms分割計(jì)算其增益,
[0038] 上式中PeakLeveli表示第i個(gè)10ms數(shù)據(jù)的峰值。
[0039] 為了防止沖擊噪音對(duì)增益控制的影響,從8個(gè)增益中取出3個(gè)最小值,并對(duì)3個(gè)最 小值進(jìn)行中值濾波,得到相對(duì)于預(yù)設(shè)的音頻期望幅值,當(dāng)前80ms的期望增益g_。
[0040] 本實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法,首先從輸入的預(yù)設(shè)幀長(zhǎng)的第一音 頻數(shù)據(jù)中,根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值;然后根據(jù)每個(gè)音頻段的峰值以及 預(yù)設(shè)的音頻期望幅值,獲取每個(gè)音頻段的分塊增益,其中,所述音頻期望幅值與語音識(shí)別系 統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配;從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾 波處理,獲取所述第一音頻數(shù)據(jù)的期望增益;最后應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù) 進(jìn)行幅度調(diào)整。由此,實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整,使得麥克風(fēng)接收到的音頻信 號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值,而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配,提高了 語音識(shí)別系統(tǒng)的穩(wěn)健性。
[0041] 基于上述實(shí)施例,為了進(jìn)一步的避免不同音頻段之間增益存在跳變,保證音頻在 段與段之間的連續(xù)性,進(jìn)一步地提高識(shí)別性能,通過圖2所示實(shí)施例對(duì)第一音頻