用于語音識(shí)別系統(tǒng)的增益處理方法及裝置的制造方法

文檔序號(hào)：9598799閱讀：534來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于語音識(shí)別系統(tǒng)的增益處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及語音識(shí)別處理技術(shù)領(lǐng)域，尤其涉及一種用于語音識(shí)別系統(tǒng)的增益處理方法及裝置。
【背景技術(shù)】
[0002] 隨著語音識(shí)別技術(shù)的發(fā)展，語音識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域越來越廣?，F(xiàn)有的語音識(shí)別系統(tǒng)通常利用海量的音頻數(shù)據(jù)來訓(xùn)練一個(gè)通用的模型用于語音識(shí)別。
[0003] 然而，在實(shí)際使用語音識(shí)別系統(tǒng)時(shí)，待識(shí)別的音頻數(shù)據(jù)的統(tǒng)計(jì)特性和訓(xùn)練數(shù)據(jù)不可避免的會(huì)出現(xiàn)不匹配，這種不匹配尤其體現(xiàn)在音頻信號(hào)的幅度上。另外，語音識(shí)別系統(tǒng)通常要求麥克風(fēng)接收到的音頻幅值高于一定的門限，一旦音頻幅值低于該門限，則識(shí)別系統(tǒng) 的性能大大降低。

【發(fā)明內(nèi)容】

[0004] 本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此，本申請(qǐng)的第一個(gè)目的在于提出一種用于語音識(shí)別系統(tǒng)的增益處理方法，該方法實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整，使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值，而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配，提高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
[0006] 本申請(qǐng)的第二個(gè)目的在于提出一種用于語音識(shí)別系統(tǒng)的增益處理裝置。
[0007] 為達(dá)上述目的，本申請(qǐng)第一方面實(shí)施例提出了一種用于語音識(shí)別系統(tǒng)的增益處理方法，包括：從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值；根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配；從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益；應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0008] 本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法，首先從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值；然后根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí) 別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配；從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益；最后應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。由此，實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整，使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值，而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配，提高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
[0009] 為達(dá)上述目的，本申請(qǐng)第二方面實(shí)施例提出了一種用于語音識(shí)別系統(tǒng)的增益處理裝置，包括：第一獲取模塊，用于從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng) 度獲取每個(gè)音頻段的峰值；第二獲取模塊，用于根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù) 據(jù)匹配；第一處理模塊，用于從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益；調(diào)整模塊，用于應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0010] 本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置，通過第一獲取模塊從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值；通過第二獲取模塊根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配；通過第一處理模塊從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益；通過調(diào)整模塊應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。由此，實(shí)現(xiàn)了對(duì) 音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整，使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值，而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配，提高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
【附圖說明】
[0011] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：
[0012] 圖1是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖；
[0013] 圖2是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖；
[0014] 圖3是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖；
[0015] 圖4是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖；
[0016] 圖5是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖；
[0017] 圖6是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖；
[0018] 圖7是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖；
[0019] 圖8是本申請(qǐng)另一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本申請(qǐng)，而不能理解為對(duì)本申請(qǐng)的限制。
[0021] 下面參考附圖描述本申請(qǐng)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法及裝置。
[0022] 圖1是本申請(qǐng)一個(gè)實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法的流程圖。
[0023] 如圖1所示，該用于語音識(shí)別系統(tǒng)的增益處理方法包括：
[0024] 步驟101，從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值。
[0025] 具體來說，本發(fā)明實(shí)施例提供的用于語音識(shí)別系統(tǒng)的增益處理方法應(yīng)用于語音識(shí) 別系統(tǒng)中，對(duì)輸入的音頻數(shù)據(jù)的幅度進(jìn)行增益調(diào)整。
[0026] 首先，根據(jù)預(yù)設(shè)幀長(zhǎng)從語音識(shí)別系統(tǒng)輸入的音頻數(shù)據(jù)中確定當(dāng)前待處理的音頻數(shù) 據(jù)幀，即第一音頻數(shù)據(jù)，（為了避免與本實(shí)施例中其他的音頻數(shù)據(jù)混淆，預(yù)設(shè)幀長(zhǎng)的當(dāng)前待處理的音頻數(shù)據(jù)幀為第一音頻數(shù)據(jù)），其中，預(yù)設(shè)幀長(zhǎng)可以根據(jù)應(yīng)用需要和識(shí)別性能要求進(jìn) 行靈活設(shè)置，例如從50ms到250ms的音頻范圍內(nèi)選取80ms這個(gè)值作為預(yù)設(shè)幀長(zhǎng)，則從當(dāng)前輸入的音頻數(shù)據(jù)中選取80ms的音頻數(shù)據(jù)作為第一音頻數(shù)據(jù)進(jìn)行處理。
[0027] 然后從第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值。其中，預(yù)設(shè) 的分割長(zhǎng)度可以根據(jù)應(yīng)用需要和識(shí)別性能要求進(jìn)行靈活設(shè)置，例如將分割長(zhǎng)度設(shè)置為l〇ms 時(shí)，對(duì)80ms的第一音頻數(shù)據(jù)進(jìn)行分割處理即獲取8個(gè)音頻段，進(jìn)而獲取與8個(gè)音頻段分別對(duì)應(yīng)的峰值。
[0028] 步驟102,根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配。
[0029] 預(yù)先根據(jù)語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)設(shè)置音頻期望幅值，從而使進(jìn)行增益調(diào)整后的第一音頻數(shù)據(jù)的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值，而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配。
[0030] 根據(jù)獲取的每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，需要注意的是，獲取每個(gè)音頻段的分塊增益的算法很多，可以根據(jù)應(yīng)用需要進(jìn)行選擇，例如，預(yù)設(shè)的音頻期望幅值與每個(gè)音頻段的峰值的比值作為每個(gè)音頻段的分塊增益。
[0031] 步驟103,從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益。
[0032] 具體地，從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，其中，Μ可以根據(jù)應(yīng)用需要進(jìn)行設(shè)置，比如為3,或者5,將Μ個(gè)分塊增益的中間值作為所述第一音頻數(shù)據(jù)的期望增益。
[0033] 步驟104,應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù)進(jìn)行幅度調(diào)整。
[0034] 應(yīng)用獲取的期望增益與該第一音頻數(shù)據(jù)進(jìn)行相乘，對(duì)第一音頻數(shù)據(jù)的幅度進(jìn)行調(diào) 整，并采用語音識(shí)別系統(tǒng)對(duì)調(diào)整后的第一音頻數(shù)據(jù)進(jìn)行識(shí)別處理。
[0035] 為了更加清楚的描述本實(shí)施例提供的用于語音識(shí)別系統(tǒng)的增益處理方法，以第一音頻數(shù)據(jù)的預(yù)設(shè)幀長(zhǎng)為80ms ;預(yù)設(shè)的分割長(zhǎng)度為10ms ;預(yù)設(shè)的音頻期望幅值為25000為例具體說明如下：
[0036] 對(duì)80ms的第一音頻數(shù)據(jù)按照每10ms分割計(jì)算其增益，
[0038] 上式中PeakLeveli表示第i個(gè)10ms數(shù)據(jù)的峰值。
[0039] 為了防止沖擊噪音對(duì)增益控制的影響，從8個(gè)增益中取出3個(gè)最小值，并對(duì)3個(gè)最小值進(jìn)行中值濾波，得到相對(duì)于預(yù)設(shè)的音頻期望幅值，當(dāng)前80ms的期望增益g_。
[0040] 本實(shí)施例的用于語音識(shí)別系統(tǒng)的增益處理方法，首先從輸入的預(yù)設(shè)幀長(zhǎng)的第一音頻數(shù)據(jù)中，根據(jù)預(yù)設(shè)的分割長(zhǎng)度獲取每個(gè)音頻段的峰值；然后根據(jù)每個(gè)音頻段的峰值以及預(yù)設(shè)的音頻期望幅值，獲取每個(gè)音頻段的分塊增益，其中，所述音頻期望幅值與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)匹配；從所有分塊增益中從小到大選擇預(yù)設(shè)的Μ個(gè)分塊增益值進(jìn)行中值濾波處理，獲取所述第一音頻數(shù)據(jù)的期望增益；最后應(yīng)用所述期望增益對(duì)所述第一音頻數(shù)據(jù) 進(jìn)行幅度調(diào)整。由此，實(shí)現(xiàn)了對(duì)音頻數(shù)據(jù)進(jìn)行自動(dòng)的增益調(diào)整，使得麥克風(fēng)接收到的音頻信號(hào)的幅值大于語音識(shí)別系統(tǒng)的門限值，而且與語音識(shí)別系統(tǒng)中的訓(xùn)練數(shù)據(jù)相匹配，提高了語音識(shí)別系統(tǒng)的穩(wěn)健性。
[0041] 基于上述實(shí)施例，為了進(jìn)一步的避免不同音頻段之間增益存在跳變，保證音頻在段與段之間的連續(xù)性，進(jìn)一步地提高識(shí)別性能，通過圖2所示實(shí)施例對(duì)第一音頻

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4