日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于語音識別系統(tǒng)的增益處理方法及裝置的制造方法_2

文檔序號:9598799閱讀:來源:國知局
數(shù)據的期 望增益進行修正,具體說明如下:
[0042] 圖2是本申請另一個實施例的用于語音識別系統(tǒng)的增益處理方法的流程圖。如圖 2所示,針對圖1中的步驟103之后,還可以包括以下步驟:
[0043] 步驟201,確定所述第一音頻數(shù)據的類型。
[0044] 具體地,音頻數(shù)據的類型包括噪音類型和語音類型,針對不同的音頻數(shù)據類型,對 相應的期望增益的修正過程也不同。因此,首先確定預設幀長的第一音頻數(shù)據的類型,需要 說明的是,具體的確定方式有很多,可以根據實際應用需要進行選擇,例如;通過高斯參數(shù) 分布模型確定第一音頻數(shù)據的類型,或者,通過音頻數(shù)據的語音活動檢測信息確定第一音 頻數(shù)據的類型,以語音活動檢測信息為例通過后續(xù)實施例具體介紹確定過程。
[0045] 步驟202,根據所述第一音頻數(shù)據的前一幀音頻數(shù)據的歷史期望增益,獲取與所述 第一音頻數(shù)據的類型對應的修正增益,并對所述期望增益進行更新。
[0046] 具體地,確定完第一音頻數(shù)據的類型之后,獲取第一音頻數(shù)據的前一幀音頻數(shù)據 的歷史期望增益,進而根據該歷史期望增益獲取與第一音頻數(shù)據的類型對應的修正增益。 由于不同類型的音頻數(shù)據的期望增益的修正過程不同,例如:當?shù)谝灰纛l數(shù)據的類型為噪 音時,直接應用前一幀音頻數(shù)據的歷史期望增益對期望增益進行更新;當?shù)谝灰纛l數(shù)據的 類型為語音時,應用前一幀音頻數(shù)據的歷史期望增益,以及其他的一些參數(shù)進行相關的邏 輯運算后對期望增益進行更新。
[0047] 步驟203,應用所述修正增益對所述第一音頻數(shù)據進行幅度調整。
[0048] 對期望增益進行更新后獲取第一音頻數(shù)據的修正增益,然后應用該修正增益與該 第一音頻數(shù)據進行相乘,對第一音頻數(shù)據的幅度進行調整,并采用語音識別系統(tǒng)對調整后 的第一音頻數(shù)據進行識別處理。
[0049] 本實施例的用于語音識別系統(tǒng)的增益處理方法,通過確定所述第一音頻數(shù)據的類 型,根據所述第一音頻數(shù)據的前一幀音頻數(shù)據的歷史期望增益,獲取與所述第一音頻數(shù)據 的類型對應的修正增益,并對所述期望增益進行更新,進而應用所述修正增益對所述第一 音頻數(shù)據進行幅度調整。由此,基于上述實施例,進一步地避免不同音頻段之間增益存在跳 變,保證音頻在段與段之間的連續(xù)性,進一步地提高識別性能。
[0050] 圖3是本申請另一個實施例的用于語音識別系統(tǒng)的增益處理方法的流程圖。本實 施例具體介紹以語音活動檢測信息確定第一音頻數(shù)據類型的過程,以及針對不同類型的第 一音頻數(shù)據的期望增益進行更新的過程。
[0051] 如圖3所示,針對圖1中的步驟103之后,還可以包括以下步驟:
[0052] 步驟301,獲取所述每個音頻段的語音活動檢測信息。
[0053] 具體地,獲取向語音識別系統(tǒng)輸入的、預先獲取的每個音頻段的語音活動檢測信 息,其中,語音活動檢測信息為通過預設的檢測手段確定被檢測的音頻數(shù)據的性質。語音活 動檢測信息包括〇和1,〇代表噪聲,1代表語音,例如:以能量檢測方式為例,當音頻段的能 量大于預設的閾值時,則確定該音頻段為語音,與該音頻段對應的語音活動檢測信息為1 ; 當音頻段的能量小于等于預設的閾值時,則確定音頻段為噪音,與該音頻段對應的語音活 動檢測彳g息為0。
[0054] 步驟302,判斷所有語音活動檢測信息的總和是否小于預設門限值;
[0055] 獲取所有語音活動檢測信息的總和,然后將所有語音活動檢測信息的總和與預設 的門限值進行比較,若判斷獲知所有語音活動檢測信息的總和小于該門限值,則確定第一 音頻數(shù)據為噪音類型,若判斷獲知所有語音活動檢測信息的總和大于等于該門限值,則確 定第一音頻數(shù)據為語音類型。其中,預設的門限值可以根據預設的算法和根據預設的分割 長度獲取的音頻段的數(shù)量進行確定的。
[0056] 為了更加清楚的說明用語音活動檢測信息確定第一音頻數(shù)據類型的過程,繼續(xù)以 圖1中的例子繼續(xù)說明如下:
[0057] 根據每個音頻段的語音活動檢測信息,對所有的語音活動檢測信息求和
[0058] vadsum = Σ VAD
[0059] 如果vadsum > 8X2/3,則判斷當前80ms的第一音頻數(shù)據為語音類型,否則為噪聲 類型。
[0060] 當所述第一音頻數(shù)據為噪音類型,則執(zhí)行步驟303,當所述第一音頻數(shù)據為語音類 型,則執(zhí)行步驟304。
[0061] 步驟303,當所述第一音頻數(shù)據為噪音類型,應用所述前一幀音頻數(shù)據的歷史期望 增益作為所述修正增益。
[0062] 當?shù)谝灰纛l數(shù)據為噪音類型,應用第一音頻數(shù)據的前一幀音頻數(shù)據的歷史期望增 益作為第一音頻數(shù)據的修正增益。其中,前一幀音頻數(shù)據的歷史期望增益的具體獲取過程 如圖1所示實施例,此處不再贅述。
[0063] 步驟304,當所述第一音頻數(shù)據為語音類型,根據預設的跟蹤窗長獲取所述第一音 頻數(shù)據的前N幀音頻數(shù)據的N個歷史期望增益,其中,N等于所述跟蹤窗長與所述預設幀長 的比值。
[0064] 具體地,當?shù)谝灰纛l數(shù)據為語音類型,根據預設的跟蹤窗長獲取第一音頻數(shù)據的 前N幀音頻數(shù)據的N個歷史期望增益,其中,N等于跟蹤窗長與所述預設幀長的比值。其中, 預設的跟蹤窗長為包含各種語音信息,用于防止幀與幀之間增益突變的最小增益的跟蹤窗 長,有助于對加載在音頻上的增益進行平滑,降低了幀與幀之間音頻的跳變,調整信號幅度 的同時盡可能多的保留了原始信號的包絡信息,從而更加有效地改善識別性能。例如:預設 的跟蹤窗長為960ms,對于80ms的第一音頻數(shù)據來說,N = 12,即獲取所述第一音頻數(shù)據的 前12幀的歷史期望增益。
[0065] 步驟305,從所述N個歷史期望增益和所述期望增益中取最小值為參考增益。
[0066] 從N個歷史期望增益中取最小值為參考增益,其中,前N幀音頻數(shù)據的各個歷史期 望增益的具體獲取過程如圖1所示實施例,此處不再贅述。
[0067] 步驟306,若判斷獲知所述參考增益在預設的增益持續(xù)時長內沒有變化,則根據所 述跟蹤窗長和預設的更新算法對所述參考增益進行更新。
[0068] 具體地,預先設置一個增益持續(xù)時長,根據該增益持續(xù)時長監(jiān)控參考增益是否在 該增益持續(xù)時長中發(fā)生變化,若是,則持續(xù)更新,若判斷獲知參考增益在預設的增益持續(xù)時 長內沒有變化,則根據所述跟蹤窗長和預設的更新算法對所述參考增益進行更新。
[0069] 步驟307,根據所述前一幀音頻數(shù)據的歷史期望增益、預設的增益平滑因子、所述 參考增益,按照預設的修正算法獲取所述修正增益。
[0070] 具體地,根據第一音頻數(shù)據的前一幀音頻數(shù)據的歷史期望增益、預設的增益平滑 因子、所述參考增益,按照預設的修正算法獲取第一音頻數(shù)據的修正增益。其中,修正算法 的實現(xiàn)方式很多,可以根據應用需要進行選擇。
[0071] 為了更加清楚的描述當?shù)谝灰纛l數(shù)據為語音類型時,修正增益的具體獲取過程, 繼續(xù)以上述例子說明如下:
[0072] 參數(shù)初始化:
[0073] 預設的音頻期望幅值:PeakThld = 25000 ;
[0074] 防止幀與幀之間增益突變的最小增益跟蹤窗長:WinLen = 12,即960ms ;
[0075] 初始的最小參考增益:G_= 100. 0 ;
[0076] 初始的最小增益持續(xù)時長:holdtime = 0 ;
[0077] 增益平滑因子:α = 〇· 9 ;
[0078] 初始的局部最小參考增益:G_tenip= 100. 0 ;
[0079] 初始化的歷史期望增益:GFinal= 1. 0 ;
[0080] 初始化的歷史期望增益:GainDelay = 1. 0 ;
[0081] 如果當前幀與語音,則最終增益的計算按照如下步驟:
[0094] 進一步地,由于當說話場景相對固定時,語音在相鄰幀之間其峰值變化較小,因 此,基于上述實施例,在步驟305之后,還包括:
[0095] 根據所述期望增益和所述參考增益,以及預設的語音矯正算法確定所述第一音頻 數(shù)據是否為語音類型;
[0096] 若確定所述第一音頻數(shù)據為噪音類型,則應用所述參考增益作為所述修正增益。
[0097] 為了更加清楚的描述當?shù)谝灰纛l數(shù)據為語音類型時,語音類型的具體矯正過程, 繼續(xù)以上述例子說明如下:繼續(xù)以上述例子說明如下:
[0098] 如果gmin彡5*Gmin,則認為當前80ms音頻數(shù)據為噪聲,且Gain = Gmin。
[0099] 本實施例的用于語音識別系統(tǒng)的增益處理方法,通過語音活動檢測信息確定所述 第一音頻數(shù)據的類型,若確定所述第一音頻數(shù)據為噪音類型,應用所述前一幀音頻數(shù)據的 歷史期望增益作為所述修正增益;若確定所述第一音頻數(shù)據為語音類型,根據預設的跟蹤 窗長獲取所述第一音頻數(shù)據的前N幀音頻數(shù)據的N個歷史期望增益,其中,N等于所述跟蹤 窗長與所述預設幀長的比值;從所述N個歷史期望增益和所述期望增益中取最小值為參考 增益;根據所述前一幀音頻數(shù)據的歷史期望增益、預設的增益平滑因子、所述參考增益獲取 所述修正增益。由此,基于上述實施例,進一步地避免不同音頻段之間增益存在跳變,保證 音頻在段與段之間的連續(xù)性,進一步地提高識別性能。
[0100] 為了保證當前第一音頻數(shù)據根據修正增益處理后不會被截幅,通過圖4對修正增 益進行限制處理。
[0101] 圖4是本申請另一個實施例的用于語音識別系統(tǒng)的增益處理方法的流程圖。如圖 4所示,針對圖2中的步驟202之后,還可以包括以下步驟:
當前第2頁1 2 3 4 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1