音頻數(shù)據(jù)的增益控制方法及裝置的制造方法
【專利說明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻信號處理技術(shù),尤其涉及一種音頻數(shù)據(jù)的增益控制方法及裝置?!尽颈尘凹夹g(shù)】】
[0002]隨著通信技術(shù)的發(fā)展,終端集成了越來越多的功能,從而使得終端的系統(tǒng)功能列表中包含了越來越多相應(yīng)的應(yīng)用程序。有些應(yīng)用程序中會涉及語音識別服務(wù),例如,微信中的語音輸入功能,搜索應(yīng)用中的語音助手,等。
[0003]然而,在語音識別服務(wù)中,通常要求采集的音頻數(shù)據(jù)的幅度數(shù)值大于或等于一定的識別閾值,一旦音頻數(shù)據(jù)的幅度數(shù)值小于該識別閾值,則識別性能就會大大降低。因此,亟需提供一種音頻數(shù)據(jù)的增益控制方法及裝置,以將待識別音頻數(shù)據(jù)的幅度數(shù)值控制在識別閾值之上,避免語音識別性能的降低。
【
【發(fā)明內(nèi)容】
】
[0004]本發(fā)明從多個方面提供一種音頻數(shù)據(jù)的增益控制方法及裝置,用以將待識別音頻數(shù)據(jù)的幅度數(shù)值控制在識別閾值之上,避免語音識別性能的降低。
[0005]本發(fā)明的一方面,提供一種音頻數(shù)據(jù)的增益控制方法,包括:
[0006]獲取第N幀音頻數(shù)據(jù)和所述第N幀音頻數(shù)據(jù)的VAD信息,N為大于Μ的整數(shù),Μ為大于或等于1的整數(shù);
[0007]根據(jù)期望幅度數(shù)值和所述第Ν幀音頻數(shù)據(jù),獲得所述第Ν幀音頻數(shù)據(jù)的期望增益;
[0008]根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益;
[0009]利用所述控制增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0010]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,包括:
[0011]根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息,確定所述第Ν幀音頻數(shù)據(jù)是否為語音幀;
[0012]若所述第Ν幀音頻數(shù)據(jù)為語音幀,對所述第Ν幀音頻數(shù)據(jù)的VAD信息和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息進(jìn)行運(yùn)算處理,以獲得運(yùn)算結(jié)果;
[0013]若所述運(yùn)算結(jié)果滿足預(yù)先設(shè)置的控制條件,根據(jù)所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益。
[0014]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第N幀音頻數(shù)據(jù)的期望增益和所述第N幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,包括:
[0015]根據(jù)所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,選擇Ρ個最小的期望增益,Ρ為大于1且小于或等于Μ的奇數(shù),對所述Ρ個最小的期望增益進(jìn)行中值濾波處理,以獲得所述第Ν幀音頻數(shù)據(jù)的最小增益;
[0016]若所述第Ν幀音頻數(shù)據(jù)的最小增益小于最小增益值,利用所述第Ν幀音頻數(shù)據(jù)的最小增益更新所述最小增益值;
[0017]若所述第Ν幀音頻數(shù)據(jù)的最小增益大于或等于所述最小增益值,維持所述最小增益值,并記錄所述最小增益值的持續(xù)時間;
[0018]根據(jù)所述最小增益值,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益。
[0019]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述若所述第Ν幀音頻數(shù)據(jù)的最小增益大于或等于所述最小增益值,維持所述最小增益值,并記錄所述最小增益值得持續(xù)時間之后,還包括:
[0020]若所述最小增益值的持續(xù)時間大于最小增益跟蹤窗長的Κ1倍,Κ1為大于0且小于1的數(shù)值,且所述第Ν幀音頻數(shù)據(jù)的最小增益小于最小增益暫時值,利用所述第Ν幀音頻數(shù)據(jù)的最小增益更新所述最小增益暫時值;
[0021]若所述最小增益值的持續(xù)時間大于最小增益跟蹤窗長的Κ2倍,Κ2為大于Κ1的數(shù)值,利用所述最小增益暫時值更新所述最小增益值,并將所述最小增益值的持續(xù)時間設(shè)置為最小增益跟蹤窗長的Κ1倍,將所述最小增益暫時值恢復(fù)為初始值。
[0022]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述最小增益值,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,包括:
[0023]根據(jù)增益平滑因子、所述第Ν-l幀音頻數(shù)據(jù)的控制增益和所述最小增益值,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益。
[0024]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,還包括:
[0025]若所述第Ν幀音頻數(shù)據(jù)的最小增益大于或等于所述最小增益值的Κ3倍,Κ3為指定數(shù)值,將所述最小增益值,作為所述第Ν幀音頻數(shù)據(jù)的控制增益。
[0026]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述利用所述控制增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理,包括:
[0027]若所述第Ν幀音頻數(shù)據(jù)的控制增益小于或等于所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益中最小期望增益,利用所述控制增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理;
[0028]若所述第Ν幀音頻數(shù)據(jù)的控制增益大于所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益中最小期望增益,利用所述最小期望增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0029]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第N幀音頻數(shù)據(jù)的VAD信息、所述第N幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,還包括:
[0030]若所述第Ν幀音頻數(shù)據(jù)為噪聲幀,利用對所述第Ν-l幀音頻數(shù)據(jù)進(jìn)行增益控制處理的增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0031]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益,還包括:
[0032]若所述運(yùn)算結(jié)果不滿足預(yù)先設(shè)置的控制條件,利用對所述第Ν-l幀音頻數(shù)據(jù)進(jìn)行增益控制處理的增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0033]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還包括:
[0034]獲取第Q幀音頻數(shù)據(jù)和所述第Q幀音頻數(shù)據(jù)的VAD信息,Q為小于或等于Μ的整數(shù);
[0035]利用增益初始值,對所述第Q幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0036]本發(fā)明的另一方面,提供一種音頻數(shù)據(jù)的增益控制裝置,包括:
[0037]獲取單元,用于獲取第Ν幀音頻數(shù)據(jù)和所述第Ν幀音頻數(shù)據(jù)的VAD信息,Ν為大于Μ的整數(shù),Μ為大于或等于1的整數(shù);
[0038]期望增益獲得單元,用于根據(jù)期望幅度數(shù)值和所述第Ν幀音頻數(shù)據(jù),獲得所述第Ν幀音頻數(shù)據(jù)的期望增益;
[0039]控制增益獲得單元,用于根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息、所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益;
[0040]控制單元,用于利用所述控制增益,對所述第Ν幀音頻數(shù)據(jù)進(jìn)行增益控制處理。
[0041]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述控制增益獲得單元,具體用于
[0042]根據(jù)所述第Ν幀音頻數(shù)據(jù)的VAD信息,確定所述第Ν幀音頻數(shù)據(jù)是否為語音幀;
[0043]若所述第Ν幀音頻數(shù)據(jù)為語音幀,對所述第Ν幀音頻數(shù)據(jù)的VAD信息和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的VAD信息進(jìn)行運(yùn)算處理,以獲得運(yùn)算結(jié)果;
[0044]若所述運(yùn)算結(jié)果滿足預(yù)先設(shè)置的控制條件,根據(jù)所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,獲得所述第Ν幀音頻數(shù)據(jù)的控制增益。
[0045]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述控制增益獲得單元,具體用于
[0046]根據(jù)所述第Ν幀音頻數(shù)據(jù)的期望增益和所述第Ν幀音頻數(shù)據(jù)之前相鄰的Μ幀音頻數(shù)據(jù)中每幀音頻數(shù)據(jù)的期望增益,選擇Ρ個最小的期望增益,Ρ為大于1且小于或等于Μ的奇數(shù),對所述ρ個最小的期望增益進(jìn)行中值濾波處理,以獲得所述第N幀音頻數(shù)據(jù)的最小增益;
[0047]若所述第N幀音頻數(shù)據(jù)的最小增益小于最小增益值,利用所述第N幀音頻數(shù)據(jù)的最小增益更新所述最小增益值;
[0048]若所述第N幀音頻數(shù)據(jù)的最小增益大于或等于所述最小增益值,維持所述最小增益值,并記錄所述最小增益值的持續(xù)時間;以及
[0049]根據(jù)所述最小增益值,獲得所述第N幀音頻數(shù)據(jù)的控制增益。
[0050]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述控制增益獲得單元,還用于
[0051]若所述最小增益值的持續(xù)時間大于最小增益跟蹤窗長的K1倍,K1為大于0且小于1的數(shù)值,且所述第N幀音頻數(shù)據(jù)的最小增益小于最小增益暫時值,利用所述第N幀音頻數(shù)據(jù)的最小增益更新所述最小增益暫時值;
[0052]若所述最小增益值的持續(xù)時間大于最小增益跟蹤窗長的K2倍,K2為大于K1的數(shù)值,利用所述最小增益暫