專利名稱:從兩個或多個麥克風(fēng)中為語音處理系統(tǒng),例如工作在嘈雜環(huán)境中的免提電話設(shè)備,選擇一 ...的制作方法
從兩個或多個麥克風(fēng)中為語音處理系統(tǒng),例如工作在嘈雜環(huán)境中的免提電話設(shè)備,選擇一個麥克風(fēng)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理嘈雜環(huán)境中的語音。
本發(fā)明特別地,但以非限制的方式,涉及處理由用于機(jī)動車輛的免提型設(shè)備拾取的語音信號。
這種裝置具有靈敏的麥克風(fēng),該麥克風(fēng)不僅拾取用戶的聲音,還拾取周圍的噪聲, 這種噪聲構(gòu)成在特定狀況下能夠產(chǎn)生使用戶的語音不可理解的聲音干擾的干擾元素。如果期望實現(xiàn)語音識別技術(shù),會發(fā)生同樣的狀況,因為對淹沒在高水平噪聲中的詞語進(jìn)行形狀識別是很困難的。
與外界噪聲有關(guān)的這種困難對用于機(jī)動車輛的免提設(shè)備是特別有制約性的。特別地,麥克風(fēng)與揚(yáng)聲器之間的遠(yuǎn)距離引起相對高水平的噪聲,使分離淹沒在噪聲中的有用信號很困難。更進(jìn)一步地,汽車是典型的非常嘈雜的環(huán)境,其呈現(xiàn)不穩(wěn)定的頻譜特性,即,作為駕駛狀況(在崎嶇的路面或鵝卵石上駕駛、開著的汽車收音機(jī)等)的函數(shù)以不可預(yù)測的方式變化。
一些這樣的設(shè)備提供利用多個麥克風(fēng),一般是兩個麥克風(fēng),對它們拾取的信號取平均,或者完成其它更復(fù)雜的操作,以得到低干擾水平的信號。特別地,稱作“波束成型”的技術(shù)實現(xiàn)麥克風(fēng)陣列,以使用相對簡單的軟件工具產(chǎn)生能使信號噪聲比提高的方向性。然而,那種技術(shù)假設(shè)揚(yáng)聲器相對于麥克風(fēng)的位置或多或少是固定的,對于與駕駛員(但不是與乘客)在小汽車?yán)锏碾娫捳勗掃@通常是正確的。
一般地,在所有稱作“波束成型”的技術(shù)中,為了得到或多或少令人滿意的有效性, 有必要具有大量的麥克風(fēng)(至少五個),在大多數(shù)工業(yè)應(yīng)用中它們是不可獲得的。
那就是為什么使用僅涉及一個麥克風(fēng)的技術(shù)更常見。
在這種情況下,使用能夠提供更好信號/噪聲比的單向麥克風(fēng)是有利的,但是在不變化的單個方向才是這樣的,因此僅對于一個揚(yáng)聲器位置是可行的。
例如,在WO 2008/049982 Al (Parrot SA)中描述了一個這樣的用于機(jī)動車輛的 “免提”設(shè)備,其描述了各種應(yīng)用到由單個麥克風(fēng)拾取的信號的回聲消除及抑制技術(shù)、噪音降低技術(shù)等,該單個麥克風(fēng)從附近的揚(yáng)聲器拾取與噪聲一起的聲音信號。
本發(fā)明涉及這樣的僅利用一個麥克風(fēng)的語音處理系統(tǒng)(因此不同于“波束成型” 等類型的系統(tǒng)),但是其中的(一個)麥克風(fēng)是從兩個不同的麥克風(fēng)或者麥克風(fēng)陣列中的多個麥克風(fēng)中自動選擇的。
本發(fā)明的目的是提出一種方法,使得有可能確定兩個或多個麥克風(fēng)中哪個麥克風(fēng)以最低的噪聲拾取語音信號,從而隨后對以這種方式確定的、下面稱作“基準(zhǔn)麥克風(fēng)”的麥克風(fēng)拾取的信號進(jìn)行各種類型的處理(降噪,回聲消除等)。
已知各種用來從多個麥克風(fēng)中選擇一個麥克風(fēng)的技術(shù),例如,在例如EP1564980A1 所描述的電話會議設(shè)備中,具有多個針對各個參與者、安裝在設(shè)備周圍的麥克風(fēng)。該文件描述了適于區(qū)分語音和噪聲的動態(tài)選擇裝置,并且該動態(tài)選擇裝置適于在任何給定的時刻僅激活面向活躍的講話者的那一個麥克風(fēng)。
對于上面提到的用于機(jī)動車輛的“免提”型設(shè)備,最經(jīng)常(盡管不限于)的情況是系統(tǒng)中具有兩個麥克風(fēng)。那么可能設(shè)想幾種配置。
第一種配置在于提供兩個彼此緊鄰的定向麥克風(fēng),例如在位于車艙中部的小汽車收音機(jī)的正面的兩端,一個麥克風(fēng)具有指向駕駛員的方向圖主瓣,而另一個麥克風(fēng)指向乘客。
另一個配置在于提供兩個空間分離的麥克風(fēng),例如置于高處,位于車輛頂部的最角上,或在儀表盤的兩端。
在兩種配置中,將被選擇的更有效的麥克風(fēng)通常是指向活躍的講話者(駕駛員或者乘客)的麥克風(fēng)。但是有時候考慮到特殊情況是有必要的,因此如果一輛摩托車正從車輛的左邊超車,即使講話者是左邊的駕駛員,選擇右邊的麥克風(fēng)也是有利的。
本發(fā)明的目的是提出一種在具有兩個麥克風(fēng)的系統(tǒng)中自動選擇麥克風(fēng)的魯棒系統(tǒng)(通過將同樣的算法應(yīng)用于每對可能的麥克風(fēng),本發(fā)明自然地適用于從多于兩個的麥克風(fēng)中切換至一個麥克風(fēng))。
根本思想是不考慮麥克風(fēng)的配置(緊鄰或空間分離),通過假設(shè)兩個麥克風(fēng)中的一個麥克風(fēng)拾取的信號優(yōu)于另一個,即,兩個麥克風(fēng)中的那一個對于拾取想要的具有更少干擾或損失的信號比另一個麥克風(fēng)放置得更好,來區(qū)別被每個麥克風(fēng)拾取的信號是可能的。
本發(fā)明基于的一個原理在于,為了這個目的,為對應(yīng)于兩個麥克風(fēng)的兩個信道中的每一個導(dǎo)出一個語音存在置信指數(shù),以及應(yīng)用決策規(guī)則選擇兩個麥克風(fēng)中的一個或另一個,此外,該決策規(guī)則是所述語音存在置信指數(shù)的函數(shù)。
這個原理使大大增加基準(zhǔn)麥克風(fēng)隨時間被選擇的魯棒性,作為被不斷地計算出來的結(jié)果的函數(shù)成為可能,并且選擇適應(yīng)于各種偏差變化的方式和聲音環(huán)境中的變化。
上述目的被上述EP 1564980 Al公開的常規(guī)類型的方法實現(xiàn)了,即為工作在嘈雜環(huán)境中的多麥克風(fēng)語音處理系統(tǒng)從兩個或多個麥克風(fēng)中選擇一個麥克風(fēng)的方法,每個麥克風(fēng)關(guān)聯(lián)于各自的信道并適于從混合了漫射噪聲分量的主要的聲音信號源拾取具有有用語音分量的嘈雜的聲音信號。該方法包括步驟
·數(shù)字化兩個麥克風(fēng)同時拾取的聲音信號;
·以在一系列頻帶內(nèi)產(chǎn)生一連續(xù)幀的方式,對在兩個信道上拾取到的聲音信號進(jìn)行變換;
·應(yīng)用為每個信道計算語音存在性指數(shù)的算法;
·通過對每個信道的連續(xù)幀應(yīng)用決策規(guī)則從兩個麥克風(fēng)中選擇一個,該規(guī)則既是信道選擇標(biāo)準(zhǔn)的函數(shù)還是所述語音存在性指數(shù)的函數(shù);
·在該選擇的一個麥克風(fēng)拾取的聲音信號的基礎(chǔ)上完成語音處理;
本發(fā)明具有特征方式是
·在兩個信道上拾取的信號的變換是短時距傅立葉變換;
·語音存在指數(shù)是為每個幀的每個頻帶計算的置信指數(shù);以及
選擇標(biāo)準(zhǔn)僅在那些存在性指數(shù)大于第一給定閾值的頻帶的頻帶中被計算;
根據(jù)各種從屬實施的特征在于
·該方法進(jìn)一步包括從連續(xù)幀中消除位于第二給定閾值下的頻帶的步驟;
·語音存在置信指數(shù)是語音存在的概率;
·為每個頻帶計算語音存在置信指數(shù),當(dāng)該指數(shù)大于第三給定閾值時,所述選擇在若干大于第四給定閾值的頻帶中執(zhí)行;
·多麥克風(fēng)語音處理系統(tǒng)是具有緊鄰定向麥克風(fēng)的系統(tǒng),并且該信道選擇標(biāo)準(zhǔn)是基于比較在兩個信道上同時拾取到的信號的各自相位的角度標(biāo)準(zhǔn);
·用于選擇的麥克風(fēng)是比另一個麥克風(fēng)更早拾取信號的麥克風(fēng);
·多麥克風(fēng)語音處理系統(tǒng)是一個具有空間分離的定向或非定向麥克風(fēng)的系統(tǒng),并且信道選擇標(biāo)準(zhǔn)是基于比較在兩個信道同時拾取的信號的各自信號噪聲比值的能量標(biāo)準(zhǔn), 用于選擇的麥克風(fēng)的信號噪聲比大于另一個麥克風(fēng)的。
·僅當(dāng)在若干比第五給定閾值大的連續(xù)幀上滿足決策規(guī)則時,有條件地執(zhí)行選擇兩個麥克風(fēng)中的一個。
·如果決定選擇麥克風(fēng)中的一個,則通過對將要選擇的麥克風(fēng)的信道增加增益并且對將不被選擇的麥克風(fēng)的信道降低增益,經(jīng)過一段給定轉(zhuǎn)換時間漸進(jìn)地執(zhí)行選擇。
接下來是基準(zhǔn)附圖的本發(fā)明設(shè)備的實施例的說明,其中相同的編號用于指示功能類似的元件。
圖1是具有兩個緊鄰的麥克風(fēng)的配置的圖示。
圖2是具有兩個空間分離的麥克風(fēng)的配置的圖示。
本發(fā)明基于的原理在下面結(jié)合其在上述兩種配置中的應(yīng)用描述(麥克風(fēng)緊鄰和麥克風(fēng)空間分離)。
基本的假設(shè)是被兩個麥克風(fēng)拾取的信號中的一個先驗地優(yōu)于另一個,S卩,與有用語音信號相比,它比另一個包含更少的干擾或損失。
本發(fā)明的目的是確定在被拾取的兩個信號中哪個信號在被單獨(dú)選擇之后進(jìn)行語音處理(去噪,回聲消除等)更好,該信號在下面被稱作“基準(zhǔn)信號”或“基準(zhǔn)麥克風(fēng)的信號”,的。
兩個麥克風(fēng)都拾取從一個主信號源s發(fā)射的信號,且麥克風(fēng)之間的位置的差別造成相對于s發(fā)射的信號的各種相移和幅度變化。更精確地,作為時間t的函數(shù),應(yīng)用下式
xn(t) = anXs(t-x n) +vn(t)
其中%是在聲音源s處與序號為η的麥克風(fēng)之間的聲音路徑上的能量損失造成的幅度衰減,τ η是發(fā)射的信號與麥克風(fēng)η接收到的信號的相移,附加項Vn代表麥克風(fēng)η所在處的漫射噪聲場的值。
用大寫字母寫出上面信號的短時距傅里葉變換,該方程變?yōu)?br>
Xn(k,1) = dn(k) XS(k,1)+Vn(k, 1)
其中k和1分別代表頻帶和考慮中的幀,
dn{k) =
其中fk是序號為k的頻帶的中心頻率。
應(yīng)該注意系數(shù)dn(k)唯一地取決于系統(tǒng)的幾何數(shù)據(jù),而不取決于發(fā)射信號s的性質(zhì)。實際上,這些系數(shù)是考慮中的幾何配置的特性。
下面特別考慮兩種情景
· 一種麥克風(fēng)緊鄰的配置,其中認(rèn)為兩個麥克風(fēng)之間的距離相對于源與麥克風(fēng)之間的距離很小(這種情況的更精確的數(shù)學(xué)定義如下給出);以及
· —種麥克風(fēng)空間分離的配置,其中認(rèn)為源與兩個麥克風(fēng)之一之間的距離比源與另一個麥克風(fēng)之間的距離相對較大。
緊鄰麥克風(fēng)配置
這種配置,圖示于圖1中,可被發(fā)現(xiàn),例如當(dāng)兩個麥克風(fēng)都位于汽車收音機(jī)的正面,它本身被放于車輛儀表盤的中央位置。麥克風(fēng)間的距離典型地是5厘米(cm)的數(shù)量級, 最多IOcm0
在這種配置中,使用具有不同方向的定向麥克風(fēng)是最有利的。如果兩個麥克風(fēng)被稱作為N和M,則麥克風(fēng)M應(yīng)該理想地具有主瓣覆蓋半平面Rn的指向性圖案,而麥克風(fēng)N應(yīng)該具有占據(jù)其它半平面Pn的指向性圖案。
在這里考慮的配置中,使用緊鄰的麥克風(fēng),作出聲音源發(fā)射平面波(它滿足源離麥克風(fēng)幾厘米遠(yuǎn)的需要)的近似是可能的,只有討論中的波的傳播方向是要被估計的(三維的或投影于一個特定的平面)。那么只有兩個麥克風(fēng)間的相位差信息是有用的,使用下面的公式1 —
Tn-Tm= ——arg(E(Xm(k,l)X (k,l)))2對k
其中E是通過計算考慮中的多個幀上的乘積的均值可被估計的數(shù)學(xué)期望值。
麥克風(fēng)“緊鄰”的假設(shè)可被更精確地表達(dá)為兩個麥克風(fēng)間距離ln,m的情況,為了避免相位延遲與相位超前間的混亂,^P Xffl (t)間的相移△ Φ位于[-π ;π]區(qū)間是必要的,即
N=然而,如果距離D更大,使用同樣的算法仍然是可能的,但是這是當(dāng)忽略分析的頻率中的更高頻率的時候。最大頻率于是表達(dá)如下rC
/max < ~n,m
它滿足確定兩個半平面Pn和Rii中的哪個包含源的需要。問題則簡化為研究表達(dá)式虹§(五(文 (之/)1 (眾,/》)的符號函數(shù)(sign)
sign[en^k,l)]=sign[Tn徹n[arg(五眾,/)))]
理論上,對于給定的幀,角度en,m(k,1)應(yīng)該對所有頻率都相同。實際上,噪音支持者(proponent)造成小的變化。
因此為不同頻率計算
rn-Tm =^rMg⑶(IW)Z (A:,/)))的符號函數(shù),并且通過計算未加權(quán)的個體決策的和,而執(zhí)行作為每個頻率上的結(jié)果的分布的函數(shù)的整體決策。
實際上,涉及了各種類型的相位噪聲,對于en,m(k,1)的小值,en,m(k,1)的符號函數(shù)的確定可能是有偏差的。然而,下面的公式
權(quán)利要求
1.為工作在嘈雜環(huán)境中的多麥克風(fēng)語音處理系統(tǒng)從兩個或多個麥克風(fēng)中選擇麥克風(fēng)的方法,每個麥克風(fēng)都關(guān)聯(lián)于一個各自的信道,并且適于從混合了漫射噪聲分量的主要聲音信號源(S(t))中拾取具有有用語音分量的嘈雜聲音信號,所述方法包含下列步驟 數(shù)字化兩個麥克風(fēng)(N,M)同時拾取的聲音信號; 以在一系列頻帶上產(chǎn)生連續(xù)幀的方式轉(zhuǎn)換在兩個信道上拾取的信號(Xn(t),Xm(t)); 對每個信道應(yīng)用用于計算語音存在指數(shù)的算法; 通過對每個信道的連續(xù)幀應(yīng)用決策規(guī)則選擇兩個麥克風(fēng)中的一個,該規(guī)則是信道選擇標(biāo)準(zhǔn)以及所述語音存在指數(shù)的函數(shù);以及 在所選擇的一個麥克風(fēng)拾取的聲音信號的基礎(chǔ)上進(jìn)行語音處理; 所述方法的特征在于 所述在兩個信道上拾取的信號0(n(t),Xm(t))的轉(zhuǎn)換是短時距傅立葉變換; 所述語音存在指數(shù)是為每個幀的每個頻帶計算的置信指數(shù);并且 所述選擇標(biāo)準(zhǔn)僅在置信指數(shù)大于第一給定閾值的那些頻帶上計算。
2.如權(quán)利要求1所述的方法,進(jìn)一步包括從所述連續(xù)幀中去除處于第二給定閾值之下的頻帶的步驟。
3.如權(quán)利要求1所述的方法,其中語音存在置信指數(shù)是語音存在的概率。
4.如權(quán)利要求1所述的方法,其中為每個頻帶計算語音存在置信指數(shù),并且當(dāng)所述指數(shù)大于第三給定閾值時,在大于第四給定閾值的數(shù)個頻帶上進(jìn)行所述選擇。
5.如權(quán)利要求1所述的方法,其中 所述多麥克風(fēng)語音處理系統(tǒng)是具有緊鄰的定向麥克風(fēng)的系統(tǒng);并且 所述信道選擇標(biāo)準(zhǔn)是基于對在兩個信道上同時拾取的信號的各自相位的比較的基礎(chǔ)上的角度標(biāo)準(zhǔn),用于選擇的麥克風(fēng)是比另一個更早拾取信號的麥克風(fēng)。
6.如權(quán)利要求1所述的方法,其中 所述多麥克風(fēng)語音處理器系統(tǒng)是具有空間分離的定向或非定向麥克風(fēng)的系統(tǒng);并且 所述信道選擇標(biāo)準(zhǔn)是基于對在兩個信道上同時拾取的信號的各自信號噪聲比值的比較的基礎(chǔ)上的能量標(biāo)準(zhǔn),用于選擇的麥克風(fēng)是信號噪聲比大于另一個的麥克風(fēng)。
7.如權(quán)利要求1所述的方法,其中僅當(dāng)比第五給定閾值大的若干連續(xù)幀上滿足所述決策規(guī)則時,才有條件地執(zhí)行選擇兩個麥克風(fēng)中的一個。
8.如權(quán)利要求1所述的方法,其中,如果決定選擇麥克風(fēng)之一,則通過對將要選擇的麥克風(fēng)的信道增加增益并且對將不被選擇的麥克風(fēng)的信道降低增益,而在一段給定轉(zhuǎn)換時間推移上漸進(jìn)地執(zhí)行所述選擇。
全文摘要
本方法涉及的方法包括步驟數(shù)字化兩個麥克風(fēng)(N,M)同時拾取的聲音信號;對在兩個信道上拾取的信號(Xn(t),Xm(t))執(zhí)行短時距傅立葉變換以在一系列頻帶上產(chǎn)生連續(xù)幀;對每個信道應(yīng)用用于計算語音存在置信指數(shù)的算法,特別是存在的語音的概率;通過對每個信道的連續(xù)幀應(yīng)用決策規(guī)則選擇兩個麥克風(fēng)中的一個,該規(guī)則基于信道選擇標(biāo)準(zhǔn)以及所述語音存在置信指數(shù);對所選擇的麥克風(fēng)拾取的聲音信號執(zhí)行語音處理。
文檔編號H04M9/08GK102498709SQ201080021380
公開日2012年6月13日 申請日期2010年5月7日 優(yōu)先權(quán)日2009年5月14日
發(fā)明者A·布里奧, G·平托, G·維泰 申請人:鸚鵡股份有限公司