音頻源分離的制作方法
【專利摘要】公開了一種從音頻內(nèi)容中分離音頻源的方法。該方法包括基于音頻內(nèi)容中要被分離的音頻源的線性組合特性和音頻內(nèi)容中要被分離的兩個(gè)或更多音頻源之間的正交特性,確定音頻源的空間參數(shù)。該方法還包括基于空間參數(shù),從音頻內(nèi)容中分離音頻源。還公開了相應(yīng)的系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
【專利說明】
音頻源分離
技術(shù)領(lǐng)域
[0001] 本文中所公開的示例實(shí)施例總體上設(shè)及音頻內(nèi)容處理,更具體地,設(shè)及從音頻內(nèi) 容中分離音頻源的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 多聲道格式(諸如立體聲、環(huán)繞5. 1、環(huán)繞7. 1等)的音頻內(nèi)容是通過在工作室中 混音不同音頻信號(hào)來創(chuàng)建的、或者通過在真實(shí)環(huán)境中同時(shí)錄制聲學(xué)信號(hào)而生成的。經(jīng)過混 音的音頻信號(hào)或內(nèi)容可W包括多個(gè)不同的源。源分離是用于標(biāo)識(shí)運(yùn)些源中的每個(gè)源的信息 的一種任務(wù),W便例如通過單聲道信號(hào)和包括空間信息、頻譜信息等的元數(shù)據(jù)來重新構(gòu)建 音頻內(nèi)容。
[0003] 當(dāng)使用一個(gè)或多個(gè)麥克風(fēng)錄制聲學(xué)場景時(shí),期望基于音頻源的信息被分離,從而 它可W適用于隨后的各種音頻處理任務(wù)。如本文中所使用的,術(shù)語"音頻源"指的是在音頻 內(nèi)容中存在一定時(shí)間期間的個(gè)體音頻元素。音頻源可W是動(dòng)態(tài)的或靜態(tài)的。例如,音頻源 可W是人、動(dòng)物或聲場中的任何其他聲源。音頻處理任務(wù)的一些示例可W包括空間音頻編 碼、重混音/重創(chuàng)作、3D聲音分析和合成、和/或出于各種目的(例如,自動(dòng)語音識(shí)別)的信 號(hào)增強(qiáng)/噪聲抑制。因此,通過成功的音頻源分離可W實(shí)現(xiàn)提升的廣泛用途和更好的性能。
[0004] 當(dāng)沒有可用的采集過程中的音頻源的先驗(yàn)信息(例如,錄制設(shè)備的屬性、房間的 聲學(xué)屬性等)時(shí),該分離過程可W被稱為盲源分離化lind source S巧aration,BS巧。盲源 分離與各種應(yīng)用領(lǐng)域相關(guān),例如,具有多個(gè)麥克風(fēng)的語音增強(qiáng)、多聲道通信中的串音移除、 多路徑聲道識(shí)別和均衡、傳感器陣列中的到達(dá)方向值0A)估計(jì)、針對(duì)音頻和無源聲響的波 束成形麥克風(fēng)的提升、音樂重編輯、轉(zhuǎn)錄、基于對(duì)象的編碼等等。
[0005] 在本領(lǐng)域中需要用于在沒有先驗(yàn)信息的情況下從音頻內(nèi)容中分離音頻源的技術(shù) 方案。
【發(fā)明內(nèi)容】
[0006] 為了解決前述和其他潛在的問題,本文中所公開的示例實(shí)施例提出一種從音頻內(nèi) 容中分離音頻源的方法和系統(tǒng)。
[0007] 在一個(gè)方面,本文中所公開的示例實(shí)施例提供一種從音頻內(nèi)容中分離音頻源的方 法。該方法包括基于音頻內(nèi)容中要被分離的音頻源的線性組合特性和音頻內(nèi)容中要被分離 的兩個(gè)或更多音頻源之間的正交特性,確定音頻源的空間參數(shù)。該方法還包括基于空間參 數(shù),從音頻內(nèi)容中分離音頻源。運(yùn)方面的實(shí)施例還包括相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0008] 在另一方面,本文中所公開的示例實(shí)施例提供一種從音頻內(nèi)容中分離音頻源的系 統(tǒng)。該系統(tǒng)包括聯(lián)合確定單元,被配置為基于音頻內(nèi)容中要被分離的音頻源的線性組合特 性和音頻內(nèi)容中要被分離的兩個(gè)或更多音頻源之間的正交特性,來確定音頻源的空間參 數(shù)。該系統(tǒng)還包括音頻源分離單元,被配置為基于空間參數(shù),來從音頻內(nèi)容中分離音頻源。
[0009] 通過下文描述將會(huì)理解,根據(jù)本文中所公開的實(shí)施例,可W基于音頻內(nèi)容中要被 分離的一個(gè)音頻源的線性組合特性和音頻內(nèi)容中要被分離的兩個(gè)或更多音頻源的正交特 性,來聯(lián)合地確定用于音頻源分離的音頻源的空間參數(shù),從而獲得感知上自然的音頻源、同 時(shí)實(shí)現(xiàn)穩(wěn)定和快速的收斂。本文中所公開的實(shí)施例所帶來的其他益處將通過下文描述而清 楚。
【附圖說明】
[0010] 通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明實(shí)施例的上述W及其他目的、特征和 優(yōu)點(diǎn)將變得易于理解。在附圖中,W示例而非限制性的方式示出了本發(fā)明的若干實(shí)施例,其 中:
[0011] 圖1示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的從音頻內(nèi)容中分離音頻源的 方法的流程圖;
[0012] 圖2示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于空間參數(shù)確定的架構(gòu)的 框圖;
[0013] 圖3示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的音頻源分離的系統(tǒng)的框圖;
[0014] 圖4示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于W迭代過程確定參數(shù)的 偽代碼的示意圖;
[0015] 圖5示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于W另一個(gè)迭代過程確定 參數(shù)的另一個(gè)偽代碼的示意圖;
[0016] 圖6示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于空間參數(shù)確定的過程的 流程圖;
[0017] 圖7示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的在源參數(shù)的聯(lián)合確定時(shí)的信 號(hào)流的示意圖;
[0018] 圖8示出了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的用于空間參數(shù)確定的另一 個(gè)過程的流程圖;
[0019] 圖9示出了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的在源參數(shù)的聯(lián)合確定時(shí)的 信號(hào)流的示意圖;
[0020] 圖10示出了根據(jù)本文中所公開的又一個(gè)示例實(shí)施例的用于空間參數(shù)確定的另一 個(gè)過程的流程圖;
[0021] 圖11示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于在圖3的系統(tǒng)中使用的 聯(lián)合確定器的框圖;
[0022] 圖12示出了根據(jù)本文中所公開的又一個(gè)示例實(shí)施例的在源參數(shù)的聯(lián)合確定時(shí)的 信號(hào)流的示意圖;
[0023] 圖13示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于正交控制的方法的流程 圖;
[0024] 圖14示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于W迭代過程確定參數(shù)的 又一個(gè)偽代碼的示意圖;
[00巧]圖15示出了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的音頻源分離的系統(tǒng)的框 圖;
[0026] 圖16示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的音頻源分離的系統(tǒng)的框圖;
[0027] 圖17示出了適于實(shí)現(xiàn)本文中所公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)的框圖。
[002引在各個(gè)附圖中,相同或?qū)?yīng)的標(biāo)號(hào)表示相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0029] 下面將參考附圖中示出的若干示例實(shí)施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解,描述 運(yùn)些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非W任何 方式限制本發(fā)明的范圍。
[0030] 如W上所提及的,期望的是在沒有先驗(yàn)知識(shí)的情況下從傳統(tǒng)的基于聲道格式的音 頻內(nèi)容中分離音頻源。已經(jīng)產(chǎn)生了許多音頻源建模的技術(shù)用于解決運(yùn)個(gè)音頻源分離的問 題。一種典型類別的技術(shù)基于音頻內(nèi)容中的音頻源的正交假設(shè)。也就是說,被包含在音頻 內(nèi)容中的音頻源被假設(shè)為是獨(dú)立或非相關(guān)的?;讵?dú)立/非相關(guān)音頻源建模技術(shù)的一些典 型方法包括自適應(yīng)去相關(guān)方法、主成分分析(Primary Component Analysis, PCA)、和獨(dú)立 成分分析(Independent Component Analysis,ICA)等等。另一種典型類型的技術(shù)基于音 頻內(nèi)容中的目標(biāo)音頻源的線性組合的假設(shè)。它允許在音頻源在頻域的頻譜成分在時(shí)域中的 活躍性的基礎(chǔ)上運(yùn)些頻譜成分的線性組合。典型的加性源建模方法是非負(fù)矩陣分解(NMF), 其在有意義的頻譜成分的線性組合的基礎(chǔ)上允許兩個(gè)維度的非負(fù)成分(頻譜成分和時(shí)間 成分)的表示。
[0031] 上述典型的類型(即正交假設(shè)和線性組合特性)在音頻處理應(yīng)用中(例如,重編 輯實(shí)際的電影內(nèi)容、分離在真實(shí)環(huán)境中的錄制)具有各自的優(yōu)勢和缺陷。
[0032] 例如,獨(dú)立/非相關(guān)的源模型可W在計(jì)算時(shí)具有穩(wěn)定的收斂。然而,運(yùn)些模型的音 頻源輸出通常聽起來在感知上不自然,并且有時(shí)候結(jié)果是無意義的。原因在于運(yùn)些模型不 充分?jǐn)M合真實(shí)聲學(xué)場景。例如,PCA模型由D = yiCxV來構(gòu)建,具有對(duì)角矩陣D、正交矩陣V 和表示輸入音頻信號(hào)的協(xié)方差矩陣。。運(yùn)個(gè)最小二乘法/高斯(Gaussian)模型對(duì)于聲音 而言可能是反直覺(counter-intuitive)的,并且有時(shí)候因?yàn)榻徊嫦氖褂枚o出了無 意義的結(jié)果。
[0033] 與獨(dú)立/非相關(guān)的源模型相比,基于線性組合假設(shè)的源模型(也被稱為加性源模 型)具有生成感知上更愉悅的聲音的優(yōu)點(diǎn)。運(yùn)可能是因?yàn)檫\(yùn)些模型設(shè)及采取更感知的分 析,因?yàn)檎鎸?shí)的聲音更接近于加性模型。然而,加性源模型具有不確定性(indeterminacy) 問題。運(yùn)些模型通??赡軆H確保收斂到目標(biāo)函數(shù)的穩(wěn)定點(diǎn),因此它們對(duì)參數(shù)初始化非常敏 感。對(duì)于原始的源信息可用于初始化的常規(guī)系統(tǒng)而言,加性源模型可能足夠用于W合理的 收斂速度來恢復(fù)運(yùn)些源。運(yùn)對(duì)于大多數(shù)現(xiàn)實(shí)應(yīng)用而言是不具實(shí)用性的,因?yàn)橥ǔ2豢色@得 初始化信息。特別地,對(duì)于高度不靜止和變化的源,在加性源模型中可能無法實(shí)現(xiàn)收斂。
[0034] 應(yīng)當(dāng)理解到,對(duì)于加性源模型的一些應(yīng)用,可W使用訓(xùn)練數(shù)據(jù)。然而,采用訓(xùn)練數(shù) 據(jù)在實(shí)踐中可能造成困難,因?yàn)閺挠?xùn)練數(shù)據(jù)中學(xué)習(xí)到的用于音頻源的加性模型在實(shí)際使用 情況下表現(xiàn)很差。運(yùn)通常是因?yàn)檫\(yùn)些加性模型與在混音時(shí)的音頻源的實(shí)際屬性之間的不匹 配。在沒有適當(dāng)匹配的初始化的情況下,運(yùn)種方案可能不是有效的并且實(shí)際上可能生成彼 此高度相關(guān)的源,運(yùn)可能導(dǎo)致估計(jì)的不穩(wěn)定性或者甚至偏離。因此,對(duì)于許多實(shí)際的應(yīng)用場 景,加性建模方法、諸如NMF可能不足W獲得穩(wěn)定和滿意的收斂。
[0035] 此外,置換的不確定性對(duì)于獨(dú)立/非相關(guān)源建模方法和加性源建模方法兩者而言 都是待解決的常見問題。獨(dú)立/非相關(guān)源建模方法可w被應(yīng)用在每個(gè)頻段中,產(chǎn)生每個(gè)頻 段的一組源子頻帶估計(jì)。然而,難W標(biāo)識(shí)屬于每個(gè)已經(jīng)分離的音頻源的子頻帶估計(jì)。類似 地,對(duì)于加性源建模方法、諸如獲得頻譜成分因數(shù)的NMF,難W知道哪些頻譜成分屬于哪個(gè) 已經(jīng)分離的音頻源。
[0036] 為了提升從基于聲道的音頻內(nèi)容的音頻源分離的性能,本文中所公開的示例實(shí)施 例提供了一種通過聯(lián)合地利用加性源建模和獨(dú)立/非相關(guān)源建模兩者的優(yōu)勢的用于音頻 源分離的技術(shù)方案。示例實(shí)施例的一種可能的優(yōu)勢可W包括獲得感知上自然的音頻源、同 時(shí)實(shí)現(xiàn)穩(wěn)定和快速的收斂。運(yùn)種技術(shù)方案可W被用在需要分離音頻源用于混音信號(hào)處理和 分析的任何應(yīng)用領(lǐng)域中,運(yùn)些處理和分析諸如基于對(duì)象的編碼、電影和音樂重編輯、到達(dá)方 向值0A)估計(jì)、多聲道通信中的串音移除、語音增強(qiáng)、多路徑聲道標(biāo)識(shí)和均衡等等。
[0037] 相較于那些常規(guī)的技術(shù)方案,所提出的技術(shù)方案的一些優(yōu)勢可W總結(jié)如下:
[0038] 1)可W克服加性源建模方法的估計(jì)不穩(wěn)定性或者偏離的問題。如W上所討論的, 加性源建模方法、諸如NMF在許多實(shí)際應(yīng)用情況下不足W獲得穩(wěn)定和滿意的收斂性能。然 而,所提出的聯(lián)合確定技術(shù)方案利用了嵌入在獨(dú)立/非相關(guān)源模型中的另外的原則。
[0039] 2)對(duì)于加性源建模的參數(shù)初始化可W變得不重要。因?yàn)樗岢龅穆?lián)合確定技術(shù)方 案結(jié)合了獨(dú)立/非相關(guān)調(diào)整,可W實(shí)現(xiàn)快速收斂,其不再根據(jù)不同的參數(shù)初始化而顯著地 變化;同時(shí),最后的結(jié)果可能不再強(qiáng)烈取決于參數(shù)初始化。
[0040] 3)所提出的聯(lián)合確定技術(shù)方案可W在具有或者不具有訓(xùn)練過程和可靠的初始化 的情況下,實(shí)現(xiàn)W穩(wěn)定的收斂來處理高度不靜止的源,包括快速移動(dòng)的對(duì)象、時(shí)間變化的聲 音。
[0041] 4)所提出的聯(lián)合確定技術(shù)方案與獨(dú)立/非相關(guān)模型相比較,通過利用了采取感知 分析的方法,可W獲得對(duì)于音頻內(nèi)容的更好的統(tǒng)計(jì)擬合,因此它產(chǎn)生更好的聲音和更有意 義的輸出。
[0042] 5)所提出的聯(lián)合確定技術(shù)方案在多個(gè)模型的加和可W等于多個(gè)聲音的加和的模 型運(yùn)個(gè)意義上,具有相對(duì)于獨(dú)立/非相關(guān)模型的階乘方法。因此,它允許廣泛使用在各種應(yīng) 用場景中,諸如"目標(biāo)"和/或"噪聲"模型的靈活學(xué)習(xí)、輕松增加時(shí)間溫度的約束/限制、 應(yīng)用空間引導(dǎo)、用戶引導(dǎo)、時(shí)頻引導(dǎo)等等。
[0043] 6)所提出的聯(lián)合確定技術(shù)方案可W繞開存在于加性建模方法和獨(dú)立/非相關(guān)建 模方法中的置換問題。它一定程度上減少了在獨(dú)立準(zhǔn)則、諸如頻率置換中的不確定性的本 質(zhì),在加性成分之間的不確定性和由常規(guī)的源建模方法引入的自由度。 W44] W下給出所提出的技術(shù)方案的詳細(xì)描述。
[0045] 首先參照?qǐng)D1,其描繪了根據(jù)所公開的一個(gè)示例實(shí)施例的從音頻內(nèi)容中分離音頻 源的方法100的流程圖。
[0046] 在S101,基于音頻內(nèi)容中要被分離的音頻源的線性組合特性和音頻內(nèi)容中要被分 離的兩個(gè)或更多音頻源之間的正交特性,聯(lián)合地確定音頻源的空間參數(shù)。
[0047] 要被處理的音頻內(nèi)容可W例如是傳統(tǒng)的多聲道音頻內(nèi)容,并且可時(shí)頻域表 示。時(shí)頻域表示W(wǎng)描述多個(gè)頻帶的多個(gè)子頻帶信號(hào)來表示音頻內(nèi)容。例如,可短時(shí)傅 里葉變換(STFT)域來處理I聲道輸入信號(hào)Xi(t),其中α = l,2,...,I,t = 1,2,...Τ), 獲得Xf,"= [Xi,f,",...,Xi,f,。]。除非在本文中另外地具體指明,i表示聲道的索引,并且I 表示音頻內(nèi)容中聲道的數(shù)目;f表示頻段索引,并且F表示頻段的總數(shù)目;并且η表示時(shí)間 帖索引,并且Ν表示時(shí)間帖的總數(shù)目。
[0048] 在一個(gè)示例實(shí)施例中,通過混音模型來建模音頻內(nèi)容,其中音頻源通過各自的混 音參數(shù)而被混音在音頻內(nèi)容中。除了音頻源之外的其余信號(hào)是噪聲。音頻內(nèi)容的混音模型 可矩陣形式被表示為:
[0049] Xf,n= Af,nSf,n+bf,n (D
[0050] 其中Sf,n= [s . . .,Sj,f, J表不要被分罔的J個(gè)首頻源的矩陣,Af,n= [a ij,扣] 1,表示音頻源在I個(gè)聲道中的混音參數(shù)矩陣(也被稱為空間參數(shù)矩陣),并且b f,。=比1, f, 。,...,表示加性噪聲。除非在本文中另外地具體指明,j表示音頻源的索引,J表示 要被分離的音頻源的數(shù)目。注意到,在一些情況中,在建模音頻內(nèi)容時(shí),噪聲信號(hào)可W被忽 略。也就是說,在公式(1)中,bf,??蒞被忽略。
[0051] 在建模音頻內(nèi)容時(shí),要被分離的音頻源的數(shù)目可W是預(yù)定的。該預(yù)定數(shù)目可W是 任何數(shù)值,并且可W基于用戶的經(jīng)驗(yàn)或者對(duì)音頻內(nèi)容的分析而設(shè)置。在一個(gè)示例實(shí)施例中, 可W基于音頻內(nèi)容的類型來配置該預(yù)定數(shù)目。在另一個(gè)示例實(shí)施例中,該預(yù)定數(shù)目可W大 于1。
[0052] 給定W上混音模型,音頻源分離的問題可W被解讀為已知輸入音頻內(nèi)容Xf,。,如何 確定未知的音頻源的空間參數(shù)Af,。,其可能是基于頻率的并且可能是時(shí)間變化的。在一個(gè)示 例實(shí)施例中,可W引入逆轉(zhuǎn)Af,。的逆混音矩陣Df,。,^便經(jīng)由例如維納(Wiener)濾波而直接 獲得經(jīng)過分離的音頻源,并且然后獲得音頻源的估計(jì)S/,n,其可W被確定如下:
[005;3]
口)
[0054] 由于噪聲信號(hào)有時(shí)候可W被忽略或者可W基于輸入音頻內(nèi)容來估計(jì),在音頻源分 離時(shí)的一個(gè)重要任務(wù)是估計(jì)空間參數(shù)矩陣Af,。。
[0055] 在本文中所公開的示例實(shí)施例中,可W利用加性源建模和獨(dú)立/非相關(guān)源建模兩 者來估計(jì)要被分離的目標(biāo)音頻源的空間參數(shù)。如W上所提及的,加性源建模是基于目標(biāo)音 頻源的線性組合特性,其可W產(chǎn)生感知上自然的聲音。獨(dú)立/非相關(guān)源建?;谝环蛛x 的多個(gè)音頻源的正交特性,其可W產(chǎn)生穩(wěn)定和快速的收斂。就此而言,通過基于運(yùn)兩個(gè)特性 而聯(lián)合地確定空間參數(shù),可W獲得感知上自然的音頻源,通過實(shí)現(xiàn)穩(wěn)定和快速的收斂。
[0056] 所討論的目標(biāo)音頻源的線性組合特性和要被分離的多個(gè)音頻源(包括目標(biāo)音頻 源)的正交特性可W在確定目標(biāo)音頻源的空間參數(shù)時(shí)被聯(lián)合地考慮。在一些示例實(shí)施例 中,可W基于線性組合特性或正交特性之一來確定目標(biāo)音頻源的功率譜參數(shù)。然后,可W基 于另一個(gè)未被選擇的特性(例如,線性組合特性或正交特性)來更新該功率譜參數(shù)?;?經(jīng)過更新的功率譜參數(shù),可W確定目標(biāo)音頻源的空間參數(shù)。
[0057] 在一個(gè)示例實(shí)施例中,可W首先使用加性源模型。如W上所提及的,加性源模型基 于目標(biāo)音頻源的線性組合的假設(shè)??蒞使用加性源建模中一些已知的處理算法來獲得音頻 源的參數(shù),諸如功率譜參數(shù)。然后,可W使用獨(dú)立/非相關(guān)源模型來更新在加性源模型中獲 得的音頻源參數(shù)。在獨(dú)立/非相關(guān)源模型中,兩個(gè)或更多音頻源、包括目標(biāo)音頻源可W被認(rèn) 為是統(tǒng)計(jì)上彼此獨(dú)立或不相關(guān)的、并且具有正交屬性??蒞使用獨(dú)立/非相關(guān)源建模中的 一些已知的處理算法。在另一個(gè)示例實(shí)施例中,可W首先使用獨(dú)立/非相關(guān)源模型來確定 音頻源參數(shù),并且然后可w使用加性源模型來更新音頻源參數(shù)。
[0058] 在一些示例實(shí)施例中,聯(lián)合確定可W是個(gè)迭代過程。也就是說,上述確定和更新的 過程可W迭代地被執(zhí)行,W便獲得用于音頻源的適當(dāng)空間參數(shù)。例如,可W使用期望最大化 (expectation maximization,EM)迭代過程來獲得空間參數(shù)。EM過程的每次迭代可W包括 期望步驟巧步驟)和最大化步驟(M步驟)。
[0059] 為了避免不同的源參數(shù)的混淆,W下給出一些用語的定義:
[0060] ?主參數(shù):要被估計(jì)并且輸出用于描述和/或恢復(fù)音頻源的參數(shù),包括音頻源的 空間參數(shù)和頻譜參數(shù);
[0061] ?中間參數(shù):被計(jì)算W用于確定主參數(shù)的參數(shù),包括但不限于音頻源的功率譜參 數(shù)、輸入音頻內(nèi)容的協(xié)方差矩陣、音頻源的協(xié)方差矩陣(covariance matrix)、輸入音頻內(nèi) 容和音頻源的互協(xié)方差矩陣(cross covariance matrix)、協(xié)方差矩陣的逆矩陣等。
[0062] 源參數(shù)可W指的是主參數(shù)和中間參數(shù)兩者。
[0063] 在基于獨(dú)立/非相關(guān)源模型和加性源模型兩者的聯(lián)合確定中,還可W通過加性源 模型來約束正交程度。在一些示例實(shí)施例中,指示要被分離的音頻源之間的正交屬性的正 交程度控制可W被設(shè)置用于空間參數(shù)的聯(lián)合確定。因此,基于空間參數(shù),可W獲得具有感知 上自然的聲音同時(shí)具有相對(duì)于其他音頻源的適當(dāng)?shù)恼怀潭鹊囊纛l源。如本文中所使用 的,"適當(dāng)?shù)恼怀潭?被定義為通過控制聯(lián)合的源分離而輸出愉悅的聲源而不管音頻源之 間的可接受的一定量的相關(guān)性,如W下所描述的。
[0064] 可W理解到,對(duì)于要被分離的預(yù)訂數(shù)目的音頻源之中的每個(gè)音頻源,可W據(jù)此獲 得相應(yīng)的空間參數(shù)。 陽0化]圖2描繪了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于空間參數(shù)確定的架構(gòu)200 的框圖。在架構(gòu)200中,加性源模型201可W用于基于音頻源各自的線性組合特性來估計(jì) 音頻源的中間參數(shù),諸如功率譜參數(shù)。獨(dú)立/非相關(guān)源模型202可W用于基于正交特性來 更新音頻源的中間參數(shù)??臻g參數(shù)聯(lián)合確定器203可W首先調(diào)用模型201和202中的一個(gè) 模型來估計(jì)要被分離的音頻源的中間參數(shù),并且然后調(diào)用另一個(gè)模型來更新中間參數(shù)???間參數(shù)聯(lián)合確定器203然后可W基于經(jīng)過更新的中間參數(shù)來確定空間參數(shù)。估計(jì)和更新的 處理可W是迭代的。正交程度控制也可W被提供給空間參數(shù)聯(lián)合確定器203, W便控制要被 分離的音頻源之間的正交屬性。
[0066] 空間參數(shù)的確定的描述將在W下詳細(xì)描述。
[0067] 如圖1中所指示的,方法100行進(jìn)至S102,其中基于空間參數(shù),從音頻內(nèi)容中分離 出音頻源。
[0068] 因?yàn)榇_定了空間參數(shù),對(duì)應(yīng)的目標(biāo)音頻源可W從音頻內(nèi)容中被分離出來。例如,在 混音建模中,音頻源信號(hào)可W根據(jù)公式(2)而獲得。
[0069] 現(xiàn)在參照?qǐng)D3,其描繪了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的音頻源分離的系 統(tǒng)300的框圖。本文中所提出的音頻源分離的方法可W在系統(tǒng)300中被實(shí)施。系統(tǒng)300可 W被配置為接收W時(shí)頻域表示的輸入音頻信號(hào)Xf,。^及一組源設(shè)置。該組源設(shè)置可W包括 例如預(yù)定的源數(shù)目、音頻源的移動(dòng)性、音頻源的穩(wěn)定性、音頻源混音的類型等中的一個(gè)或多 個(gè)。系統(tǒng)300可W處理音頻內(nèi)容,包括估計(jì)空間參數(shù),并且然后輸出經(jīng)過分離的音頻源Sf,。 和它們對(duì)應(yīng)的參數(shù),包括空間參數(shù)Af,。。
[0070] 系統(tǒng)300可w包括源參數(shù)初始化單元301,被配置為初始化源參數(shù),包括空間參 數(shù)、要被用于協(xié)助確定空間參數(shù)的頻譜參數(shù)和音頻內(nèi)容的協(xié)方差矩陣、噪聲信號(hào)。初始化可 W基于輸入音頻內(nèi)容的源設(shè)置。正交程度設(shè)置單元302可W被配置為設(shè)置用于空間參數(shù)的 聯(lián)合確定的正交程度。系統(tǒng)300包括聯(lián)合確定器303,其被配置為基于線性組合特性和正交 特性兩者來確定音頻源的空間參數(shù)。在聯(lián)合確定器303中,第一中間參數(shù)確定單元3031可 W被配置為基于加性源模型或獨(dú)立/非相關(guān)源模型來估計(jì)音頻源的中間參數(shù),諸如功率譜 參數(shù)。被包括在聯(lián)合確定器303中的第二中間參數(shù)確定單元3032可W被配置為基于與第 一確定單元3031不同的模型來精細(xì)化(refine)在第一確定單元3031中估計(jì)的中間參數(shù)。 然后,空間參數(shù)確定單元3033可W將經(jīng)過精細(xì)化的中間參數(shù)作為輸入,并且確定要被分離 的音頻源的空間參數(shù)。確定單元303U3032和3033可W例如W EM迭代過程來迭代地確定 源參數(shù),W便獲得用于音頻源分離的適當(dāng)空間參數(shù)。音頻源分離器304被包括在系統(tǒng)300 中并且被配置為基于從聯(lián)合確定器303獲得的空間參數(shù),從輸入音頻內(nèi)容中分離音頻源。
[0071] 圖3中示出的系統(tǒng)300的模塊的功能將在W下更詳細(xì)地描述。 柳巧源設(shè)置
[0073] 在一些示例實(shí)施例中,空間參數(shù)確定可W基于源設(shè)置。源設(shè)置可W包括例如預(yù)定 的源數(shù)目、音頻源的移動(dòng)性、音頻源的穩(wěn)定性、音頻源混音的類型等中的一個(gè)或多個(gè)??蒞 通過用戶輸入或者通過音頻內(nèi)容的分析來獲得源設(shè)置。
[0074] 在一個(gè)示例實(shí)施例中,根據(jù)預(yù)定的源數(shù)目的知識(shí),可W構(gòu)建音頻源的空間參數(shù)的 初始化矩陣。預(yù)定的源數(shù)目還可W對(duì)空間參數(shù)確定的處理產(chǎn)生影響。例如,假設(shè)預(yù)定要從I 聲道的音頻內(nèi)容中分離出J個(gè)音頻源,如果J> I,例如已知的信號(hào)(I個(gè)聲道的音頻信號(hào)) 小于要估計(jì)的信號(hào)(J個(gè)音頻源信號(hào)),那么可欠定模式(underdetermined mode)來處 理空間參數(shù)確定。否則,隨后的空間參數(shù)確定可超定模式(over-determined mode)來 處理,例如已知的信號(hào)(I個(gè)聲道的音頻信號(hào))大于要估計(jì)的信號(hào)(J個(gè)音頻源信號(hào))。
[0075] 在一個(gè)示例實(shí)施例中,音頻源的移動(dòng)性(也被稱為音頻源移動(dòng)性)可W用于設(shè)置 音頻源是移動(dòng)的或者是靜止的。如果要分離移動(dòng)的源,它的空間參數(shù)可W被估計(jì)為是時(shí)間 變化的。運(yùn)個(gè)設(shè)置可W決定音頻源的空間參數(shù)Af,。是否可W隨著時(shí)間帖η而變化。
[0076] 在一個(gè)示例實(shí)施例中,音頻源的穩(wěn)定性(也被稱為音頻源穩(wěn)定性)可W用于設(shè)置 源參數(shù)、諸如被引入用于輔助確定空間參數(shù)的頻譜參數(shù)在確定過程中是否調(diào)整或者保持固 定。運(yùn)個(gè)設(shè)置在具有確定的引導(dǎo)元數(shù)據(jù)的知情使用場景中、例如在音頻源的某些先驗(yàn)知識(shí)、 諸如音頻源的位置已經(jīng)被提供的時(shí)候是有用的。
[0077] 在一個(gè)示例實(shí)施例中,音頻源混音的類型可W用于設(shè)置音頻源是否W瞬態(tài)方式、 或者W卷積方式被混音。運(yùn)個(gè)設(shè)置可W決定音頻源的空間參數(shù)Af,。是否可W隨著頻段f而 變化。
[007引注意到,源設(shè)置不限于W上提及的示例,而是可W被擴(kuò)展至許多其他設(shè)置,諸如空 間引導(dǎo)的元數(shù)據(jù)、用戶引導(dǎo)的元數(shù)據(jù)、時(shí)頻引導(dǎo)的元數(shù)據(jù)等等。
[00巧]源參數(shù)初始化
[0080] 源參數(shù)初始化可W在聯(lián)合空間參數(shù)確定的處理之前在系統(tǒng)300的源參數(shù)初始化 單元301中被執(zhí)行。
[0081] 在一些示例實(shí)施例中,在空間參數(shù)確定的過程之前,可初始化值來設(shè)置空間 參數(shù)Af,。。例如,空間參數(shù)Af,??蒞W隨機(jī)數(shù)據(jù)來初始化,并且可W通過利用Σ i|ai,,f」2 = 1來歸一化。
[0082] 在空間參數(shù)確定的過程中,如W下將描述的,還會(huì)引入頻譜參數(shù)作為主參數(shù),W便 確定空間參數(shù)。在一些示例實(shí)施例中,音頻源的頻譜參數(shù)可W通過非負(fù)矩陣分解(NM巧模 型來建模。據(jù)此,音頻源j的頻譜參數(shù)可W被初始化為非負(fù)矩陣{W,,H,},在運(yùn)些矩陣中所有 元素都是非負(fù)的隨機(jī)數(shù)值。
是包含目標(biāo)音頻源的頻譜成分作為列向量的非 負(fù)矩陣,并且
曼具有行向量對(duì)應(yīng)于每個(gè)頻譜成分的時(shí)間活躍性的非負(fù)矩陣。 除非在本文中另外地具體指明,K表示NMF成分的數(shù)目。
[0083] 在一個(gè)示例實(shí)施例中,噪聲信號(hào)bf,。的功率可W被初始化為與輸入音頻內(nèi)容的功 率成比例,并且它在一些示例中可W隨著聯(lián)合確定器301中的聯(lián)合確定的迭代次數(shù)而減 小。例如,噪聲信號(hào)的功率可W被確定為: 陽084] Ab,f= |b f, J2= (0. 01 · Σ ιΣJ2)/(N · I) 做
[00化]在一些示例實(shí)施例中,作為中間參數(shù),音頻內(nèi)容的協(xié)方差矩陣C、,f也可W在源參數(shù) 初始化中被確定W用于后續(xù)處理。該協(xié)方差矩陣可W在STFT域中被計(jì)算。在一個(gè)示例實(shí) 施例中,該協(xié)方差矩陣可W通過跨所有帖對(duì)輸入音頻內(nèi)容取平均來計(jì)算:
[0086]
(4)
[0087] 其中上標(biāo)Η表示厄米特化ermitian)共輛置換。
[0088] 空間參數(shù)的聯(lián)合確定
[0089] 如W上所提及的,音頻源的空間參數(shù)可W通過基于音頻源的線性組合特性和正交 特性來聯(lián)合地確定。加性源模型可W用于基于線性組合特性來建模音頻內(nèi)容。一種典型的 加性源模型可W是NMF模型。獨(dú)立/非相關(guān)源模型可W用于基于正交特性來建模音頻內(nèi)容。 一種典型的獨(dú)立/非相關(guān)源模型可W是自適應(yīng)去相關(guān)模型??臻g參數(shù)的聯(lián)合確定可W在系 統(tǒng)300的聯(lián)合確定器303中被執(zhí)行。
[0090] 在描述空間參數(shù)的聯(lián)合確定之前,將在W下首先闡述NMF模型和自適應(yīng)去相關(guān)模 型中的一些示例計(jì)算。
[0091] 利用NMF橫巧的源參撒計(jì)算
[0092] 在一個(gè)示例實(shí)施例中,NMF模型可W在要被分離的音頻源的功率譜的基礎(chǔ)上被應(yīng) 用。要被分離的音頻源的功率譜矩陣可W被表示戈
其中是音頻源j的功率譜,并且表示所有J個(gè)音頻源的功率譜的匯總。頻譜參數(shù) 的形式{W,,Η,}可W利用語義上有意義(可解譯)的表示來建模音頻源j。利用非負(fù)矩陣 (Wj,Hjl形式的頻譜參數(shù),可W使用Itakura-Saito偏離、W NMF模型來估計(jì)功率譜寶及,仍。
[0093] 在一些示例實(shí)施例中,對(duì)于每個(gè)音頻源j,它的功率譜%可^^如圖4中所圖示 的偽代碼1的第一迭代過程來估計(jì)。
[0094] 在第一迭代過程開始時(shí),NMF矩陣{W,,H,}可W如W上所提及的那樣被初始化, 并且音頻源的功率譜可w被初始化天
<,其中 玄/ ~ 并且 j = 1,2,......,J。 陽0巧]在第一迭代過程的每次迭代中,NMF矩陣W,可W被更新為:
[0096]
(5)
[0097] 在第一迭代過程的每次迭代中,NMF矩陣Hj可W被更新為:
[0098]
(6)
[0099] 在每次迭代中獲得NMF矩陣{Wj,Hj}之后,可W基于獲得的NMF矩陣{Wj,Hj}來更 新功率譜1,^",:^用于在下一次迭代中使用。第一迭代過程的迭代次數(shù)可^是預(yù)定的,并 且可W是1至20次等。
[0100] 應(yīng)當(dāng)注意到,也可W應(yīng)用用于NMF估計(jì)的其他已知的偏離方法,并且本文中的示 例實(shí)施例的范圍在此方面不受限制。 陽…。利用自活麻去巧關(guān)橫巧的源參撒計(jì)算
[0102] 如W上所提及的,音頻源的功率譜通過
來 確定。因此,可W確定音頻源的協(xié)方差矩陣Cs,f。,W便在自適應(yīng)去相關(guān)模型中確定功率譜。 基于音頻內(nèi)容中的音頻源的正交特性,音頻源的協(xié)方差矩陣Cs,f。被認(rèn)為是對(duì)角的?;谠?公式(4)中表示的音頻內(nèi)容的協(xié)方差矩陣W及在公式(1)中表示的音頻內(nèi)容的混音模型, 音頻內(nèi)容的協(xié)方差矩陣可W被重寫為:
[0103]
(7)
[0104] 在一個(gè)示例實(shí)施例中,可W基于后向模型估計(jì)音頻源的協(xié)方差矩陣,如W下所給 出的:
[0110] 注意到,在欠定條件I)下,可W應(yīng)用公式(10),并且在超定條件(J< I)下, 為了計(jì)算的有效性,可W應(yīng)用公式(11)。 陽111] 可W如下地通過減小估計(jì)誤差或者通過最小化估計(jì)誤差,來確定逆矩陣Df,。^及 音頻源的協(xié)方差矩陣Cs,f。: 陽112]
[0113] 公式(12)表示待解決的最小乘方化巧估計(jì)問題。在一個(gè)示例實(shí)施例中,可W在 第二迭代過程中W如在圖5中的偽代碼2所圖示的梯度遞減算法來解決該問題。
[0114] 在梯度遞減算法中,協(xié)方差矩陣C、,f。和噪聲信號(hào)的功率的估計(jì)Ab,f可W用作輸入。 在開始第二迭代過程之前,音頻源的協(xié)方差矩陣的估可W通過功率譜(6/0來初 始化,該功率譜可W通過初始化的NMF矩陣或者在W上描述的第一迭代過程中獲得 的NMF矩陣來估計(jì)。逆矩陣也可W被初始化。
[0115] 為了基于公式(12)減小音頻源的協(xié)方差矩陣的估計(jì)誤差,在一個(gè)示例實(shí)施例中, 在第二迭代過程的每次迭代中,可W通過W下公式(13)和(14)來更新逆矩陣
[0119] 在公式(13)中,μ表示梯度遞減方法的學(xué)習(xí)步長,并且ε表示用于避免W零相 除的較小數(shù)值。ΙΜ!^表示化obenius范數(shù)的平方,其包括所有矩陣條目的平方的總和,并 且對(duì)于每個(gè)向量,ΙΗΙ?等于該向量與自身的點(diǎn)乘積。II · Mp表示化obenius范數(shù),其等 于化obenius范數(shù)的平方的開方跟。注意到,如在公式(13)中所給出的,期望通過功率 (化obenius范數(shù)的平方)來歸一化梯度項(xiàng),W便于度量梯度,從而給出針對(duì)不同頻率的可 比較的更新步長。
[0120] 利用在每次迭代中經(jīng)過更新的逆矩陣"巧/,α:,可W根據(jù)公式(8),將音頻源的協(xié)方 差矩陣更新如下:
[0121]
(1 巧
[0122] 基于經(jīng)過更新的協(xié)方差矩陣可W更新功率譜,其可W被表示如下:
[0123]
(16)
[0124] 在另一個(gè)示例實(shí)施例中,通過忽略加性噪聲,公式(13)可W被如下地簡化: 陽1巧]
陽126] 可W理解的是,無論噪聲信號(hào)是否被忽略,均可W通過公式(15)和(16)來分別地 更新音頻源的協(xié)方差矩陣和功率譜。然而,在一些其他情況中,在更新音頻源的協(xié)方差矩陣 和功率譜時(shí),可w將噪聲信號(hào)考慮在內(nèi)。
[0127] 在一些示例實(shí)施例中,第二迭代過程的迭代次數(shù)可W是預(yù)定的,例如,被預(yù)定為1 至20次。在一些其他示例實(shí)施例中,第二迭代過程的迭代次數(shù)可W通過正交程度控制而被 控制,運(yùn)將在W下描述。
[0128] 應(yīng)當(dāng)理解到,自適應(yīng)去相關(guān)模型自身似乎是可能對(duì)于每個(gè)頻率具有任意的置換。 如W下關(guān)于聯(lián)合確定過程所描述的,本文中所公開的示例實(shí)施解決了運(yùn)個(gè)置換問題。
[0129] 利用源設(shè)置和初始化的源參數(shù),可W例如在EM迭代過程中聯(lián)合地確定音頻源的 空間參數(shù)。W下將描述在EM迭代過程中的聯(lián)合確定的一些實(shí)施方式。
[0130] 第一亦巧1|要施7?式 陽131] 在第一示例實(shí)施方式中,為了確定音頻源的空間參數(shù),可W首先基于線性組合特 性來確定音頻源的功率譜,并且然后可W基于正交特性來更新音頻源的功率譜。音頻源的 空間參數(shù)可W基于經(jīng)過更新的功率譜來確定。
[0132] 在系統(tǒng)300的示例實(shí)施例中,聯(lián)合確定器303的第一中間參數(shù)確定單元3031可W 被配置為基于加性源模型、諸如NMF模型來確定被包含在輸入音頻內(nèi)容中的音頻源的功率 譜參數(shù)。聯(lián)合確定器303的第二中間參數(shù)確定單元3032可W被配置為基于獨(dú)立/非相關(guān) 源模型、諸如自適應(yīng)去相關(guān)模型來精細(xì)化功率譜參數(shù)。然后,空間參數(shù)確定單元3033可W 被配置為基于經(jīng)過更新的功率譜參數(shù)來確定音頻源的空間參數(shù)。
[0133] 在一些示例實(shí)施例中,空間參數(shù)的聯(lián)合確定可期望最大化(ΕΜ)迭代過程來 處理。ΕΜ迭代過程中的每次ΕΜ迭代可W包括期望步驟和最大化步驟。在期望步驟中,可W 計(jì)算用于確定空間參數(shù)的中間參數(shù)的條件期望。而在最大化步驟中,用于描述和/或恢復(fù) 音頻源的主參數(shù)(包括音頻源的空間參數(shù)和頻譜參數(shù))可W被更新。期望步驟和最大化步 驟可W被迭代,W便用有限次數(shù)來確定音頻源分離的空間參數(shù),從而可W獲得感知上自然 的音頻源同時(shí)實(shí)現(xiàn)ΕΜ迭代過程的穩(wěn)定和快速收斂。
[0134] 在第一示例實(shí)施方式中,對(duì)于ΕΜ迭代過程中的每次ΕΜ迭代,可W通過使用在之前 的ΕΜ迭代(例如,上一次的ΕΜ迭代)中確定的音頻源的頻譜參數(shù),來基于線性組合特性確 定音頻源的功率譜參數(shù),并且可W基于正交特性來更新音頻源的功率譜參數(shù)。在每次ΕΜ迭 代中,可W基于經(jīng)過更新的功率譜參數(shù)來更新音頻源的空間參數(shù)和頻譜參數(shù)。
[0135] 將基于NMF模型和自適應(yīng)去相關(guān)模型的上述描述來描述示例過程。參照?qǐng)D6,其描 繪了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于空間參數(shù)確定的過程600的流程圖。
[0136] 在S601,可W初始化用于該確定的源參數(shù)。在W上描述了源參數(shù)初始化。在一些 示例實(shí)施例中,源參數(shù)初始化可W由系統(tǒng)300的源參數(shù)初始化單元301來執(zhí)行。
[0137] 對(duì)于期望步驟S602,可W在S6021處通過使用每個(gè)音頻源j的頻譜參數(shù){W,, Hj}、W NMF模型來確定音頻源的功率譜。W N1F模型對(duì)音頻源的功率譜Σ&./α 進(jìn)行確定可W參看W上關(guān)于NMF模型的描述和圖4中的偽代碼1。例如,功率譜 至5,仍=???α巧([Wy,作/心'加])。在第一次EM迭代中,每個(gè)音頻源j的頻譜參數(shù)可 W是來自S601的初始化的頻譜參數(shù)。在后續(xù)EM迭代中,可W使用來自之前的EM迭代、例 如來自之前的EM迭代的最大化步驟中的經(jīng)過更新的頻譜參數(shù)。
[0138] 在子步驟S6022,可W通過使用在S6021獲得的功率譜及空間參數(shù)Af。,根 據(jù)公式(10)或(11)來估計(jì)空間參數(shù)的逆矩時(shí)^.,1。在第一次EM迭代中,空間參數(shù)Af???W是來自S601的初始化的空間參數(shù)。在后續(xù)EM迭代中,可W使用來自之前的EM迭代、例 如來自之前的EM迭代的最大化步驟中的經(jīng)過更新的空間參數(shù)。
[0139] 在期望步驟S602的子步驟S6023,可W在自適應(yīng)去相關(guān)模型中更新功率譜fsi/w 和空間參數(shù)的逆矩陣。該更新可W參見W上關(guān)于自適應(yīng)去相關(guān)模型和圖5中示出的偽 代碼2的描述。在步驟S6023,逆矩陣可W用來自步驟S6022的逆矩陣來初始化,并且 可W根據(jù)來自步驟S6021的功率譜來初始化音頻源的協(xié)方差矩陣Cs/γι。
[0140] 在期望步驟S602,還可W在子步驟S6024中計(jì)算協(xié)方差矩陣和互協(xié)方差矩 的條件估計(jì),^便更新^1'司參數(shù)。協(xié)方差矩陣巧自^應(yīng)*相關(guān)模型中 例如通過公式(15)來計(jì)算。互協(xié)方差矩陣石XS/ri可W被如下地計(jì)算:
[0141]
(18) 陽142] 對(duì)于最大化步驟S603,可W更新空間參數(shù)Af。和頻譜參數(shù){W ,,H,}。在一些示例實(shí) 施例中,可W基于來自期望步驟S602的協(xié)方差矩陣fs./n和互協(xié)方差矩陣f JfSJn來如下 地更新空間參數(shù)Af。: 陽1創(chuàng)
(19)
[0144] 在一些示例實(shí)施例中,可W通過使用來自期望步驟S602的功率譜is/tz、基于圖4 中示出的第一迭代過程來更新頻譜參數(shù)例如,可W通過公式(5)來更新頻譜參數(shù) W,,同時(shí)根據(jù)通過公式(6)來更新頻譜參數(shù)H,。
[0145] 在S603之后,EM迭代過程然后可W返回S602,并且經(jīng)過更新的空間參數(shù)Af。和頻 譜參數(shù)(Wj,Hj}可W用作S6〇2的輸入。
[0146] 在一些示例實(shí)施例中,在開始下一次EM迭代過程之前,可W通過采用Σ 1 k,, f。12=1和Σ fWj,fk= 1、并據(jù)此縮放h j,k。,來歸一化空間參數(shù)Af。和頻譜參數(shù){W j,Hj}。歸一化 可W消除瑣碎的尺度不確定性。 陽147] EM迭代過程的次數(shù)可W是預(yù)定的,從而可W基于最終的空間參數(shù)來獲得具有感知 上自然的聲音W及適當(dāng)?shù)南嗷フ怀潭鹊囊纛l源。
[0148] 圖7示出了根據(jù)本文中所公開的第一實(shí)施方式的在源參數(shù)的聯(lián)合確定時(shí)的信號(hào) 流的示意圖。為了簡單,僅將具有兩個(gè)音頻源(鳴響源和語音源)的單聲道混音信號(hào)圖示 為輸入音頻內(nèi)容。
[0149] 輸入音頻內(nèi)容首先由系統(tǒng)300的第一中間參數(shù)確定單元3031在加性模型(例 如,NMF模型)中處理,W確定鳴響源和語音源的功率譜。圖7中描繪的頻譜參數(shù){Wchim。, FXK,Hchimejxj和iWspEwhjXK,HspewhjxJ可W表示所確定的功率譜,因?yàn)樵贜MF模型中,對(duì) 于每個(gè)音頻源j,它的功率譜
由系統(tǒng)300的第二中間參數(shù)確定單元3032在 獨(dú)立/非相關(guān)模型(例如,自適應(yīng)去相關(guān)模型)中更新功率譜。圖7中描繪的協(xié)方差矩 可W表示經(jīng)過更新的功率譜,因?yàn)樵谧赃m應(yīng)去相關(guān)模型 4
。經(jīng)過更新的功率譜然后可W被提供至空間參數(shù)確定單元 3033, W獲得鳴響源和語音源的空間參數(shù),Achim。和Aspewh??臻g參數(shù)然后可W被饋送回第一 中間參數(shù)確定單元3031,W用于下一次迭代處理。迭代過程可W繼續(xù),直至達(dá)到某個(gè)收斂。 加] 第二示例連施方式 陽151] 在第二示例實(shí)施方式中,為了確定音頻源的空間參數(shù),可W首先基于正交特性來 確定音頻源的功率譜,并且然后可W基于線性組合特性來更新音頻源的功率譜。音頻源的 空間參數(shù)可W基于經(jīng)過更新的功率譜來確定。 陽152] 在系統(tǒng)300的示例實(shí)施例中,聯(lián)合確定器303的第一中間參數(shù)確定單元3031可W 被配置為基于獨(dú)立/非相關(guān)源模型、諸如自適應(yīng)去相關(guān)模型來確定功率譜參數(shù)。聯(lián)合確定 器303的第二中間參數(shù)確定單元3032可W被配置為基于加性源模型、諸如NMF模型來精細(xì) 化功率譜參數(shù)。然后,空間參數(shù)確定單元3033可W被配置為基于經(jīng)過更新的功率譜參數(shù)來 確定音頻源的空間參數(shù)。
[0153] 在一些示例實(shí)施例中,空間參數(shù)的聯(lián)合確定可期望最大化(EM)迭代過程來 處理。在每次迭代過程中,對(duì)于期望步驟,可W通過使用在之前的EM迭代(例如,上一次的 EM迭代)中確定的空間參數(shù)和頻譜參數(shù),來基于正交特性確定音頻源的功率譜參數(shù),可W 基于線性組合特性來更新音頻源的功率譜參數(shù),并且可W基于經(jīng)過更新的功率譜參數(shù)來更 新音頻源的空間參數(shù)和頻譜參數(shù)。
[0154] 將基于NMF模型和自適應(yīng)去相關(guān)模型的上述描述來描述示例過程。參照?qǐng)D8,其描 繪了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的用于空間參數(shù)確定的過程800的流程圖。
[0155] 在S801,可W初始化用于該確定的源參數(shù)。在W上描述了源參數(shù)初始化。在一些 示例實(shí)施例中,源參數(shù)初始化可W由系統(tǒng)300的源參數(shù)初始化單元301來執(zhí)行。
[0156] 對(duì)于期望步驟S802,可W在S8021處通過使用空間參數(shù)Af。和頻譜參數(shù){W ,,H,}, 根據(jù)公式(10)或(11)來估計(jì)空間參數(shù)的逆矩陣頻譜參數(shù)可W用于計(jì)算在 公式(10)或(11)中使用的音頻源的功率譜在EM迭代過程的第一次EM迭代中,可 W使用來自S801的初始化的空間參數(shù)和頻譜參數(shù)。在后續(xù)EM迭代中,可W使用來自之前 的EM迭代、例如來自之前的EM迭代的最大化步驟中的經(jīng)過更新的空間參數(shù)和頻譜參數(shù)。
[0157] 在子步驟S6022,可W在自適應(yīng)去相關(guān)模型中確定功率譜fs/?和空間參數(shù)的逆 矩陣β/ιΚ。運(yùn)個(gè)確定可W參見W上關(guān)于自適應(yīng)去相關(guān)模型和圖5中示出的偽代碼2的描 述。在期望步驟802中,逆矩陣&/,η可W用來自子步驟S8021的逆矩陣來初始化。在第一 次ΕΜ迭代中,可W使用來自S801的頻譜參數(shù)的初始化值來初始化音頻源的協(xié)方差 矩陣。在后續(xù)的EM迭代中,可^使用來自之前的EM迭代、例如來自之前的EM迭代的 最大化步驟的經(jīng)過更新的頻譜參數(shù){W,,H,}。
[0158] 在子步驟S8023,可W在NMF模型中更新功率譜若&/U,并且然后更新逆矩陣 %,"。功率諧的更新可W參看W上關(guān)于NMF模型的描述和圖4中的偽代碼1。例如, 可W使用頻譜參數(shù){W,,H,},在該步驟中更新來自步驟S8022的功率譜。偽代碼1中頻 譜參數(shù){W,,H,}的初始化可W是來自S801的初始化的值,或者可W是來自之前的EM迭代、 例如之前的迭代的最大化步驟的經(jīng)過更新的數(shù)值。可W通過使用公式(10)或(11)在NMF 模型中基于經(jīng)過更新的功率譜來更新逆矩陣β/,η。
[0159] 在期望步驟S802中,還可W在子步驟S8024中計(jì)算協(xié)方差矩陣Cs/n郝互協(xié)方差 矩陣fxs/ii的條件估計(jì),W便更新空間參數(shù)。協(xié)方差矩陣托|/71和互協(xié)方差矩陣 的計(jì)算類似于在第一示例實(shí)施例中所描述的,為了清楚性,再此被省略。
[0160] 對(duì)于最大化步驟S803,可W更新空間參數(shù)Af。和頻譜參數(shù)可W基于來自 期望步驟S802的協(xié)方差矩陣和互協(xié)方差矩陣Gxs,fh,根據(jù)公式(19)來更新空間參 數(shù)。在一些示例實(shí)施例中,可W通過使用來自期望步驟S802的功率譜基于圖4中示 出的第一迭代過程來更新頻譜參數(shù){W,,H,}。例如,可W通過公式(5)來更新頻譜參數(shù)W,, 同時(shí)根據(jù)通過公式(6)來更新頻譜參數(shù)H,。 陽16U 在S803之后,EM迭代過程然后可W返回S802,并且經(jīng)過更新的空間參數(shù)Af。和頻 譜參數(shù)(Wj,Hj}可W用作SS〇2的輸入。
[0162] 在一些示例實(shí)施例中,在開始下一次EM迭代過程之前,可W通過采用Σ 1 k,, f。12=1和Σ fWj,fk= 1、并據(jù)此縮放h j,k。,來歸一化空間參數(shù)Af。和頻譜參數(shù){W j,Hj}。歸一化 可W消除瑣碎的尺度不確定性。
[0163] EM迭代過程的次數(shù)可W是預(yù)定的,從而可W基于最終的空間參數(shù)來獲得具有感知 上自然的聲音W及適當(dāng)?shù)南嗷フ怀潭鹊囊纛l源。
[0164] 圖9示出了根據(jù)本文中所公開的第二實(shí)施方式的在源參數(shù)的聯(lián)合確定時(shí)的信號(hào) 流的示意圖。為了簡單,僅解釋說明具有兩個(gè)音頻源(鳴響源和語音源)的單聲道混音信 號(hào)作為輸入音頻內(nèi)容的情況。
[01化]輸入音頻內(nèi)容首先由系統(tǒng)300的第一中間參數(shù)確定單元3031在獨(dú)立/非相關(guān)模 型(例如,自適應(yīng)去相關(guān)模型)中處理,W確定鳴響源和語音源的功率譜。圖9中描繪的協(xié) 方差矩陣和可W表不所確定的功率譜怖,舊為在自適應(yīng)去 相關(guān)模型中
由系統(tǒng)300的第二中間參數(shù)確定單元3032在加 性模型(例如,NMF模型)中更新功率譜。圖9中描繪的頻譜參數(shù){WchimeJXK,Hchime,KxJ和 iWspeech,FXK,Hs陽ech,FxJ可W表示經(jīng)過更新的功率譜,因?yàn)樵贜MF模型中,對(duì)于每個(gè)音頻源j, 它的功率譜% 經(jīng)過更新的功率譜然后可W被提供至空間參數(shù)確定單元3033, W獲得鳴響源和語音源的空間參數(shù),Achim。和Aspewh??臻g參數(shù)然后可W被饋送回第一中間 參數(shù)確定單元3031,W用于下一次迭代處理。迭代過程可W繼續(xù),直至達(dá)到某個(gè)收斂。 陽16引 第立示例連施方式
[0167] 在第Ξ示例實(shí)施方式中,為了確定音頻源的空間參數(shù),可W首先利用正交特性并 且然后利用線性組合特性。但是與第二示例實(shí)施方式的一些實(shí)施例不同,基于正交特性的 功率譜的確定在EM迭代過程之外。也就是說,可W在EM迭代過程開始之前,通過使用空間 參數(shù)和頻譜參數(shù)的初始化值,來基于正交特性確定音頻源的功率譜參數(shù)。然后在EM迭代過 程中更新所確定的功率譜參。在EM迭代過程的每次EM迭代中,通過使用在之前的EM迭代 (例如,上一次EM迭代)中確定的頻譜參數(shù),來基于線性組合特性更新音頻源的功率譜參 數(shù),并且然后可W基于經(jīng)過更新的功率譜參數(shù)來更新音頻源的空間參數(shù)和頻譜參數(shù)。
[0168] 在第Ξ示例實(shí)施例中,可W在EM迭代過程中使用NMF模型來更新空間參數(shù)。因?yàn)?NMF模型對(duì)于初始化值很敏感,利用由自適應(yīng)去相關(guān)模型確定的更合理的數(shù)值,NMF模型的 結(jié)果對(duì)于音頻源分離而言將會(huì)更好。
[0169] 將基于NMF模型和自適應(yīng)去相關(guān)模型的上述描述來描述示例過程。參照?qǐng)D10, 其描繪了根據(jù)本文中所公開的又一個(gè)示例實(shí)施例的用于空間參數(shù)確定的過程1000的流程 圖。 陽170] 在步驟S1001,在子步驟S10011可W初始化用于該確定的源參數(shù)。在W上描述了 源參數(shù)初始化。在一些示例實(shí)施例中,源參數(shù)初始化可W由系統(tǒng)300的源參數(shù)初始化單元 301來執(zhí)行。 陽171] 在子步驟S10012,可W通過使用初始化的頻譜參數(shù)和空間參數(shù)Af。,根據(jù)公 式(10)或(11)來估計(jì)逆矩陣β/,"。頻譜參數(shù){W,,H,}可W用于計(jì)算在公式(10)或(11) 中使用的音頻源的功率譜。
[0172] 在子步驟S10013,可W在自適應(yīng)去相關(guān)模型中確定功率譜和空間參數(shù)的逆 矩陣%,n。運(yùn)個(gè)確定可W參見W上關(guān)于自適應(yīng)去相關(guān)模型和圖5中示出的偽代碼2的描 述。在偽代碼2中,逆矩陣可W用在S10012確定的逆矩陣來初始化。在偽代碼2中,可 W使用來自S10011的頻譜參數(shù)的初始化值來初始化音頻源的協(xié)方差矩陣 陽173] 對(duì)于期望步驟S1002,可W在子步驟S10021處在NMF模型中更新功率譜fsi/;:。功 率譜馬^|/?的更新可W參看W上關(guān)于NMF模型的描述和圖4中的偽代碼1。偽代碼1中頻 譜參數(shù){W,,H,}的初始化可W是來自S10011的初始化的值,或者可W是來自之前的EM迭 代、例如之前的迭代的最大化步驟的經(jīng)過更新的數(shù)值。
[0174] 在子步驟S10022,通過使用在S10021獲得的功率譜^ ; α和空間參數(shù)Af。,根據(jù)公 式(10)或(11)來更新逆矩陣·β/,η。在第一次迭代中,可W使用空間參數(shù)的初始化值。在 后續(xù)的迭代中,可W使用來自之前的EM迭代、例如來自之前的迭代的最大化步驟的空間參 數(shù)的經(jīng)過更新的數(shù)值。
[01巧]在期望步驟S1002中,還可W在子步驟S10024中計(jì)算協(xié)方差矩陣和互協(xié)方 差矩陣的條件估計(jì),W便更新空間參數(shù)。協(xié)方差矩陣和互協(xié)方差矩陣 的計(jì)算類似于在第一示例實(shí)施例中所描述的,為了清楚性,再此被省略。 陽176] 對(duì)于最大化步驟S1003,可W更新空間參數(shù)Af。和頻譜參數(shù){W ,,H,}??蒞基于來 自期望步驟S1002的協(xié)方差矩陣和互協(xié)方差矩陣根據(jù)公式(19)來更新空 間參數(shù)。在一些示例實(shí)施例中,可W通過使用來自期望步驟S802的功率譜、基于圖 4中示出的第一迭代過程來更新頻譜參數(shù)例如,可W通過公式(5)來更新頻譜參 數(shù)W,,同時(shí)根據(jù)通過公式(6)來更新頻譜參數(shù)H,。 陽177] 在S1003之后,EM迭代過程然后可W返回S1002,并且在S1003中獲得的空間參數(shù) Afn和頻譜參數(shù){W i,Hj}可W用作S10〇2的輸入。
[0178] 在一些示例實(shí)施例中,在開始下一次EM迭代過程之前,可W通過采用Σ 1 k,, f。12=1和Σ fWj,fk= 1、并據(jù)此縮放h j,k。,來歸一化空間參數(shù)Af。和頻譜參數(shù){W j,Hj}。歸一化 可W消除瑣碎尺度的不確定性。
[0179] EM迭代過程的次數(shù)可W是預(yù)定的,從而可W基于最終的空間參數(shù)來獲得具有感知 上自然的聲音W及適當(dāng)?shù)南嗷フ怀潭鹊囊纛l源。
[0180] 圖11示出了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于在圖3的系統(tǒng)中使用的 聯(lián)合確定器303的框圖。圖11中描繪的聯(lián)合確定器303可W被配置為執(zhí)行圖10的過程。 如圖11中所描繪的,第一中間參數(shù)確定單元3031可W被配置為在EM迭代過程之外確定中 間參數(shù)。具體地,第一中間參數(shù)確定單元3031可W用于執(zhí)行W上所描述的步驟S10012和 S10013。為了在加性模型、例如NMF模型中更新中間參數(shù),第二中間參數(shù)確定單元3032可 W被配置為執(zhí)行期望步驟S1002,并且空間參數(shù)確定單元3033可W被配置為執(zhí)行最大化步 驟S1003。確定單元3033的輸出可W被提供給確定單元3032作為輸入。 陽181] 圖12示出了根據(jù)本文中所公開的第Ξ實(shí)施方式的在源參數(shù)的聯(lián)合確定時(shí)的信號(hào) 流的示意圖。為了簡單,僅將具有兩個(gè)音頻源(鳴響源和語音源)的單聲道混音信號(hào)圖示 為輸入音頻內(nèi)容。 陽182] 輸入音頻內(nèi)容首先由系統(tǒng)300的第一中間參數(shù)確定單元3031在獨(dú)立/非相關(guān)模 型(例如,自適應(yīng)去相關(guān)模型)中處理,W確定鳴響源和語音源的功率譜。圖12中描繪的 協(xié)方差矩陣W和訊iFxW可W表示所確定的功率譜f&/",:因?yàn)樵谧赃m應(yīng) 去相關(guān)模型中
,由系統(tǒng)300的第二中間參數(shù)確定單元3032在加 性模型(例如,NMF模型)中更新功率譜。圖12中描繪的頻譜參數(shù)和 iWspeech,FXK,Hs陽ech,FxJ可W表示經(jīng)過更新的功率譜,因?yàn)樵贜MF模型中,對(duì)于每個(gè)音頻源j, 它的功率譜% ? Wy///·。經(jīng)過更新的功率譜然后可W被提供至空間參數(shù)確定單元3033, W獲得鳴響源和語音源的空間參數(shù),Achim。和Aspewh??臻g參數(shù)然后可W被饋送回第二中間 參數(shù)確定單元3032, W用于下一次迭代處理。確定單元3032和3033的迭代過程可W繼續(xù), 直至達(dá)到某個(gè)收斂。 陽183] 正交程度的控制
[0184] 如W上所提及的,可W將要被分離的音頻源的正交控制到適當(dāng)?shù)某潭?,從而可W 獲得愉悅的聲源。正交程度的控制可W被結(jié)合在上述第一、第二和第Ξ實(shí)施方式中的一個(gè) 或多個(gè)實(shí)施方式中,并且可W例如由圖3中的正交程度設(shè)置單元302來執(zhí)行。
[0185] 不具有適當(dāng)?shù)恼患s束的NMF模型有時(shí)候不足夠,因?yàn)椴煌纛l源的類似的頻譜 模式的同時(shí)形成是有可能的。因此,難W保證一個(gè)音頻源在音頻源分離之后與另一個(gè)音頻 源是獨(dú)立/非相關(guān)的。運(yùn)可能導(dǎo)致不良的收斂性能并且在某些情況下甚至是偏離。特別地, 當(dāng)"音頻源移動(dòng)性"被設(shè)置用于估計(jì)快速移動(dòng)的音頻源時(shí),空間參數(shù)可W是時(shí)間變化的,并 且因此空間參數(shù)Af??赡苄枰鹛毓烙?jì)。如公式(19)給出的,通過計(jì)算三/1,1來 估計(jì)Af。,其中包括了音頻源的協(xié)方差矩陣的逆。源之間的高相關(guān)性可能導(dǎo)致不良的 逆,從而將導(dǎo)致估計(jì)時(shí)間變化的空間參數(shù)的不穩(wěn)定性。運(yùn)些問題可W通過引入對(duì)獨(dú)立/非 相關(guān)源模型的聯(lián)合確定的正交約束來有效地解決。 陽186] 另一方面,假設(shè)音頻源/成分在統(tǒng)計(jì)上是不相關(guān)(例如,自適應(yīng)去相關(guān)方法和PCA) 或獨(dú)立(例如,ICA)的獨(dú)立/非相關(guān)源模型可W產(chǎn)生頻譜上的卷曲,運(yùn)可能降低感知上的 質(zhì)量。運(yùn)些模型的一個(gè)缺點(diǎn)是源自于跨越時(shí)頻平面的分散的不自然且間隔的時(shí)頻燈巧段 的可感知的瑕疵、諸如音樂噪聲。相反,由NMF模型生成的音頻源通常聽起來更愉悅并且表 現(xiàn)得較少生成運(yùn)樣的瑕疵。
[0187] 因此,在聯(lián)合確定中使用的加性源模型與獨(dú)立/非相關(guān)模型之間的折衷,W便獲 得愉悅的聲源而不管音頻源之間的可接受的一定量的相關(guān)性。
[0188] 在一些示例實(shí)施例中,在自適應(yīng)去相關(guān)模型中執(zhí)行的迭代過程,例如偽代碼2示 出的迭代過程可W被控制,W使得約束要被分離的音頻源之間的正交。正交程度可W通過 分析輸入音頻內(nèi)容來控制。
[0189] 圖13描繪了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于正交控制的方法1300的 流程圖。
[0190] 在S1301,可W根據(jù)音頻內(nèi)容來確定音頻內(nèi)容的協(xié)方差矩陣。音頻內(nèi)容的協(xié)方差矩 陣可W例如根據(jù)公式(4)來確定。 陽191] 可W通過輸入信號(hào)的偏差化ias)來度量輸入音頻內(nèi)容的正交。輸入信號(hào)的偏差 可W指示輸入音頻內(nèi)容有多接近"單位秩(unity-rank)"。例如,如果作為混音信號(hào)的音頻 內(nèi)容是通過簡單地平移單個(gè)音頻源生成的,那么運(yùn)個(gè)信號(hào)是"單位秩"。如果混音信號(hào)在每 個(gè)聲道中包括非相關(guān)的噪聲或擴(kuò)散信號(hào),它可W具有秩I。如果混音信號(hào)包括單個(gè)對(duì)象源加 上少量的非相關(guān)噪聲,它也可W具有秩I,但是相反可能需要一個(gè)度量來描述運(yùn)些信號(hào)"接 近于單位秩",通常而言,音頻內(nèi)容越接近單位秩,聯(lián)合確定越確信/更少不確定地應(yīng)用相對(duì) 完全的獨(dú)立/非相關(guān)約束。典型地,NMF模型可W處理非相關(guān)的噪聲或擴(kuò)散信號(hào),而被認(rèn)為 在"接近于單位秩"的信號(hào)中滿意地工作的獨(dú)立/非相關(guān)模型易于引入對(duì)擴(kuò)散信號(hào)的過校 正,導(dǎo)致例如被感知為音樂噪聲的分散的TF段。 陽192]用于指示"接近于單位秩"的程度的一個(gè)特征被稱為音頻內(nèi)容的協(xié)方差矩陣f。 的純度(purity)。因此,在該實(shí)施例中,音頻內(nèi)容的協(xié)方差矩陣C、,f??蒞被計(jì)算,W用于控 制要被分離的音頻源之間的正交度。 陽193] 在S1302,可W基于音頻內(nèi)容的協(xié)方差矩陣來確定正交闊值。 陽194] 在一個(gè)示例實(shí)施例中,協(xié)方差矩陣f??蒞被歸一化為特別地,協(xié)方差 矩陣C、,f。的特征值λ i(i = 1,...,I)可W被歸一化,從而所有特征值的總和等于1。可 W例如通過確定特征值的平方的總和、例如通過被歸一化的協(xié)方差矩陣的化obenius范數(shù)
,來確定協(xié)方差矩陣的純度。在此,丫表示協(xié)方差矩陣C、,f。的純 度。
[01巧]可W由純度的下邊界和上邊界來獲得正交闊值。在一些示例中,當(dāng)所有特征值相 等時(shí),獲得純度的下邊界,例如y= 運(yùn)指示了最擴(kuò)散和不確定的情況。當(dāng)一個(gè)特征值等 于1且其他所有特征值是零時(shí),獲得純度的上邊界,例如丫 = 1,運(yùn)指示了最簡單和最確信 的情況。Cy 的秩等于非零特征值的數(shù)目,因此說純度特征可W反映能量在何種程度上 不平等地在輸入音頻內(nèi)容(混音信號(hào))的潛在的成分之間,運(yùn)是有道理的。 陽196] 為了更好地度量正交闊值,名為輸入音頻內(nèi)容的偏差的另一種度量可W進(jìn)一步基 于純度來如下地計(jì)算:
[0197]
^20 j
[0198] 偏差可W Ψχ在0到1之間變化。Ψ χ= 0意味著輸入音頻內(nèi)容是完全擴(kuò)散的,運(yùn) 進(jìn)一步意味著應(yīng)當(dāng)在聯(lián)合確定中應(yīng)用較少的獨(dú)立/非相關(guān)約束。ψχ= 1意味著音頻內(nèi)容 是單位秩,并且更接近于1的偏差Ψχ意味著音頻內(nèi)容更接近于單位秩。在運(yùn)些情況中,可 W在聯(lián)合確定中設(shè)置獨(dú)立/非相關(guān)模型的更多次數(shù)的迭代。
[0199] 方法1300然后行進(jìn)至S1302,其中基于正交闊值來確定獨(dú)立/非相關(guān)模型中的迭 代過程的迭代次數(shù)。 陽200] 正交闊值可W用于設(shè)置獨(dú)立/非相關(guān)模型中的迭代過程(參見上述第二迭代過程 W及圖5中示出的偽代碼2)的迭代次數(shù),W控制正交程度。在一個(gè)示例實(shí)施例中,可W基 于正交闊值來確定迭代次數(shù)的闊值,W便于控制迭代過程。在另一個(gè)示例實(shí)施例中,可W基 于正交闊值來確定收斂闊值,W便控制迭代過程。獨(dú)立/非相關(guān)模型中的迭代過程的收斂 度可W被確定為:
[0201]
(21) 陽202] 在每次迭代中,如果收斂小于該闊值,迭代過程結(jié)束。 陽203] 在又一個(gè)示例實(shí)施例中,兩次連續(xù)迭代之間的差異闊值可W被設(shè)置用于迭代過 程。兩次連續(xù)迭代之間的差異可W被表示為: 悅 04]
(2;2) 陽205] 如果前一次迭代與當(dāng)前迭代的收斂度之間的差異小于該闊值,那么迭代過程結(jié) 束。 陽206] 在又一個(gè)示例實(shí)施例中,可W在迭代過程中考慮迭代次數(shù)闊值、收斂闊值和兩次 連續(xù)迭代之間的差異闊值中的兩個(gè)或更多個(gè)。 陽207] 圖14描繪了根據(jù)本文中所公開的一個(gè)示例實(shí)施例的用于圖5的迭代過程中的 參數(shù)確定的偽代碼3的示意圖。在示例實(shí)施例中,可W基于正交闊值確定迭代次數(shù)iter_ Gradient、收斂度量闊值tb_conv和兩次連續(xù)迭代之間的差異闊值tb_conv_diff。所有 運(yùn)些參數(shù)可W用于引導(dǎo)獨(dú)立/非相關(guān)模型中的迭代過程,W便控制正交程度。 陽20引在上述描述中,描述了用于音頻源分離的空間參數(shù)的聯(lián)合確定。聯(lián)合確定可W在 加性模型和獨(dú)立/非相關(guān)模型的基礎(chǔ)上來實(shí)施,從而可W基于最終的空間參數(shù)來獲得感知 上自然且具有適當(dāng)?shù)南嗷フ怀潭鹊囊纛l源。 陽209] 應(yīng)當(dāng)理解到,獨(dú)立/非相關(guān)建模方法和加性建模方法兩者均具有置換不確定性的 問題。也就是說,對(duì)于獨(dú)立/非相關(guān)建模方法,置換不確定性來自于對(duì)每個(gè)子頻帶的單獨(dú)處 理,運(yùn)種不明確性假設(shè)了一個(gè)源的子頻帶的獨(dú)立性。對(duì)于加性建模方法(例如,NMF),對(duì)應(yīng) 于全部物理實(shí)體的音頻源的分離需要關(guān)于每個(gè)單獨(dú)的源聚類NMF成分。NMF成分在頻率上 跨度,但是由于它們跨時(shí)間的固定頻譜,NMF成分可能僅建模需要被進(jìn)一步聚類的簡單的音 頻對(duì)象/成分。
[0210] 相反,在本文中所公開的示例實(shí)施例,諸如在圖7、9和12中所描述的運(yùn)些示例實(shí) 施例,通過聯(lián)合地估計(jì)源的空間參數(shù)和頻譜參數(shù)、并且因此禪合頻帶來有利地解決了運(yùn)個(gè) 置換的不對(duì)準(zhǔn)問題。運(yùn)是基于如下的假設(shè):源自于同一個(gè)聲學(xué)源的成分共享類似的空間協(xié) 方差屬性,被稱為對(duì)象源?;诳臻g系數(shù)之間的一致性,圖3中所提出的系統(tǒng)可W用于將兩 個(gè)NMF成分和獨(dú)立/非相關(guān)建模的時(shí)頻段相關(guān)聯(lián),W便分離聲學(xué)源。 悅11] 在W上描述中,基于加性模型、例如NMF模型化及獨(dú)立/非相關(guān)模型、例如自適應(yīng) 去相關(guān)模型來描述了空間參數(shù)的聯(lián)合確定。 陽212] 加性建模、諸如NMF建模的一個(gè)優(yōu)點(diǎn)在于模型的總和可W等于音頻聲音的總和, 諸如 Wj, FX (K1+K2) · Hj, (K1+K幻 XN - W j, FXK1 · Hj, KIXN+Wj, FXK2 · Hj, K2XN。
[0213] 如果輸入音頻內(nèi)容被加性源模型建模為一組基本成分的總和,并且通過對(duì)該組基 本成分進(jìn)行分組來生成音頻源,那么運(yùn)些源可W被指示為"內(nèi)部源"。如果一組音頻源獨(dú)立 地由加性源模型建模,運(yùn)些源可W被指示為"外部源",諸如在W上EM算法中分離的音頻 源。本文中所公開的示例實(shí)施例提供的優(yōu)勢在于它們能夠?qū)下各項(xiàng)均設(shè)置精細(xì)化或者約 束:1)加性源模型(例如,NMF)和諸如獨(dú)立/非相關(guān)模型的其他模型兩者;化及。不僅對(duì) 內(nèi)部源而且還可W對(duì)外部源進(jìn)行精細(xì)化或約束,從而一個(gè)源可W被強(qiáng)制為與另一個(gè)源獨(dú)立 /非相關(guān),或者具有可調(diào)節(jié)的正交程度。
[0214] 因此,在本文中所公開的示例實(shí)施例中,可W獲得具有感知上自然的聲音W及適 當(dāng)?shù)南嗷フ怀潭鹊囊纛l源。
[0215] 在本文中所公開的一些進(jìn)一步的示例實(shí)施例中,為了更好地提取音頻源,多聲道 的音頻內(nèi)容可W被分離為多聲道的直達(dá)信號(hào)<Xf,"〉dirwt和多聲道的擴(kuò)散信號(hào)<Xf,AmbuMe。 如本文中所使用的,術(shù)語"直達(dá)信號(hào)"指的是由音頻源生成的、給聽者W所聽到的源具有明 顯方向的印象的音頻信號(hào)。術(shù)語"擴(kuò)散信號(hào)"指的是給聽者W所聽到的源不具有顯著的方 向或者是由聽者周圍的大量方向傳來的印象。通常,直達(dá)信號(hào)可能源自于在聲道之間平移 的多個(gè)直達(dá)對(duì)象源。擴(kuò)散信號(hào)可能與直達(dá)聲源的相關(guān)性較弱并且/或者可能在聲道之間分 布,諸如環(huán)境聲、混響(reverberation)等。
[0216] 因此,可W基于聯(lián)合確定的空間參數(shù),從直達(dá)音頻信號(hào)中分離出音頻源。在一個(gè)示 例實(shí)施例中,可W使用如下的維納濾波來構(gòu)建多聲道的音頻源信號(hào)的時(shí)頻域:
[0217]
(23)
[0218] 公式(23)中的參數(shù)Df,。在欠定條件下可W由公式(10)給出,并且在超定條件下 可W由公式(11)給出。運(yùn)樣的維納重建在W下方面是保守的:所提取的音頻源信號(hào)和加性 噪聲加起來是時(shí)頻域中的多聲道直達(dá)信號(hào)<Xf,"〉duwt。 陽219] 注意到,在聯(lián)合確定的示例實(shí)施例中,在空間參數(shù)的聯(lián)合確定中所考慮的源參 數(shù)、包括Df,。,可W仍然是在原始輸入音頻內(nèi)容Xf,。的基礎(chǔ)上而不是在分解的直達(dá)信號(hào)<X f, 的基礎(chǔ)上被生成的。因此,根據(jù)原始輸入音頻內(nèi)容獲得的源參數(shù)可W與分解算法解 禪合并且顯得更不易于產(chǎn)生不穩(wěn)定性的瑕疵。 陽220] 圖15描繪了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的音頻源分離的系統(tǒng)1500 的框圖。系統(tǒng)1500是系統(tǒng)300的擴(kuò)展并且包括另外的組件,環(huán)境/直達(dá)分解器305。系統(tǒng) 1500中的組件301-303的功能可W與W上參照系統(tǒng)399描繪的那些一樣。在一些示例實(shí)施 例中,聯(lián)合確定器303可W由圖11描繪的聯(lián)合確定器來替換。 陽221] 環(huán)境/直達(dá)分解器305可W被配置為接收W時(shí)頻域表示的輸入音頻內(nèi)容Xf,。,并 且獲得包括環(huán)境信號(hào)<Xf,"〉^bi。。。。和直達(dá)信號(hào)<X 的多聲道音頻信號(hào)。環(huán)境信號(hào)<X f, n〉ambiance可W由系統(tǒng)ISOO輸出,并且直達(dá)信號(hào)<X f,n〉direct可W被提供到音頻源提取器3〇4。 陽222] 音頻源提取器304可W被配置為接收從原始輸入音頻內(nèi)容中分解的直達(dá)信號(hào)<Xf, 的時(shí)頻域表示,并且輸出分離的音頻源信號(hào)S f,。。 陽223]圖16描繪了根據(jù)本文中所公開的另一個(gè)示例實(shí)施例的音頻源分離的系統(tǒng)1600的 框圖。如所描繪的,系統(tǒng)1600包括聯(lián)合確定單元1601,被配置為基于音頻內(nèi)容中要被分離 的音頻源的線性組合特性和音頻內(nèi)容中要被分離的兩個(gè)或更多音頻源之間的正交特性,來 確定音頻源的空間參數(shù)。系統(tǒng)1600還包括音頻源分離單元1602,被配置為基于空間參數(shù), 來從音頻內(nèi)容中分離音頻源。
[0224] 在一些示例實(shí)施例中,要被分離的音頻源的數(shù)目是預(yù)定的。
[02巧]在一些示例實(shí)施例中,聯(lián)合確定單元1601可W包括功率譜確定單元,被配置為基 于線性組合特性和正交特性中的一個(gè)特性,確定音頻源的功率譜參數(shù);功率譜更新單元,被 配置為基于線性組合特性和正交特性中的另一個(gè)特性,更新功率譜參數(shù);W及空間參數(shù)確 定單元,被配置為基于經(jīng)過更新的功率譜參數(shù),確定音頻源的空間參數(shù)。 陽226] 在一些示例實(shí)施例中,聯(lián)合確定單元1602可W進(jìn)一步被配置為W期望最大化 (EM)迭代過程來確定音頻源的空間參數(shù)。在運(yùn)些示例實(shí)施例中,系統(tǒng)1600進(jìn)一步包括初 始化單元,被配置為在EM迭代過程開始之前,為音頻源的空間參數(shù)和頻譜參數(shù)設(shè)置初始化 值,頻譜參數(shù)的初始化值是非負(fù)的。
[0227] 在一些示例實(shí)施例中,在聯(lián)合確定單元1601中,對(duì)于EM迭代過程中的每次EM迭 代,功率譜確定單元可W被配置為通過使用在之前的EM迭代中確定的音頻源的頻譜參數(shù), 來基于線性組合特性確定音頻源的功率譜參數(shù);功率譜更新單元可W被配置為基于正交特 性來更新音頻源的功率譜參數(shù);W及空間參數(shù)確定單元可W被配置為基于經(jīng)過更新的功率 譜參數(shù)來更新音頻源的空間參數(shù)和頻譜參數(shù)。 陽22引在一些示例實(shí)施例中,在聯(lián)合確定單元1601中,對(duì)于EM迭代過程中的每次EM迭 代,功率譜確定單元可W被配置為通過使用在之前的EM迭代中確定的音頻源的空間參數(shù) 和頻譜參數(shù),來基于正交特性確定音頻源的功率譜參數(shù);功率譜更新單元可W被配置為基 于線性組合特性來更新音頻源的功率譜參數(shù);W及空間參數(shù)確定單元可W被配置為基于經(jīng) 過更新的功率譜參數(shù)來更新音頻源的空間參數(shù)和頻譜參數(shù)。 陽229] 在一些示例實(shí)施例中,功率譜確定單元可W被配置為在EM迭代過程開始之前,通 過使用空間參數(shù)和頻譜參數(shù)的初始化值,來基于正交特性確定音頻源的功率譜參數(shù)。在運(yùn) 些示例實(shí)施例中,對(duì)于EM迭代過程中的每次EM迭代,功率譜更新單元可W被配置為通過使 用在之前的EM迭代中確定的音頻源的頻譜參數(shù),來基于線性組合特性更新音頻源的功率 譜參數(shù);W及空間參數(shù)確定單元可W被配置為基于經(jīng)過更新的功率譜參數(shù)來更新音頻源的 空間參數(shù)和頻譜參數(shù)。
[0230] 在一些示例實(shí)施例中,音頻源的頻譜參數(shù)可W由非負(fù)矩陣分解模型來建模。 陽231] 在一些示例實(shí)施例中,可W通過W第一迭代過程減小音頻源的協(xié)方差矩陣的估計(jì) 誤差,來基于線性組合特性確定或更新音頻源的功率譜參數(shù)。 陽232] 在一些示例實(shí)施例中,系統(tǒng)1600進(jìn)一步包括協(xié)方差矩陣確定單元,被配置為確定 音頻內(nèi)容的協(xié)方差矩陣;正交闊值確定單元,被配置為基于音頻內(nèi)容的協(xié)方差矩陣,確定正 交闊值;W及迭代次數(shù)確定單元,被配置為基于正交闊值,確定第一迭代過程的迭代次數(shù)。 陽233] 在一些示例實(shí)施例中,在每次EM迭代之前可W歸一化空間參數(shù)和頻譜參數(shù)中的 至少一個(gè)參數(shù)。 陽234] 在一些示例實(shí)施例中,聯(lián)合確定單元1601可W進(jìn)一步被配置為基于音頻源的移 動(dòng)性、音頻源的穩(wěn)定性和音頻源的混音類型中的一項(xiàng)或多項(xiàng),確定音頻源的空間參數(shù)。
[0235] 在一些示例實(shí)施例中,音頻源分離單元1602可W被配置為從音頻內(nèi)容中提取直 達(dá)音頻信號(hào),并且基于空間參數(shù),從直達(dá)音頻信號(hào)中分離音頻源。 陽236] 為清晰起見,在圖16中沒有描繪出系統(tǒng)1600的某些另外的部件。然而,應(yīng)當(dāng)理解, 上文參考圖1-15所描述的各個(gè)特征同樣適用于系統(tǒng)16。而且,系統(tǒng)16中的各部件可W是 硬件模塊,也可W是軟件單元模塊等等。例如,在某些示例實(shí)施例中,系統(tǒng)1600可W部分或 者全部利用軟件和/或固件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序 產(chǎn)品。備選地或附加地,系統(tǒng)1600可W部分或者全部基于硬件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為集成 電路(1C)、專用集成電路(ASIC)、片上系統(tǒng)(S0C)、現(xiàn)場可編程口陣列腫GA)等。 陽237] 圖17描繪了 了適于用來實(shí)現(xiàn)本文中所公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)1700 的示意性框圖。如所描繪的,計(jì)算機(jī)系統(tǒng)1700包括中央處理單元(CPU) 1701,其可W根 據(jù)存儲(chǔ)在只讀存儲(chǔ)器(ROM) 1702中的程序或者從存儲(chǔ)部分1708加載到隨機(jī)訪問存儲(chǔ)器 (RAM) 1703中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。如所需要的,在RAM1703中,還存儲(chǔ)有 CPU1701執(zhí)行各種過程等的數(shù)據(jù)。CPU1701、R0M1702 W及RAM1703通過總線1704彼此相 連。輸入/輸出(I/O)接口 1705也連接至總線1704。 陽23引 W下部件連接至I/O接口 1705 :包括鍵盤、鼠標(biāo)等的輸入部分1706 ;包括諸如陰 極射線管(CRT)、液晶顯示器化CD)等W及揚(yáng)聲器等的輸出部分1707 ;包括硬盤等的存儲(chǔ) 部分1708 及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1709。通信部 分1709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器1710也根據(jù)需要連接至I/O接口 1705??刹鹦督橘|(zhì)1711,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng) 器1710上,W便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分1708。
[0239] 特別地,根據(jù)本文中所公開的示例實(shí)施例,上文參考圖1-15描述的過程可W被實(shí) 現(xiàn)為計(jì)算機(jī)軟件程序。例如,本文中所公開的示例實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包 括有形地包含在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行方法或過程 100、200、600、800、1000和/或1300和/或參照系統(tǒng)300、1500和/或1600所描述的過程 的程序代碼。在運(yùn)樣的實(shí)施例中,該計(jì)算機(jī)程序可W通過通信部分1709從網(wǎng)絡(luò)上被下載和 安裝,和/或從可拆卸介質(zhì)1711被安裝。
[0240] 一般而言,本文中所公開的各種示例實(shí)施例可W在硬件或?qū)S秒娐?、軟件、邏輯?或其任何組合中實(shí)施。某些方面可W在硬件中實(shí)施,而其他方面可W在可W由控制器、微處 理器或其他計(jì)算設(shè)備執(zhí)行的固件或軟件中實(shí)施。當(dāng)本文中所公開的示例實(shí)施例的各方面被 圖示或描述為框圖、流程圖或使用某些其他圖形表示時(shí),將理解此處描述的方框、裝置、系 統(tǒng)、技術(shù)或方法可W作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或 控制器或其他計(jì)算設(shè)備,或其某些組合中實(shí)施。 陽241] 而且,流程圖中的各框可W被看作是方法步驟,和/或計(jì)算機(jī)程序代碼的操作生 成的操作,和/或理解為執(zhí)行相關(guān)功能的多個(gè)禪合的邏輯電路元件。例如,本文中所公開的 實(shí)施例包括計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括有形地實(shí)現(xiàn)在機(jī)器可讀介質(zhì)上的計(jì)算 機(jī)程序,該計(jì)算機(jī)程序包含被配置為實(shí)現(xiàn)上文描述方法的程序代碼。 陽242] 在公開的上下文內(nèi),機(jī)器可讀介質(zhì)可W是包含或存儲(chǔ)用于或有關(guān)于指令執(zhí)行系 統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可W是機(jī)器可讀信號(hào)介質(zhì)或機(jī)器可 讀存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可W包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半 導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲(chǔ)介質(zhì)的更詳細(xì)示例包括帶有 一根或多根導(dǎo)線的電氣連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存儲(chǔ)存取器(RAM)、只讀存儲(chǔ)器 (ROM)、可擦除可編程只讀存儲(chǔ)器巧PROM或閃存)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備,或其任意合適 的組合。 陽243] 用于實(shí)現(xiàn)本文中所公開的方法的計(jì)算機(jī)程序代碼可W用一種或多種編程語言編 寫。運(yùn)些計(jì)算機(jī)程序代碼可W提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝 置的處理器,使得程序代碼在被計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的時(shí)候,引起在 流程圖和/或框圖中規(guī)定的功能/操作被實(shí)施。程序代碼可W完全在計(jì)算機(jī)上、部分在計(jì)算 機(jī)上、作為獨(dú)立的軟件包、部分在計(jì)算機(jī)上且部分在遠(yuǎn)程計(jì)算機(jī)上或完全在遠(yuǎn)程計(jì)算機(jī)或 服務(wù)器上執(zhí)行。程序代碼可W被分布在被特定編程的設(shè)備,運(yùn)些設(shè)備通常在本文中可W被 稱為"模塊"。運(yùn)些模塊的軟件分組部分可任何具體計(jì)算機(jī)語言來編寫并且可W是單片 集成代碼庫的一部分,或者可w被開發(fā)成多個(gè)離散代碼部分,諸如通常w面向?qū)ο蟮挠?jì)算 機(jī)語言來開發(fā)。此外,模塊可W跨多個(gè)計(jì)算機(jī)平臺(tái)、服務(wù)器、終端、移動(dòng)設(shè)備等來分布。給定 的模塊甚至可W被實(shí)施為使得所描述的功能有單個(gè)處理器和/或計(jì)算機(jī)硬件平臺(tái)來執(zhí)行。 陽244] 如本申請(qǐng)中所使用的,術(shù)語"電路裝置"指的是W下的所有:(a)僅硬件電路實(shí)現(xiàn) 方式(諸如僅模擬電路裝置和/或僅數(shù)字電路裝置的實(shí)現(xiàn)方式)W及化)與電路和軟件 (和/或固件)的組合,諸如(可用的):(i)與處理器的組合或(ii)處理器/軟件(包括 數(shù)字信號(hào)處理器)、軟件、和存儲(chǔ)器的一部分,運(yùn)些部分一起工作W使得裝置(諸如移動(dòng)電 話或服務(wù)器)執(zhí)行各種功能,W及(C)電路,諸如微處理器或微處理器的一部分,其需要軟 件或固件用于操作,即使軟件或固件不是物理存在的。此外,本領(lǐng)域技術(shù)人員已知的是,通 信媒介通常體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或模塊化數(shù)據(jù)信號(hào)中的其他數(shù)據(jù),該 數(shù)據(jù)信號(hào)諸如載波或其他傳輸機(jī)制,并且通信媒介包括任何信息傳送媒介。
[0245]另外,盡管操作W特定順序被描繪,但運(yùn)并不應(yīng)該理解為要求此類操作W示出的 特定順序或W相繼順序完成,或者執(zhí)行所有圖示的操作W獲取期望結(jié)果。在某些情況下,多 任務(wù)或并行處理會(huì)是有益的。同樣地,盡管上述討論包含了某些特定的實(shí)施細(xì)節(jié),但運(yùn)并不 應(yīng)解釋為限制本文中所公開的主題或權(quán)利要求的范圍,而應(yīng)解釋為對(duì)可W針對(duì)特定實(shí)施例 的描述。本說明書中在分開的實(shí)施例的上下文中描述的某些特征也可W整合實(shí)施在單個(gè)實(shí) 施例中。相反地,在單個(gè)實(shí)施例的上下文中描述的各種特征也可W分離地在多個(gè)實(shí)施例或 在任意合適的子組合中實(shí)施。 陽246] 針對(duì)本文中所公開的前述示例實(shí)施例的各種修改、改變將在連同附圖查看前述描 述時(shí)對(duì)相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本文中所 公開的示例實(shí)施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,設(shè)及本文中所公開的運(yùn) 些實(shí)施例的技術(shù)領(lǐng)域的技術(shù)人員將會(huì)想到此處闡明的其他實(shí)施例。
[0247] 由此,本主題可W通過在此描述的任何形式來實(shí)現(xiàn)。例如,W下的枚舉示例實(shí)施例 巧?。┟枋隽吮疚闹兴_的某些方面的某些結(jié)構(gòu)、特征和功能。
[0248] E邸1. 一種用于在時(shí)頻域的輸入音頻信號(hào)的基礎(chǔ)上分離音頻源的裝置,該時(shí)頻域 表示W(wǎng)描述多個(gè)頻帶的多個(gè)子頻帶信號(hào)來表示音頻內(nèi)容,該裝置包括聯(lián)合源分離器,該聯(lián) 合源分離器被配置為結(jié)合多個(gè)源參數(shù),多個(gè)源參數(shù)包括被估計(jì)用于恢復(fù)音頻源的主參數(shù)和 用于精細(xì)化主參數(shù)的中間參數(shù),從而該聯(lián)合源分離器在經(jīng)過精細(xì)化的參數(shù)的基礎(chǔ)上恢復(fù)感 知上自然的聲源同時(shí)實(shí)現(xiàn)穩(wěn)定和快速的收斂。該裝置還包括第一確定器,該第一確定器被 配置為對(duì)主參數(shù)進(jìn)行估計(jì),從而獲得與輸入音頻信號(hào)中的未知源有關(guān)的頻譜信息、和/或 描述輸入音頻信號(hào)中存在的未知源的空間性或混音過程的信息。該裝置進(jìn)一步包括第二確 定器,被配置為獲得中間參數(shù),從而獲得用于精細(xì)化未知源的頻譜屬性、空間性和/或混音 過程的信息。
[0249] E邸2.根據(jù)邸E1所述的裝置,進(jìn)一步包括正交程度確定器,其被配置為獲得系數(shù) 因子,從而在輸入音頻信號(hào)的基礎(chǔ)上獲得音頻源之間的正交程度,該系數(shù)因子包括指示源 之間的正交屬性的多個(gè)量值化(quantitative)特征值。聯(lián)合源分離器被配置為從正交程 度確定器接收正交程度W控制多個(gè)源參數(shù)的結(jié)合,從而獲得具有感知上自然的聲音W及適 當(dāng)?shù)南嗷フ怀潭鹊囊纛l源,該適當(dāng)?shù)南嗷フ怀潭扔烧怀潭却_定器基于輸入音頻信號(hào) 的屬性而確定。 陽巧0] E邸3.根據(jù)邸El所述的裝置,其中第一確定器被配置為在輸入音頻信號(hào)的時(shí)頻域 表示的基礎(chǔ)上,通過應(yīng)用加性源模型來估計(jì)主參數(shù),W便恢復(fù)感知上自然的聲音。 陽巧1] E邸4.根據(jù)邸E3所述的裝置,其中加性源模型被配置為使用非負(fù)矩陣分解法來將 所估計(jì)的音頻源的非負(fù)時(shí)頻域表示分解為基本成分的總和,從而主頻譜參數(shù)在非負(fù)矩陣的 乘積的表示中被表示出來,非負(fù)矩陣包括一個(gè)具有頻譜成分的非負(fù)矩陣,該頻譜成分作為 頻譜約束可W被應(yīng)用的列向量,非負(fù)矩陣還包括一個(gè)具有每個(gè)頻譜成分的活躍性作為行向 量的非負(fù)矩陣,在該行向量上可W應(yīng)用時(shí)間約束。 陽巧2] E邸5.根據(jù)邸E1所述的裝置,其中多個(gè)源參數(shù)包括空間參數(shù)和頻譜參數(shù),從而通 過將頻譜參數(shù)禪合至基于它們的空間參數(shù)的所分離的音頻源而減少置換不確定性。 陽巧3] E邸6.根據(jù)邸E1所述的裝置,其中第二確定器被配置為使用自適應(yīng)去相關(guān)模型, 從而獨(dú)立/非相關(guān)約束可W被應(yīng)用于精細(xì)化主參數(shù)。 陽巧4] E邸7.根據(jù)邸E1至6中任一項(xiàng)所述的裝置,其中第二確定器被配置為通過最 小化估計(jì)的協(xié)方差矩陣和應(yīng)用獨(dú)立/非相關(guān)約束的最優(yōu)的協(xié)方差矩陣之間的度量誤差 Ef,。,從而包括空間參數(shù)和頻譜參數(shù)中的至少一個(gè)參數(shù)的經(jīng)過精細(xì)化的參數(shù)被精細(xì)化為 氏,/打,巧/',打=31,阱加。,所。抑||必林||:。 陽巧5] E邸8.根據(jù)邸E7所述的裝置,其中通過應(yīng)用梯度方法來最小化度量誤差,并且梯 度項(xiàng)由功率歸一化,從而縮放該梯度,W給出針對(duì)不同頻率的可比較的更新步長。 陽巧6] E邸9.根據(jù)邸E1所述的裝置,其中聯(lián)合源分離器被配置為將兩個(gè)確定器結(jié)合起 來,W在EM算法內(nèi)聯(lián)合地估計(jì)音頻源的頻譜參數(shù)和空間參數(shù),EM算法的一次迭代包括期望 步驟和最大化步步驟: 陽巧7] 對(duì)于期望步驟: 陽巧引在由第一確定器建模的所估計(jì)的主頻譜參數(shù)的基礎(chǔ)上,計(jì)算至少包括源的功率譜 的中間頻譜參數(shù), 陽巧9] 在所估計(jì)的源的頻譜參數(shù)和所估計(jì)的源的主空間參數(shù)的基礎(chǔ)上,計(jì)算至少包括逆 的混音參數(shù)、例如維納濾波器參數(shù)的中間空間參數(shù),
[0260] 在W上估計(jì)的中間參數(shù)的基礎(chǔ)上,利用第二確定器的源模型來精細(xì)化中間空間參 數(shù)和中間頻譜參數(shù),運(yùn)些參數(shù)包括維納濾波器參數(shù)、音頻源的協(xié)方差矩陣和音頻源的功率 譜中的至少一項(xiàng),W及 陽%1] 在經(jīng)過精細(xì)化的參數(shù)的基礎(chǔ)上計(jì)算其他中間參數(shù),其他中間參數(shù)至少包括輸入音 頻信號(hào)與所估計(jì)的源信號(hào)之間的互協(xié)方差矩陣;并且對(duì)于最大化步驟, 陽%2] 在精細(xì)化的中間參數(shù)的基礎(chǔ)上,重新估計(jì)主參數(shù),包括主頻譜參數(shù)和主空間參數(shù) (混音參數(shù)),W及 陽%3] 重新歸一化主參數(shù),從而減少瑣碎的尺度不確定性。
[0264] 邸E10. -種源生成器裝置,用于在一個(gè)或多個(gè)輸入音頻信號(hào)的基礎(chǔ)上提取多個(gè) 音頻源信號(hào)W及它們的參數(shù),該裝置被配置為接收W時(shí)頻域表示的輸入音頻W及一組源設(shè) 置。該裝置還被配置為基于一組源設(shè)置和根據(jù)從輸入音頻減去所估計(jì)的加性噪聲而生成 的差減信號(hào)來初始化源參數(shù),并且獲得一組初始化的源參數(shù),該組源設(shè)置包括但不限于源 數(shù)目、源移動(dòng)性、源穩(wěn)定性、源混音類別、空間引導(dǎo)元數(shù)據(jù)、用戶引導(dǎo)元數(shù)據(jù)和時(shí)頻引導(dǎo)元數(shù) 據(jù)。該裝置進(jìn)一步被配置為基于所接收的經(jīng)過初始化的源參數(shù)來聯(lián)合地分離音頻源,并且 輸出所分離的源和它們對(duì)應(yīng)的參數(shù),直至迭代分離過程收斂。迭代分離過程的每個(gè)步驟進(jìn) 一步包括利用初始化的和/或所接收的經(jīng)過精細(xì)化的中間參數(shù)、基于加性模型來估計(jì)主參 數(shù),基于獨(dú)立/非相關(guān)模型來估計(jì)中間參數(shù)并且精細(xì)化運(yùn)些參數(shù),W及基于所估計(jì)的源參 數(shù)和W時(shí)頻域表示的輸入音頻來恢復(fù)所分離的對(duì)象源信號(hào)。 陽2化]邸E11.根據(jù)ffiElO所述的裝置,其中用于聯(lián)合地分離源的步驟進(jìn)一步包括基于所 述輸入信號(hào)和所接收的源設(shè)置組來確定未知的源的正交程度,獲得源之間的正交控制的量 值化程度,基于初始化的源參數(shù)和所接收的正交控制程度來聯(lián)合地分離音頻源,W及輸出 所分離的源和它們對(duì)應(yīng)的參數(shù),直至迭代分離過程收斂。迭代分離過程的每個(gè)步驟進(jìn)一步 包括利用所接收的初始化和/或經(jīng)過精細(xì)化的中間參數(shù)、基于加性模型來估計(jì)主參數(shù),W 及利用所接收的正交控制程度、基于獨(dú)立/非相關(guān)模型來估計(jì)中間參數(shù)W及精細(xì)化運(yùn)些參 數(shù)。 陽%6] 邸E12. -種多聲道音頻信號(hào)生成器裝置,提供用于在一個(gè)或多個(gè)輸入音頻信號(hào)的 基礎(chǔ)上的包括至少一個(gè)對(duì)象信號(hào)的多聲道音頻信號(hào),該裝置被配置為接收W時(shí)頻域表示的 輸入音頻和一組音頻設(shè)置,利用一組源設(shè)置和根據(jù)從輸入音頻減去所估計(jì)的加性噪聲而生 成的差減信號(hào)來初始化源參數(shù),W及獲得一組初始化的源參數(shù),該組源設(shè)置包括但不限于 源數(shù)目、源移動(dòng)性、源穩(wěn)定性、源混音類別、空間引導(dǎo)元數(shù)據(jù)、用戶引導(dǎo)元數(shù)據(jù)和時(shí)頻引導(dǎo)元 數(shù)據(jù)。該裝置還被配置為利用所述輸入信號(hào)和所接收的源設(shè)置組來確定未知的源的正交程 度,并且獲得源之間的正交控制的量值化程度。該裝置進(jìn)一步被配置為利用初始化的源參 數(shù)和所接收的正交控制程度來聯(lián)合地分離源,并且輸出所分離的源和它們對(duì)應(yīng)的參數(shù),直 至迭代分離過程收斂。迭代分離過程的每個(gè)步驟進(jìn)一步包括利用所接收的初始化和/或經(jīng) 過精細(xì)化的中間參數(shù)、基于加性模型來估計(jì)主參數(shù),W及利用所接收的正交控制程度、基于 獨(dú)立/非相關(guān)模型來估計(jì)中間參數(shù)W及精細(xì)化運(yùn)些參數(shù)。該裝置進(jìn)一步被配置為將輸入音 頻分解為包括環(huán)境信號(hào)和直達(dá)信號(hào)的多聲道音頻信號(hào),并且基于所估計(jì)的源參數(shù)和所分解 的W時(shí)頻域表示的直達(dá)信號(hào),來提取所分離的對(duì)象源信號(hào)。 陽%7] 邸E13.根據(jù)邸E12所述的裝置,其中聯(lián)合地分離源進(jìn)一步包括:基于所述輸入信 號(hào)和所接收的源設(shè)置組來確定未知的源的正交程度,獲得源之間的正交控制的量值化程 度,利用初始化的源參數(shù)和所接收的正交控制程度來聯(lián)合地分離音頻源,W及輸出所分離 的源和它們對(duì)應(yīng)的參數(shù),直至迭代分離過程收斂。迭代分離過程的每個(gè)步驟進(jìn)一步包括利 用所接收的初始化和/或經(jīng)過精細(xì)化的中間參數(shù)、基于加性模型來估計(jì)主參數(shù),W及利用 所接收的正交控制程度、基于獨(dú)立/非相關(guān)模型來估計(jì)中間參數(shù)W及精細(xì)化運(yùn)些參數(shù)。 陽268] 邸E14. -種源參數(shù)估計(jì)裝置,用于利用獨(dú)立/非相關(guān)模型來精細(xì)化源參數(shù),W確 保在其他模型下利用所接收的一組初始化的源參數(shù)來估計(jì)源參數(shù)的穩(wěn)定和快速的收斂,重 新估計(jì)的問題被解決為最小乘方化巧估計(jì)問題,從而參數(shù)組被重新估計(jì)W最小化利用當(dāng) 前參數(shù)計(jì)算的協(xié)方差矩陣的條件估計(jì)與獨(dú)立/非相關(guān)模型的理想?yún)f(xié)方差矩陣之間的度量 誤差。 陽269] 邸E15.根據(jù)邸E14所述的裝置,其中利用梯度遞減算法,W迭代過程來解決最小 乘方化巧估計(jì)問題,并且每次迭代包括通過最小化利用當(dāng)前參數(shù)計(jì)算的協(xié)方差矩陣的條 件估計(jì)與獨(dú)立/非相關(guān)模型的理想?yún)f(xié)方差矩陣之間的度量誤差,來計(jì)算梯度遞減值,使用 梯度遞減值來更新源參數(shù),w及計(jì)算收斂度量,從而如果達(dá)到了收斂闊值,則跳出迭代并且 輸出經(jīng)過更新的源參數(shù)。 陽270] 邸E16.根據(jù)邸E14所述的裝置,其中該裝置進(jìn)一步包括用于設(shè)置所估計(jì)的源之間 的正交程度的確定器,從而運(yùn)些估計(jì)的源是愉悅的聲源、而不管它們之間的某種可接受的 相關(guān)量。 陽271] 邸E17.根據(jù)邸E16所述的裝置,其中所述確定器使用內(nèi)容自適應(yīng)的度量來確定正 交程度,使用內(nèi)容自適應(yīng)的度量包括但不限于量值化度量(偏差)、該量值化度量指示輸入 音頻信號(hào)在多大程度上"接近于單位秩",從而音頻信號(hào)越接近于單位秩,獨(dú)立/非相關(guān)限 制被越確信/更少不確定地被完全應(yīng)用。 陽272] 將會(huì)理解,本法明的實(shí)施例不限于公開的特定實(shí)施例,并且修改和其他實(shí)施例都 應(yīng)包含于所附的權(quán)利要求范圍內(nèi)。盡管此處使用了特定的術(shù)語,但是它們僅在通用和描述 的意義上使用,而并不用于限制目的。
【主權(quán)項(xiàng)】
1. 一種從音頻內(nèi)容中分離音頻源的方法,所述方法包括: 基于音頻內(nèi)容中要被分離的音頻源的線性組合特性和音頻內(nèi)容中要被分離的兩個(gè)或 更多音頻源之間的正交特性,確定所述音頻源的空間參數(shù);以及 基于所述空間參數(shù),從所述音頻內(nèi)容中分離所述音頻源。2. 根據(jù)權(quán)利要求1所述的方法,其中要被分離的音頻源的數(shù)目是預(yù)定的。3. 根據(jù)權(quán)利要求1所述的方法,其中確定所述音頻源的空間參數(shù)包括: 基于所述線性組合特性和所述正交特性中的一個(gè)特性,確定所述音頻源的功率譜參 數(shù); 基于所述線性組合特性和所述正交特性中的另一個(gè)特性,更新所述功率譜參數(shù);以及 基于經(jīng)過更新的功率譜參數(shù),確定所述音頻源的所述空間參數(shù)。4. 根據(jù)權(quán)利要求3所述的方法,其中確定所述音頻源的空間參數(shù)進(jìn)一步包括以期望最 大化(EM)迭代過程來確定所述音頻源的空間參數(shù);并且 其中所述方法進(jìn)一步包括: 在所述EM迭代過程開始之前,為所述音頻源的所述空間參數(shù)和頻譜參數(shù)設(shè)置初始化 值,所述頻譜參數(shù)的初始化值是非負(fù)的。5. 根據(jù)權(quán)利要求4所述的方法,其中以EM迭代過程來確定所述音頻源的空間參數(shù)包 括: 對(duì)于所述EM迭代過程中的每次EM迭代, 通過使用在之前的EM迭代中確定的所述音頻源的所述頻譜參數(shù),來基于所述線性組 合特性確定所述音頻源的所述功率譜參數(shù); 基于所述正交特性來更新所述音頻源的所述功率譜參數(shù);以及 基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所述空間參數(shù)和所述頻譜參數(shù)。6. 根據(jù)權(quán)利要求4所述的方法,其中以EM迭代過程來確定所述音頻源的空間參數(shù)包 括: 對(duì)于所述EM迭代過程中的每次EM迭代, 通過使用在之前的EM迭代中確定的所述音頻源的所述空間參數(shù)和所述頻譜參數(shù),來 基于所述正交特性確定所述音頻源的所述功率譜參數(shù); 基于所述線性組合特性來更新所述音頻源的所述功率譜參數(shù);以及 基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所述空間參數(shù)和所述頻譜參數(shù)。7. 根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括: 在所述EM迭代過程開始之前,通過使用所述空間參數(shù)和所述頻譜參數(shù)的初始化值,來 基于所述正交特性確定所述音頻源的所述功率譜參數(shù);并且 其中以EM迭代過程來確定所述音頻源的空間參數(shù)包括: 對(duì)于所述EM迭代過程中的每次EM迭代, 通過使用在之前的EM迭代中確定的所述音頻源的所述頻譜參數(shù),來基于所述線性組 合特性更新所述音頻源的所述功率譜參數(shù);以及 基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所述空間參數(shù)和所述頻譜參數(shù)。8. 根據(jù)權(quán)利要求5至7中任一項(xiàng)所述的方法,其中所述音頻源的所述頻譜參數(shù)由非負(fù) 矩陣分解模型來建模。9. 根據(jù)權(quán)利要求5至7中任一項(xiàng)所述的方法,其中通過以第一迭代過程來減小所述音 頻源的協(xié)方差矩陣的估計(jì)誤差,而基于所述線性組合特性確定或更新所述音頻源的所述功 率譜參數(shù)。10. 根據(jù)權(quán)利要求9所述的方法,進(jìn)一步包括: 確定所述音頻內(nèi)容的協(xié)方差矩陣; 基于所述音頻內(nèi)容的協(xié)方差矩陣,確定正交閾值;以及 基于所述正交閾值,確定所述第一迭代過程的迭代次數(shù)。11. 根據(jù)權(quán)利要求5至7中任一項(xiàng)所述的方法,其中在每次EM迭代之前歸一化所述空 間參數(shù)和所述頻譜參數(shù)中的至少一個(gè)參數(shù)。12. 根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中所述音頻源的空間參數(shù)的確定進(jìn)一 步基于所述音頻源的移動(dòng)性、所述音頻源的穩(wěn)定性和所述音頻源的混音類型中的一項(xiàng)或多 項(xiàng)。13. 根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中基于所述空間參數(shù),從所述音頻內(nèi) 容中分離所述音頻源包括: 從所述音頻內(nèi)容中提取直達(dá)音頻信號(hào);以及 基于所述空間參數(shù),從所述直達(dá)音頻信號(hào)中分離所述音頻源。14. 一種從音頻內(nèi)容中分離音頻源的系統(tǒng),所述系統(tǒng)包括: 聯(lián)合確定單元,被配置為基于音頻內(nèi)容中要被分離的音頻源的線性組合特性和音頻內(nèi) 容中要被分離的兩個(gè)或更多音頻源之間的正交特性,來確定所述音頻源的空間參數(shù);以及 音頻源分離單元,被配置為基于所述空間參數(shù),從所述音頻內(nèi)容中分離所述音頻源。15. 根據(jù)權(quán)利要求14所述的系統(tǒng),其中要被分離的音頻源的數(shù)目是預(yù)定的。16. 根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述聯(lián)合確定單元包括: 功率譜確定單元,被配置為基于所述線性組合特性和所述正交特性中的一個(gè)特性,確 定所述音頻源的功率譜參數(shù); 功率譜更新單元,被配置為基于所述線性組合特性和所述正交特性中的另一個(gè)特性, 更新所述功率譜參數(shù);以及 空間參數(shù)確定單元,被配置為基于經(jīng)過更新的功率譜參數(shù),確定所述音頻源的所述空 間參數(shù)。17. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述聯(lián)合確定單元進(jìn)一步被配置為以期望最大 化(EM)迭代過程來確定所述音頻源的空間參數(shù);并且 其中所述系統(tǒng)進(jìn)一步包括: 初始化單元,被配置為在所述EM迭代過程開始之前,為所述音頻源的所述空間參數(shù)和 頻譜參數(shù)設(shè)置初始化值,所述頻譜參數(shù)的初始化值是非負(fù)的。18. 根據(jù)權(quán)利要求17所述的系統(tǒng),其中在所述聯(lián)合確定單元中,對(duì)于所述EM迭代過程 中的每次EM迭代, 所述功率譜確定單元被配置為通過使用在之前的EM迭代中確定的所述音頻源的所述 頻譜參數(shù),來基于所述線性組合特性確定所述音頻源的所述功率譜參數(shù); 所述功率譜更新單元被配置為基于所述正交特性來更新所述音頻源的所述功率譜參 數(shù);并且 所述空間參數(shù)確定單元被配置為基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所 述空間參數(shù)和所述頻譜參數(shù)。19. 根據(jù)權(quán)利要求17所述的系統(tǒng),其中在所述聯(lián)合確定單元中,對(duì)于所述EM迭代過程 中的每次EM迭代, 所述功率譜確定單元被配置為通過使用在之前的EM迭代中確定的所述音頻源的所述 空間參數(shù)和所述頻譜參數(shù),來基于所述正交特性確定所述音頻源的所述功率譜參數(shù); 所述功率譜更新單元被配置為基于所述線性組合特性來更新所述音頻源的所述功率 譜參數(shù);并且 所述空間參數(shù)確定單元被配置為基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所 述空間參數(shù)和所述頻譜參數(shù)。20. 根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述功率譜確定單元被配置為在所述EM迭代過 程開始之前,通過使用所述空間參數(shù)和所述頻譜參數(shù)的初始化值,來基于所述正交特性確 定所述音頻源的所述功率譜參數(shù);并且 其中對(duì)于所述EM迭代過程中的每次EM迭代, 所述功率譜更新單元被配置為通過使用在之前的EM迭代中確定的所述音頻源的所述 頻譜參數(shù),來基于所述線性組合特性更新所述音頻源的所述功率譜參數(shù);并且 所述空間參數(shù)確定單元被配置為基于經(jīng)過更新的功率譜參數(shù)來更新所述音頻源的所 述空間參數(shù)和所述頻譜參數(shù)。21. 根據(jù)權(quán)利要求18至20中任一項(xiàng)所述的系統(tǒng),其中所述音頻源的所述頻譜參數(shù)由非 負(fù)矩陣分解模型來建模。22. 根據(jù)權(quán)利要求18至20中任一項(xiàng)所述的系統(tǒng),其中通過以第一迭代過程來減小所述 音頻源的協(xié)方差矩陣的估計(jì)誤差,而基于所述線性組合特性確定或更新所述音頻源的所述 功率譜參數(shù)。23. 根據(jù)權(quán)利要求22所述的系統(tǒng),進(jìn)一步包括: 協(xié)方差矩陣確定單元,被配置為確定所述音頻內(nèi)容的協(xié)方差矩陣; 正交閾值確定單元,被配置為基于所述音頻內(nèi)容的協(xié)方差矩陣,確定正交閾值;以及 迭代次數(shù)確定單元,被配置為基于所述正交閾值,確定所述第一迭代過程的迭代次數(shù)。24. 根據(jù)權(quán)利要求18至20中任一項(xiàng)所述的系統(tǒng),其中在每次EM迭代之前歸一化所述 空間參數(shù)和所述頻譜參數(shù)中的至少一個(gè)參數(shù)。25. 根據(jù)權(quán)利要求14至20中任一項(xiàng)所述的系統(tǒng),其中所述聯(lián)合確定單元進(jìn)一步被配置 為基于所述音頻源的移動(dòng)性、所述音頻源的穩(wěn)定性和所述音頻源的混音類型中的一項(xiàng)或多 項(xiàng),確定所述音頻源的所述空間參數(shù)。26. 根據(jù)權(quán)利要求14至20中任一項(xiàng)所述的系統(tǒng),其中所述音頻源分離單元被配置為從 所述音頻內(nèi)容中提取直達(dá)音頻信號(hào),并且基于所述空間參數(shù),從所述直達(dá)音頻信號(hào)中分離 所述音頻源。27. -種從音頻內(nèi)容中分離音頻源的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被有形地 存儲(chǔ)在非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上并且包括機(jī)器可執(zhí)行的指令,所述機(jī)器可執(zhí)行的指令在被 執(zhí)行時(shí)使得所述機(jī)器執(zhí)行根據(jù)權(quán)利要求1至13中任一項(xiàng)所述的方法的步驟。
【文檔編號(hào)】G10L21/0272GK105989851SQ201510082792
【公開日】2016年10月5日
【申請(qǐng)日】2015年2月15日
【發(fā)明人】王珺, D·麥格拉思
【申請(qǐng)人】杜比實(shí)驗(yàn)室特許公司