視頻內(nèi)容協(xié)助的音頻對象提取的制作方法

文檔序號：10625467閱讀：280來源：國知局

視頻內(nèi)容協(xié)助的音頻對象提取的制作方法
【專利摘要】本發(fā)明的實施例涉及視頻內(nèi)容協(xié)助的音頻對象提取。公開了一種從基于聲道的音頻內(nèi)容中提取音頻對象的方法。該方法包括從與基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象，并且確定與至少一個視頻對象有關(guān)的信息。該方法進一步包括基于所確定的信息，從基于聲道的音頻內(nèi)容中提取音頻對象，該音頻對象要被呈現(xiàn)為上混音音頻信號。還公開了相應(yīng)的系統(tǒng)和計算機程序產(chǎn)品。
【專利說明】
視頻內(nèi)容協(xié)助的首頻對象提取
技術(shù)領(lǐng)域
[0001] 本發(fā)明的實施例總體上設(shè)及音頻內(nèi)容處理，并且更具體地，設(shè)及視頻內(nèi)容協(xié)助的音頻對象提取的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上，音頻內(nèi)容W基于聲道（channel based)的格式被創(chuàng)建和存儲。在此使用的術(shù)語"音頻聲道"或"聲道"是指通常具有預(yù)定義物理位置的音頻內(nèi)容。例如，立體聲、環(huán) 繞5. 1、環(huán)繞7. 1等都是用于音頻內(nèi)容的基于聲道的格式。近來，隨著多媒體工業(yè)的發(fā)展， Ξ維（3D)音頻內(nèi)容在影院和家庭中都變得越來越流行。為了創(chuàng)建更具沉浸感的聲場W及準確地控制離散的音頻元素而無需受制于特定的回放揚聲器配置，很多傳統(tǒng)的播放系統(tǒng)需要被擴展為支持一種新型音頻格式，運種格式包括音頻聲道和音頻對象（audio object)二者。
[0003] 在此使用的術(shù)語"音頻對象"是指在聲場中存在特定持續(xù)時間的個體音頻元素。一個音頻對象可W是動態(tài)的也可W是靜態(tài)的。例如，音頻對象可W是在聲場中充當聲源的人、動物或者任何其他物體。可選地，音頻對象還可W具有關(guān)聯(lián)的元數(shù)據(jù)，諸如用于描述對象的位置、速度、大小等方面的信息。音頻對象的使用使得音頻內(nèi)容具有很高的沉浸感的聽覺體驗，并且允許混音師等操作者方便地控制和調(diào)整音頻對象。在傳輸期間，音頻對象和聲道可W被分開發(fā)送，繼而由重現(xiàn)系統(tǒng)動態(tài)使用，W基于回放揚聲器的配置來自適應(yīng)地重建創(chuàng) 作意圖（artistic intention)。作為示例，在被稱為"自適應(yīng)音頻內(nèi)容"（adaptive audio content)或者"上混音音頻信號"（upmixed audio si即al)的格式中，可W存在一個或多個音頻對象W及一個或多個"靜態(tài)環(huán)境聲"(audio bed)。在此使用的術(shù)語"靜態(tài)環(huán)境聲"或簡稱"環(huán)境聲"是指將在預(yù)定義的固定位置被回放的聲音的音頻聲道。
[0004] 一般而言，基于對象的音頻內(nèi)容W明顯不同于基于聲道的傳統(tǒng)音頻內(nèi)容的方式被生成。盡管基于對象的新型格式允許在音頻對象的輔助下創(chuàng)建更具沉浸感的聽覺體驗，但是在影音產(chǎn)業(yè)中（例如在聲音的創(chuàng)建、分發(fā)和使用的產(chǎn)業(yè)鏈中）占據(jù)主導地位的仍然是基于聲道的音頻格式，特別是最后混音的音頻格式。因此，對于傳統(tǒng)基于聲道的音頻內(nèi)容，為了能夠為終端用戶提供音頻對象所提供的類似沉浸體驗，需要從傳統(tǒng)的基于聲道的內(nèi)容中提取音頻對象。

【發(fā)明內(nèi)容】

[0005] 為了解決上述問題和其他潛在的問題，本發(fā)明提出一種從基于聲道的音頻內(nèi)容中提取音頻對象的方法和系統(tǒng)。
[0006] 在一個方面，本發(fā)明的實施例提供一種從基于聲道的音頻內(nèi)容中提取音頻對象的方法。該方法包括從與基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象，并且確定與至少一個視頻對象有關(guān)的信息。該方法進一步包括基于所確定的信息，從基于聲道的音頻內(nèi)容中提取音頻對象，該音頻對象要被呈現(xiàn)為上混音音頻信號。運方面的實施例還包括相應(yīng)的計算機程序產(chǎn)品。
[0007] 在另一方面，本發(fā)明的實施例提供一種從基于聲道的音頻內(nèi)容中提取音頻對象的系統(tǒng)。該系統(tǒng)包括視頻對象提取單元，被配置為從與基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi) 容中提取至少一個視頻對象，W及信息確定單元，被配置為確定與至少一個視頻對象有關(guān) 的信息。該系統(tǒng)進一步包括音頻對象提取單元，被配置為基于所確定的信息，從基于聲道的音頻內(nèi)容中提取音頻對象，該音頻對象要被呈現(xiàn)為上混音音頻信號。
[0008] 通過下文描述將會理解，根據(jù)本發(fā)明的實施例，首先從與基于聲道的音頻內(nèi)容相對準的視頻內(nèi)容中提取視頻對象，并且然后與視頻對象有關(guān)的信息被用于從基于聲道的音頻內(nèi)容中提取音頻對象。所提取的音頻對象能夠被用于呈現(xiàn)為上混音音頻信號。利用補充的基于視頻對象的信息的協(xié)助，音頻對象提取的性能能夠得到提升。本發(fā)明的實施例所帶來的其他益處將通過下文描述而清楚。
【附圖說明】
[0009] 通過參考附圖閱讀下文的詳細描述，本發(fā)明實施例的上述W及其他目的、特征和優(yōu)點將變得易于理解。在附圖中，W示例而非限制性的方式示出了本發(fā)明的若干實施例，其中：
[0010] 圖1示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的框架的框圖；
[0011] 圖2示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的方法的流程圖；
[0012] 圖3示出了根據(jù)本發(fā)明的一個示例實施例的圖1的框架中的基于視頻對象的信息提取器的框圖；
[0013] 圖4示出了根據(jù)本發(fā)明的一個示例實施例的一般性的空間視聽環(huán)境的示意圖；
[0014] 圖5示意性示出了根據(jù)本發(fā)明的一個示例實施例的圖3的基于視頻對象的信息提取器中的音頻模板生成器的框圖；
[0015] 圖6示出了根據(jù)本發(fā)明的另一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的框架的框圖；
[0016] 圖7示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的系統(tǒng)的框圖；W及
[0017] 圖8示出了適于實現(xiàn)本發(fā)明的示例實施例的示例計算機系統(tǒng)的框圖。陽01引在各個附圖中，相同或?qū)?yīng)的標號表示相同或?qū)?yīng)的部分。
【具體實施方式】
[0019] 下面將參考附圖中示出的若干示例實施例來描述本發(fā)明的原理。應(yīng)當理解，描述運些實施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本發(fā)明，而并非W任何方式限制本發(fā)明的范圍。
[0020] 如W上所提及的，期望從傳統(tǒng)的基于聲道格式的音頻內(nèi)容中提取音頻對象。由于在音頻混音的過程中，音頻混音師常常將不同的聲音源混合到與視頻內(nèi)容對準的基于聲道的音頻內(nèi)容中，視頻內(nèi)容可W用于協(xié)助音頻對象提取，例如通過視頻內(nèi)容中的補充的對象信息。另一方面，盡管各種音頻對象一起被混合在一個維度的音頻內(nèi)容信號中，對應(yīng)的可視對象（視頻對象）在二維的視頻內(nèi)容信號中可能是分離的。因此，分離的視頻對象的信息可W被用于提高在音頻對象提取系統(tǒng)中的經(jīng)過混音的音頻對象的提取。此外，通過基于視頻對象的信息來提取音頻對象可W進一步提高聽覺體驗，因為已經(jīng)證明了音頻和視頻內(nèi)容的緊密對準可W創(chuàng)建更具沉浸感的聽覺體驗，而音頻和視頻內(nèi)容之間的不對準可能導致聽眾的某種混淆。
[0021] 有鑒于此，本發(fā)明的實施例提出了用于視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的技術(shù)方案。圖1中示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的框架100。與基于聲道的音頻內(nèi)容對準的視頻內(nèi)容在基于視頻對象的信息提取器101中被處理W獲得基于視頻對象的信息。該信息可W被用作音頻對象提取的協(xié) 助信息并且然后被提供至音頻對象提取器102。音頻對象提取器102根據(jù)基于視頻對象的信息來對輸入的音頻內(nèi)容應(yīng)用音頻對象提取。在音頻對象提取的過程中，可W從音頻內(nèi)容中提取一個或多個音頻對象，并且音頻內(nèi)容中除了音頻對象信號之外的其余音頻可W被視作殘留信號。而且，還可W由音頻對象提取器102根據(jù)基于視頻對象的信息來估計與所提取的音頻對象相關(guān)聯(lián)的元數(shù)據(jù)。通過使用音頻對象元數(shù)據(jù)，所提取的音頻對象然后與殘留信號一起可W被用于呈現(xiàn)為上混音音頻信號。在呈現(xiàn)時，殘留信號可W被呈現(xiàn)為靜態(tài)環(huán)境聲。在所提出的解決方案中，基于視頻對象的信息可用于提高音頻對象提取的性能。
[0022] 現(xiàn)在參照圖2,其示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的方法200的流程圖。輸入的音頻內(nèi)容可W具有基于多個聲道或單個聲道的格式。例如，輸入的音頻內(nèi)容可W符合單聲道、立體聲、環(huán)繞5.1、環(huán)繞7.1等。輸入的音頻內(nèi)容還可W與對應(yīng)的視頻內(nèi)容相關(guān)聯(lián)。也就是說，音頻內(nèi)容與視頻內(nèi)容相對準。例如，音頻內(nèi)容和視頻內(nèi)容可W被包括在多媒體內(nèi)容中。通過分離該多媒體內(nèi)容，可W獲得音頻內(nèi)容W及對應(yīng)的視頻內(nèi)容。
[0023] 在S201，從與基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象。
[0024] 由于視頻內(nèi)容與基于聲道的音頻內(nèi)容相對準，包含在視頻內(nèi)容中的視頻對象也可 W與音頻內(nèi)容中的音頻對象相對準。視頻對象可W是在視頻帖中存在特定持續(xù)時間的對象。例如，在視頻帖中存在的直升機可W是視頻對象。與從視頻內(nèi)容中提取的視頻對象有關(guān)的信息可W用于協(xié)助針對每一帖或者針對每個時間戳的音頻對象提取。陽0巧]為了確定基于視頻對象的信息，可W首先處理視頻內(nèi)容W提取視頻對象。視頻內(nèi) 容可視頻帖為單位。在一個實施例中，可W從視頻內(nèi)容的視頻帖中提取視頻對象。注意到，可W從視頻帖中提取多于一個的視頻對象，并且要被處理的視頻帖的數(shù)量可W是一個或多個。本發(fā)明的范圍在此方面不受限制。
[0026] 期望僅提取發(fā)出聲音的視頻對象，運可能導致處理的復(fù)雜度。此外，從視頻內(nèi)容中提取具有精確邊界的所有視頻對象可能也是具有挑戰(zhàn)性的。在本發(fā)明的實施例中，為了協(xié) 助音頻對象提取而不明顯增加處理的復(fù)雜度的目的，視頻對象提取可W是較不精確的。也就是說，對于視頻對象提取的精度沒有嚴格的要求。例如，在視頻帖的圖像中具有類似顏色或紋理的區(qū)域可W被粗略地認為是視頻對象。已經(jīng)存在用于視頻對象劃分/追蹤目的的各種技術(shù)和算法。在一個示例中，視頻對象提取可W主要基于對象的空間一致性?；诳臻g 一致性的視頻對象提取的示例過程可W具有W下步驟：
[0027] ?使用形態(tài)濾波器來簡單化視頻帖的圖像，W便減少后續(xù)處理的噪聲分布；
[0028] ?對圖像應(yīng)用分水嶺算法W便決定區(qū)域邊界，并且將一個或多個區(qū)域合并在一起 W避免可能的過度分割；
[0029] ?通過某個運動估計方法、諸如最睹下降或分層塊匹配的方法，計算每個區(qū)域的運動矢量；W及
[0030] ?將具有相似運動的區(qū)域合并在一起，W形成視頻對象區(qū)域，并且估計每個視頻對象的運動矢量。
[0031] 注意到，存在許多其他視頻對象提取的方法，并且本發(fā)明的范圍在此方面不受限制。
[0032] 在S202,確定與至少一個視頻對象有關(guān)的信息。
[0033] 該信息（也被稱為基于視頻對象的信息）可W指示與所提取的視頻對象有關(guān)的信息?；谝曨l對象的信息可W通過分析所提取的視頻對象來確定，并且可W包括W下各項中的一項或多項：視頻對象的位置、音頻模板、尺寸W及數(shù)量。位置信息可W指示所提取的視頻對象在聽覺環(huán)境中的位置，在該聽覺環(huán)境中，與該視頻對象相對應(yīng)的音頻對象可W被呈現(xiàn)。音頻模板可W指示基于所提取的視頻對象的類型而從音頻模板數(shù)據(jù)庫中選擇的預(yù)定義的音頻。所提取的視頻對象的數(shù)量也可W用于音頻對象提取?；谝曨l對象的信息可W 包括與視頻對象有關(guān)的其他信息，諸如視頻對象的類型、視頻對象在時間上的運動等，并且本發(fā)明的范圍在此方面不受限制?；谝曨l對象的信息的確定將在W下詳細描述。
[0034] 參照圖3,示出了根據(jù)本發(fā)明的一個實施例的基于視頻對象的信息提取器101的框圖。通過處理輸入的視頻內(nèi)容，基于視頻對象的信息提取器101可W輸出基于視頻對象的信息。具體地，被包括在基于視頻對象的信息提取器101中的視頻對象提取器301可W 對輸入的視頻內(nèi)容執(zhí)行視頻對象提取，W獲得一個或多個視頻對象。所提取的視頻對象然后可W被提供至對應(yīng)的基于視頻對象的信息處理單元。如圖3所示出的，被包括在基于視頻對象的信息提取器101中的位置信息估計器302可W用于估計視頻對象的位置信息。音頻模板生成器303可W用于生成視頻對象的音頻模板。尺寸信息估計器304可W估計視頻對象的尺寸信息，并且視頻對象數(shù)量估計器305可W用于確定所提取的（多個）視頻對象的數(shù)量。注意到，基于視頻對象的信息處理單元302-305僅被示出為示例。基于視頻對象的信息提取器101可W包括比運些處理單元302-305更多或更少的處理單元。
[0035] 一些其他示例實施例中，基于視頻對象的信息可W通過許多其它的方式來確定，例如通過用戶輸入。在一些示例中，在具有或不具有視頻對象提取的情況下，可W由用戶配置被包含在視頻內(nèi)容中的視頻對象的數(shù)量、每個視頻對象的類型、尺寸或者甚至每個視頻對象的音頻模板。
[0036] 方法200行進至S203,其中基于所確定的信息，從基于聲道的音頻內(nèi)容中提取要被呈現(xiàn)為上混音音頻信號的音頻對象。
[0037] 在音頻對象提取時，可W從音頻內(nèi)容中提取一個或多個音頻對象。音頻內(nèi)容中除了音頻對象信號之外的其余音頻可W被認為是殘留信號。所提取的音頻對象可W用于在后續(xù)處理中與殘留信號一起被呈現(xiàn)為上混音音頻信號。
[0038] 根據(jù)本發(fā)明的實施例，為了提高音頻對象提取的性能，例如，為了增加所提取的音頻對象信號的精確度，可W利用基于視頻對象的信息來協(xié)助音頻對象提取。可多種方式來根據(jù)基于視頻對象的信息提高音頻對象提取。例如，取決于視頻對象提取的精確水平 W及所提取的視頻對象與音頻對象的對準置信度，該信息可W是特定于對象的，或者可W 不是特定于對象的。如果該信息不是特定于對象的（諸如，視頻對象的數(shù)量），可W應(yīng)用一些一般性的方法，諸如調(diào)諧音頻對象提取的積極度（aggressiveness), W改進音頻對象提取。在一些其他情況下，如果可獲得特定于對象的信息（諸如，被認為對應(yīng)于一個音頻對象的特定視頻對象的位置），可W應(yīng)用更加具體的方法，例如通過將該視頻對象的位置用作在音頻對象提取中該音頻對象的參考位置。
[0039] W下將更詳細描述具有基于視頻對象的信息協(xié)助的音頻對象提取。
[0040] 在下文中，將描述一些類型的基于視頻對象的信息的確定。
[0041] 位置信息估計
[0042] 可W在圖3中示出的位置信息估計器302中執(zhí)行位置信息估計。
[0043] 在估計視頻對象在視頻帖中的位置時，可W確定視頻對象在視頻帖的圖像中的二維（2D)位置和深度。基于所提取的視頻對象在視頻帖的圖像中的區(qū)域，可W在視頻場景中估計二維位置和深度0(y，Zy，Dy)的信息。在此，0(y，Zy)表示視頻對象在圖像中的2D位置，并且Dv表示視頻對象的深度。 W44] 在一個示例中，視頻帖的圖像的左下角的位置可W被定義為〇?= 0, Zy= 0)，并且圖像的右上角的位置可W被定義為θ?= l，Zy= 1)。視頻對象的2D位置狂y，Zy)然后可W被確定為視頻對象區(qū)域在視頻帖的圖像中的質(zhì)屯、位置。
[0045] 可W使用若干深度估計算法來獲得視頻對象深度。對于2D視頻內(nèi)容，可W基于例如紋理梯度、視頻的圖像結(jié)構(gòu)等來估計對象深度信息。對于Ξ維（3D)視頻內(nèi)容，在利用了深度映射的某些格式中已經(jīng)可獲得視頻對象深度。對于不具有深度信息的3D視頻格式，與用于2D視頻內(nèi)容的深度估計類似的方法可W用于重構(gòu)3D視頻內(nèi)容的深度。
[0046] 為了利用視頻對象位置來協(xié)助后續(xù)的音頻對象提取，2D位置和深度戊，Zy，Dy)的信息可W被映射到聽覺環(huán)境的3D空間中，W獲得視頻對象的3D位置信息（Xy，Yy，Zy)。3D 空間可W是音頻場景，諸如所提取的音頻對象要在其中被呈現(xiàn)的3D空間聽覺環(huán)境。位置信息（Xy，Yy)可W指示視頻對象在視頻內(nèi)容將被顯示的屏幕平面中的位置。典型的示例是在前方墻壁上具有屏幕的電影室或劇院，其中視頻對象可W被顯示在2D屏幕上，并且聽覺環(huán) 境是具有環(huán)繞揚聲器的3D房間。3D空間聽覺環(huán)境可W被簡單化為具有邊長等于1的正方形房間，并且屏幕在y = 0的前方墻壁上，該正方形房間如圖4所示。在一個實施例中，2D 位置和深度Ο?，Zy，的）可^通過映射函數(shù)而被映射到3D空間中的位置，運被表示為如下：陽047] (Xv，Υν，Zv) = fv - Α(Χν，Zv，Dv) (1)
[0048] 其中映射函數(shù)可W基于各種使用情況而被定義，例如基于聽者在正方形房間中的物理位置。在一些實施例中，針對相應(yīng)的坐標軸的映射函數(shù)還可W是不同的。 W例在一個示例中，假設(shè)聽者坐在房間的中間，位置是（X，y，Z) = (0. 5,0. 5,0)，可W 利用W下映射函數(shù)將視頻對象映射到房間的前半部分[oaLy^e [0,0.5]，Zye [0， 1])：陽0加 ]χν= f χΟ?，z^Dv) = Xv 陽051] γν= f γΟ?，Dv) = f〇-y(Dv) (2)
[ο 化 2] Zy= f ζ (Χν，Zy, Dy) = Zy
[0053] 其中視頻對象在視頻場景中的X坐標和Y坐標等于在音頻場景中的X坐標和z坐標，并且視頻對象的深度通過映射函數(shù)被映射到音頻場景中的y坐標。在一些情況下，隨著深度的的增加，聽者與視頻對象之間的距離也增加，并且視頻對象在3D聽覺環(huán)境中的y、數(shù)值更小。例如，如果視頻對象的深度是零，y、可W是0.5。從聽者在房間中的位置來看，視頻對象是接近的。隨著深度的數(shù)值增加，y、可W減少到零。視頻對象遠離聽者。因此，可W使用隨著深度的增加而單調(diào)地減小并且將深度映射到[0,0.引的任何函數(shù)。 fD^yO的一個簡單示例在W下被給出：
[0054]
(3) 陽化引其中-yO是具有參數(shù)曰D和b D的S函數(shù)（sigmoid function)。典型地，參數(shù)a D 可W是正的，因此y、隨著深度的增加而單調(diào)地減小。
[0056] 在W上描述中，描述了將視頻對象在視頻場景中的位置映射到音頻場景的一個示例。注意到，可W使用許多其他的映射函數(shù)，只要在3D空間中的位置取決于Xy、Zy、的中的一個或多個的數(shù)值。對于每個提取的視頻對象，可W據(jù)此估計各自的位置信息。
[0057] 音頻模板生成
[0058] 可W在圖3中示出的音頻模板生成器303中執(zhí)行音頻模板生成。
[0059] 在多媒體內(nèi)容創(chuàng)建階段，具體地在電影工廠中，許多音頻源可能來自音頻對象模板數(shù)據(jù)庫。例如，當音頻混音師想要將直升機的聲音添加到針對視頻場景中的直升機的多聲道音頻中時，可W從音頻對象模板數(shù)據(jù)庫中選擇直升機音頻對象之一，并且然后將其混音到多聲道內(nèi)容中。因此，視頻對象的預(yù)定義的音頻模板可W被用作音頻對象提取期間的參考信號，從而提高音頻對象提取的性能。
[0060] 通常來說，音頻混音師可W基于視頻對象的類型來選擇視頻對象的音頻模板。例如，對于直升機，對應(yīng)的直升機聲音可能被混音，并且對于機動車輛，對應(yīng)的轟鳴聲可能被混音。因此，為了標識視頻對象的音頻模板，在一些實施例中，所提取的視頻對象可W與預(yù) 定義的視頻模板相比較，W標識視頻對象的類型（諸如直升機、鳥、狗、汽車等）。預(yù)定義的視頻模板可W來自視頻對象模板數(shù)據(jù)庫?？蒞應(yīng)用視頻對象識別技術(shù)來標識視頻對象的類型。然后，基于視頻對象的類型，可W從預(yù)定義的音頻模板中確定視頻對象的音頻模板。具體地，可W通過從音頻對象模板數(shù)據(jù)庫中捜索具有特定類型的音頻對象，來獲得音頻模板。注意到，對于每個提取的視頻對象，可W據(jù)此確定各自的音頻模板。在一些情況下，所提取的音頻對象中的一些音頻對象可能不對應(yīng)于任何音頻模板。
[0061] 圖5中示出了根據(jù)本發(fā)明的一個實施例的音頻模板生成器303的框圖。被包括在音頻模板生成器303中的視頻對象識別器501可W通過使用視頻對象識別技術(shù)，將輸入的視頻對象與視頻對象模板數(shù)據(jù)庫502中的視頻對象模板進行比較，從而標識輸入的視頻對象的類型。視頻對象識別器501然后可W將所標識的對象類型提供至音頻模板選擇器503。基于對象類型，音頻模板選擇器503可W針對輸入的視頻對象對應(yīng)的音頻模板而捜索音頻對象模板數(shù)據(jù)庫504。
[0062] 尺寸信息估計
[0063] 可W在圖3中示出的尺寸信息估計器304中執(zhí)行尺寸信息估計。
[0064] 可W通過視頻對象區(qū)域在視頻帖的圖像中的尺寸來估計視頻對象的尺寸。在一些實施例中，可W首先確定視頻對象在視頻帖的圖像中的面積，并且然后基于視頻對象的面積來確定視頻對象的尺寸信息。注意到，對于每個提取的視頻對象，可W據(jù)此確定各自的尺寸信息。例如，可W使用映射函數(shù)來將視頻對象在圖像中的面積映射到視頻對象的尺寸。視頻對象的尺寸可W與對象面積的尺寸正相關(guān)，其可W被表示為如下：
[0065]
(4)
[0066] 其中sbcK.表示視頻對象區(qū)域在圖像中的尺寸，size、表示視頻對象的尺寸，并且 fuwvO表示單調(diào)增加函數(shù)。
[0067] 視頻對象數(shù)量估計
[0068] 可W在圖3中示出的視頻對象數(shù)量估計器305中執(zhí)行視頻對象數(shù)量估計。
[0069] 基于視頻對象提取的結(jié)果，可W據(jù)此獲得所提取的視頻對象的數(shù)量（也被稱為視頻對象數(shù)量）Ny。在一個實施例中，視頻對象數(shù)量可W等于視頻對象區(qū)域的數(shù)量。在一些其他實施例中，表示沉默對象的對象區(qū)域可W不被計數(shù)為視頻對象，諸如建筑物、桌子、書本 AfrAfr 寸寸〇
[0070] 在下文中，將描述具有基于視頻對象的信息協(xié)助的音頻對象提取。如W上所提及的，基于（多個）視頻對象的信息、諸如視頻對象的位置信息、尺寸信息、音頻模板或（多個）視頻對象的數(shù)量，可W被用作音頻對象提取中的補充信息。
[0071] 在一些實施例中，可W在音頻對象提取中利用（多個）視頻對象的位置。
[0072] 在多聲道音頻內(nèi)容創(chuàng)建階段，內(nèi)容創(chuàng)建者（音頻混音師）可W基于音頻對象的位置/方向而將音頻對象平移（pan)至多個聲道。在多數(shù)多聲道音頻對象提取方法中，音頻對象的平移位置/方向是正確提取音頻對象的關(guān)鍵。因此，根據(jù)視頻內(nèi)容估計的位置信息可W被用作音頻對象提取期間的參考音頻對象位置。當獲得多個視頻對象的位置時，所獲得的位置中的一些或所有可W被用在音頻對象提取中。
[0073] 例如，在音頻對象提取中使用的典型模型可W被表示為：
[0074] X = AS+b 妨
[0075] 其中X表示音頻內(nèi)容信號（所觀察到的混音信號），S表示要被提取的音頻對象信號，A表示混音矩陣（平移矩陣），該混音矩陣包含用于將音頻對象平移到音頻內(nèi)容信號的平移增益，并且b表示包含環(huán)境音和殘留噪聲的殘留信號。
[0076] 在盲音頻對象提取方法、諸如獨立成分分析（independent component analysis， ICA)或非負矩陣分解（non-negative matrix facto;rization，NMF)中，給定所觀察到的混音信號，可W通過最小化成本函數(shù)來聯(lián)合地估計音頻對象信號W及混音矩陣。在許多情況下，混音矩陣的適當初始化是避免結(jié)果落入局部最優(yōu)而不是全局最優(yōu)的關(guān)鍵。
[0077] 因此，如果位置信息被用作音頻對象提取中的參考音頻對象位置，在一個實施例中，可W基于所提取的（多個）視頻對象的位置信息來確定音頻對象提取的混音矩陣。然后可W基于混音矩陣來從音頻內(nèi)容中提取音頻對象。在一個示例中，位置信息可W被用來初始化混音矩陣。在另一個示例中，可W基于位置信息來確定混音矩陣的一部分或全部。
[0078] 由于視頻對象的位置信息表示相對準的音頻對象在其中要被呈現(xiàn)的3D聽覺環(huán)境中的位置，而混音矩陣表示音頻對象到多個聲道的平移增益，因此位置信息可W被映射到混音矩陣中的平移增益。
[0079] 具有視頻對象的位置信息的協(xié)助，盲音頻對象提取可W變成半監(jiān)督的音頻對象提取，并且因為混音矩陣被視頻對象位置更好地初始化，所W可W獲得更好的提取結(jié)果。
[0080] 在一些實施例中，可W在音頻對象提取中利用（多個）視頻對象的音頻模板。
[0081] 如W上所討論的，音頻混音師可W針對所提取的視頻對象的類型，從音頻對象模板數(shù)據(jù)庫中選擇音頻模板。因此，在一個實施例中，視頻對象的音頻模板可W被用來確定用于音頻對象提取的公式巧）中示出的模型中的音頻對象信號。視頻對象的音頻模板可W被確定為音頻對象參考信號。然后，可W基于音頻對象參考信號來從音頻內(nèi)容中提取音頻對象。當獲得多個視頻對象的音頻模板時，運些音頻模板中的一個或全部音頻模板可W在音頻對象提取中被使用。
[0082] 在典型的相關(guān)度分析的實施例中，基于由視頻對象的音頻模板所表示的音頻對象參考信號，可W從音頻內(nèi)容中提取與該參考信號高度相關(guān)的音頻信號。所提取的音頻信號可W被視作與視頻對象相對應(yīng)的音頻對象。
[0083] 如W上所描述的，在盲音頻對象提取中，應(yīng)當聯(lián)合地估計音頻對象信號S和混音矩陣A。在半監(jiān)督的音頻對象提取的另一個實施例中，由視頻對象的音頻模板表示的音頻對象參考信號可W被用作音頻對象信號S的一部分或者全部，或者被用來初始化音頻對象信號S。因此，由于通過音頻模板來更好地初始化或確定音頻對象信號，可W獲得更好的提取結(jié)果。
[0084] 當利用視頻對象的音頻模板時，由于在視頻對象的音頻模板與音頻內(nèi)容中的音頻對象之間可能存在一些時間尺度的差異，可W使用一些動態(tài)的對準方法、諸如動態(tài)時間規(guī) 整值ynamic Time Wa巧ing)來將音頻模板與混音的多聲道音頻內(nèi)容相對準。
[00化]在一些其他實施例中，可W在音頻對象提取中利用所提取的視頻對象的數(shù)量。
[0086] 在音頻內(nèi)容中，音頻對象的數(shù)量可能隨著時間變化，運意味著在一些情況下可能存在許多音頻對象，而在一些情況下可能不存在音頻對象或者僅存在若干音頻對象。因此，為了更好地從音頻內(nèi)容中提取音頻對象，可能需要與視頻對象的數(shù)量有關(guān)的信息來改變音頻對象提取的積極度或者要被提取的音頻對象的數(shù)量。盡管存在僅基于音頻內(nèi)容來自動地估計音頻對象數(shù)量的一些算法，但是基于視頻內(nèi)容來估計音頻對象數(shù)量可能對于改善音頻對象提取而言更有價值，特別是對于被混音在音頻內(nèi)容中的音頻對象在視頻內(nèi)容中完全分離的情況而言。
[0087] 在一個實施例中，要被提取的音頻對象的數(shù)量是音頻對象提取的輸入?yún)?shù)。該數(shù) 量可W基于所提取的視頻對象的數(shù)量來確定。例如，要被提取的音頻對象的數(shù)量可W與所提取的視頻對象的數(shù)量正相關(guān)。在其中視頻對象與音頻對象相對準是高度置信的一些實施例中，視頻對象的數(shù)量可W被直接地用作要被提取的音頻對象的數(shù)量。
[0088] 在一些實施例中，視頻對象數(shù)量可W用來修改音頻對象提取的積極度。也就是說，如果存在較少的視頻對象，音頻對象提取可W是更保守的，并且如果存在許多視頻對象，那么音頻對象提取將是更積極的。如W上所討論的，在音頻對象提取中，可W提取音頻對象W 及殘留信號。在運些實施例中，視頻對象的數(shù)量可W被用來修改所提取的音頻對象的部分和殘留信號的部分。首先可W基于視頻對象的數(shù)量來確定用于音頻對象提取的增益，并且然后可W在音頻對象提取之后使用該增益來修改所提取的音頻對象信號。
[0089] 該增益可W被應(yīng)用于所提取的音頻對象，W修改音頻對象信號的部分，并且該增益可w基于視頻對象數(shù)量來確定，其可w被表示為：
[0090] g = fg(Nv) (6)
[0091] 其中Ny表示視頻對象數(shù)量，fgO表示將視頻對象數(shù)量映射到增益g的單調(diào)增加函數(shù)。該增益可W在0到1的范圍中。因此，如果存在許多視頻對象，音頻對象提取可W較有積極性，增益接近于1。如果存在較少的視頻對象，音頻對象提取可W是保守的，增益接近于 0。
[0092] 注意到，也可W備選地基于視頻對象數(shù)量來確定被應(yīng)用于殘留信號的增益。在運種情況下，增益可W隨著視頻對象數(shù)量的增加而單調(diào)地減小。
[0093] 圖6示出了根據(jù)本發(fā)明的一個示例實施例的用于視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的擴展框架200的框圖?？蚣?00可W基于圖1中示出的框架100?；谝?頻對象的信息提取器101可W從視頻內(nèi)容中提取視頻對象數(shù)量，W協(xié)助音頻對象提取。增益計算器103通過映射函數(shù)來基于視頻對象數(shù)量計算用于音頻對象提取的增益g。音頻對象提取器102可W處理輸入的音頻內(nèi)容并且從音頻內(nèi)容中分離音頻對象和殘留部分。所確定的增益g可W在音頻對象修改器104中被應(yīng)用到音頻對象信號?；谠鲆鎔，由音頻對象修改器104輸出的所提取的音頻對象的一部分可W被認為是相應(yīng)的音頻對象。剩余部分可 W被增加到來自音頻對象提取器102的殘留部分中，W被認為是殘留信號。
[0094] 在一些其他實施例中，在音頻對象提取期間，還可W從音頻內(nèi)容中確定所提取的音頻對象的元數(shù)據(jù)。元數(shù)據(jù)可W包括與所提取的音頻對象有關(guān)的信息，諸如描述音頻對象的位置、速度和尺寸的信息。
[0095] 由于音頻混音師可能總是基于視頻內(nèi)容而將多個音頻對象混音在一起，視頻對象的信息與音頻對象的實際混音元數(shù)據(jù)之間存在相關(guān)性。因此，在一些其他實施例中，基于視頻對象的信息、諸如視頻對象的位置信息、尺寸信息、視頻對象數(shù)量、音頻模板、類型等可W 協(xié)助音頻對象提取期間的元數(shù)據(jù)估計。基于視頻對象的信息可W用于修改在音頻對象提取時獲得的元數(shù)據(jù)，W便提高所提取的元數(shù)據(jù)的準確度。
[0096] 由于元數(shù)據(jù)與相應(yīng)的所提取的音頻對象相關(guān)聯(lián)，并且協(xié)助的信息（基于視頻對象的信息）是從相應(yīng)的視頻對象獲得的，為了在元數(shù)據(jù)估計時更好地利用基于視頻對象的信息，可W首先創(chuàng)建音頻對象與視頻對象之間的對準。為了避免使用不對準的視頻對象的信息，可W從所提取的視頻對象和音頻對象中確定具有高的對準置信度的視頻和音頻對象的配對。假設(shè)存在N個提取的視頻對象和Μ個提取的音頻對象，可W獲得具有高的對準置信度的視頻和音頻對象的Κ化《Ν并且Κ《Μ)個配對?？蒞通過視頻對象與音頻對象之間的相關(guān)度/相干度來衡量對準置信度。在一個實施例中，可W計算音頻對象與相應(yīng)的視頻對象之間的相關(guān)度?？蒞基于所計算的相關(guān)度來確定與音頻對象相對準的視頻對象。例如，可W在所有提取的視頻對象中確定與一個音頻對象具有最高的相關(guān)度的視頻對象?？蒞基于所對準的視頻對象的信息，諸如位置信息、尺寸信息和音頻模板，來修改該音頻對象的元數(shù)據(jù)。
[0097] 在一些實施例中，視頻對象與音頻對象之間的相關(guān)度可W基于視頻對象的位置信息與音頻對象的元數(shù)據(jù)中的位置信息之間的距離。音頻對象的元數(shù)據(jù)中的位置信息可W僅根據(jù)音頻內(nèi)容來估計。如果視頻對象的位置的改變與音頻對象的元數(shù)據(jù)中的位置信息的改變一致，那么該視頻對象與該音頻對象具有高的相關(guān)度。在一個示例中，相關(guān)度與視頻對象與音頻對象之間的距離負相關(guān)，運可w被表示為：陽09引 Cav= f "St - cor(dist(Pa，Pv)) (7)
[0099] 其中Cw表示視頻對象與音頻對象之間的相關(guān)度，dist (p。，py)表示視頻對象的位置與僅根據(jù)音頻內(nèi)容而估計的音頻對象的位置之間的距離，并且表示單調(diào)減小函數(shù)。
[0100] 備選地或附加地，視頻對象與音頻對象之間的相關(guān)度可W基于視頻對象的音頻模板與音頻對象之間的相似度。在一個示例中，相關(guān)度和視頻對象的音頻模板與音頻對象之間的相似度是正相關(guān)的，其可W被表示為：陽 W] Cav= f sim - cor(Sim(Sa，Sv)) (8) 陽102] 其中Cw表示視頻對象與音頻對象之間的相關(guān)度，sim(s。，Sy)表示視頻對象的音頻模板與音頻對象之間的相似度，并且表示單調(diào)增加函數(shù)。陽103] 在一些實施例中，可W基于所對準的視頻對象的位置來修改所提取的音頻對象的位置。陽104] 元數(shù)據(jù)中的音頻對象的位置可W用于音頻對象的后續(xù)呈現(xiàn)。在一些實施例中，音頻對象的位置可W包括音頻內(nèi)容的2D揚聲器布局平面、諸如地平面中的2D位置（X。，y。)。音頻對象的位置還可W包括高度信息（Z。)。該位置然后可W被表示在音頻對象被呈現(xiàn)的3D 空間中。
[0105] 音頻對象的2D位置（X。，y。）可W基于視頻對象的2D位置成，y、）來修改。在一個示例中，音頻對象位置和視頻對象位置可W被如下地線性組合：陽 106] Xa' = aXa+(l-曰）Xv 陽 107] (9) 陽刪 y。' = aya+α-曰）yv
[0109] 其中X。和y a表示僅根據(jù)音頻內(nèi)容確定的音頻對象的X坐標和y坐標位置，X V和 y、表示視頻對象的X坐標和y坐標位置，X。'和y。'表示音頻對象的經(jīng)過修改的X坐標和 y坐標位置，并且α表示線性組合的參數(shù)，其可W在0到1的范圍中。
[0110] 為了后續(xù)創(chuàng)建3D音頻對象，通常需要音頻對象的高度Ζ。。然而，對于常規(guī)的多聲道音頻對象內(nèi)容（環(huán)繞5. 1、環(huán)繞7. 1等），所有的聲道處于同一平面并且不具有高度信息。在運種情況下，應(yīng)當通過其他信息來估計高度信息，諸如通過音頻對象的2D位置、音頻對象的類型等?；谝纛l對象的2D位置來估計高度的一個典型示例如W下所示：陽111] Za= f autozUa，Ya) (l〇)
[0112] 其中音頻對象的高度信息z?；谝纛l對象的2D位置（Xg，y。）來計算，并且fgutuzO 表示將2D位置自動地映射到高度位置的映射函數(shù)，諸如半球化emis地ere)函數(shù)。然而，由于在所提取的音頻對象中不存在高度信息，所計算的高度估計可能是粗略的。
[0113] 為了改善高度估計，可W利用基于視頻對象的信息，因為視頻對象的高度更加直觀。在一個實施例中，可W基于僅根據(jù)音頻內(nèi)容估計的音頻對象的2D位置和視頻對象的3D 位置來確定音頻對象高度的具有視頻對象協(xié)助的估計，其可W被表示為：陽 114] Za' = f ' autozUa，Ya，Xv，Υν，Zv) (H)
[011引其中f' gutuz0表示基于音頻對象的2D音頻對象位置（X。，y。）和3D視頻對象位置（Xy，y、，Zy)來計算音頻對象的高度信息Z。'的映射函數(shù)。陽116] 在一些示例中，音頻對象的高度可W與視頻對象的高度成正相關(guān)，其可W被表示為：
[0117] Za' =f" autoZ(Zv) (。）陽11引其中f" 表示將視頻對象的高度Zy映射到音頻對象的高度Z。'的映射函數(shù)。在一個簡單的示例中，音頻對象的高度Z。'可W等于Zy。
[0119] 備選地或附加地，還可W利用視頻對象類型來估計音頻對象高度。例如，如果所對準的視頻對象是直升機，音頻對象的高度可W被設(shè)置為預(yù)定義的數(shù)值。
[0120] 在一些實施例中，由于所提取的音頻對象可W被上混音到各種播放系統(tǒng)，諸如揚聲器和耳機，在元數(shù)據(jù)估計時估計音頻對象的尺寸有利于提高聽覺體驗。例如，如果音頻對象不是點源，那么可W確定該音頻對象的尺寸。在后續(xù)的呈現(xiàn)時，可W基于尺寸信息來呈現(xiàn) 音頻對象。因此，在一個實施例中，可W基于對準的視頻對象的尺寸信息來修改所提取的音頻對象的尺寸。陽121] 由于視頻對象的尺寸信息可W基于視頻對象的區(qū)域而輕松地估計，并且視頻對象尺寸與音頻對象尺寸之間可能存在相關(guān)性，可W通過利用視頻對象尺寸來確定音頻對象尺寸。在一個實施例中，音頻對象尺寸可W與視頻對象尺寸成正相關(guān)，其可W被表示為：陽 12引 sizea= f sizeA(sizev) (蝴
[0123] 其中size。表示音頻對象的尺寸，size y表示與音頻對象對準的視頻對象的尺寸，并且fuwAO表示單調(diào)增加函數(shù)。
[0124] 在W上描述中，描述了不同類型的基于視頻對象的信息的確定和利用的實施例。應(yīng)當注意到，在協(xié)助音頻對象提取時，運些實施例可W被單獨地采用或者被組合在一起。還應(yīng)當知道，僅描述了基于視頻對象的信息的一些示例W及它們的應(yīng)用，并且還可W獲得許多其他類型的基于視頻對象的信息W及其他的應(yīng)用方法。
[01巧]圖7示出了根據(jù)本發(fā)明的一個示例實施例的視頻內(nèi)容協(xié)助地從音頻內(nèi)容中提取音頻對象的系統(tǒng)700的框圖。如所示出的，系統(tǒng)700包括視頻對象提取單元701，被配置為從與基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象。系統(tǒng)700還包括信息確定單元702,被配置為確定與至少一個視頻對象有關(guān)的信息。系統(tǒng)700進一步包括音頻對象提取單元703,被配置為基于所確定的信息，從基于聲道的音頻內(nèi)容中提取音頻對象，該音頻對象要被呈現(xiàn)為上混音音頻信號。。陽1%] 在一些實施例中，信息確定單元702可W包括W下各項中的至少一項：位置確定單元，被配置為確定至少一個視頻對象的位置，音頻模板確定單元，被配置為確定至少一個視頻對象的音頻模板，尺寸確定單元，被配置為確定至少一個視頻對象的尺寸，W及視頻對象數(shù)量確定單元，被配置為確定至少一個視頻對象的數(shù)量。
[0127] 在一些實施例中，位置確定單元可W進一步被配置為確定至少一個視頻對象在視頻內(nèi)容的視頻帖中的二維位置和深度；W及將二維位置和深度映射至聽覺環(huán)境的Ξ維空間中，W獲得至少一個視頻對象的位置。
[0128] 在一些實施例中，音頻對象提取單元703可W進一步被配置為基于至少一個視頻對象的位置，確定用于音頻對象提取的混音矩陣，W及基于混音矩陣，從基于聲道的音頻內(nèi) 容中提取音頻對象。
[0129] 在一些實施例中，音頻模板確定單元可W進一步被配置為標識至少一個視頻對象的類型，w及基于至少一個視頻對象的類型，從預(yù)定義的音頻模板中確定至少一個視頻對象的音頻模板。
[0130] 在一些實施例中，音頻對象提取單元703可W進一步被配置為基于至少一個視頻對象的音頻模板，確定音頻對象參考信號，W及基于音頻對象參考信號，從基于聲道的音頻內(nèi)容中提取音頻對象。陽131] 在一些實施例中，該信息可W包括至少一個視頻對象的數(shù)量，并且音頻對象提取單元703可W進一步被配置為基于至少一個視頻對象的數(shù)量，確定要被提取的音頻對象的數(shù)量，W及基于要被提取的音頻對象的數(shù)量，從基于聲道的音頻內(nèi)容中提取音頻對象。
[0132] 在一些實施例中，該信息可W包括至少一個視頻對象的數(shù)量，并且音頻對象提取單元703可W進一步被配置為基于至少一個視頻對象的數(shù)量，確定用于音頻對象提取的增益，W及基于增益修改所提取的音頻對象。
[0133] 在一些實施例中，系統(tǒng)700可W進一步包括元數(shù)據(jù)確定單元，被配置為從基于聲道的音頻內(nèi)容中確定音頻對象的元數(shù)據(jù)，W及元數(shù)據(jù)修改單元，被配置為基于所確定的信息修改音頻對象的元數(shù)據(jù)。
[0134] 在一些實施例中，該元數(shù)據(jù)可W包括音頻對象的位置。在運些實施例中，元數(shù)據(jù)修改單元可W進一步被配置為基于視頻對象與音頻對象之間的相關(guān)度，確定與音頻對象對準的視頻對象，W及基于所對準的視頻對象的位置，修改音頻對象的位置。
[0135] 在一些實施例中，該元數(shù)據(jù)可W包括音頻對象的尺寸。在運些實施例中，元數(shù)據(jù)修改單元可W進一步被配置為基于視頻對象與音頻對象之間的相關(guān)度，確定與音頻對象對準的視頻對象；W及基于所對準的視頻對象的尺寸，修改音頻對象的尺寸。
[0136] 在運些實施例中，視頻對象與音頻對象之間的相關(guān)度基于W下各項中的至少一項：視頻對象的位置與在音頻對象的元數(shù)據(jù)中的音頻對象的位置之間的距離，W及視頻對象的音頻模板與音頻對象之間的相似度。
[0137] 為清晰起見，在圖7中沒有示出系統(tǒng)700的某些可選部件。然而，應(yīng)當理解，上文參考圖1-圖6所描述的各個特征同樣適用于系統(tǒng)700。而且，系統(tǒng)700中的各部件可W是硬件模塊，也可W是軟件單元模塊。例如，在某些實施例中，系統(tǒng)700可W部分或者全部利用軟件和/或固件來實現(xiàn)，例如被實現(xiàn)為包含在計算機可讀介質(zhì)上的計算機程序產(chǎn)品。備選地或附加地，系統(tǒng)700可W部分或者全部基于硬件來實現(xiàn)，例如被實現(xiàn)為集成電路（1C)、專用集成電路（ASIC)、片上系統(tǒng)（S0C)、現(xiàn)場可編程口陣列（FPGA)等。本發(fā)明的范圍在此方面不受限制。
[0138] 下面參考圖8,其示出了適于用來實現(xiàn)本發(fā)明實施例的計算機系統(tǒng)800的示意性框圖。如圖8所示，計算機系統(tǒng)800包括中央處理單元（CPU)801，其可W根據(jù)存儲在只讀存儲器（ROM)802中的程序或者從存儲部分808加載到隨機訪問存儲器（RAM)803中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。如所需要的，在RAM 803中，還存儲有CPU 801執(zhí)行各種過程等的數(shù)據(jù)。CPU 801、ROM 802 W及RAM803通過總線804彼此相連。輸入/輸出（I/O)接口 805也連接至總線804。
[0139] W下部件連接至I/O接口 805 :包括鍵盤、鼠標等的輸入部分806 ;包括諸如陰極射線管（CRT)、液晶顯示器化CD)等W及揚聲器等的輸出部分807 ;包括硬盤等的存儲部分 808 ; W及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分809。通信部分809經(jīng) 由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器810也根據(jù)需要連接至I/O接口 805?？刹鹦?介質(zhì)811，諸如磁盤、光盤、磁光盤、半導體存儲器等等，根據(jù)需要安裝在驅(qū)動器810上，W便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分808。
[0140] 特別地，根據(jù)本發(fā)明的實施例，上文參考圖1-圖7描述的過程可W被實現(xiàn)為計算機軟件程序。例如，本發(fā)明的實施例包括一種計算機程序產(chǎn)品，其包括有形地包含在機器可讀介質(zhì)上的計算機程序，該計算機程序產(chǎn)品被有形地存儲在非瞬態(tài)計算機可讀介質(zhì)上并且包括機器可執(zhí)行指令，該機器可執(zhí)行指令在被執(zhí)行時使得該機器執(zhí)行方法200的步驟。在運樣的實施例中，該計算機程序可W通過通信部分809從網(wǎng)絡(luò)上被下載和安裝，和/或從可拆卸介質(zhì)811被安裝。陽141] 一般而言，本發(fā)明的各種示例實施例可W在硬件或?qū)Ｓ秒娐?、軟件、邏輯，或其?何組合中實施。某些方面可W在硬件中實施，而其他方面可W在可W由控制器、微處理器或其他計算設(shè)備執(zhí)行的固件或軟件中實施。當本發(fā)明的實施例的各方面被圖示或描述為框圖、流程圖或使用某些其他圖形表示時，將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可 W作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計算設(shè)備，或其某些組合中實施。陽142] 而且，流程圖中的各框可W被看作是方法步驟，和/或計算機程序代碼的操作生成的操作，和/或理解為執(zhí)行相關(guān)功能的多個禪合的邏輯電路元件。例如，本發(fā)明的實施例包括計算機程序產(chǎn)品，該計算機程序產(chǎn)品包括有形地實現(xiàn)在機器可讀介質(zhì)上的計算機程序，該計算機程序包含被配置為實現(xiàn)上文描述方法的程序代碼。
[0143] 在公開的上下文內(nèi)，機器可讀介質(zhì)可W是包含或存儲用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機器可讀介質(zhì)可W是機器可讀信號介質(zhì)或機器可讀存儲介質(zhì)。機器可讀介質(zhì)可W包括但不限于電子的、磁的、光學的、電磁的、紅外的或半導體系統(tǒng)、裝置或設(shè)備，或其任意合適的組合。機器可讀存儲介質(zhì)的更詳細示例包括帶有一根或多根導線的電氣連接、便攜式計算機磁盤、硬盤、隨機存儲存取器（RAM)、只讀存儲器 (ROM)、可擦除可編程只讀存儲器巧PROM或閃存）、光存儲設(shè)備、磁存儲設(shè)備，或其任意合適的組合。
[0144] 用于實現(xiàn)本發(fā)明的方法的計算機程序代碼可W用一種或多種編程語言編寫。運些計算機程序代碼可W提供給通用計算機、專用計算機或其他可編程的數(shù)據(jù)處理裝置的處理器，使得程序代碼在被計算機或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的時候，引起在流程圖和/ 或框圖中規(guī)定的功能/操作被實施。程序代碼可W完全在計算機上、部分在計算機上、作為獨立的軟件包、部分在計算機上且部分在遠程計算機上或完全在遠程計算機或服務(wù)器上執(zhí) 行。
[0145] 另外，盡管操作W特定順序被描繪，但運并不應(yīng)該理解為要求此類操作W示出的特定順序或W相繼順序完成，或者執(zhí)行所有圖示的操作W獲取期望結(jié)果。在某些情況下，多任務(wù)或并行處理會是有益的。同樣地，盡管上述討論包含了某些特定的實施細節(jié)，但運并不應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍，而應(yīng)解釋為對可W針對特定發(fā)明的特定實施例的描述。本說明書中在分開的實施例的上下文中描述的某些特征也可W整合實施在單個實施例中。相反地，在單個實施例的上下文中描述的各種特征也可W分離地在多個實施例或在任意合適的子組合中實施。陽146] 針對前述本發(fā)明的示例實施例的各種修改、改變將在連同附圖查看前述描述時對相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本發(fā)明的示例實施例范圍。此外，前述說明書和附圖存在啟發(fā)的益處，設(shè)及本發(fā)明的運些實施例的技術(shù)領(lǐng)域的技術(shù)人員將會想到此處闡明的本發(fā)明的其他實施例。陽147] 由此，本發(fā)明可W通過在此描述的任何形式來實現(xiàn)。例如，W下的枚舉示例實施例巧?。┟枋隽吮景l(fā)明的某些方面的某些結(jié)構(gòu)、特征和功能。
[0148] E邸1. 一種視頻內(nèi)容協(xié)助的音頻對象提取的方法，包括：從視頻內(nèi)容中提取基于視頻對象的信息，視頻對象協(xié)助地從音頻內(nèi)容中提取音頻對象，并且視頻對象協(xié)助地估計音頻對象元數(shù)據(jù)。
[0149] EEE 2.根據(jù)EEE 1所述的方法，提取基于視頻對象的信息包括：提取視頻對象，估計視頻對象位置，生成音頻模板，估計視頻對象尺寸，W及估計視頻對象數(shù)量。
[0150] E邸3.根據(jù)邸E 2所述的方法，估計視頻對象位置包括：估計在視頻場景中的視頻對象位置，W及將視頻對象位置映射到3D空間。陽151] E邸4.根據(jù)邸E 3所述的方法，視頻對象的深度和3D空間中聽眾與視頻對象之間的距離成正相關(guān)。
[0152] E邸5.根據(jù)邸E 2所述的方法，生成音頻模板包括：基于視頻對象識別技術(shù)來估計視頻對象的類型，W及通過使用所估計的視頻對象類型來從音頻對象模板數(shù)據(jù)庫中捜索音頻模板。陽153] E邸6.根據(jù)邸E 1所述的方法，視頻對象協(xié)助地提取音頻對象包括：利用視頻對象數(shù)量，利用視頻對象的位置，和/或利用視頻對象的音頻模板。
[0154] E邸7.根據(jù)邸E 6所述的方法，利用視頻對象數(shù)量來調(diào)諧音頻對象提取的積極度，并且視頻對象越多，音頻對象提取的積極度越大。陽巧日]E邸8.根據(jù)邸E 7所述的方法，視頻對象數(shù)量與所提取的音頻對象的要被傳送通過的部分成正相關(guān)。
[0156] E邸9.根據(jù)邸E 7所述的方法，視頻對象數(shù)量與要被提取的音頻對象的數(shù)量成正相關(guān)。陽157] E邸10.根據(jù)邸E 6所述的方法，利用視頻對象位置來初始化音頻對象提取算法的混音矩陣。
[0158] E邸11.根據(jù)邸E 6所述的方法，將視頻對象的音頻模板初始化為參考信號，W提取與該參考信號高度相關(guān)的音頻對象信號。陽159] E邸12.根據(jù)邸E 6所述的方法，利用視頻對象的音頻模板來初始化音頻對象提取算法的音頻對象信號。
[0160] E邸13.根據(jù)邸E 1所述的方法，視頻對象協(xié)助地估計音頻對象元數(shù)據(jù)包括：對準視頻對象與音頻對象，并且基于對準的視頻對象的信息來提高音頻對象元數(shù)據(jù)估計。陽161] E邸14.根據(jù)邸E 13所述的方法，視頻對象與音頻對象的對準基于視頻對象與音頻對象之間的相關(guān)度/相干度。
[0162] E邸15.根據(jù)邸E 14所述的方法，視頻對象與音頻對象之間的相關(guān)度/相干度通過W下來衡量：隨著時間的視頻對象位置與音頻對象位置之間的相關(guān)度/相干度，和/或音頻對象與視頻對象的音頻模板之間的相關(guān)度/相干度。陽163] E邸16.根據(jù)邸E 13所述的方法，提高音頻對象元數(shù)據(jù)估計包括：估計元數(shù)據(jù)中的音頻對象的2D位置，估計元數(shù)據(jù)中的音頻對象的高度，W及估計元數(shù)據(jù)中的音頻對象的尺寸。陽164] E邸17.根據(jù)邸E 16所述的方法，基于2D視頻對象位置來修改音頻對象的2D位置。也就是說，所估計的音頻對象的2D位置朝向2D視頻對象位置而偏移。陽1化]E邸18.根據(jù)邸E 16所述的方法，基于3D視頻對象位置和2D音頻對象位置來聯(lián) 合地估計音頻對象的高度。視頻對象越高，音頻對象也越高。陽166] E邸19.根據(jù)邸E 16所述的方法，基于視頻對象類型來估計音頻對象的高度。對于可能具有對應(yīng)的高度信息的視頻對象類型，相關(guān)的音頻對象可W具有預(yù)定義的高度數(shù) 值。陽167] E邸20.根據(jù)邸E 16所述的方法，音頻對象的尺寸與視頻對象的尺寸成正相關(guān)。
[0168] 將會理解，本法明的實施例不限于公開的特定實施例，并且修改和其他實施例都應(yīng)包含于所附的權(quán)利要求范圍內(nèi)。盡管此處使用了特定的術(shù)語，但是它們僅在通用和描述的意義上使用，而并不用于限制目的。
【主權(quán)項】
1. 一種從基于聲道的音頻內(nèi)容中提取音頻對象的方法，包括：從與所述基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象；確定與所述至少一個視頻對象有關(guān)的信息；以及基于所確定的信息，從所述基于聲道的音頻內(nèi)容中提取音頻對象，所述音頻對象要被呈現(xiàn)為上混音音頻信號。2. 根據(jù)權(quán)利要求1所述的方法，其中所述確定與所述至少一個視頻對象有關(guān)的信息包括以下各項中的至少一項：確定所述至少一個視頻對象的位置；確定所述至少一個視頻對象的音頻模板；確定所述至少一個視頻對象的尺寸；以及確定所述至少一個視頻對象的數(shù)量。3. 根據(jù)權(quán)利要求2所述的方法，其中所述確定所述至少一個視頻對象的位置包括：確定所述至少一個視頻對象在所述視頻內(nèi)容的視頻幀中的二維位置和深度；以及將所述二維位置和所述深度映射至聽覺環(huán)境的三維空間中，以獲得所述至少一個視頻對象的所述位置。4. 根據(jù)權(quán)利要求2或3所述的方法，其中所述基于所確定的信息從所述基于聲道的音頻內(nèi)容中提取音頻對象包括：基于所述至少一個視頻對象的所述位置，確定用于音頻對象提取的混音矩陣；以及基于所述混音矩陣，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。5. 根據(jù)權(quán)利要求2所述的方法，其中所述確定所述至少一個視頻對象的音頻模板包括：標識所述至少一個視頻對象的類型；以及基于所述至少一個視頻對象的所述類型，從預(yù)定義的音頻模板中確定所述至少一個視頻對象的所述音頻模板。6. 根據(jù)權(quán)利要求2或5所述的方法，其中所述基于所確定的信息從所述基于聲道的音頻內(nèi)容中提取音頻對象包括：基于所述至少一個視頻對象的所述音頻模板，確定音頻對象參考信號；以及基于所述音頻對象參考信號，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。7. 根據(jù)權(quán)利要求2所述的方法，其中所述信息包括所述至少一個視頻對象的所述數(shù) 量，并且其中所述基于所確定的信息從所述基于聲道的音頻內(nèi)容中提取音頻對象包括：基于所述至少一個視頻對象的所述數(shù)量，確定要被提取的音頻對象的數(shù)量；以及基于要被提取的音頻對象的所述數(shù)量，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。8. 根據(jù)權(quán)利要求2所述的方法，其中所述信息包括所述至少一個視頻對象的所述數(shù) 量，并且其中所述基于所確定的信息從所述基于聲道的音頻內(nèi)容中提取音頻對象進一步包括：基于所述至少一個視頻對象的所述數(shù)量，確定用于音頻對象提取的增益；以及基于所述增益修改所提取的音頻對象。9. 根據(jù)權(quán)利要求2所述的方法，進一步包括：從所述基于聲道的音頻內(nèi)容中確定所述音頻對象的元數(shù)據(jù)；以及基于所確定的信息修改所述音頻對象的所述元數(shù)據(jù)。10. 根據(jù)權(quán)利要求9所述的方法，其中所述元數(shù)據(jù)包括所述音頻對象的位置，并且其中所述基于所確定的信息修改所述音頻對象的所述元數(shù)據(jù)包括：基于視頻對象與音頻對象之間的相關(guān)度，確定與所述音頻對象對準的視頻對象；以及基于所對準的視頻對象的所述位置，修改所述音頻對象的所述位置。11. 根據(jù)權(quán)利要求9所述的方法，其中所述元數(shù)據(jù)包括所述音頻對象的尺寸，并且其中所述基于所確定的信息修改所述音頻對象的所述元數(shù)據(jù)包括：基于視頻對象與音頻對象之間的相關(guān)度，確定與所述音頻對象對準的視頻對象；以及基于所對準的視頻對象的所述尺寸，修改所述音頻對象的所述尺寸。12. 根據(jù)權(quán)利要求10或11所述的方法，其中視頻對象與音頻對象之間的所述相關(guān)度基于以下各項中的至少一項：所述視頻對象的所述位置與在所述音頻對象的所述元數(shù)據(jù)中的所述音頻對象的位置之間的距離，以及所述視頻對象的所述音頻模板與所述音頻對象之間的相似度。13. -種從基于聲道的音頻內(nèi)容中提取音頻對象的系統(tǒng)，包括：視頻對象提取單元，被配置為從與所述基于聲道的音頻內(nèi)容相關(guān)聯(lián)的視頻內(nèi)容中提取至少一個視頻對象；信息確定單元，被配置為確定與所述至少一個視頻對象有關(guān)的信息；以及音頻對象提取單元，被配置為基于所確定的信息，從所述基于聲道的音頻內(nèi)容中提取音頻對象，所述音頻對象要被呈現(xiàn)為上混音音頻信號。14. 根據(jù)權(quán)利要求13所述的系統(tǒng)，其中所述信息確定單元包括以下各項中的至少一項：位置確定單元，被配置為確定所述至少一個視頻對象的位置；音頻模板確定單元，被配置為確定所述至少一個視頻對象的音頻模板；尺寸確定單元，被配置為確定所述至少一個視頻對象的尺寸；以及視頻對象數(shù)量確定單元，被配置為確定所述至少一個視頻對象的數(shù)量。15. 根據(jù)權(quán)利要求14所述的系統(tǒng)，其中所述位置確定單元進一步被配置為：確定所述至少一個視頻對象在所述視頻內(nèi)容的視頻幀中的二維位置和深度；以及將所述二維位置和所述深度映射至聽覺環(huán)境的三維空間中，以獲得所述至少一個視頻對象的所述位置。16. 根據(jù)權(quán)利要求14或15所述的系統(tǒng)，其中所述音頻對象提取單元進一步被配置為：基于所述至少一個視頻對象的所述位置，確定用于音頻對象提取的混音矩陣；以及基于所述混音矩陣，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。17. 根據(jù)權(quán)利要求14所述的系統(tǒng)，其中所述音頻模板確定單元進一步被配置為：標識所述至少一個視頻對象的類型；以及基于所述至少一個視頻對象的所述類型，從預(yù)定義的音頻模板中確定所述至少一個視頻對象的所述音頻模板。18. 根據(jù)權(quán)利要求14或17所述的系統(tǒng)，其中所述音頻對象提取單元進一步被配置為：基于所述至少一個視頻對象的所述音頻模板，確定音頻對象參考信號；以及基于所述音頻對象參考信號，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。19. 根據(jù)權(quán)利要求14所述的系統(tǒng)，其中所述信息包括所述至少一個視頻對象的所述數(shù) 量，并且其中所述音頻對象提取單元進一步被配置為：基于所述至少一個視頻對象的所述數(shù)量，確定要被提取的音頻對象的數(shù)量；以及基于要被提取的音頻對象的所述數(shù)量，從所述基于聲道的音頻內(nèi)容中提取所述音頻對象。20. 根據(jù)權(quán)利要求14所述的系統(tǒng)，其中所述信息包括所述至少一個視頻對象的所述數(shù) 量，并且其中音頻對象提取單元進一步被配置為：基于所述至少一個視頻對象的所述數(shù)量，確定用于音頻對象提取的增益；以及基于所述增益修改所提取的音頻對象。21. 根據(jù)權(quán)利要求14所述的系統(tǒng)，進一步包括：元數(shù)據(jù)確定單元，被配置為從所述基于聲道的音頻內(nèi)容中確定所述音頻對象的元數(shù) 據(jù)；以及元數(shù)據(jù)修改單元，被配置為基于所確定的信息修改所述音頻對象的所述元數(shù)據(jù)。22. 根據(jù)權(quán)利要求21所述的系統(tǒng)，其中所述元數(shù)據(jù)包括所述音頻對象的位置，并且其中所述元數(shù)據(jù)修改單元進一步被配置為：基于視頻對象與音頻對象之間的相關(guān)度，確定與所述音頻對象對準的視頻對象；以及基于所對準的視頻對象的所述位置，修改所述音頻對象的所述位置。23. 根據(jù)權(quán)利要求21所述的系統(tǒng)，其中所述元數(shù)據(jù)包括所述音頻對象的尺寸，并且其中所述元數(shù)據(jù)修改單元進一步被配置為：基于視頻對象與音頻對象之間的相關(guān)度，確定與所述音頻對象對準的視頻對象；以及基于所對準的視頻對象的所述尺寸，修改所述音頻對象的所述尺寸。24. 根據(jù)權(quán)利要求22或23所述的系統(tǒng)，其中視頻對象與音頻對象之間的所述相關(guān)度基于以下各項中的至少一項：所述視頻對象的所述位置與在所述音頻對象的所述元數(shù)據(jù)中的所述音頻對象的位置之間的距離，以及所述視頻對象的所述音頻模板與所述音頻對象之間的相似度。25. -種從基于聲道的音頻內(nèi)容中提取音頻對象的計算機程序產(chǎn)品，所述計算機程序產(chǎn)品被有形地存儲在非瞬態(tài)計算機可讀介質(zhì)上并且包括機器可執(zhí)行指令，所述機器可執(zhí)行指令在被執(zhí)行時使得所述機器執(zhí)行根據(jù)權(quán)利要求1至12中任一項所述的方法的步驟。
【文檔編號】H04S7/00GK105989845SQ201510087313
【公開日】2016年10月5日
【申請日】2015年2月25日
【發(fā)明人】陳連武, 孫學京, 蘆烈
【申請人】杜比實驗室特許公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳連武;孫學京;蘆烈;
技術(shù)所有人：杜比實驗室特許公司;
我是此專利的發(fā)明人

上一篇：一種多通道語音信號同步方法及裝置的制造方法
上一篇：一種音頻傳輸?shù)淖赃m應(yīng)方法及裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

視頻提取音頻相關(guān)技術(shù)

提取視頻中的音頻相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

視頻內(nèi)容協(xié)助的音頻對象提取的制作方法