音頻編碼器和解碼器的制造方法
【專利說明】首頻編碼商和解碼商
[0001] 相關(guān)申請的交叉引用
[0002]本申請要求在2013年4月5日提交的美國臨時(shí)專利申請No.61/808, 701的優(yōu)先 權(quán),該申請的全部內(nèi)容特此通過引用并入。
技術(shù)領(lǐng)域
[0003] 本文所公開的發(fā)明一般涉及視聽媒體分發(fā)。特別地,它涉及適于接受多個(gè)音頻幀 長度并因此適合形成處理幀同步視聽媒體格式的媒體解碼器的一部分的音頻解碼器。
【背景技術(shù)】
[0004]在當(dāng)前可用的大多數(shù)商業(yè)應(yīng)用中使用的音頻和視頻幀率(或幀頻率)遵循單獨(dú)建 立的工業(yè)標(biāo)準(zhǔn)以及用于在通信方之間傳輸音頻和視頻的協(xié)定格式,這些標(biāo)準(zhǔn)在記錄和回放 軟件產(chǎn)品、硬件組件兩者中顯示自己。音頻幀率一般是特定于不同編碼算法的,并且與諸如 44. 1和48kHz的音頻采樣頻率相關(guān)聯(lián),這些采樣頻率在它們各自的地理區(qū)域中與視頻幀率 29. 97fps (NTSC)和25fps (PAL)-樣出名;另外的標(biāo)準(zhǔn)視頻幀率包括23. 98、24和30fps或 者更一般的形式24、25、30fps和(24,25,30) X1000/1001fpS。嘗試統(tǒng)一或協(xié)調(diào)音頻幀率還 沒有成功,盡管有從模擬到數(shù)字分發(fā)的轉(zhuǎn)變,這意味著音頻幀(例如,適合在網(wǎng)絡(luò)上傳輸?shù)?包(packet)或編碼單元)一般不與整數(shù)數(shù)量的視頻幀對應(yīng)。
[0005] 作為時(shí)鐘漂移的結(jié)果,或者當(dāng)從不同的源接收數(shù)個(gè)流以用于服務(wù)器中的共同處 理、編輯或拼接時(shí)(這是在廣播站中頻繁遇到的情況),對于同步視聽數(shù)據(jù)流的要求不斷出 現(xiàn)。在圖3所示的情況下,音頻幀(流Sl中的A11、A12、…和流S2中的A21、A22、…)和 視頻幀(流Sl中的V11、V12、…和流S2中的V21、V22、…)不匹配,通過復(fù)制或拋棄流中 的一個(gè)中的視頻幀(在例如拼接流的嘗試中)來改善流之間的視頻對視頻同步性的嘗試一 般導(dǎo)致該流內(nèi)的音頻對視頻異步性。一般地,即使對應(yīng)的音頻幀被刪除或復(fù)制一異步性也 持續(xù)一至少在某種程度上。
[0006] 以更多的處理為代價(jià),可通過在同步期間將音頻暫時(shí)解碼為與分成幀無關(guān)的低級(jí) 格式(例如以原始采樣頻率分辨的脈沖編碼調(diào)制(PCM)或基帶格式),創(chuàng)建更大的操縱空 間。然而,這樣的解碼使元數(shù)據(jù)到特定的音頻段的精確錨定模糊,并且產(chǎn)生不能通過解碼成 "完美"的中間格式來補(bǔ)救的信息損失。作為一個(gè)示例,動(dòng)態(tài)范圍控制(DRC) -般是模式相 關(guān)的和設(shè)備相關(guān)的,并且因此可僅在實(shí)際回放的時(shí)候被消耗;在整個(gè)音頻包上管控DRC的 特性的數(shù)據(jù)結(jié)構(gòu)難以在同步已發(fā)生之后如實(shí)地恢復(fù)。由此,這種類型的經(jīng)過連續(xù)解碼、同步 和編碼階段的保留(preserve)元數(shù)據(jù)的任務(wù)不是簡單的任務(wù),如果經(jīng)受復(fù)雜性約束的話。
[0007] 關(guān)于被設(shè)計(jì)為攜載雙聲道PCM信號(hào)并因此能夠僅以編碼形式處理多聲道內(nèi)容的 遺留基礎(chǔ)設(shè)施,可能出現(xiàn)甚至更嚴(yán)重的困難。
[0008] 在給定幀中的數(shù)據(jù)精確地與記錄和編碼視聽信號(hào)中的同一時(shí)間段對應(yīng)的意義上, 幀同步地編碼音頻和視頻數(shù)據(jù)必定更方便。這在視聽流的逐幀操縱(即,流中的一個(gè)或多 個(gè)整個(gè)獨(dú)立編碼單元的復(fù)制或拋棄)下保留音頻對視頻同步性。在Dolby E?音頻格式中 可用的幀長度匹配視頻幀長度。在448kbps的典型比特率的情況下,該格式被設(shè)計(jì)主要用 于專業(yè)制作(其中像數(shù)字視頻盒一樣的硬媒介作為其優(yōu)選的存儲(chǔ)模態(tài))的目的。
[0009] 存在作為幀同步視聽格式(或格式族)的一部分、適合分發(fā)目的的替代性音頻格 式以及適合與其一起使用的編碼和解碼設(shè)備的需要。
【附圖說明】
[0010] 以下,將參照附圖更詳細(xì)地描述示例實(shí)施例,其中,
[0011] 圖1示出根據(jù)示例實(shí)施例的音頻處理系統(tǒng)的結(jié)構(gòu)以及系統(tǒng)中的組件的內(nèi)部工作;
[0012] 圖2不出媒體分發(fā)系統(tǒng);
[0013]圖3示出根據(jù)現(xiàn)有技術(shù)的具有獨(dú)立的幀長度的兩個(gè)多媒體流,每個(gè)多媒體流包括 首頻比特流和相關(guān)聯(lián)的視頻幀的流;
[0014] 圖4示出根據(jù)示例實(shí)施例的具有協(xié)同(coordinate)的幀長度的兩個(gè)多媒體流,每 個(gè)多媒體流包括音頻比特流和相關(guān)聯(lián)的視頻幀的流;
[0015] 圖5示出根據(jù)示例實(shí)施例的編碼器系統(tǒng)的結(jié)構(gòu)。
[0016] 所有的附圖是示意性的,并且為了闡明本發(fā)明,一般僅示出必要的部分,而其它的 部分可被省略或者僅僅被建議。除非另外指示,否則,相似的附圖標(biāo)記在不同的附圖中指的 是相似的部分。
【具體實(shí)施方式】
[0017] I.概要
[0018] 音頻處理系統(tǒng)接受被分割成攜載音頻數(shù)據(jù)的幀的音頻比特流。該音頻數(shù)據(jù)可通過 采樣聲波并將由此獲得的電子時(shí)間采樣變換成譜系數(shù)來準(zhǔn)備,該譜系數(shù)然后以適合傳輸或 存儲(chǔ)的格式被量化和編碼。該音頻處理系統(tǒng)適于以單聲道、立體聲或多聲道格式重構(gòu)采樣 的聲波。在作為用于重構(gòu)音頻數(shù)據(jù)表示的聲波的附加時(shí)間間隔的基礎(chǔ)是充分的意義上,幀 中的音頻數(shù)據(jù)可以是自含(self-contained)的;由于重疊變換等,重構(gòu)可以需要或者可以 不需要前面的音頻數(shù)據(jù)的知識(shí)。
[0019] 該音頻處理系統(tǒng)至少包括前端組件、處理級(jí)和用于提供期望的目標(biāo)采樣頻率下的 處理的音頻信號(hào)的時(shí)域表示的采樣率轉(zhuǎn)換器。強(qiáng)調(diào)的是,目標(biāo)采樣頻率是預(yù)定義的量,其可 由用戶或系統(tǒng)設(shè)計(jì)者配置,而與傳入的音頻比特流的屬性(例如,音頻幀率)無關(guān)。作為一 種選擇,目標(biāo)采樣頻率可以是音頻幀率的函數(shù)。作為另一種選擇,目標(biāo)采樣頻率可以是相對 于音頻幀率非適應(yīng)性的和/或恒定的。
[0020] 在前端組件中,去量化級(jí)從音頻比特流接收若干個(gè)量化譜系數(shù)(其中,數(shù)量與一 個(gè)音頻幀對應(yīng))、聯(lián)合處理該系數(shù)以產(chǎn)生用于控制幀中的音頻數(shù)據(jù)的逆量化的信息并執(zhí)行 逆量化。在前端組件中的去量化級(jí)的下游,逆變換級(jí)取得輸出一構(gòu)成中間信號(hào)的第一頻域 表示的譜系數(shù)一并且合成中間信號(hào)的時(shí)域表示。該前端組件然后從音頻比特流接收并處理 相等數(shù)量的隨后的量化譜系數(shù)(但是,可在數(shù)個(gè)變換上分布)并且繼續(xù)處理這些系數(shù)。該 去量化級(jí)被配置為通過將音頻數(shù)據(jù)解碼成預(yù)定的量化水平(或重構(gòu)水平、或重構(gòu)點(diǎn))來產(chǎn) 生譜系數(shù)。量化水平由編碼器基于心理聲學(xué)考慮(例如,以對于給定頻率(或頻帶)的量 化噪聲不超過掩蔽閾值(maskingthreshold)的方式)來選擇。由于掩蔽閾值是頻率相關(guān) 的,因此,從經(jīng)濟(jì)的觀點(diǎn)看,優(yōu)選使編碼器選擇相對于頻率非均勻的量化水平。作為結(jié)果,量 化和去量化一般以心中特定的物理采樣頻率發(fā)生,在該特定的物理采樣頻率下,最佳輸出 被產(chǎn)生。
[0021] 該音頻處理系統(tǒng)中的處理級(jí)可適于執(zhí)行頻域中的處理。出于這種目的,處理級(jí)包 括用于提供中間信號(hào)的頻域表示的初始分析濾波器組和后跟(followedby)用于將處理的 音頻信號(hào)變換回時(shí)域的合成濾波器組的一個(gè)或多個(gè)處理組件。
[0022] 在示例實(shí)施例中,該音頻處理系統(tǒng)被配置為接受具有至少兩個(gè)不同的預(yù)定義音頻 幀率中的任一個(gè)的音頻比特流。這允許音頻處理系統(tǒng)在音頻比特流(該音頻比特流在每個(gè) 視頻幀與持續(xù)時(shí)間與一個(gè)或多個(gè)視頻幀、優(yōu)選一個(gè)或多個(gè)全視頻幀的持續(xù)時(shí)間相等的、攜 載音頻數(shù)據(jù)的音頻幀時(shí)間相關(guān)的意義上與視頻幀的流相關(guān)聯(lián))上操作,使得兩個(gè)或更多個(gè) 不同的視頻幀率可以在音頻處理系統(tǒng)中匹配,而不犧牲音頻對視頻同步性。如本文中所使 用的,視頻幀的"持續(xù)時(shí)間"(以秒計(jì)算)可被理解為視頻幀率的倒數(shù)。類似地,音頻幀的持 續(xù)時(shí)間(以秒計(jì)算)可被定義為音頻幀率的倒數(shù)。幀中的視頻數(shù)據(jù)可源自在相關(guān)的音頻數(shù) 據(jù)被采樣的間隔的初始、中間或最終時(shí)刻處的采樣;可替代地,視頻數(shù)據(jù)在至少部分地與音 頻采樣間隔重疊的擴(kuò)展間隔(例如,通過滾動(dòng)簾(rolling-shutter)處理)上被采樣。前 端組件具有可變的最大幀長度(其被測量為采樣的數(shù)量),并且可在與所述預(yù)定義的音頻 幀率對應(yīng)的至少兩個(gè)模式中操作。
[0023] 該音頻處理系統(tǒng)實(shí)現(xiàn)了期望的幀率適應(yīng)性,原因是它能夠?qū)τ谙鄬^低的音頻 幀率選擇相對較大的幀長度(或者,考慮可能的再分(subdivide),為最大幀長度,參見以 下),反之亦然。在臨界采樣系統(tǒng)中,物理采樣頻率對應(yīng)于音頻幀的物理持續(xù)時(shí)間與其中包 含的譜系數(shù)的數(shù)量的比。去量化級(jí)和逆變換級(jí)不需要知曉幀中的系數(shù)的物理持續(xù)時(shí)間,只 要該系數(shù)屬于相同的幀。由于得到的內(nèi)部采樣頻率(以物理單位)的變化可保持在邊界 內(nèi)一或者甚至近似恒定一通過改變前端組件中的幀長度,在最終的采樣率轉(zhuǎn)換中使用的再 采樣因子將接近1,并且內(nèi)部采樣頻率的非恒定性一般將不導(dǎo)致音頻的任何可感知的劣化。 換句話說,產(chǎn)生為在與目標(biāo)采樣頻率輕微不同的采樣頻率下最佳的前端級(jí)的輸出的輕微上 采樣或下采樣將在心理聲學(xué)上不顯著。并且,處理級(jí)中的分析和合成濾波器組不需要是可 適應(yīng)的(例如,以響應(yīng)音頻處理系統(tǒng)所接收的音頻比特流中的音頻幀率的變化),但可具有 固定數(shù)量的頻帶。
[0024] 具有以上概述的特性的音頻處理系統(tǒng)適于響應(yīng)于前面提到的對于幀同步音頻分 發(fā)格式的需要而處理音頻格式。舉例來說,傳輸立體聲信號(hào)或其它雙聲道音頻信號(hào)所需要 的比特率可小于200kpbs,諸如小于lOOkpbs。
[0025] 在示例實(shí)施例中,對于預(yù)定義的音頻幀率中的兩個(gè)或更多個(gè)使用其中前端組件可 操作的模式中的一個(gè)。例如,彼此相差最多5%的音頻幀率(或者換句話說,與設(shè)計(jì)幀率相 差最多2. 5%的音頻幀率)將不與物理采樣頻率的非常大的變化對應(yīng)。因此,針對有效地使 所有的頻帶偏移多達(dá)例如5%的采樣率轉(zhuǎn)換,由前端組件產(chǎn)生的輸出,可能源自編碼器的策 略比特分配以適宜于特定的采樣頻率的譜系數(shù)將是魯棒的。
[0026] 描述這一點(diǎn)的另一種方式是,前端組件、特別是去量化級(jí)在它應(yīng)用比特流中的從 編碼器側(cè)接收的指令時(shí),將適于產(chǎn)生對于特定的物理采樣頻率的最佳音頻輸出。