數(shù)字音頻信號(hào)處理的方法與流程

文檔序號(hào)：11136031閱讀：2173來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及一種數(shù)字音頻信號(hào)處理技術(shù)，尤其涉及一種基于心理聲學(xué)，利用掩蔽效應(yīng)的，數(shù)字音頻信號(hào)處理的方法。

背景技術(shù)：

利用數(shù)字音頻信號(hào)來攜帶信息是業(yè)界廣為關(guān)注并投入相當(dāng)人力和財(cái)力進(jìn)行研究和開發(fā)的技術(shù)。利用這樣的技術(shù)，人們可以一邊正常地收聽音樂、收看電視節(jié)目，一邊利用具有音頻信號(hào)處理能力的設(shè)備，例如：移動(dòng)通信終端，來獲取前述的音樂或者電視節(jié)目中所攜帶的數(shù)據(jù)信息。評(píng)價(jià)這種技術(shù)是否成熟和適于應(yīng)用的一個(gè)重要特性就是：這種技術(shù)應(yīng)當(dāng)既要保證被攜帶的數(shù)據(jù)能夠被準(zhǔn)確地采集、傳遞，又要保證數(shù)字音頻信號(hào)本身被播放時(shí)，不會(huì)產(chǎn)生人類能夠感受到的干擾音或者噪音。

中國專利申請(qǐng)201410301832.7公開這樣的一種技術(shù)：將需要傳輸?shù)臄?shù)字信息經(jīng)過編碼調(diào)制形成聲音編碼信號(hào)；將該聲音編碼信號(hào)與預(yù)選的音視頻節(jié)目中的音頻信號(hào)進(jìn)行混音后輸出。雖然，利用該技術(shù)能夠?qū)ⅰ靶枰獋鬏數(shù)臄?shù)字信息”以混音的方式加入到正常的聲音之中；但是，由于“需要傳輸?shù)臄?shù)字信息”的不可預(yù)知性，“需要傳輸?shù)臄?shù)字信息”經(jīng)過編碼調(diào)制所形成的聲音編碼信號(hào)在相當(dāng)多的情況下可能是聲音中的噪音。在另外的一些情況下，可能是能夠?qū)φ２シ诺穆曇粼斐筛蓴_的其他聲音。為了避免這樣的問題，在上述專利申請(qǐng)的說明書部分提出了如下的改進(jìn)方案：

“將需要傳輸?shù)臄?shù)字信息經(jīng)過編碼調(diào)制形成聲音編碼信號(hào)。該聲音編碼信號(hào)可以寫成數(shù)字聲音信號(hào)文件，也可以經(jīng)過數(shù)模轉(zhuǎn)換器轉(zhuǎn)換成聲音模擬信號(hào)，該聲音模擬信號(hào)的頻率可選擇位于18kHz以上、20kHz以下的頻段，該頻段人耳難以察覺，不會(huì)影響原有電視伴音或音樂信號(hào)的正常播放。因?yàn)樵诤罄m(xù)的步驟中，需要由用戶本地的接收設(shè)備進(jìn)行接收和提取需要傳輸?shù)臄?shù)字信息，所以該聲音編碼信息需具有一定的特征，該特征是信號(hào)能量分布僅在一定頻率范圍內(nèi):18kHz以上，20kHz以下。”

顯然，上述的方案為了避免人耳察覺用“需要傳輸?shù)臄?shù)字信息”形成的聲音編碼，而必須使這部分聲音編碼信息的能量分布被設(shè)置在18kHz～20kHz這個(gè)頻率范圍之內(nèi)。

眾多周知：人耳能夠聽到的聲音的整個(gè)范圍是20Hz～20kHz。聽覺良好的成年人能聽到的聲音頻率常在30Hz～16kHz之間；聽力較差的老年人能聽到的聲音頻率則常在50Hz～10kHz之間。然而，兒童能聽到的聲音頻率通常會(huì)更高。上述技術(shù)方案中所采用的18Hz～20kHz頻率范圍的聲音是許多兒童能夠聽到的。因此，即使選擇性地將聲音編碼信息的能量分布在18Hz～20kHz這個(gè)頻率范圍之內(nèi)，也會(huì)使得相當(dāng)多的人，特別是兒童還能聽到；這使得這些人，特別是兒童在聆聽含有使用該技術(shù)進(jìn)行聲音編碼電視、廣播節(jié)目時(shí)，依然會(huì)受到噪音或者干擾音的困擾。

另一方面，選擇性地將聲音編碼信息的能量分布在人耳能夠聽到頻率范圍(20Hz～20kHz)之外雖然能夠?qū)崿F(xiàn)，但由于絕大多數(shù)音響設(shè)備的頻率響應(yīng)特性是依據(jù)人耳能聽到的聲音范圍設(shè)計(jì)制造的，對(duì)于20Hz～20kHz頻率范圍之外的音頻信號(hào)，一般都會(huì)被當(dāng)作雜音或者噪音濾掉，因此，聲音編碼信息即使能夠被混音到正常的音頻信號(hào)之中，卻并不能被音響設(shè)備所播放，因而也不可能被接受設(shè)備所獲取。

綜上，上述的各種技術(shù)顯然并不成熟，因此也不可能得到廣泛的應(yīng)用。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種數(shù)字音頻信號(hào)處理的方法，利用心理聲學(xué)原理來對(duì)所述的數(shù)字音頻信號(hào)進(jìn)行處理，將需要傳送的信息，以特定的目標(biāo)數(shù)據(jù)嵌入到該數(shù)字音頻信號(hào)之中，使得該數(shù)字音頻信號(hào)被音響設(shè)備播出時(shí)，被嵌入的目標(biāo)數(shù)據(jù)也能一并被播出，在不為人耳所察覺的情況下，卻能被具有音頻信號(hào)處理能力的設(shè)備所接收和提取。

本發(fā)明的上述目的是采用這樣的技術(shù)方案實(shí)現(xiàn)的：

將第一數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)并進(jìn)行加窗處理；對(duì)前述多個(gè)音頻幀數(shù)據(jù)分別進(jìn)行頻域離散傅立葉(Fourier)變換，得到與前述多個(gè)音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù)；

將前述多個(gè)第一頻譜數(shù)據(jù)映射到聽覺臨界頻帶(Bark域)，并計(jì)算聽覺臨界頻帶中各個(gè)子帶的掩蔽閾值；該掩蔽閾值的數(shù)量與前述的子帶的數(shù)量是一一對(duì)應(yīng)的；

在前述多個(gè)第一頻譜數(shù)據(jù)中選取小于前述掩蔽閾值的頻率點(diǎn)作為嵌入位置；

采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)目標(biāo)數(shù)據(jù)進(jìn)行量化處理，并用量化處理的結(jié)果賦值前述的嵌入位置處的離散傅里葉系數(shù)，因此獲得與前述多個(gè)第一頻譜數(shù)據(jù)對(duì)應(yīng)的多個(gè)第二頻譜數(shù)據(jù)；

對(duì)前述多個(gè)第二頻譜數(shù)據(jù)進(jìn)行離散傅立葉逆變換，獲得第二數(shù)字音頻信號(hào)。

采用本發(fā)明的上述方法，可以根據(jù)心理聲學(xué)的原理，在第一數(shù)字音頻信號(hào)的合適位置，嵌入需要傳遞的目標(biāo)數(shù)據(jù)。當(dāng)該第一數(shù)字音頻信號(hào)被播放時(shí)，能夠掩蔽掉嵌入位置上所嵌入的用于表達(dá)有關(guān)目標(biāo)數(shù)據(jù)的信號(hào)，使其不為人耳所察覺，但是，這些被嵌入的信號(hào)卻能被具有音頻信號(hào)處理能力的設(shè)備所偵聽和還原。

本發(fā)明的另一個(gè)目的是提供一種從數(shù)字音頻信號(hào)中提取數(shù)據(jù)的方法；利用該方法，能夠在數(shù)字音頻信號(hào)被音響設(shè)備播出時(shí)，對(duì)接收到的數(shù)字音頻信號(hào)進(jìn)行處理，利用心理聲學(xué)原理提取嵌入其中的目標(biāo)數(shù)據(jù)。

將接收到的第一數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)，并進(jìn)行加窗處理；對(duì)前述多個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換，得到與前述多個(gè)音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù)；

將前述多個(gè)第一頻譜數(shù)據(jù)映射到聽覺臨界頻帶，并計(jì)算聽覺臨界頻帶中各子帶的掩蔽閾值；前述的掩蔽閾值的數(shù)量與前述的子帶的數(shù)量一一對(duì)應(yīng)；

選取前述多個(gè)第一頻譜數(shù)據(jù)中小于相應(yīng)的掩蔽閾值的頻率點(diǎn)作為嵌入位置；

采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述嵌入位置處的離散傅里葉系數(shù)進(jìn)行反量化處理，獲得前述第一數(shù)字音頻信號(hào)中嵌入的目標(biāo)數(shù)據(jù)序列；其中，該目標(biāo)數(shù)據(jù)序列是由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列而成；該等特定的音頻頻域信號(hào)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。

本發(fā)明上述的方法，能夠在接收到的第一數(shù)字音頻信號(hào)時(shí)，利用心理聲學(xué)原理從中提取出利用掩蔽效應(yīng)通過該第一數(shù)字音頻信號(hào)攜帶的目標(biāo)數(shù)據(jù)序列，并進(jìn)一步恢復(fù)出相應(yīng)的目標(biāo)數(shù)據(jù)；而在這一過程中，盡管被嵌入的目標(biāo)數(shù)據(jù)序列能夠與該數(shù)字音頻信號(hào)一并被音響設(shè)備播出，但卻不為人耳所察覺。

具體實(shí)施方式

在本發(fā)明的第一類具體實(shí)施方式中，需要向目標(biāo)數(shù)字音頻信號(hào)中嵌入一些目標(biāo)數(shù)據(jù)。

為了在一個(gè)數(shù)字音頻信號(hào)中嵌入上述的目標(biāo)數(shù)據(jù)，需要將數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)，并在此基礎(chǔ)上對(duì)各個(gè)音頻幀數(shù)據(jù)進(jìn)行加窗處理。然后，對(duì)經(jīng)過加窗處理的各個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換，能夠得到與前述各個(gè)音頻幀數(shù)據(jù)分別一一對(duì)應(yīng)的多個(gè)第一頻譜數(shù)據(jù)。

在得到前述多個(gè)第一頻譜數(shù)據(jù)后，需要將這些第一頻譜數(shù)據(jù)分別映射到聽覺臨界頻帶，并計(jì)算該聽覺臨界頻帶中各子帶的掩蔽閾值；這些掩蔽閾值的數(shù)量與聽覺臨界頻帶的子帶的數(shù)量是對(duì)應(yīng)的。

在上述多個(gè)第一頻譜數(shù)據(jù)中，均選取其中小于前述掩蔽閾值的頻率點(diǎn)作為目標(biāo)數(shù)據(jù)的嵌入位置；然后，采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述的目標(biāo)數(shù)據(jù)進(jìn)行量化處理，并用量化處理后得到的結(jié)果，對(duì)前述嵌入位置的離散傅里葉系數(shù)賦值(替換)，因此可以獲得與前述各個(gè)第一頻譜數(shù)據(jù)分別對(duì)應(yīng)的各個(gè)第二頻譜數(shù)據(jù)；

對(duì)該等多個(gè)第二頻譜數(shù)據(jù)進(jìn)行離散傅立葉逆變換，就可以獲得第二數(shù)字音頻信號(hào)。這個(gè)新獲得的第二數(shù)字音頻信號(hào)中嵌入有上述的目標(biāo)數(shù)據(jù)。

需要說明的是：在對(duì)第一數(shù)字音頻信號(hào)進(jìn)行分幀、加窗等處理時(shí)，可以由相關(guān)的技術(shù)人員根據(jù)具體的設(shè)計(jì)要求來確定各音頻幀的長(zhǎng)度和窗的大小，至少可以有兩種方案選擇。例如：一種方案與語音識(shí)別技術(shù)相類似，即采用幀與幀之間有重疊(overlap)的方式；在這種方式下，一般的窗長(zhǎng)為25～35ms，幀移為10ms(當(dāng)然也可以大于或者小于10ms)。另一種方案則是采用幀與幀之間沒有重疊的方式，而窗長(zhǎng)直接指定為時(shí)域上采樣點(diǎn)的個(gè)數(shù)，一般為2的N(N為正整數(shù))次方；比如：以256或者512個(gè)采樣點(diǎn)為一窗數(shù)據(jù)。

另外，前述的“映射”具體是指：將線性頻率轉(zhuǎn)換為Bark域頻率；例如，一個(gè)可用的轉(zhuǎn)換公式如下：

z＝13arctan(0.00076f)+3.5arctan[(f/7500)²]

其中，f為線性Hz頻率，z取整即為Bark域的序號(hào)。

有關(guān)線性Hz頻率和Bark域的對(duì)應(yīng)關(guān)系，可以參照：美國聲學(xué)學(xué)會(huì)雜志(The Journal of the Acoustical Society of America)第33卷第2期第248頁所刊登的Zwicker,E.有關(guān)《可聽頻率范圍臨界頻帶細(xì)分》(Subdivision of the Audible Frequency Range into Critical Bands)一文，以及該雜志第88卷97–91中所刊載Traunmüller，H.(1990)有關(guān)《對(duì)于音質(zhì)的感官尺度的解析表達(dá)式》(Analytical expressions for the tonotopic sensory scale)一文。

眾所周知：當(dāng)信號(hào)x通過量化器Q時(shí)，可以將信號(hào)x量化為量化水平y(tǒng)，即：y＝Q(x)；反之，由量化水平y(tǒng)獲得信號(hào)x’的過程為反量化，即x’＝Q^-1(y)。由于量化誤差的存在，前述的信號(hào)x與信號(hào)x’不可能精確一致。

在本發(fā)明中，上述的量化器是無法使用的。本發(fā)明中所使用的量化器是能夠自適應(yīng)步長(zhǎng)，并且可以對(duì)量化結(jié)果可以實(shí)現(xiàn)盲檢測(cè)的量化器。這實(shí)際上指的是一種隱寫信息盲檢測(cè)的效果，即：通過可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器量化的隱密數(shù)據(jù)序列被寫入載體后，在提取(解碼)階段，無需原始載體數(shù)據(jù)的參與，即可從載密數(shù)據(jù)中由可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器提取出寫(嵌)入的數(shù)據(jù)。對(duì)于本領(lǐng)域技術(shù)人員而言，只要是能夠實(shí)現(xiàn)上述效果的可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器都是可以使用的。

采用本發(fā)明上述一類具體的實(shí)施方式，對(duì)于上述第一數(shù)字音頻信號(hào)中的每個(gè)音頻幀都執(zhí)行上述的操作，就可以在具有一定時(shí)間長(zhǎng)度的第一數(shù)字音頻信號(hào)中嵌入所需要傳遞的數(shù)據(jù)信息。

除了上述第一類具體的實(shí)施方式之外，本發(fā)明后續(xù)的各個(gè)具體的改進(jìn)內(nèi)容或者增加的內(nèi)容，都可以在上述第一類具體的實(shí)施方案的基礎(chǔ)上，任意地相互組合，可以因不同的設(shè)計(jì)需要而構(gòu)成各有區(qū)別的具體技術(shù)方案。

在本發(fā)明上述一類具體的實(shí)施方式中，所謂采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述的目標(biāo)數(shù)據(jù)進(jìn)行量化處理，并用量化處理后得到的結(jié)果，對(duì)前述嵌入位置的離散傅里葉系數(shù)賦值(替換)的一個(gè)優(yōu)選的方式是：

基于上述的一個(gè)嵌入位置，根據(jù)在該嵌入位置的音頻幀數(shù)據(jù)的能量值或者功率譜參數(shù)來計(jì)算出在該嵌入位置的嵌入強(qiáng)度系數(shù)，這個(gè)嵌入系數(shù)強(qiáng)度系數(shù)決定了前述相應(yīng)的音頻幀數(shù)據(jù)中所能嵌入的目標(biāo)數(shù)據(jù)的數(shù)據(jù)量；

根據(jù)上述步驟所計(jì)算得到的嵌入強(qiáng)度系數(shù)，采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)目標(biāo)數(shù)據(jù)進(jìn)行量化處理，并用量化處理的結(jié)果賦值(替換)前述嵌入位置的離散傅里葉系數(shù)。

采用這樣的一個(gè)優(yōu)選方案的好處是：可以根據(jù)不同嵌入位置的音頻幀數(shù)據(jù)的信號(hào)具體情況，來自動(dòng)地調(diào)整所嵌入的數(shù)據(jù)量；例如：在音頻數(shù)據(jù)較多且能量較高的音頻信號(hào)中可以在確保掩蔽效果的同時(shí)，盡量增加所嵌入的數(shù)據(jù)量；在音頻數(shù)據(jù)較少且能量較低的音頻信號(hào)(例如：靜場(chǎng)的情形)中可以相應(yīng)地減少所嵌入的數(shù)據(jù)量以確保掩蔽的效果。

有關(guān)根據(jù)音頻幀數(shù)據(jù)的能量值或者功率譜計(jì)算嵌入強(qiáng)度系數(shù)的過程，本質(zhì)上就是在計(jì)算量化步長(zhǎng)。在本發(fā)明中，為了更好的通過聽覺掩蔽來體現(xiàn)載密音頻的不可感知性，可以采用非均勻的量化步長(zhǎng)，量化步長(zhǎng)自適應(yīng)于每幀的掩蔽閾值，并保證隱寫信息不能被聽到。在一類具體的實(shí)施方式中，代表嵌入強(qiáng)度的量化步長(zhǎng)可以采用如下的公式來計(jì)算：

Δ’＝Δ+lbLT_min/50

其中，Δ’為嵌入強(qiáng)度的量化步長(zhǎng)，Δ為基礎(chǔ)量化步長(zhǎng)，LT_min是待嵌入隱秘信息的音頻幀的掩蔽閾值。顯然，該掩蔽閾值越大，則可取得較大的量化步長(zhǎng)。lb為針對(duì)量化步長(zhǎng)增量的縮放因子，取值在0和1之間，通常取1值。

盡管目標(biāo)數(shù)據(jù)的嵌入位置都位于掩蔽閾值所對(duì)應(yīng)的頻率點(diǎn)，但是，由于臨界頻帶的各個(gè)子帶的掩蔽閾值通常各不相同，為了能夠徹底、絕對(duì)地將嵌入的目標(biāo)數(shù)據(jù)掩蔽掉，而不會(huì)被人類聽到，優(yōu)選的一類實(shí)施方式是：在本發(fā)明中上述第一類具體實(shí)施方式的基礎(chǔ)上，選取各個(gè)子帶中最小的掩蔽閾值所對(duì)應(yīng)的頻率點(diǎn)作為嵌入位置，將要嵌入的目標(biāo)數(shù)據(jù)嵌入到該最小的掩蔽閾值所對(duì)應(yīng)的嵌入位置處。

眾所周知：對(duì)于人類而言，整個(gè)音頻頻率范圍是20Hz～20kHz；事實(shí)上，并不是所有的人都能夠聽到前述整個(gè)音頻頻率范圍內(nèi)的所有聞?dòng)虻穆曇粜盘?hào)。為此，業(yè)界在設(shè)計(jì)、制造音頻播放的設(shè)備、系統(tǒng)時(shí)，從降低數(shù)據(jù)傳輸量，提高設(shè)備或者系統(tǒng)的性能等多方面考慮，往往會(huì)消弱，甚至濾除高頻段的音頻信號(hào)，增強(qiáng)中低頻信號(hào)；因此，如果在采用本發(fā)明第一類具體實(shí)施方式的技術(shù)方案中將目標(biāo)數(shù)據(jù)嵌入到高頻段的信號(hào)時(shí)，在使用前述的那些系統(tǒng)或者設(shè)備播放相應(yīng)的音頻信號(hào)時(shí)，有可能會(huì)導(dǎo)致被嵌入到高頻段的目標(biāo)數(shù)據(jù)難于提取和恢復(fù)；有時(shí)甚至可能根本無法被接收到。為了解決這樣的問題，確保采用本發(fā)明技術(shù)方案的魯棒性，可以在上述各類具體實(shí)施方式的基礎(chǔ)上，優(yōu)選位于中、低頻段的頻率點(diǎn)作為目標(biāo)數(shù)據(jù)的嵌入位置。

具體而言，本發(fā)明中的低頻段為30～150Hz，中低頻段為30～500Hz)；中高頻段(500～5000Hz)；綜合而言，以30～4000Hz為本發(fā)明最為優(yōu)選的目標(biāo)數(shù)據(jù)嵌入的頻率范圍。當(dāng)然，本領(lǐng)域的技術(shù)人員也可以根據(jù)具體的設(shè)計(jì)要求選擇其他的頻段作為目標(biāo)數(shù)據(jù)嵌入的頻率范圍。

盡管使用上述的各類方案可以實(shí)現(xiàn)本發(fā)明前述的基本目的。但是，在一些情形下還需要如下的措施，以使本發(fā)明的方案能夠進(jìn)一步優(yōu)化：本發(fā)明的技術(shù)方案的本質(zhì)是在原先的數(shù)字音頻信號(hào)中嵌入了特定的目標(biāo)數(shù)據(jù)，這些被嵌入的目標(biāo)數(shù)據(jù)可以被看作是嵌入后所得到的新的數(shù)字音頻信號(hào)的噪音信號(hào)。眾所周知：當(dāng)噪音信號(hào)的強(qiáng)度足夠大時(shí)，會(huì)影響到新的數(shù)字音頻信號(hào)的質(zhì)量，也會(huì)影響到目標(biāo)數(shù)據(jù)的傳輸和提取。因此，有必要對(duì)嵌入目標(biāo)數(shù)據(jù)以后得到的新的數(shù)字音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估，然后再確定是否使用、輸出。

為此，在采用本發(fā)明上述的任一類具體實(shí)施方式，獲得了上述的第二數(shù)字音頻信號(hào)時(shí)，還可以進(jìn)一步對(duì)該第二數(shù)字音頻信號(hào)的信噪比進(jìn)行計(jì)算，根據(jù)該計(jì)算的結(jié)果來評(píng)估嵌入目標(biāo)數(shù)據(jù)以后的第二數(shù)字音頻信號(hào)的質(zhì)量。如果，計(jì)算得到的信噪比小于預(yù)先設(shè)定的一個(gè)比值(閾值，可以由有關(guān)的技術(shù)人員視具體的設(shè)計(jì)要求自行設(shè)置，例如：17dB、20dB、23dB等)，說明該第二數(shù)字音頻信號(hào)的質(zhì)量不符合預(yù)定的信噪比要求。此時(shí)，可以按照本發(fā)明上述的方案，重新確定目標(biāo)數(shù)據(jù)的嵌入位置、傅里葉系數(shù)等參量，重新執(zhí)行本發(fā)明前述各類具體實(shí)施方式的步驟，直到最終獲得的第二數(shù)字音頻信號(hào)的信噪比達(dá)到預(yù)定的要求時(shí)，再輸出該符合信噪比要求的第二數(shù)字音頻信號(hào)。

在本發(fā)明上述所有具體實(shí)施方式中，被嵌入的目標(biāo)數(shù)據(jù)，實(shí)際上是由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列為一個(gè)目標(biāo)數(shù)據(jù)序列。具體而言：前述的特定的音頻數(shù)據(jù)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)；而前述的編碼數(shù)據(jù)則是以計(jì)算機(jī)記數(shù)方式表達(dá)的數(shù)字。一個(gè)具體的目標(biāo)數(shù)據(jù)序列可以單純地由一個(gè)以上特定的音頻數(shù)據(jù)按照預(yù)定的順序串行排列所構(gòu)成；也可以單純地由一個(gè)以上特定的編碼數(shù)據(jù)按照預(yù)定的順序串行排列所構(gòu)成；還可以按照預(yù)定的規(guī)則，由一個(gè)以上特定的音頻數(shù)據(jù)和一個(gè)以上特定的編碼數(shù)據(jù)相互交錯(cuò)，并按照預(yù)定的順序串行排列所構(gòu)成。

事實(shí)上，一個(gè)目標(biāo)數(shù)據(jù)序列單純地由一個(gè)以上特定的編碼數(shù)據(jù)順序串行排列構(gòu)成的好處是：能夠使目標(biāo)數(shù)據(jù)被高速地嵌入和接收、提取，適于應(yīng)用在需要頻繁且較快傳遞數(shù)據(jù)的場(chǎng)合，例如：直播互動(dòng)等場(chǎng)景。

在一些對(duì)數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性和速度不敏感，且需要較大數(shù)據(jù)量傳輸?shù)膱?chǎng)合，一個(gè)目標(biāo)數(shù)據(jù)序列單純地由一個(gè)以上特定的音頻數(shù)據(jù)順序串行排列構(gòu)成更為適當(dāng)。

在本發(fā)明的具體實(shí)施方式中，優(yōu)選的方案是：任何一個(gè)特定的音頻數(shù) 據(jù)都與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。所謂響度又稱音量，是指人耳感受到的聲音強(qiáng)弱；它是人對(duì)聲音大小的一個(gè)主觀感覺量。其客觀評(píng)價(jià)尺度是聲音的振幅大小。所謂音高是指聲音的高度，它由振動(dòng)頻率決定，因此，音高與振動(dòng)頻率成正比關(guān)系。所謂音色又稱音品，是指聽覺感受到的聲音的特色。音色主要決定于聲音的頻譜，即基音和各次諧音的組成。

在發(fā)明上述的各個(gè)實(shí)施方式中，可以使一個(gè)目標(biāo)數(shù)據(jù)序列包含規(guī)定數(shù)量的、特定的音頻數(shù)據(jù)；由于任何一個(gè)具體的音頻數(shù)據(jù)，都可以使用上述的響度、音高和音色來確定，因此，可以使前面各個(gè)技術(shù)方案中述及的所有由規(guī)定數(shù)量的、特定的音頻數(shù)據(jù)所構(gòu)成的目標(biāo)數(shù)據(jù)序列與一個(gè)信息碼本對(duì)應(yīng)，用于傳遞涵蓋較大信息碼本的數(shù)據(jù)。

例如：不同的音高具有不同的頻率值；假定選取n個(gè)不同的頻率值，其中，這n個(gè)音高分別可以用A、B、C、D、E、F、G、H、I、J......表示；不同的響度具有不同的聲音強(qiáng)度值；假定選取m個(gè)不同的聲音強(qiáng)度值，其中，這m個(gè)響度分別可以用a、b、c、d、e、f、g、h......表示；不同的音色具有不同的聲音頻譜；假定選取k個(gè)不同的聲音頻譜，其中，這k個(gè)聲音頻譜分別可以用1、2、3......k表示；在此基礎(chǔ)上，任何一個(gè)音頻數(shù)據(jù)都可以采用如下的形式來描述：

其中，X為音高，其數(shù)量為n；Y為響度，其數(shù)量為m；Z為音色，其數(shù)量為k；

因此，本發(fā)明中的任何一個(gè)音頻數(shù)據(jù)的信息碼本容量W可用下式計(jì)算：

W＝n×m×k

假定：本發(fā)明的一個(gè)目標(biāo)數(shù)據(jù)序列中，單純地由5個(gè)音頻數(shù)據(jù)構(gòu)成一個(gè)單元音頻組；則任一單元音頻數(shù)據(jù)組的信息碼本容量由下式計(jì)算：

W＝(n×m×k)⁵

當(dāng)n＝10，m＝8，k＝8時(shí)，

W的值為：2³⁰×10⁵>10¹⁴

當(dāng)然，上述的整數(shù)n、m和k的取值都是自然數(shù)，且相關(guān)的技術(shù)人員在實(shí)施本發(fā)明的時(shí)候，可以根據(jù)所需的信息碼本容量來選擇或者確定。

如上所述：在本發(fā)明上述各類具體的實(shí)施方式中，可以完全單一的目標(biāo)數(shù)據(jù)形式來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列，例如：?jiǎn)渭兊厥褂靡纛l數(shù)據(jù)或者單純地使用編碼數(shù)據(jù)來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列。但是，在一些情況下，有可能需要采用音頻數(shù)據(jù)和編碼數(shù)據(jù)混合的方式來構(gòu)建一個(gè)目標(biāo)數(shù)據(jù)序列。為了能夠在接收時(shí)能夠采用正確的手段將數(shù)據(jù)信息從本發(fā)明的第一數(shù)字音頻信號(hào)提取出來，就需要在該目標(biāo)數(shù)據(jù)序列的預(yù)定位置中插入預(yù)先確定的標(biāo)識(shí)數(shù)據(jù)序列，使得接收設(shè)備在解析并識(shí)別到標(biāo)識(shí)數(shù)據(jù)序列后，能夠根據(jù)該標(biāo)識(shí)數(shù)據(jù)序列的指示采用相應(yīng)的識(shí)別方案，來提取對(duì)應(yīng)的數(shù)據(jù)。例如：采用模式識(shí)別方案來識(shí)別目標(biāo)數(shù)據(jù)序列中的音頻數(shù)據(jù)。

當(dāng)然，即使一個(gè)目標(biāo)數(shù)據(jù)序列是由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合而成的，但只要在一個(gè)完全封閉的信息體系內(nèi)使用，也可以用協(xié)議好的方式來構(gòu)建任何目標(biāo)數(shù)據(jù)序列，而無需在其中插入任何標(biāo)識(shí)數(shù)據(jù)序列；相反，在一個(gè)開放的信息體系中，標(biāo)識(shí)數(shù)據(jù)序列則幾乎是必須的。因此，是否采用標(biāo)識(shí)數(shù)據(jù)序列，應(yīng)當(dāng)由有關(guān)的技術(shù)人員在設(shè)計(jì)相關(guān)的系統(tǒng)時(shí)根據(jù)具體的需求來決定。

在本發(fā)明上述各種具體的實(shí)施方式中，如果采用標(biāo)識(shí)數(shù)據(jù)序列，則該標(biāo)識(shí)數(shù)據(jù)序列優(yōu)選地使用編碼數(shù)據(jù)來構(gòu)成。但是，有關(guān)的技術(shù)人員也可以根據(jù)具體的設(shè)計(jì)需求選擇使用音頻數(shù)據(jù)，以及音頻數(shù)據(jù)和編碼數(shù)據(jù)的組合來構(gòu)成標(biāo)識(shí)數(shù)據(jù)序列。

綜上，本發(fā)明的一個(gè)重要的優(yōu)點(diǎn)就是：由于上述的目標(biāo)數(shù)據(jù)序列是在數(shù)字音頻信號(hào)的掩蔽閾值以下的位置插入，在插入目標(biāo)數(shù)據(jù)序列之后的數(shù)字音頻信號(hào)被播放時(shí)，由于掩蔽效應(yīng)的存在，插入的音頻信號(hào)序列不會(huì)被人耳感知。

此外，由于本發(fā)明中采用了多種維度的音頻信號(hào)(響度、音高和音色)來構(gòu)成音頻數(shù)據(jù)序列的方案，這種方式使得構(gòu)成信息碼本的容量具有極大的空間，可以利用有限的音頻數(shù)據(jù)來傳遞足夠多的信息。

為了接收和獲取采用本發(fā)明前述各個(gè)方案在數(shù)字音頻信號(hào)中嵌入的目標(biāo)數(shù)據(jù)序列，本發(fā)明還提供了如下的若干技術(shù)方案：

在使用一些設(shè)備(例如：手機(jī)、具有麥克風(fēng)和音頻處理能力的智能設(shè)備等)接收到嵌入有音頻信號(hào)序列的數(shù)字音頻信號(hào)時(shí)，將接收到的數(shù)字音頻信號(hào)分幀為多個(gè)音頻幀數(shù)據(jù)并進(jìn)行加窗處理；對(duì)前述多個(gè)音頻幀數(shù)據(jù)進(jìn)行頻域離散傅立葉變換，得到與這些音頻幀數(shù)據(jù)分別對(duì)應(yīng)的多個(gè)頻譜數(shù)據(jù)；

將這些頻譜數(shù)據(jù)映射到聽覺臨界頻帶(Bark域)，并計(jì)算聽覺臨界頻帶中各子帶的掩蔽閾值；該掩蔽閾值的數(shù)量與前述的子帶的數(shù)量是一一對(duì)應(yīng)的；

在前述多個(gè)頻譜數(shù)據(jù)中選取小于前述掩蔽閾值的頻率點(diǎn)作為嵌入位置；采用可對(duì)量化結(jié)果實(shí)現(xiàn)盲檢測(cè)的量化器對(duì)前述嵌入位置的離散傅里葉系數(shù)進(jìn)行反量化處理，獲得前述數(shù)字音頻信號(hào)中嵌入的一維數(shù)據(jù)序列；參見本發(fā)明上述數(shù)字音頻信號(hào)處理的各個(gè)具體實(shí)施方式的內(nèi)容，前述的目標(biāo)數(shù)據(jù)序列由一個(gè)以上特定的音頻數(shù)據(jù)和/或編碼數(shù)據(jù)按照預(yù)定的順序串行排列而成；其中，特定的音頻頻域信號(hào)與特定的響度和/或特定的音高和/或音色相對(duì)應(yīng)。

采用本發(fā)明上述從數(shù)字音頻信號(hào)中提取數(shù)據(jù)的具體實(shí)施方式，能夠從嵌入有目標(biāo)數(shù)據(jù)序列的數(shù)字音頻信號(hào)提取到相應(yīng)的一維數(shù)據(jù)序列。但是，如前所述：當(dāng)一維數(shù)據(jù)序列是由音頻數(shù)據(jù)構(gòu)成，或者由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合構(gòu)成時(shí)；或者，這個(gè)數(shù)字音頻信號(hào)是在一個(gè)開放的信息體系中傳遞時(shí)，需要在提取到的一維數(shù)據(jù)序列中查找預(yù)定的標(biāo)識(shí)數(shù)據(jù)序列，并且根據(jù)這些標(biāo)識(shí)數(shù)據(jù)序列的指示，對(duì)提取到的一維數(shù)據(jù)序列中與這些標(biāo)識(shí)數(shù)據(jù)序列相關(guān)位置的音頻數(shù)據(jù)進(jìn)行模式識(shí)別，最終獲得相應(yīng)的目標(biāo)數(shù)據(jù)序列。

在一些情況下，獲得目標(biāo)數(shù)據(jù)序列，就意味著獲得了實(shí)際的信息，例如：當(dāng)目標(biāo)數(shù)據(jù)序列僅由編碼數(shù)據(jù)所構(gòu)成時(shí)；但還有一些情況下，例如：當(dāng)目標(biāo)數(shù)據(jù)序列由音頻數(shù)據(jù)，或者由音頻數(shù)據(jù)和編碼數(shù)據(jù)混合構(gòu)成時(shí)，即使根據(jù)前述的標(biāo)識(shí)數(shù)據(jù)序列的指示，采用模式識(shí)別的方式提取到目標(biāo)數(shù)據(jù)序列后，可能還需要利用預(yù)定的編碼表，對(duì)該等目標(biāo)數(shù)據(jù)序列進(jìn)行變換，最終得到嵌入到前述數(shù)字音頻信號(hào)中的目標(biāo)數(shù)據(jù)。

當(dāng)然，在本發(fā)明中，獲得前述的一維數(shù)據(jù)序列或者目標(biāo)數(shù)據(jù)序列以后，可以利用接收設(shè)備，例如：手機(jī)、具有麥克風(fēng)和音頻處理能力的智能設(shè)備等，將這些一維數(shù)據(jù)序列或者目標(biāo)數(shù)據(jù)序列發(fā)送到服務(wù)器端，由服務(wù)器端來具體完成查找預(yù)定的標(biāo)識(shí)數(shù)據(jù)序列，根據(jù)該標(biāo)識(shí)數(shù)據(jù)序列的指示，采用模式識(shí)別的方式提取到目標(biāo)數(shù)據(jù)序列，以及利用預(yù)定的編碼表，對(duì)目標(biāo)數(shù)據(jù)序列進(jìn)行變換，最終得到嵌入到前述數(shù)字音頻信號(hào)中的目標(biāo)數(shù)據(jù)等操作。

一個(gè)具體的應(yīng)用實(shí)例是：在采用上述的各個(gè)具體實(shí)施方式將嵌入到數(shù)字音頻信號(hào)內(nèi)的目標(biāo)數(shù)據(jù)序列提取出來以后，如果該目標(biāo)數(shù)據(jù)序列單純地由音頻數(shù)據(jù)所構(gòu)成，就可以對(duì)該目標(biāo)數(shù)據(jù)序列中的各個(gè)具體的特定音頻數(shù)據(jù)及其組合進(jìn)行編碼匹配，即可以在預(yù)定的編碼表中查詢到該音頻信號(hào)序列對(duì)應(yīng)的數(shù)據(jù)信息。

上述預(yù)定的編碼表中通常至少含有如下的相互一一對(duì)應(yīng)的信息：音頻數(shù)據(jù)序列和與之相對(duì)應(yīng)的特定信息；例如：根據(jù)上述有關(guān)由響度、音高以及音色所組成的一個(gè)音頻數(shù)據(jù)序列的例子，一個(gè)規(guī)定長(zhǎng)度的音頻數(shù)據(jù)序列可以對(duì)應(yīng)于字母“A”，對(duì)應(yīng)于詞語“能量”，對(duì)應(yīng)于短句“頻譜數(shù)據(jù)”，對(duì)應(yīng)于一種物品對(duì)象“手機(jī)”，對(duì)應(yīng)于一個(gè)網(wǎng)頁鏈接地址“www.baidu.com”等等。這樣傳遞信息的方式與電報(bào)碼的方式有些類似；但是，如前所述，如果信息碼本容量足夠大，則本發(fā)明傳遞信息的方式就能夠脫離前述的電報(bào)碼的方式，而可以直接傳遞數(shù)據(jù)。

最后應(yīng)說明的是：以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案，而非對(duì)其限制；盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解：其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3