是對重構(gòu)信號音節(jié)內(nèi)容進(jìn)行識別;二是對重構(gòu)信號的聲調(diào)識別調(diào)型。每個重構(gòu) 語音均重復(fù)播放2?4遍。
[0042] 測聽評估方法通常分為兩種,一種為開放項測試方法,一種為封閉項測試方法。開 放項測試;測聽者依據(jù)自身已有知識、對聽到的音記錄,分別填寫音節(jié)和聲調(diào)。封閉項測試: 從給出的選項中選擇出最為相近的音節(jié)和聲調(diào)。本發(fā)明的測聽實驗均采用開放項測試方 法。
[0043] 語音原始實驗材料,取自中國科學(xué)院聲學(xué)所發(fā)行的"普通話標(biāo)準(zhǔn)單音節(jié)語音庫", 選出其中15個單音節(jié),如下:
[0044] /a/,/ai/,
[0045] /ao/,/bi/,/bo/,/du/,/duo/,/ga/,/lei/,/nao/,/wa/,/wei/,/ye/,/you/,/ yao/
[0046] 每個音節(jié)均包含四種調(diào)型,共計60個單音節(jié)。
[0047] 為保證音節(jié)嵌合時不同音節(jié)聲調(diào)部分的時間對齊,實驗中,在不明顯影響音節(jié)聲 調(diào)完整性的前提下,將四種聲調(diào)的各音節(jié)做等時長處理。實驗中,語音信號的采樣頻率為f; =16曲Z,采樣精度為16bits。
[0048] 3零相位重構(gòu)音測聽實驗
[0049] 3. 1重構(gòu)方法
[0化0] 根據(jù)語音信號的短時平穩(wěn)性,按照人發(fā)音正常速度或聲道變化速度,其分析步長 不應(yīng)大于10-30ms。短時傅立葉變換是窗選信號的標(biāo)準(zhǔn)傅立葉變換,海明窗是語音信號頻域 分析的最佳選擇。由于窗長的變化對信號的頻譜分辨率和時間分辨率有影響,考慮到傅立 葉變換點數(shù)和采樣率,作者首先選用符合短時平穩(wěn)要求的窗長16ms,進(jìn)行實驗研究。
[CK)5U 當(dāng)帖長為16ms,采樣率為16KHZ時,F(xiàn)FT樣點數(shù)N = 256,隨信號推移逐帖作FFT, 半帖重疊,可得到每帖語音信號頻譜X(n,w)如下:
[005引 X(n,w) = |X(n,w) |eJ*虹w),n = 0, (1)
[005引|X(n,w) I為短時幅度譜,(Hn,w) =ZX(n,w)為短時相位譜。為得到零相位重 構(gòu)音,保持原語音信號的短時幅度譜IX (n,w) I不變,將短時相位譜4 (n,w)置零,然后將 兩者重新組合重構(gòu)聲音。重構(gòu)信號的采樣頻率和采樣精度與原信號保持一致,經(jīng)短時傅里 葉逆變換得到無相位特征的重構(gòu)語音信號,其中重疊帖部分采用重疊相加法(Overlap-add method)進(jìn)行處理,W去除海明窗疊加廣生的增益誤差。
[0化4] 3. 2實驗結(jié)果及分析
[0055] 對60個重構(gòu)音分別做音節(jié)和聲調(diào)的測聽實驗。發(fā)現(xiàn):重構(gòu)音節(jié)和原音節(jié)相比,出 現(xiàn)了明顯的金屬音,并伴有類似電子打火的哺哺聲,但仍能準(zhǔn)確辨別原音節(jié)的內(nèi)容。采用開 放項測試,重構(gòu)音節(jié)的平均識別率可達(dá)92. 36%。
[0化6] 原信號和重構(gòu)信號波形如圖1所示,不難發(fā)現(xiàn),此時重構(gòu)信號的時域包絡(luò)和峰值 間隔均發(fā)生了偏移。由于重構(gòu)時信號的幅度和頻率特性并未改變,改變的僅是相位,即全零 相位,使各頻率成分信號在疊加時產(chǎn)生了時間關(guān)系上的錯位,從而導(dǎo)致重構(gòu)信號的各峰值 關(guān)系改變。該種改變會導(dǎo)致音質(zhì)變化,同時,也會影響聲調(diào)的感知,因為聲調(diào)是W時域波形 主要峰值時間間隔來表征的。
[0化7] 聲調(diào)測聽結(jié)果如表1所示,重構(gòu)信號和原信號相比,調(diào)型感知確實發(fā)生了明顯變 化,即"二聲"識別成"一聲"比率為98. 00%,"四聲"識別成"一聲"比率為97. 33%,聲" 識別成"一聲"比率為88. 67%,"一聲"全部保持"一聲",未變。該結(jié)果表明;相位的缺失使 得除一聲外原有的音節(jié)的其它調(diào)型幾乎都變成一聲。該說明,聲調(diào)和相位有關(guān)。從圖1不 難發(fā)現(xiàn),音節(jié)/a4/的原信號聲調(diào)為四聲,其波形主峰值的時間間隔(即基音周期)是由小 變大的,而零相位重構(gòu)后的信號,其主峰值間隔變成了等間隔,因此,聽成一聲;而主峰值等 間隔的原一聲音節(jié)/al/,原信號和重構(gòu)信號在主峰值上未發(fā)生變化,所W聲調(diào)識別沒有變 化。由此可W得出W下結(jié)論:經(jīng)零相位重構(gòu)后,相位信息缺失對語音的清晰度不敏感,基本 可準(zhǔn)確識別,但對聲調(diào)感知的影響非常嚴(yán)重,幾乎導(dǎo)致原聲調(diào)特征丟失,很難區(qū)分原有的四 聲調(diào)型。
[0化引然而,信號短時傅立葉變換的頻率分辨率和時間分辨率均與窗長有關(guān),即窗長與 頻率分辨率成正比、與時間分辨率成反比。當(dāng)窗長為16ms時,窗長較大,此時語音信號的頻 率分辨率較高,幅頻特性表達(dá)較為準(zhǔn)確,使重構(gòu)音節(jié)譜特征較為準(zhǔn)確,故音節(jié)識別率較高。 與此同時,時間分辨率相對較低,當(dāng)相位特征缺失(即置零)時,信號疊加的時間關(guān)系會發(fā) 生較大的偏差,從而導(dǎo)致波形主要峰值關(guān)系發(fā)生變化,該應(yīng)是影響聲調(diào)識別的主要原因。為 了證實該問題,當(dāng)時間分辨率較高時,即窗長較小時,影響聲調(diào)的識別可能會發(fā)生變化,對 此,進(jìn)一步研究了減小窗長的實驗。
[0059] 對音節(jié)/a/分別W窗長為l〇ms、8ms、5ms、4ms、3ms、2ms、1ms的語音短段進(jìn)行短時 頻譜分析和零相位重構(gòu)。由于人工耳蝸的通路數(shù)一般不超過24個,當(dāng)選定傅立葉變換的點 數(shù)為64,其有效頻率點32個,接近對應(yīng)的人工耳蝸的通路數(shù)。實驗測聽結(jié)果如表2所示, 當(dāng)窗長為3ms W上時,重構(gòu)音節(jié)/a/的二、S、四聲在聽覺上均為無聲調(diào);當(dāng)窗長減少到1ms 或2ms時,重構(gòu)音節(jié)/a/的調(diào)型可識別。從而證實,在不考慮相位的情況下,減小窗長至2ms W下,音節(jié)的調(diào)型由于窗長較小、頻譜的時間分辨率較高,即使在相位缺失情況下,各頻率 成分時間偏移有限,導(dǎo)致信號疊加后的主峰值間隔關(guān)系未發(fā)生明顯變化,故聲調(diào)可感知。
[0060] 表1 ;重構(gòu)音聲調(diào)感知測聽統(tǒng)計結(jié)果
[0061]
【主權(quán)項】
1. 相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,包括w下步驟: 步驟1獲取原始的漢語語音聲調(diào)信號; 步驟2對步驟1的聲調(diào)信號采用傅里葉變換分解,得到與漢語語音聲調(diào)信號相應(yīng)的幅 度、頻率和相位=組特征參數(shù); 步驟3在相同條件下,保持信號的頻率和幅度特征兩者同時不變,僅改變相位特征,得 到原始漢語語音聲調(diào)信號的重構(gòu)信號; 步驟4對重構(gòu)信號進(jìn)行識別,進(jìn)而得到相位特征對重構(gòu)漢語語音聲調(diào)感知影響。
2. 如權(quán)利要求1所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,步驟3中所述 的重構(gòu)信號的方法為;去掉原始漢語語音聲調(diào)信號的原相位特征,保持原信號頻率和幅度 特征不變,重構(gòu)新信號。
3. 如權(quán)利要求2所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,具體方法如 下: 3-1.選用符合短時平穩(wěn)要求的窗長; 3-2.確定帖長、采樣率和FFT樣點數(shù),隨信號推移逐帖作FFT,半帖重疊,得到每帖語 音信號頻譜X(n,w)如下: X(n, W) = IX(n, W) I eJ* (化―),n = 0, 1,. . . N-1 (1) |X(n,w) I為短時幅度譜,4 (n,w) =Z X(n,w)為短時相位譜; 3-3保持原語音信號的短時幅度譜IX(n,w) I不變,將短時相位譜d) (n,w)置零,然后將 幅度譜IX (n,w) I和零相位譜兩者重新組合重構(gòu)聲音。
4. 如權(quán)利要求3所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,所述的窗長 與相位特征關(guān)系的確定方法如下對同一個音節(jié)分別W不同窗長的語音短段進(jìn)行短時頻譜 分析和零相位重構(gòu)。
5. 如權(quán)利要求4所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,窗長選?。?16ms、10ms、8ms、5ms、4ms、3ms、2ms、1ms ;在不考慮相位的情況下,減小窗長至2ms W下,音 節(jié)的調(diào)型由于窗長較小、頻譜的時間分辨率較高,即使在相位缺失情況下,各頻率成分時間 偏移有限,導(dǎo)致信號疊加后的主峰值間隔關(guān)系未發(fā)生明顯變化,故聲調(diào)可感知。
6. 如權(quán)利要求3所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,所述的3-2中 重疊帖部分采用重疊相加法進(jìn)行處理,W去除海明窗疊加產(chǎn)生的增益誤差。
7. 如權(quán)利要求1所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,步驟3中所述 的重構(gòu)信號的方法如下: 采用短時傅里葉變換嵌合法重構(gòu)語音,即將兩個聲信號進(jìn)行相同的短時傅里葉變換, 提取各自的幅度譜和相位譜,再將來自不同原信號的幅度譜和相位譜交叉組合,重構(gòu)新的 音節(jié)。
8. 如權(quán)利要求7所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,具體如下: 步驟3-1對相同音節(jié),不同聲調(diào)的兩個信號做相同的短時傅里葉變換; 步驟3-2提取各自的幅度譜和相位譜; 步驟3-3將得到的幅度譜和相位譜交叉組合,得到兩個重構(gòu)信號; 步驟3-4按照步驟3-1和步驟3-3的方法依次對15個音節(jié)的4中聲調(diào)進(jìn)行兩兩組合, 得到180個重構(gòu)音節(jié)。
9. 如權(quán)利要求1所述的相位對重構(gòu)語音聲調(diào)感知影響方法,其特征在于,步驟4的識別 方法采用W正常聽力者完好的聽覺神經(jīng)傳導(dǎo)系統(tǒng)為測聽對方進(jìn)行聲調(diào)識別。
10. 相位在人工耳蝸中應(yīng)用,其特征在于,利用相位特征對人工耳蝸的信號陣列編碼進(jìn) 行控制。
【專利摘要】本發(fā)明公開了相位對重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用,采用傅立葉變換分析方法,首先對原始語音信號作頻域分解,通過改變信號相位譜特征,重構(gòu)合成新的語音,進(jìn)而測聽重構(gòu)音的聲調(diào)感知。實驗發(fā)現(xiàn),采用常用窗長分析和重構(gòu)時,在信號幅頻特征不變、初始相位全部置零條件下,得到的重構(gòu)音節(jié)音質(zhì)會下降,表明:相位特征對聲調(diào)感知是有影響的,且與信號重構(gòu)窗長有關(guān)。進(jìn)一步采用聲音嵌合重構(gòu)方法,即用來自不同調(diào)型音節(jié)的幅頻特征與相位特征交叉嵌合、重構(gòu)音節(jié),測聽嵌合重構(gòu)音的聲調(diào)感知,由此驗證:調(diào)型的感知主要取決于相位特征。
【IPC分類】G10L19-12
【公開號】CN104616659
【申請?zhí)枴緾N201510066246
【發(fā)明人】田嵐, 郭翠翠, 魏瑩
【申請人】山東大學(xué)
【公開日】2015年5月13日
【申請日】2015年2月9日