日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于VITS的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置

文檔序號(hào):39726976發(fā)布日期:2024-10-22 13:27閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,預(yù)處理包括:

3.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述先驗(yàn)編碼器包括:預(yù)訓(xùn)練的hubert模型與內(nèi)容編碼器;其中,所述預(yù)訓(xùn)練的hubert模型負(fù)責(zé)從源語(yǔ)音中提取語(yǔ)音內(nèi)容特征;所述內(nèi)容編碼器對(duì)語(yǔ)音內(nèi)容特征進(jìn)行維度轉(zhuǎn)換后映射至特征空間,再分割為語(yǔ)音特征先驗(yàn)分布的均值與方差,由此建模語(yǔ)音特征的先驗(yàn)分布。

4.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述說(shuō)話人編碼器使用預(yù)訓(xùn)練的說(shuō)話人鑒別模型實(shí)現(xiàn),包括:lstm堆疊層及其后方依次連接的線性層、激活函數(shù)層與l2歸一化層;其中,lstm堆疊層從輸入的目標(biāo)語(yǔ)音的梅爾頻譜圖中提取出隨時(shí)間變換的動(dòng)態(tài)特征,經(jīng)過(guò)線性層處理獲得攜帶說(shuō)話人身份信息的嵌入向量,經(jīng)過(guò)激活函數(shù)層引入非線性后,經(jīng)由l2歸一化層輸出說(shuō)話人特征。

5.根據(jù)權(quán)利要求1或3所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述后驗(yàn)編碼器與先驗(yàn)編碼器的結(jié)構(gòu)相同,先從線性譜中學(xué)習(xí)后驗(yàn)分布,再生成語(yǔ)音特征后驗(yàn)分布的均值與方差,由此建模語(yǔ)音特征的后驗(yàn)分布。

6.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述神經(jīng)解碼器包括:前端的兩個(gè)卷積層與一個(gè)歸一化卷積層、lstm層、激活函數(shù)層、卷積模塊,以及末端的歸一化卷積層;

7.根據(jù)權(quán)利要求6所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述卷積模塊中堆疊有若干組卷積塊,每一組卷積塊均包括依次設(shè)置的歸一化轉(zhuǎn)置卷積層、殘差層與激活函數(shù)層;

8.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,生成器總損失還包括:生成器損失與生成器的特征匹配損失,

9.根據(jù)權(quán)利要求1或8所述的一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,其特征在于,重構(gòu)損失與kl損失表示為:

10.一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換裝置,其特征在于,用于實(shí)現(xiàn)權(quán)利要求1~9任一項(xiàng)所述的方法,該裝置包括:


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于VITS的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置,方案中:基于VITS的端到端實(shí)時(shí)語(yǔ)音轉(zhuǎn)換技術(shù),實(shí)現(xiàn)任意對(duì)任意的語(yǔ)音轉(zhuǎn)換,具有重要的意義和價(jià)值,并且是一種一階段的語(yǔ)音轉(zhuǎn)換方案,通過(guò)端到端的訓(xùn)練方式實(shí)現(xiàn)了語(yǔ)音轉(zhuǎn)換,相較于傳統(tǒng)的兩階段模型,本發(fā)明消除了聲學(xué)特征匹配的差異性,從而提高了轉(zhuǎn)換效果。同時(shí),為了實(shí)現(xiàn)任意對(duì)任意的語(yǔ)音轉(zhuǎn)換,引入說(shuō)話人編碼器,還引入神經(jīng)解碼器以提高語(yǔ)音轉(zhuǎn)換的速度,能夠滿足實(shí)時(shí)性需求;此外,還通過(guò)實(shí)驗(yàn)驗(yàn)證了本發(fā)明在轉(zhuǎn)換速度和語(yǔ)音轉(zhuǎn)換效果方面的性能。

技術(shù)研發(fā)人員:曹丹陽(yáng),張澤益,張金元,高磊
受保護(hù)的技術(shù)使用者:北方工業(yè)大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1