日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置及方法

文檔序號(hào):39561151發(fā)布日期:2024-09-30 13:34閱讀:66來(lái)源:國(guó)知局
一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置及方法

本發(fā)明涉及一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置及方法,屬于自然語(yǔ)言處理和語(yǔ)音合成。


背景技術(shù):

1、隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音合成(text-to-speech,tts)技術(shù)已經(jīng)取得了顯著的進(jìn)步,并在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。傳統(tǒng)的語(yǔ)音合成系統(tǒng)主要關(guān)注于從文本中生成清晰、自然的語(yǔ)音,然而,隨著情感計(jì)算在人機(jī)交互中的重要性日益凸顯,如何生成具有情感色彩的語(yǔ)音成為了當(dāng)前研究的熱點(diǎn)之一。情感語(yǔ)音合成(emotional?speechsynthesis)作為人機(jī)交互和智能語(yǔ)音應(yīng)用領(lǐng)域的重要研究方向,吸引了廣泛的關(guān)注。情感語(yǔ)音合成旨在使合成的語(yǔ)音具有逼真的情感表達(dá),從而增強(qiáng)語(yǔ)音交互的自然度和情感傳遞的效果。然而,傳統(tǒng)的情感語(yǔ)音合成方法往往依賴(lài)于大規(guī)模的訓(xùn)練數(shù)據(jù),并且在低資源情況下面臨著困難和挑戰(zhàn)。在實(shí)際應(yīng)用場(chǎng)景中,獲得大規(guī)模標(biāo)注的情感語(yǔ)音合成數(shù)據(jù)集是一項(xiàng)昂貴和耗時(shí)的任務(wù)。如何在數(shù)據(jù)有限的情況下實(shí)現(xiàn)高質(zhì)量的情感語(yǔ)音合成仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、為了克服現(xiàn)有研究的不足,本發(fā)明提供了一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置及方法,通過(guò)從文本中提取情感特征,并將其融合到以fastspeech2為骨干框架的語(yǔ)音合成模型中,實(shí)現(xiàn)蘊(yùn)含情感表達(dá)的語(yǔ)音合成。為了應(yīng)對(duì)低資源情況下的挑戰(zhàn),采用了一種基于少量訓(xùn)練數(shù)據(jù)的策略,將采用少量情感音頻訓(xùn)練出的音高預(yù)測(cè)器、能量預(yù)測(cè)器和時(shí)長(zhǎng)預(yù)測(cè)器遷移至采用fastspeech2預(yù)訓(xùn)練完成的不含情感的合成模型中,從而可以生成質(zhì)量高的具有情感表達(dá)的語(yǔ)音。

2、一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置,包括:

3、變量提取模塊:用于從訓(xùn)練數(shù)據(jù)集中提取音頻的音高、能量、時(shí)長(zhǎng)、語(yǔ)譜圖的真實(shí)值,用作在訓(xùn)練過(guò)程計(jì)算預(yù)測(cè)值與真實(shí)值之間的損失;

4、輸入模塊:在訓(xùn)練模型的過(guò)程中用于將文本分別輸入至語(yǔ)義提取模塊、文本嵌入、合成模塊、將提取出的音高、能量、時(shí)長(zhǎng)、語(yǔ)譜圖輸入到合成模塊,在采用訓(xùn)練的模型進(jìn)行訓(xùn)練時(shí),僅需要將文本分別輸入至語(yǔ)義提取模塊、文本嵌入模塊;

5、語(yǔ)義提取模塊:用于從文本中提取出文本語(yǔ)義特征cemotion;

6、語(yǔ)義提取模塊具體用于:

7、將文本輸入至文本語(yǔ)義提取器中;

8、提取文本的語(yǔ)義特征;

9、對(duì)語(yǔ)義特征進(jìn)行線(xiàn)性變換將特征維度由768維轉(zhuǎn)換為256維得到cemotion,與文本編碼器的輸出維度保持一致,從而使兩個(gè)特征可以融合;

10、文本嵌入模塊:用于將文本轉(zhuǎn)成音素嵌入序列,并通過(guò)編碼器獲得文本編碼特征ctext;

11、融合模塊:用于將文本語(yǔ)義特征cemotion和文本編碼特征ctext采用加法融合策略獲取融合特征序列cfusion;

12、融合模塊具體用于:

13、將文本語(yǔ)義特征cemotion的序列長(zhǎng)度與文本嵌入獲得文本編碼特征ctext的序列長(zhǎng)度進(jìn)行比較,若長(zhǎng)度不一致則實(shí)施零填充策略,處理后兩者在序列長(zhǎng)度上相等;

14、將處理后的文本編碼特征ctext與文本語(yǔ)義特征cemotion采用加法策略進(jìn)行融合,獲得融合特征序列cfusion;

15、情感預(yù)測(cè)模塊:通過(guò)融合特征序列cfusion預(yù)測(cè)時(shí)長(zhǎng)pduration、音高cpitch、能量cenergy,并將預(yù)測(cè)出的cpitch,cenergy嵌入到cfusion中得到cfpe,并根據(jù)pduration的值在每個(gè)音素上進(jìn)行復(fù)制拼接得到cfped;

16、情感預(yù)測(cè)模塊具體用于:

17、將融合特征序列輸入至?xí)r長(zhǎng)預(yù)測(cè)器中進(jìn)行時(shí)長(zhǎng)預(yù)測(cè)pduration;

18、將融合特征序列輸入至音高預(yù)測(cè)器中,獲得音高嵌入cpitch;

19、音高嵌入同融合特征序列相加;

20、cfp=cfusion+cpitch

21、并將結(jié)果cfp輸入至能量預(yù)測(cè)器中,獲得能量嵌入cenergy;

22、能量嵌入與cfp相加得到cfpe;

23、cfpe=cfp+cenergy

24、將嵌入了音高和能量的特征序列cfpe根據(jù)pduration的值在每個(gè)音素上進(jìn)行復(fù)制拼接得到cfped;用來(lái)控制在音頻中每個(gè)音素的時(shí)長(zhǎng);

25、合成模塊:用于將cfped輸入到解碼器中合成語(yǔ)譜圖,將語(yǔ)譜圖輸入到聲碼器中合成具有情感的音頻。

26、一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成方法,包括以下步驟:

27、步驟一、制作語(yǔ)音數(shù)據(jù)集:情感語(yǔ)音數(shù)據(jù)集總時(shí)長(zhǎng)不少于10分鐘,數(shù)據(jù)集包含音頻文件和文本文件,文本文件中包含音頻文件路徑、說(shuō)話(huà)人和該路徑下音頻文件對(duì)應(yīng)的文字內(nèi)容;

28、步驟二、構(gòu)建文本語(yǔ)義提取器:采用基于預(yù)訓(xùn)練的roberta模型進(jìn)行微調(diào)訓(xùn)練,從而得到可以有效識(shí)別neutral、happy、sad、angry、surprise5類(lèi)情感的英文文本情感分類(lèi)模型,從該模型中可以獲得與情緒相關(guān)的語(yǔ)義特征;

29、步驟三、對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理:對(duì)于步驟一中制作的數(shù)據(jù)集進(jìn)行處理,對(duì)于數(shù)據(jù)集中的音頻文件,提取每條音頻中的音高、能量、時(shí)長(zhǎng)、語(yǔ)譜圖,對(duì)與數(shù)據(jù)集中的文本文件提取文本中語(yǔ)義特征;

30、步驟四、構(gòu)建低資源情感語(yǔ)音合成模型:低資源情感語(yǔ)音合成模型包括文本語(yǔ)義提取器,編碼器、變量適配器、解碼器,訓(xùn)練該模型的目的是可以通過(guò)文本和文本的語(yǔ)義特征訓(xùn)練變量適配器中包含的時(shí)長(zhǎng)、音高、能量預(yù)測(cè)器,從而獲取到與文本語(yǔ)義特征對(duì)應(yīng)的時(shí)長(zhǎng)、音高、能量;

31、步驟五、進(jìn)行語(yǔ)音合成:將用戶(hù)輸入的文本輸入文本語(yǔ)義提取器提取文本中的語(yǔ)義特征,將文本轉(zhuǎn)成音素序列輸入到不含情感的語(yǔ)音合成模型的編碼器中生成256維的文本嵌入特征,語(yǔ)義特征與文本嵌入特征進(jìn)行融合后輸入至變量適配器中加入根據(jù)步驟四低資源情感語(yǔ)音合成模型預(yù)測(cè)出的音高,能量和時(shí)長(zhǎng),最后由解碼器生成語(yǔ)譜圖,由聲碼器輸出合成的音頻。

32、所述步驟二具體包括:

33、s2.1:將文本輸入至文本語(yǔ)義提取器中;

34、s2.2:提取文本的語(yǔ)義特征;

35、s2.3:對(duì)語(yǔ)義特征進(jìn)行線(xiàn)性變換將特征維度由768維轉(zhuǎn)換為256維得到cemotion,與文本編碼器的輸出維度保持一致,從而使兩個(gè)特征可以融合。

36、所述步驟三具體包括:

37、s3.1:將音頻文件統(tǒng)一為采樣率為22050hz的wav格式的音頻文件,統(tǒng)一采樣率和格式可以提高之后提取音頻中的音高、能量、時(shí)長(zhǎng)和語(yǔ)譜圖的效率;

38、s3.2:對(duì)數(shù)據(jù)集中的每一條音頻都進(jìn)行提取音高、能量、時(shí)長(zhǎng)和語(yǔ)譜圖的操作,并將提取出的信息每一條都保存成為單獨(dú)的數(shù)組文件,該步驟在之后訓(xùn)練低資源情感語(yǔ)音合成模型時(shí)計(jì)算預(yù)測(cè)值與實(shí)際值之間的loss,進(jìn)而使模型在迭代訓(xùn)練過(guò)程中不斷優(yōu)化模型。

39、所述步驟四具體包括:

40、s4.1:將文本輸入至編碼器中獲得文本嵌入特征ctext;

41、s4.2:將步驟三獲取的對(duì)應(yīng)文本內(nèi)容的語(yǔ)義特征的序列長(zhǎng)度與文本嵌入的序列長(zhǎng)度進(jìn)行比較,若長(zhǎng)度不一致則實(shí)施零填充策略;

42、s4.3:將處理后的文本嵌入特征與語(yǔ)義特征進(jìn)行融合,獲得融合特征序列cfusion;

43、s4.4:將融合特征序列輸入至變量適配器中進(jìn)行音高、能量嵌入,并對(duì)合成的音頻時(shí)長(zhǎng)進(jìn)行預(yù)測(cè)。

44、所述步驟五具體包括:

45、s5.1:將文本輸入至文本語(yǔ)義提取器中,獲取文本的語(yǔ)義特征cemotion;

46、s5.2:加載訓(xùn)練好的低資源情感語(yǔ)音合成模型memotion;

47、s5.3:將文本輸入至memotion的編碼器中獲取文本嵌入特征ctext;

48、s5.4:對(duì)cemotion與ctext的序列長(zhǎng)度實(shí)施零填充策略;

49、s5.5:將處理后的文本嵌入特征ctext與語(yǔ)義特征cemotion進(jìn)行融合,獲得融合特征序列cfusion;

50、s5.6:將cfusion輸入至memotion的變量適配器中預(yù)測(cè)時(shí)長(zhǎng)pduration、音高cpitch、能量cenergy;

51、s5.7:加載普通無(wú)情感語(yǔ)音合成模型mnormal;

52、s5.8:將文本輸入至mnormal的編碼器中,獲得文本嵌入特征etext;

53、s5.9:將s5.6獲取的時(shí)長(zhǎng)pduration、音高cpitch、能量cenergy嵌入到etext中獲得edpe,時(shí)長(zhǎng)、音高、能量由變量適配器a提供;

54、s5.10:將edpe輸入至解碼器中獲得語(yǔ)譜圖;

55、s5.11:將語(yǔ)譜圖輸入到聲碼器合成音頻,此時(shí)合成的音頻既保留了mnormal合成音頻的質(zhì)量,同時(shí)又有了根據(jù)memotion預(yù)測(cè)出的時(shí)長(zhǎng)pduration、音高cpitch、能量cenergy而具有的情感。

56、所述s4.4具體包括:

57、s4.4.1:融合特征序列輸入至?xí)r長(zhǎng)預(yù)測(cè)器中進(jìn)行時(shí)長(zhǎng)預(yù)測(cè)pduration;

58、s4.4.2:融合特征序列輸入至音高預(yù)測(cè)器中,獲得音高嵌入cpitch;

59、s4.4.3:音高嵌入同融合特征序列相加;

60、cfp=cfusion+cpitch

61、并將結(jié)果cfp輸入至能量預(yù)測(cè)器中,獲得能量嵌入cenergy;

62、s4.4.4:能量嵌入與cfp相加得到cfpe;

63、cfpe=cfp+cenergy

64、s4.4.5:將嵌入了音高和能量的特征序列cfpe根據(jù)pduration的值在每個(gè)音素上進(jìn)行復(fù)制拼接得到cfped,用來(lái)控制在音頻中每個(gè)音素的時(shí)長(zhǎng);

65、s4.4.6:將cfped輸入至解碼器,通過(guò)解碼器合成語(yǔ)譜圖;

66、s4.4.7:計(jì)算預(yù)測(cè)出的時(shí)長(zhǎng)、音高cpitch、能量cenergy和語(yǔ)譜圖與在步驟二中獲取的時(shí)長(zhǎng)、音高、能量、語(yǔ)譜圖之間的損失,迭代訓(xùn)練不斷降低損失,保存模型為memotion。

67、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

68、本發(fā)明提出一種融合文本語(yǔ)義特征的低資源情感語(yǔ)音合成裝置及方法,從文本中提取語(yǔ)義特征,訓(xùn)練出的合成模型可以學(xué)習(xí)到不同文本所蘊(yùn)含的不同的語(yǔ)義特征,進(jìn)而合成具有不同情感的音頻。

69、本發(fā)明采用少量情感語(yǔ)音數(shù)據(jù)集訓(xùn)練語(yǔ)音合成模型,主要訓(xùn)練與音頻情感有關(guān)的時(shí)長(zhǎng)、音高、能量,這三個(gè)參數(shù)不同的組合可以使音頻具有不同的情感表達(dá),將這三個(gè)參數(shù)遷移至不含情感的語(yǔ)音合成模型中,可以在保留原有模型合成音頻質(zhì)量的基礎(chǔ)上使合成音頻具有情感表達(dá)。采用少量情感語(yǔ)音數(shù)據(jù)集降低了數(shù)據(jù)獲取的難度,對(duì)預(yù)測(cè)的時(shí)長(zhǎng)、音高、能量進(jìn)行遷移達(dá)到合成高質(zhì)量情感語(yǔ)音的目的。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1