日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語音合成方法和裝置的制造方法

文檔序號:9598795閱讀:908來源:國知局
語音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種語音合成方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。對于語音合成系統(tǒng),首先需要對輸入的文本進(jìn)行處理,包括預(yù)處理、分詞、詞性標(biāo)注、注音、韻律層級預(yù)測等,然后再通過聲學(xué)模型預(yù)測聲學(xué)參數(shù),最后利用聲學(xué)參數(shù)直接通過聲碼器合成聲音,或者從錄音語料庫中挑選單元進(jìn)行拼接。
[0003]為了實現(xiàn)上述的根據(jù)文本合成語音,需要事先進(jìn)行數(shù)據(jù)準(zhǔn)備?,F(xiàn)有技術(shù)中,在準(zhǔn)備數(shù)據(jù)時,通過是以句子為單元生成語料,再挑選合適的發(fā)音人對語料進(jìn)行語音錄制。一般要求發(fā)音人在語音錄制時不加入情感平穩(wěn)地錄制,或者以某種與語料自身的情感無關(guān)的特定情感錄制。這就會造成準(zhǔn)備的數(shù)據(jù)難以表達(dá)語料內(nèi)容包含的情感方面的信息,從而使得合成語音缺乏情感表現(xiàn)力。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此,本發(fā)明的一個目的在于提出一種語音合成方法,該方法可以提高合成語音的情感表現(xiàn)力。
[0006]本發(fā)明的另一個目的在于提出一種語音合成裝置。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實施例提出的語音合成方法,包括:獲取以段落或篇章為單位的文本數(shù)據(jù);在發(fā)音人朗讀所述文本數(shù)據(jù)時進(jìn)行錄制,得到所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù),其中,發(fā)音人在朗讀時結(jié)合文本數(shù)據(jù)的語義進(jìn)行個人情感表達(dá);生成韻律模型,以及,根據(jù)所述文本數(shù)據(jù)和所述語音數(shù)據(jù)生成聲學(xué)模型;在需要進(jìn)行語音合成時,根據(jù)預(yù)先生成的韻律模型和聲學(xué)模型對輸入文本進(jìn)行處理,得到所述輸入文本對應(yīng)的合成語
■~>V.曰ο
[0008]本發(fā)明第一方面實施例提出的語音合成方法,通過獲取以段落或篇章為單位的文本數(shù)據(jù),可以得到存在語義關(guān)聯(lián)的文本數(shù)據(jù),通過發(fā)音人在朗讀時結(jié)合文本數(shù)據(jù)的語義進(jìn)行個人情感表達(dá),可以得到更具情感的語音數(shù)據(jù),從而基于上述的文本數(shù)據(jù)和語音數(shù)據(jù)可以生成包含語義和情感信息的聲學(xué)模型,進(jìn)而可以生成更具情感表現(xiàn)力的合成語音。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實施例提出的語音合成裝置,包括:獲取模塊,用于獲取以段落或篇章為單位的文本數(shù)據(jù);錄制模塊,用于在發(fā)音人朗讀所述文本數(shù)據(jù)時進(jìn)行錄制,得到所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù),其中,發(fā)音人在朗讀時結(jié)合文本數(shù)據(jù)的語義進(jìn)行個人情感表達(dá);生成模塊,用于生成韻律模型,以及,根據(jù)所述文本數(shù)據(jù)和所述語音數(shù)據(jù)生成聲學(xué)模型;合成模塊,用于在需要進(jìn)行語音合成時,根據(jù)預(yù)先生成的韻律模型和聲學(xué)模型對輸入文本進(jìn)行處理,得到所述輸入文本對應(yīng)的合成語音。
[0010]本發(fā)明第二方面實施例提出的語音合成裝置,通過獲取以段落或篇章為單位的文本數(shù)據(jù),可以得到存在語義關(guān)聯(lián)的文本數(shù)據(jù),通過發(fā)音人在朗讀時結(jié)合文本數(shù)據(jù)的語義進(jìn)行個人情感表達(dá),可以得到更具情感的語音數(shù)據(jù),從而基于上述的文本數(shù)據(jù)和語音數(shù)據(jù)可以生成包含語義和情感信息的聲學(xué)模型,進(jìn)而可以生成更具情感表現(xiàn)力的合成語音。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實施例提出的語音合成方法的流程示意圖;
[0014]圖2是本發(fā)明實施例中生成韻律模型的流程示意圖;
[0015]圖3是本發(fā)明實施例中生成聲學(xué)模型的流程示意圖;
[0016]圖4是本發(fā)明實施例中語音合成的流程示意圖;
[0017]圖5是本發(fā)明另一實施例提出的語音合成裝置的結(jié)構(gòu)示意圖;
[0018]圖6是本發(fā)明另一實施例提出的語音合成裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0020]圖1是本發(fā)明一實施例提出的語音合成方法的流程示意圖,該方法包括:
[0021]S11:獲取以段落或篇章為單位的文本數(shù)據(jù)。
[0022]與常規(guī)采用的以句子為單元的文本數(shù)據(jù)不同的是,本發(fā)明實施例中獲取以段落或篇章為單位的文本數(shù)據(jù)作為訓(xùn)練語料。
[0023]以句子為單元的語料通常是句子之間沒有什么聯(lián)系,基本都是獨(dú)立的。而本發(fā)明實施例中通過以段落甚至篇章為單位獲取語料,可以充分利用句子之間的關(guān)聯(lián)性,以蘊(yùn)含更為豐富的上下文特征信息。
[0024]S12:在發(fā)音人朗讀所述文本數(shù)據(jù)時進(jìn)行錄制,得到所述文本數(shù)據(jù)對應(yīng)的語音數(shù)據(jù),其中,發(fā)音人在朗讀時結(jié)合文本數(shù)據(jù)的語義進(jìn)行個人情感表達(dá)。
[0025]常規(guī)錄制過程中,一般要求發(fā)音人不加入任何情感,盡可能平穩(wěn)地錄制語音,從而導(dǎo)致語義信息無法融入到語音中。還有些學(xué)者,會專門設(shè)計少量句子,讓發(fā)音人以某種情感來朗讀,從而造成語義與情感可能存在錯位,單個句子沒有上下文的鋪墊,容易造成情感過于夸張或者生硬,不自然。在本發(fā)明實施例中,允許發(fā)音人結(jié)合文本的語義信息,根據(jù)個人理解加入自然的情感表達(dá),從而使得語音中蘊(yùn)含豐富且自然的情感和語義表達(dá)方式。
[0026]S13:生成韻律模型,以及,根據(jù)所述文本數(shù)據(jù)和所述語音數(shù)據(jù)生成聲學(xué)模型。
[0027]訓(xùn)練過程中還需要生成韻律模型和聲學(xué)模型,以用于語音合成時的韻律預(yù)測和聲學(xué)參數(shù)生成。
[0028]一些實施例中,在生成韻律模型和/或聲學(xué)模型時,采用深度神經(jīng)網(wǎng)絡(luò)方式,以區(qū)分于常規(guī)的采用隱馬爾可夫和決策樹建模生成聲學(xué)模型的方式。
[0029]深度神經(jīng)網(wǎng)絡(luò)具有自動學(xué)習(xí)能力,通過自動學(xué)習(xí)歷史信息對當(dāng)前預(yù)測的影響,更容易利用類似詞向量這種矢量特征,建模性能更高。
[0030]具體的,深度神經(jīng)網(wǎng)絡(luò)采用雙向長短時記憶(B1-LSTM)網(wǎng)絡(luò)。B1-LSTM使用長短時記憶(Long-Short Term Memory, LSTM)結(jié)構(gòu)作為其核心建模單元,通過LSTM結(jié)構(gòu)中的狀態(tài)結(jié)構(gòu)緩存歷史的狀態(tài)信息,并且通過輸入門、遺忘門以及輸出門對上下文特征信息進(jìn)行維護(hù),從而實現(xiàn)了長距離上下文特征信息的有效緩存。
[0031]一些實施例中,參見圖2,采用深度神經(jīng)網(wǎng)絡(luò),生成韻律模型的流程可以包括:
[0032]S21:獲取多個語句文本。
[0033]例如,在獲取到上述的以段落或篇章為單位的文本數(shù)據(jù)后,可以將上述的文本數(shù)據(jù)分別為多個語句文本;或者,可以獲取到其他的標(biāo)注了韻律層級信息的數(shù)據(jù),或者,獲取的多個語句文本包括根據(jù)上述的文本數(shù)據(jù)得到的語句文本和其他的標(biāo)注了韻律層級信息的數(shù)據(jù)等。
[0034]S22:獲取每個語句文本對應(yīng)的特征向量。
[0035]例如,可以先對每個語句文本進(jìn)行分詞,得到組成語句文本的一個或多個分詞。對應(yīng)每個分詞,根據(jù)預(yù)先建立的詞向量庫,獲取分詞對應(yīng)的詞向量,另外還可以獲取分詞對應(yīng)的詞語長度和詞性,從而用詞向量+詞語長度+詞性表征一個分詞,作為分詞的特征向量,將組成一個語句文本的分詞的特征向量進(jìn)行組合,得到該語句文本的特征向量。
[0036]通過引入詞向量,可以增強(qiáng)詞語本身的泛化能力,提升韻律模型的魯棒性。
[0037]S23:采用深度神經(jīng)網(wǎng)絡(luò),根據(jù)語句文本對應(yīng)的特征向量進(jìn)行建模,生成韻律模型。
[0038]本實施例中,深度神經(jīng)網(wǎng)絡(luò)具體采用:使用全連接的前饋神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)(De印 Neural Networks,DNN)+Bi_LSTM 網(wǎng)絡(luò)。B1-LSTM 網(wǎng)絡(luò)由 LSTM 單元組成,由于 LSTM結(jié)構(gòu)能夠維護(hù)長距離的歷史信息(如,歷史的上下文特征信息),因此特別適合韻律層級標(biāo)注中的長距離韻律建模。在韻律層級模型訓(xùn)練過程中,將韻律層級預(yù)測問題看作對韻律詞、韻律短語和語調(diào)短語的分類問題,采用DNN加B1-LSTM的網(wǎng)絡(luò)結(jié)構(gòu)對模型進(jìn)行訓(xùn)練。語句文本對應(yīng)的特征向量作為DNN的輸入,DNN的輸出作為B1-LSTM的輸入,B1-LSTM的輸出是生成的韻律模型。在生成的韻律模型時對韻律詞、韻律短語和語調(diào)短語同時進(jìn)行分類,在誤差反向傳遞的過程體現(xiàn)三種層級結(jié)構(gòu)的相互關(guān)系。
[0039]一些實施例中,參見圖3,采用深度神經(jīng)網(wǎng)絡(luò)生成聲學(xué)模型的流程可以包括:
[0040]S31:獲取所述文本數(shù)據(jù)的上下文特征信息。
[0041]與常規(guī)方式不同的是,本實施例
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1