日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

喚醒詞匹配方法、裝置以及語音喚醒方法、裝置的制造方法

文檔序號:8300068閱讀:594來源:國知局
喚醒詞匹配方法、裝置以及語音喚醒方法、裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)聲學(xué)領(lǐng)域,具體地,設(shè)及喚醒詞匹配方法、裝置W及語音喚醒方 法、裝置。
【背景技術(shù)】
[0002] 基于語音交互的智能設(shè)備已經(jīng)實(shí)用化,在諸如家電、車機(jī)、手機(jī)等設(shè)備上已經(jīng)有廣 泛應(yīng)用,其中,很多設(shè)備都具有語音喚醒功能,用于屏幕解鎖或者作為啟動應(yīng)用的輔助手 段。語音喚醒是該樣一項(xiàng)技術(shù),當(dāng)設(shè)備處于待機(jī)狀態(tài)時,在非常低的功耗條件下,在后臺不 間斷運(yùn)行一個裝置,對某個預(yù)先定義的喚醒詞進(jìn)行檢測,當(dāng)檢測到用戶說出該個詞時,將設(shè) 備喚醒,使該設(shè)備進(jìn)入正常工作狀態(tài)。
[0003] 現(xiàn)有的喚醒詞匹配主要應(yīng)用W下S種方法:
[0004] 基于動態(tài)時間彎折(dynamic time wa巧ing, DTW)的方法,該方法將語音與預(yù)先錄 制的若干條同一喚醒詞的錄音進(jìn)行聲學(xué)特征的動態(tài)匹配,將匹配距離與預(yù)先設(shè)定的闊值比 較,當(dāng)距離小于闊值時,判斷該語音為要檢測的喚醒詞。該方法需要事先錄制喚醒詞,而且 錄制喚醒詞的人和使用喚醒的人需要為同一人。
[0005] 基于對數(shù)似然比(log 1化elihood ration,化R)的方法,該方法是一種基于模型 的方法。該方法首先使用大量人說同一個喚醒詞的語音訓(xùn)練得到一個喚醒詞的隱馬爾可 夫模型化idden Markov model, HMM),并且訓(xùn)練若干個背景模型。在匹配時,使用維特比 (Viterbi)算法將語音與模型狀態(tài)做強(qiáng)制對齊,得到一個對數(shù)似然值;同時使用背景模型 對語音進(jìn)行打分,得到一個最大參考似然值。將對數(shù)似然值和最大參考似然值的比值與預(yù) 先設(shè)定的闊值比較,當(dāng)比值大于闊值時,判斷該語音為要檢測的喚醒詞。該方法需要對每個 喚醒詞都訓(xùn)練一個喚醒詞模型,需要大量的不同人的錄音數(shù)據(jù),使得喚醒詞的定制比較困 難。并且,該方法中,背景模型的數(shù)量過多時,增加計(jì)算量,在低功耗(低頻率)設(shè)備上無法 滿足實(shí)時性;而數(shù)量過少時,參考準(zhǔn)確率降低,導(dǎo)致喚醒詞檢出準(zhǔn)確率下降。
[0006] 基于對數(shù)似然值的方法,該方法與上述LLR的方法相似,不同點(diǎn)是它不再需要背 景模型,而是直接將喚醒詞模型與語音進(jìn)行強(qiáng)制對齊得到最優(yōu)路徑的對數(shù)似然值打分,當(dāng) 打分大于預(yù)先設(shè)定的闊值時,判斷該語音為要檢測的喚醒詞。該方法中,由于似然值是概率 密度函數(shù)的取值,并非概率,所W動態(tài)范圍大且不一致,使得很難設(shè)定一個合適的闊值。并 且,該方法需要大量的不同人的錄音數(shù)據(jù),使得喚醒詞的定制比較困難。
[0007] 評判一個語音喚醒技術(shù)的準(zhǔn)確率有兩個指標(biāo):一個是錯誤拒絕(false re jection, FR),一個是錯誤接受(false acceptance, FA)。前者指用戶說出喚醒詞時,裝置 沒有檢測到;后者指沒有說出喚醒詞,而裝置檢測到了。W上=種方法在單獨(dú)使用的時候, 上述"錯誤拒絕"和"錯誤接受"兩個指標(biāo)都比較高,因此,喚醒詞匹配的準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[000引本發(fā)明的目的是提供一種準(zhǔn)確率較高的喚醒詞匹配方法、裝置W及語音喚醒方 法、裝置。
[0009] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種喚醒詞匹配方法。該方法包括;使用兩種或兩 種W上算法分別對輸入語音與所述喚醒詞的匹配進(jìn)行打分,得到所述輸入語音與所述喚醒 詞匹配的對應(yīng)的分?jǐn)?shù);W及將由每種算法得到的分?jǐn)?shù)輸入分類器,根據(jù)所述分類器的輸出 來判斷所述輸入語音是否與所述喚醒詞匹配。
[0010] 優(yōu)選地,所述算法包括第一算法和/或第二算法,其中,所述第一算法按照W下步 驟執(zhí)行:生成所述喚醒詞的正向隱馬爾可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模型 的狀態(tài)序列為S = [Si,S2,…,S。],n表示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù) 目;用維特比算法將輸入語音和所述喚醒詞的正向隱馬爾可夫模型強(qiáng)制對齊,確定每一帖 中所述喚醒詞的正向隱馬爾可夫模型的每個狀態(tài)的對數(shù)似然值;W及根據(jù)每一帖中所述喚 醒詞的正向隱馬爾可夫模型的每個狀態(tài)的對數(shù)似然值來確定所述輸入語音與所述喚醒詞 匹配的最優(yōu)路徑的分?jǐn)?shù),所述第二算法按照W下步驟執(zhí)行;生成所述喚醒詞的正向隱馬爾 可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模型的狀態(tài)序列為S = [Si,S2,…,S。],n表 示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù)目;用維特比算法將輸入語音和所述喚 醒詞的正向隱馬爾可夫模型強(qiáng)制對齊,確定每一帖中所述喚醒詞的正向隱馬爾可夫模型的 每個狀態(tài)的對數(shù)似然值;將每一帖中所述喚醒詞的正向隱馬爾可夫模型的全部狀態(tài)的對數(shù) 似然值按照大小順序排成一序列,將每個狀態(tài)在該序列中的位置作為該狀態(tài)的分?jǐn)?shù);W及 根據(jù)每一帖中所述喚醒詞的正向隱馬爾可夫模型的每個狀態(tài)的分?jǐn)?shù)來確定所述輸入語音 與所述喚醒詞匹配的最優(yōu)路徑的分?jǐn)?shù)。
[0011] 優(yōu)選地,所述算法還包括第=算法和/或第四算法,其中,所述第=算法按照W下 步驟執(zhí)行;生成所述喚醒詞的正向隱馬爾可夫模型,其中,所述喚醒詞的正向隱馬爾可夫模 型的狀態(tài)序列為S = [Si,S2,…,S。],n表示所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)的 數(shù)目;生成所述喚醒詞的反向隱馬爾可夫模型,其中,對所述喚醒詞的正向隱馬爾可夫模型 中的狀態(tài)Si,S2,…,S。重新排序,得到所述喚醒詞的反向隱馬爾可夫模型中的狀態(tài)序列S' =時1,Sj.2,…,SJ,該序列S'使得的取值最大,其中,dist化,Sj,)表示狀態(tài)Si i=\ 的混合高斯模型和狀態(tài)Sj,的混合高斯模型之間的距離,i為1到n的正整數(shù);W及用維特比 算法將所述輸入語音和所述喚醒詞的反向隱馬爾可夫模型強(qiáng)制對齊,確定每一帖中所述喚 醒詞的反向隱馬爾可夫模型的每個狀態(tài)的對數(shù)似然值;W及根據(jù)每一帖中所述喚醒詞的反 向隱馬爾可夫模型的每個狀態(tài)的對數(shù)似然值來確定所述輸入語音與所述喚醒詞匹配的最 優(yōu)路徑的分?jǐn)?shù),所述第四算法按照W下步驟執(zhí)行;生成所述喚醒詞的正向隱馬爾可夫模型, 其中,所述喚醒詞的正向隱馬爾可夫模型的狀態(tài)序列為S = [Si,S2,…,S。],n表示所述喚醒 詞的正向隱馬爾可夫模型中的狀態(tài)的數(shù)目;生成所述喚醒詞的反向隱馬爾可夫模型,其中, 對所述喚醒詞的正向隱馬爾可夫模型中的狀態(tài)Si,S2,…,S。重新排序,得到所述喚醒詞的反 向隱馬爾可夫模型中的狀態(tài)序列S' = [Sj,,Sj.2,…,SJ,該序列S'使得的取 i=\ 值最大,其中,dist(Si,Sj,)表示狀態(tài)Si的混合高斯模型和狀態(tài)Sj,的混合高斯模型之間的 距離,i為1到n的正整數(shù);用維特比算法將所述輸入語音和所述喚醒詞的反向隱馬爾可 夫模型強(qiáng)制對齊,確定每一帖中所述喚醒詞的反向隱馬爾可夫模型的每個狀態(tài)的對數(shù)似然 值;將每一帖中所述喚醒詞的反向隱馬爾可夫模型的全部狀態(tài)的對數(shù)似然值按照大小順序 排成一序列,將每個狀態(tài)在該序列中的位置作為該狀態(tài)的分?jǐn)?shù);W及根據(jù)每一帖中所述喚 醒詞的反向隱馬爾可夫模型的每個狀態(tài)的分?jǐn)?shù)來確定所述輸入語音與所述喚醒詞匹配的 最優(yōu)路徑的分?jǐn)?shù)。
[0012] 優(yōu)選地,生成所述喚醒詞的正向隱馬爾可夫模型的步驟包括;從發(fā)音詞典獲得所 述喚醒詞中所包含的基本聲學(xué)單元;W及從經(jīng)過訓(xùn)練的一通用聲學(xué)模型中提取出所述基本 聲學(xué)單元的隱馬爾可夫模型,并將所述基本聲學(xué)單元按照所述喚醒詞中的順序拼接成所述 喚醒詞的正向隱馬爾可夫模型。
[0013] 本發(fā)明還提供一種喚醒詞匹配裝置。該喚醒詞匹配裝置包括;用于使用兩種或兩 種W上算法分別對輸入語音與所述喚醒詞的匹配進(jìn)行打分,得到所述輸入語音與所述喚醒 詞匹配的對應(yīng)的分?jǐn)?shù)的打分裝置;W及分類器,用于根據(jù)由每種算法得到的分?jǐn)?shù)來判斷所 述輸入語音是否與所述喚醒詞匹配。
[0014] 本發(fā)明還提供一種語音喚醒方法。該語音喚醒方法包括;采集輸入語音信號;對 所述輸入語音信號進(jìn)行端點(diǎn)檢測;用上述喚醒詞匹配方法判斷所述輸入語音信號是否與所 述喚醒詞匹配;W及在所述輸入語音信號與所述喚醒詞判斷為匹配的情況下,進(jìn)行喚醒,并 在所述輸入語音信號與所述喚醒詞判斷為不匹配的情況下,不進(jìn)行喚醒。
[0015] 本發(fā)明提供一種語音喚醒裝置。該語音喚醒裝置包括:采集裝置,用于采集輸入語 音信號,并將所述輸入語音信號傳輸?shù)秸Z音端點(diǎn)檢測裝置;所述語音端點(diǎn)檢測裝置,與所述 采集裝置連接,
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1