日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種聲紋識別方法和裝置的制造方法

文檔序號:10727062閱讀:452來源:國知局
一種聲紋識別方法和裝置的制造方法
【專利摘要】本發(fā)明實施例公開了一種聲紋識別方法和裝置,其中所述方法包括:獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息;對所述驗證語音信息進行語音識別得到所述驗證語音信息中包含的分別與所述第一字符串中的多個字符對應(yīng)的語音片段;提取各個字符對應(yīng)的語音片段的聲紋特征;根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量;計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶確定為所述注冊語音信息對應(yīng)的注冊用戶。采用本發(fā)明,可有效提高聲紋識別準確率。
【專利說明】
一種聲紋識別方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及聲音識別技術(shù)領(lǐng)域,尤其涉及一種聲紋識別方法和裝置。
【背景技術(shù)】
[0002] 聲紋識別作為一種生物信息識別的方法,包括用戶注冊和用戶身份識別兩個階 段。注冊階段將語音通過一系列處理映射為用戶模型。在識別階段對于一段身份未知的語 音,與模型進行相似度的匹配,進而對未知語音的身份與注冊語音的身份是否一致進行判 斷。現(xiàn)有的聲紋建模方法通常是從文本無關(guān)的層面進行建模以實現(xiàn)對說話人身份特征的描 述,但是文本無關(guān)的建模方式在用戶朗讀不同內(nèi)容時,識別準確率較低,難以滿足要求。

【發(fā)明內(nèi)容】

[0003] 有鑒于此,本發(fā)明實施例提供一種聲紋識別方法和裝置,可有效提高聲紋識別準 確率。
[0004] 為了解決上述技術(shù)問題,本發(fā)明實施例提供了一種聲紋識別方法,所述方法包括:
[0005] 獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息;
[0006] 對所述驗證語音信息進行語音識別得到所述驗證語音信息中包含的分別與所述 第一字符串中的多個字符對應(yīng)的語音片段;
[0007] 提取各個字符對應(yīng)的語音片段的聲紋特征;
[0008] 根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用 背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量;
[0009] 計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字 符對應(yīng)的特征向量的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用 戶確定為所述注冊語音信息對應(yīng)的注冊用戶。
[0010] 相應(yīng)地,本發(fā)明實施例還提供了一種聲紋識別裝置,所述裝置包括:
[0011] 語音獲取模塊,用于獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息;
[0012] 語音片段識別模塊,用于對所述驗證語音信息進行語音識別得到所述驗證語音信 息中包含的分別與所述第一字符串中的多個字符對應(yīng)的語音片段;
[0013] 聲紋特征提取模塊,用于提取驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特 征;
[0014] 特征模型訓(xùn)練模塊,用于根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù) 設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量;
[0015] 相似度判斷模塊,用于計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注 冊語音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù);
[0016] 用戶識別模塊,用于若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶確 定為所述注冊語音信息對應(yīng)的注冊用戶。
[0017] 本實施例通過獲取驗證用戶的驗證語音信息中各個字符對應(yīng)的語音片段的聲紋 特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量,并通 過將驗證語音信息中各個字符對應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向量進 行相似度比較,從而確定驗證用戶的的用戶身份,該方式用以比較的用戶特征向量與具體 字符對應(yīng),充分考慮到用戶朗讀不同字符時的聲紋特征,從而可有效提高聲紋識別準確率。
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0019] 圖1是本發(fā)明實施例中的聲紋識別方法的階段概述示意圖;
[0020] 圖2是本發(fā)明實施例中的一種聲紋識別方法的流程示意圖;
[0021] 圖3是本發(fā)明實施例中從語音信息中識別得到多個字符對應(yīng)的語音片段的原理示 意圖;
[0022] 圖4是本發(fā)明實施例中從語音信息中獲取各個字符對應(yīng)的特征向量的原理示意 圖;
[0023] 圖5是本發(fā)明實施例中注冊用戶的聲紋注冊流程示意圖;
[0024] 圖6是本發(fā)明另一實施例中的聲紋識別方法的流程示意圖;
[0025] 圖7是本發(fā)明實施例中的一種聲紋識別裝置的結(jié)構(gòu)示意圖;
[0026] 圖8是本發(fā)明實施例中的語音片段識別模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0028] 本發(fā)明實施例提供了一種聲紋識別方法及裝置。該聲紋識別方法及裝置可應(yīng)用于 所有需要識別未知用戶身份的場景或設(shè)備中。用于進行聲紋識別的字符串中的字符可以是 阿拉伯?dāng)?shù)字、英文字母或其他語言字符等。為了簡化描述,本發(fā)明實施例中的字符以阿拉伯 數(shù)字為例進行舉例說明。
[0029] 本發(fā)明實施例中的聲紋識別方法可以分為兩個階段,如圖1所示:
[0030] 1)注冊用戶的聲紋注冊階段
[0031] 在聲紋注冊階段,注冊用戶可以朗讀一個注冊字符串(即后文出現(xiàn)的第二字符 串),聲紋識別裝置采集該注冊用戶在朗讀該注冊字符串時的注冊語音信息,然后對注冊語 音信息進行聲音識別得到所述注冊語音信息中包含的分別與所述注冊字符串中的多個字 符對應(yīng)的語音片段,進而對各個字符對應(yīng)的語音片段進行聲紋特征提取和聲紋模型訓(xùn)練, 包括根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景 模型(Universal Background Model,UBM,即GMM-UBM)訓(xùn)練得到注冊語音信息中各個字符 對應(yīng)的特征向量,然后聲紋識別裝置可以分別為不同的注冊用戶將其在聲紋注冊階段朗讀 的注冊語音信息中的多個字符對應(yīng)的特征向量保存在聲紋識別裝置的模型庫中。
[0032]比如,注冊字符串是數(shù)字字符串0185851,包含了四種數(shù)字"0"、"Γ、"5"、"8",則聲 紋識別裝置根據(jù)注冊語音信息中各個字符對應(yīng)的語音片段進行聲紋特征提取和聲紋模型 訓(xùn)練,得到"〇"、"Γ、"5"、"8"對應(yīng)的語音片段的聲紋特征,進而結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的 UBM訓(xùn)練得到注冊語音信息中各個字符對應(yīng)的特征向量,包括與數(shù)字"0"對應(yīng)的特征向量、 與數(shù)字"Γ對應(yīng)的特征向量、與數(shù)字"5"對應(yīng)的特征向量以及與數(shù)字"8"對應(yīng)的特征向量。 [0033] 2)驗證用戶的身份識別階段
[0034]在身份識別階段,驗證用戶即未知身份的用戶朗讀一個驗證字符串(即后文出現(xiàn) 的第一字符串,所述第二字符串與所述第一字符串擁有至少一個相同的字符),聲紋識別裝 置采集該驗證用戶在朗讀該驗證字符串時的驗證語音信息,然后對驗證語音信息進行聲音 識別得到所述驗證語音信息中包含的分別與所述驗證字符串中的多個字符對應(yīng)的語音片 段,進而對各個字符對應(yīng)的語音片段進行聲紋特征提取和聲紋模型訓(xùn)練,包括根據(jù)所述各 個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的UBM訓(xùn)練得到驗證語音信 息中各個字符對應(yīng)的特征向量,最后計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè) 的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗 證門限,則將所述驗證用戶確定為所述注冊語音信息對應(yīng)的注冊用戶。
[0035]比如,驗證字符串為數(shù)字字符串85851510,則聲紋識別裝置根據(jù)驗證用戶朗讀時 產(chǎn)生的驗證語音信息中各個字符對應(yīng)的語音片段進行聲紋特征提取和聲紋模型訓(xùn)練,得到 "0"、"Γ、"5"、"8"對應(yīng)的GMM,進而結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的UBM可以計算得到驗證用戶 的驗證語音信息的特征向量,包括與數(shù)字"0"對應(yīng)的特征向量、與數(shù)字"Γ對應(yīng)的特征向量、 與數(shù)字"5"對應(yīng)的特征向量以及與數(shù)字"8"對應(yīng)的特征向量,進而分別計算驗證語音信息中 的"0"、"Γ、"5"、"8"對應(yīng)的特征向量分別與注冊語音信息中的"0"、"Γ、"5"、"8"對應(yīng)的特 征向量之間的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶確定 為所述注冊語音信息對應(yīng)的注冊用戶。
[0036] 需要指出的是,上述注冊用戶的聲紋注冊階段和驗證用戶的身份識別階段可以在 同一設(shè)備或裝置中實現(xiàn),也可以分別在不同的設(shè)備或裝置中實現(xiàn),例如注冊用戶的聲紋注 冊階段在第一設(shè)備中實施,進而第一設(shè)備將注冊語音信息中的多個字符對應(yīng)的特征向量發(fā) 送給第二設(shè)備,從而可以在第二設(shè)備中實施驗證用戶的身份識別階段。
[0037] 下面通過具體實施例分別對上述兩個過程進行詳細闡述。
[0038] 圖2是本發(fā)明實施例中的一種聲紋識別方法的流程示意圖,如圖所示本實施例中 的聲紋識別方法流程可以包括:
[0039] S201,獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息。
[0040]所述驗證用戶即未知身份的用戶,需要通過聲紋識別裝置驗證其用戶身份。所述 第一字符串是用于驗證用戶進行身份驗證的字符串,可以是隨機生成的,也可以是預(yù)設(shè)固 定的一個字符串,例如與預(yù)先生成的注冊語音信息對應(yīng)的第二字符串至少部分相同的一個 字符串。具體的,所述字符串可以包含m個字符,其中有η個互不相同的字符,m,n均為正整 數(shù),且m^n。
[0041 ]比如,第一字符串是"12358948",共8個字符,包括了7種互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0042]在可選實施例中,聲紋識別裝置可以生成并顯示所述第一字符串,讓驗證用戶根 據(jù)顯示的所述第一字符串進行朗讀。
[0043] S202,對所述驗證語音信息進行語音識別得到所述驗證語音信息中包含的分別與 所述第一字符串中的多個字符對應(yīng)的語音片段。
[0044] 如圖3所示,聲紋識別裝置可以通過語音識別以及聲音強度過濾,將所述驗證語音 信息劃分得到多個字符對應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉,不參與后 續(xù)的處理過程。
[0045] S203,提取各個字符對應(yīng)的語音片段的聲紋特征。
[0046]具體的,聲紋識別裝置可以提取各個字符對應(yīng)的語音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個字符所對應(yīng)的語音片段的聲紋特征。
[0047] S204,根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng) 的通用背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量;
[0048]本發(fā)明實施例中的所述通用背景模型UBM,是一種將大量說話人的特定數(shù)字的語 音段混合訓(xùn)練而成的混合高斯模型,表征對應(yīng)數(shù)字的語音在特征空間中的分布,又由于訓(xùn) 練數(shù)據(jù)來源于大量的說話人,因此它不表征某一類具體的說話人,具有身份無關(guān)的特性,可 看作是一種通用背景模型。示意性的,可以采用說話人數(shù)大于1000人、時長超過20小時的語 音樣本,并且各個字符的出現(xiàn)頻率相對均衡,訓(xùn)練得到UBMWBM的數(shù)學(xué)表達式為:
[0049] P(x) = Ei=i---caiN(x|yi, Σ?)............式(1)
[0050] 其中,Ρ (X)代表UBM的概率分布,C代表UBM中共有C個高斯模塊,進行加和,ai代表 第i個高斯模塊的權(quán)重,w代表第i個高斯模塊的均值,Σ:代表第i個高斯模塊的方差,N(x) 代表高斯分布,X代表輸入的樣本,樣本也即聲紋特征。
[0051] 聲紋識別裝置可以將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為 訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng)字符對 應(yīng)的通用背景模型的參數(shù)進行調(diào)整,即在將驗證語音信息中各個字符對應(yīng)的語音片段的聲 紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的 參數(shù),使得后驗概率P(x)最大,從而可以根據(jù)使得后驗概率P(x)最大的參數(shù)確定驗證語音 信息中相應(yīng)字符對應(yīng)的特征向量。
[0052]由于大量的實驗和論文驗證了 UBM模型中每個高斯模塊的均值可以用于區(qū)分說話 人的身份信息,我們定義UBM模型的均值超向量為:
[0054] 從而,聲紋識別裝置可以將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征 作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng)字 符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,即在將驗證語音信息中各個字符對應(yīng)的語 音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗概率P (X)最大,從而可以將使得后驗概率P(x)最大的均值超向量作為驗證語音信息中相應(yīng)字符 對應(yīng)的特征向量。
[0055] 在另一可選實施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,我們 通過基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 將均值超向量的變化范圍限制在一個子空間中,聲紋識別裝置可以將驗證語音信息中各個 字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法對預(yù)設(shè)的相應(yīng) 字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩陣從而得 到驗證語音信息中各個字符對應(yīng)的特征向量。具體實現(xiàn)中,可以采用下式對預(yù)設(shè)的相應(yīng)字 符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,使得調(diào)整后的相應(yīng)字符對應(yīng)的通用背景模 型的后驗概率最大:
[0056] Μ = πι+Τω,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗證 語音信息中相應(yīng)字符對應(yīng)的特征向量,即在將驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗概率P(x)最大,從而可以將使得后驗概率P(x)最大的ω作為驗證語音信息中 相應(yīng)字符對應(yīng)的特征向量。所述超向量子空間矩陣Τ為根據(jù)所述高斯混合模型的均值超向 量中各個維度向量之間的相關(guān)性確定得到的。
[0057] S205,計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相 應(yīng)字符對應(yīng)的特征向量的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗 證用戶確定為所述注冊語音信息對應(yīng)的注冊用戶。
[0058] 具體的,聲紋識別裝置在可以在聲紋注冊階段獲取到注冊用戶的注冊語音信息, 并通過與本實施例相類似的聲紋特征提取和聲紋模型訓(xùn)練,可以得到注冊語音信息中各個 字符的語音片段對應(yīng)的特征向量。所述注冊語音信息,可以是聲紋識別裝置獲取注冊用戶 朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字符串擁有至少一個 相同的字符,即所述注冊語音信息對應(yīng)的第二字符串與所述第一字符串至少部分相同。進 而在可選實施例中,聲紋識別裝置還可以從外部獲取所述注冊語音信息中相應(yīng)字符對應(yīng)的 特征向量,即注冊用戶通過其他設(shè)備錄入了注冊語音信息后,其他設(shè)備或者服務(wù)器通過聲 紋特征提取和聲紋模型訓(xùn)練得到注冊語音信息中各個字符的語音片段對應(yīng)的特征向量,聲 紋識別裝置通過從其他設(shè)備或者服務(wù)器獲取到所述注冊語音信息中相應(yīng)字符對應(yīng)的特征 向量,從而在驗證用戶的身份識別階段用以與驗證語音信息中各個字符對應(yīng)的特征向量進 行比較。
[0059] 具體實現(xiàn)中,所述相似度分數(shù)是聲紋識別裝置將驗證語音信息中各個字符對應(yīng)的 特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量進行比較后,衡量相同字符的 兩個特征向量之間的相似程度的分值。在可選實施例中,可以計算驗證語音信息中各個字 符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量之間的余弦距離值 作為所述相似度分數(shù),即通過下式計算某個字符分別在驗證語音信息中對應(yīng)的特征向量和 注冊語音信息中的特征向量之間的相似度分數(shù):
[0061]其中,下標i表示第i個驗證語音信息和注冊語音信息中共有的字符,c^Uar)表 示該字符在驗證語音信息中對應(yīng)的特征向量,表示該字符在注冊語音信息中對 應(yīng)的特征向量。若驗證語音信息和注冊語音信息中包含多個相同的字符,則可以根據(jù)上式 計算得到的各個字符的相似度分數(shù)取均值,若各個字符的相似度分數(shù)均值達到對應(yīng)的預(yù)設(shè) 驗證門限,則將所述驗證用戶確定為所述注冊語音信息對應(yīng)的注冊用戶。若存在多位注冊 用戶,例如圖1所示的注冊用戶A、B以及C,可以根據(jù)驗證用戶某個字符的特征向量與各個注 冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某個注冊用戶的相應(yīng)字符的特征向量與驗證語 音的該字符的特征向量的相似度分數(shù)最高且相似度達到預(yù)設(shè)驗證門限,則將該注冊用戶作 為驗證用戶的身份識別結(jié)果。
[0062]在可選實施例中,若所述驗證語音信息中存在同一字符出現(xiàn)不止一次,例如出現(xiàn) 如圖2所示的驗證語音信息中0、1、5以及8分別都出現(xiàn)了2次,那么可以按照兩次字符0對應(yīng) 的語音片段處理得到的特征向量分別與預(yù)設(shè)的注冊語音信息中字符〇的特征向量的相似度 分數(shù)的平均值,作為本次驗證語音信息中字符〇的特征向量與預(yù)設(shè)的注冊語音信息中字符〇 的特征向量的相似度分數(shù),以此類推。
[0063]需要指出的是,衡量兩個特征向量之間的相似度的方式還有很多,以上僅是本發(fā) 明提供的一種實施方式,本領(lǐng)域技術(shù)人員在本發(fā)明公開的方案的基礎(chǔ)上可以無需創(chuàng)造性勞 動地獲得更多的計算驗證語音信息和注冊語音信息中共有的字符的特征向量的相似度分 數(shù)的方式,本發(fā)明無需窮舉。
[0064]從而,本實施例通過獲取驗證用戶的驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量, 并通過將驗證語音信息中各個字符對應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向 量進行相似度比較,從而確定驗證用戶的的用戶身份,該方式用以比較的用戶特征向量與 具體字符對應(yīng),充分考慮到用戶朗讀不同字符時的聲紋特征,從而可有效提高聲紋識別準 確率。
[0065]圖5是本發(fā)明實施例中注冊用戶的聲紋注冊流程示意圖,如圖所示本實施例中的 聲紋注冊流程可以包括:
[0066] S501,獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與 所述第一字符串擁有至少一個相同的字符。
[0067] 所述注冊用戶即確定合法身份的用戶,所述第二字符串是用于采集注冊用戶聲紋 特征向量的字符串,可以是隨機生成的,也可以是預(yù)設(shè)固定的一個字符串。具體的,所述第 二字符串也可以包含m個字符,其中有η個互不相同的字符,m,n均為正整數(shù),且m彡η。
[0068] 在可選實施例中,聲紋識別裝置可以生成并顯示所述第二字符串,讓注冊用戶根 據(jù)顯示的所述第二字符串進行朗讀。
[0069] S502,對所述注冊語音信息進行語音識別得到所述注冊語音信息中包含的分別與 所述第二字符串中的多個字符對應(yīng)的語音片段;
[0070] 聲紋識別裝置可以通過語音識別以及聲音強度過濾,將所述驗證語音信息劃分得 到多個字符對應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉,不參與后續(xù)的處理過 程。
[0071] S503,提取注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征。
[0072] 具體的,聲紋識別裝置可以提取各個字符對應(yīng)的語音片段中的M F C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個字符所對應(yīng)的語音片段的聲紋特征。
[0073] S504,根據(jù)注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相 應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各個字符對應(yīng)的特征向量。
[0074] UBM的表達式可以參考前文實施例。聲紋注冊流程的該步驟與聲紋識別流程的 S204類似,聲紋識別裝置可以將注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為 訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng)字符對 應(yīng)的通用背景模型的參數(shù)進行調(diào)整,即在將注冊語音信息中各個字符對應(yīng)的語音片段的聲 紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的 參數(shù),使得后驗概率P(x)最大,從而可以根據(jù)使得后驗概率P(x)最大的參數(shù)確定注冊語音 信息中相應(yīng)字符對應(yīng)的特征向量。
[0075] 而由于UBM模型中每個高斯模塊的均值可以用于區(qū)分說話人的身份信息,聲紋識 別裝置可以將注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采 用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模 型的均值超向量進行調(diào)整,即在將注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征作 為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗概率P(x)最大,從而可以將 使得后驗概率P(x)最大的均值超向量作為注冊語音信息中相應(yīng)字符對應(yīng)的特征向量。
[0076] 在另一可選實施例中,可以采用下式對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均 值超向量進行調(diào)整,使得調(diào)整后的相應(yīng)字符對應(yīng)的通用背景模型的后驗概率最大:
[0077] Μ = πι+Τω,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為注冊 語音信息中相應(yīng)字符對應(yīng)的特征向量,即在將注冊語音信息中各個字符對應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗概率P(x)最大,從而可以將使得后驗概率P(x)最大的ω作為注冊語音信息中 相應(yīng)字符對應(yīng)的特征向量。
[0078] 圖6是本發(fā)明另一實施例中的聲紋識別方法的流程示意圖,如圖所示本實施例中 的聲紋識別方法可以包括以下流程:
[0079] S601,隨機生成第一字符串并進行顯示。
[0080] S602,獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息。
[0081 ] S603,識別所述驗證語音信息中的有效語音片段和無效語音片段。
[0082] 具體的,可以根據(jù)聲音強度對驗證語音進行劃分,將聲音強度較小的語音片段視 為無效語音片段(例如包括靜音段和脈沖噪聲)。
[0083] S604,對所述有效語音片段進行語音識別得到分別與所述第一字符串中的多個字 符對應(yīng)的語音片段。
[0084] 可以通過語音識別,得到分別與所述第一字符串中的多個字符對應(yīng)的語音片段。
[0085] S605,確定所述驗證語音信息中的多個字符的語音片段的排序與所述第一字符串 中的相應(yīng)字符的排序一致。
[0086] 為了有效避免注冊用戶的語音信息被盜錄或非法拷貝后用以進行聲紋識別,可以 每次隨機生成不同的第一字符串,并在本步驟判斷驗證語音信息中的多個字符的語音片段 的排序是否與第一字符串中的相應(yīng)字符的排序一致,若不一致,則可以判斷聲紋識別失敗, 若與第一字符串中的相應(yīng)字符的排序一致,則執(zhí)行后續(xù)流程。
[0087] S606,提取各個字符對應(yīng)的語音片段的聲紋特征。
[0088]具體的,聲紋識別裝置可以提取各個字符對應(yīng)的語音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個字符所對應(yīng)的語音片段的聲紋特征。
[0089] S607,將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù) 據(jù),采用最大后驗概率算法對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào) 整,從而估計得到驗證語音信息中各個字符對應(yīng)的特征向量。
[0090] 由于大量的實驗和論文驗證了 UBM模型中每個高斯模塊的均值可以用于區(qū)分說話 人的身份信息,聲紋識別裝置可以將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征 作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng)字 符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,即在將驗證語音信息中各個字符對應(yīng)的語 音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗概率P (X)最大,從而可以將使得后驗概率P(x)最大的均值超向量作為驗證語音信息中相應(yīng)字符 對應(yīng)的特征向量。
[0091] 在另一可選實施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,聲紋 識別裝置可以采用下式對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,使 得調(diào)整后的相應(yīng)字符對應(yīng)的通用背景模型的后驗概率最大:
[0092] Μ = πι+Τω,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗證 語音信息中相應(yīng)字符對應(yīng)的特征向量,即在將驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗概率P(x)最大,從而可以將使得后驗概率P(x)最大的ω作為驗證語音信息中 相應(yīng)字符對應(yīng)的特征向量。
[0093] S608,計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相 應(yīng)字符對應(yīng)的特征向量的相似度分數(shù),若相似度分數(shù)達到預(yù)設(shè)驗證門限,則將驗證用戶確 定為注冊語音信息對應(yīng)的注冊用戶。
[0094] 本實施例中,聲紋識別裝置可以計算驗證語音信息中各個字符對應(yīng)的特征向量與 預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量之間的余弦距離值作為所述相似度分數(shù), 即通過下式計算某個字符分別在驗證語音信息中對應(yīng)的特征向量和注冊語音信息中的特 征向量之間的相似度分數(shù):
[0096] 其中,下標i表示第i個驗證語音信息和注冊語音信息中共有的字符,cojtar)表 示該字符在驗證語音信息中對應(yīng)的特征向量,表示該字符在注冊語音信息中對 應(yīng)的特征向量。若驗證語音信息和注冊語音信息中包含多個相同的字符,則可以根據(jù)上式 計算得到的各個字符的相似度分數(shù)取均值,若各個字符的相似度分數(shù)均值達到對應(yīng)的預(yù)設(shè) 驗證門限,則將所述驗證用戶確定為所述注冊語音信息對應(yīng)的注冊用戶。若存在多位注冊 用戶,例如圖1所示的注冊用戶A、B以及C,可以根據(jù)驗證用戶某個字符的特征向量與各個注 冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某個注冊用戶的相應(yīng)字符的特征向量與驗證語 音的該字符的特征向量的相似度分數(shù)最高且相似度達到預(yù)設(shè)驗證門限,則將該注冊用戶作 為驗證用戶的身份識別結(jié)果。
[0097] 從而,本實施例通過將驗證語音信息中各個字符對應(yīng)的特征向量與注冊語音信息 中相應(yīng)字符的特征向量進行相似度比較,并且結(jié)合了語音片段的時序判斷,可以進一步確 保驗證用戶的的用戶身份的準確性。
[0098] 圖7是本發(fā)明實施例中的一種聲紋識別裝置的結(jié)構(gòu)示意圖,如圖所示本實施例中 的聲紋識別裝置可以包括:
[0099]語音獲取模塊710,用于獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息。
[0100] 所述驗證用戶即未知身份的用戶,需要通過聲紋識別裝置驗證其用戶身份。所述 第一字符串是用于驗證用戶進行身份驗證的字符串,可以是隨機生成的,也可以是預(yù)設(shè)固 定的一個字符串,例如與預(yù)先生成的注冊語音信息對應(yīng)的第二字符串至少部分相同的一個 字符串。具體的,所述字符串可以包含m個字符,其中有η個互不相同的字符,m,n均為正整 數(shù),且m^n。
[0101] 比如,第一字符串是"12358948",共8個字符,包括了7種互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0102] 語音片段識別模塊720,用于對所述驗證語音信息進行語音識別得到所述驗證語 音信息中包含的分別與所述第一字符串中的多個字符對應(yīng)的語音片段。
[0103] 如圖3所示,語音片段識別模塊720可以通過語音識別以及聲音強度過濾,將所述 驗證語音信息劃分得到多個字符對應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉, 不參與后續(xù)的處理過程。
[0104] 在可選實施例中,所述語音片段識別模塊如圖8所示進一步可以包括:
[0105]有效片段識別單元721,用于識別所述驗證語音信息中的有效語音片段和無效語 首片段。
[0106] 具體的,有效片段識別單元721可以根據(jù)聲音強度對驗證語音進行劃分,將聲音強 度較小的語音片段視為無效語音片段(例如包括靜音段和脈沖噪聲)。
[0107] 語音識別單元722,用于對所述有效語音片段進行語音識別得到分別與所述第一 字符串中的多個字符對應(yīng)的語音片段。
[0108] 聲紋特征提取模塊730,用于提取驗證語音信息中各個字符對應(yīng)的語音片段的聲 紋特征。
[0109] 具體的,聲紋特征提取模塊730可以提取各個字符對應(yīng)的語音片段中的MFCC(Mel Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個字符所對應(yīng)的語音片段的聲紋特征。
[0110] 特征模型訓(xùn)練模塊740,用于根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合 預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量。
[0111] 特征模型訓(xùn)練模塊740可以將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特 征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè)的相應(yīng) 字符對應(yīng)的通用背景模型的參數(shù)進行調(diào)整,即在將驗證語音信息中各個字符對應(yīng)的語音片 段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景 模型的參數(shù),使得后驗概率P(x)最大,從而特征模型訓(xùn)練模塊740可以根據(jù)使得后驗概率P (X)最大的參數(shù)確定驗證語音信息中相應(yīng)字符對應(yīng)的特征向量。
[0112] 由于大量的實驗和論文驗證了 UBM模型中每個高斯模塊的均值可以用于區(qū)分說話 人的身份信息,我們定義UBM模型的均值超向量為:
[0114] 從而,特征模型訓(xùn)練模塊740可以將驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法(Maximum A Posteriori,MAP)對預(yù)設(shè) 的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,即在將驗證語音信息中各個字符 對應(yīng)的語音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后 驗概率P( x)最大,特征模型訓(xùn)練模塊740可以將使得后驗概率P(x)最大的均值超向量作為 驗證語音信息中相應(yīng)字符對應(yīng)的特征向量。
[0115] 在另一可選實施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,我們 通過基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 將均值超向量的變化范圍限制在一個子空間中,特征模型訓(xùn)練模塊740可以將驗證語音信 息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法對預(yù) 設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩 陣從而得到驗證語音信息中各個字符對應(yīng)的特征向量。具體實現(xiàn)中,特征模型訓(xùn)練模塊740 可以采用下式對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,使得調(diào)整后 的相應(yīng)字符對應(yīng)的通用背景模型的后驗概率最大:
[0116] Μ = πι+Τω,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗證 語音信息中相應(yīng)字符對應(yīng)的特征向量,即在將驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗概率P(x)最大,從而可以將使得后驗概率P(x)最大的ω作為驗證語音信息中 相應(yīng)字符對應(yīng)的特征向量。所述超向量子空間矩陣Τ為根據(jù)所述高斯混合模型的均值超向 量中各個維度向量之間的相關(guān)性確定得到的。
[0117] 相似度判斷模塊750,用于計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè) 的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù)。
[0118] 具體的,聲紋識別裝置在可以在聲紋注冊階段獲取到注冊用戶的注冊語音信息, 并通過語音片段識別模塊720、聲紋特征提取模塊730以及特征模型訓(xùn)練模塊740,可以得到 注冊語音信息中各個字符的語音片段對應(yīng)的特征向量。所述注冊語音信息,可以是聲紋識 別裝置獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一 字符串擁有至少一個相同的字符,即所述注冊語音信息對應(yīng)的第二字符串與所述第一字符 串至少部分相同。進而在可選實施例中,聲紋識別裝置還可以從外部獲取所述注冊語音信 息中相應(yīng)字符對應(yīng)的特征向量,即注冊用戶通過其他設(shè)備錄入了注冊語音信息后,其他設(shè) 備或者服務(wù)器通過聲紋特征提取和聲紋模型訓(xùn)練得到注冊語音信息中各個字符的語音片 段對應(yīng)的特征向量,聲紋識別裝置通過從其他設(shè)備或者服務(wù)器獲取到所述注冊語音信息中 相應(yīng)字符對應(yīng)的特征向量,從而在驗證用戶的身份識別階段相似度判斷模塊750用以與驗 證語音信息中各個字符對應(yīng)的特征向量進行比較。
[0119] 具體實現(xiàn)中,所述相似度分數(shù)是聲紋識別裝置將驗證語音信息中各個字符對應(yīng)的 特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量進行比較后,衡量相同字符的 兩個特征向量之間的相似程度的分值。在可選實施例中,相似度判斷模塊750可以計算驗證 語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量 之間的余弦距離值作為所述相似度分數(shù),即通過下式計算某個字符分別在驗證語音信息中 對應(yīng)的特征向量和注冊語音信息中的特征向量之間的相似度分數(shù):
[0121] 其中,下標i表示第i個驗證語音信息和注冊語音信息中共有的字符,c^Uar)表 示該字符在驗證語音信息中對應(yīng)的特征向量,表示該字符在注冊語音信息中對 應(yīng)的特征向量。在可選實施例中,若所述驗證語音信息中存在同一字符出現(xiàn)不止一次,例如 出現(xiàn)如圖2所示的驗證語音信息中0、1、5以及8分別都出現(xiàn)了 2次,那么可以按照兩次字符0 對應(yīng)的語音片段處理得到的特征向量分別與預(yù)設(shè)的注冊語音信息中字符0的特征向量的相 似度分數(shù)的平均值,作為本次驗證語音信息中字符〇的特征向量與預(yù)設(shè)的注冊語音信息中 字符〇的特征向量的相似度分數(shù),以此類推。
[0122] 需要指出的是,衡量兩個特征向量之間的相似度的方式還有很多,以上僅是本發(fā) 明提供的一種實施方式,本領(lǐng)域技術(shù)人員在本發(fā)明公開的方案的基礎(chǔ)上可以無需創(chuàng)造性勞 動地獲得更多的計算驗證語音信息和注冊語音信息中共有的字符的特征向量的相似度分 數(shù)的方式,本發(fā)明無需窮舉。
[0123] 用戶識別模塊760,用于若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶 確定為所述注冊語音信息對應(yīng)的注冊用戶。
[0124] 若驗證語音信息和注冊語音信息中包含多個相同的字符,則用戶識別模塊760可 以根據(jù)相似度判斷模塊750計算得到的各個字符的相似度分數(shù)取均值,若各個字符的相似 度分數(shù)均值達到對應(yīng)的預(yù)設(shè)驗證門限,則將所述驗證用戶確定為所述注冊語音信息對應(yīng)的 注冊用戶。若存在多位注冊用戶,例如圖1所示的注冊用戶A、B以及C,用戶識別模塊760可以 根據(jù)驗證用戶某個字符的特征向量與各個注冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某 個注冊用戶的相應(yīng)字符的特征向量與驗證語音的該字符的特征向量的相似度分數(shù)最高且 相似度達到預(yù)設(shè)驗證門限,則將該注冊用戶作為驗證用戶的身份識別結(jié)果。
[0125] 進而在可選實施例中,所述語音獲取模塊710,還用于獲取注冊用戶朗讀第二字符 串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字符串擁有至少一個相同的字符;
[0126] 所述語音片段識別模塊720,還用于對所述注冊語音信息進行語音識別得到所述 注冊語音信息中包含的分別與所述第二字符串中的多個字符對應(yīng)的語音片段;
[0127] 所述聲紋特征提取模塊730,還用于提取注冊語音信息中各個字符對應(yīng)的語音片 段的聲紋特征;
[0128] 所述特征模型訓(xùn)練模塊740,還用于根據(jù)所述注冊語音信息中各個字符對應(yīng)的語 音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各 個字符對應(yīng)的特征向量。
[0129] 在可選實施例中,聲紋識別裝置進一步還可以包括:
[0130]字符排序確定模塊770,用于確定所述驗證語音信息中的多個字符的語音片段的 排序與所述第一字符串中的相應(yīng)字符的排序一致。
[0131] 為了有效避免注冊用戶的語音信息被盜錄或非法拷貝后用以進行聲紋識別,可以 每次隨機生成不同的第一字符串,并在本步驟判斷驗證語音信息中的多個字符的語音片段 的排序是否與第一字符串中的相應(yīng)字符的排序一致,若不一致,則可以判斷聲紋識別失敗, 若與第一字符串中的相應(yīng)字符的排序一致,則可以通知聲紋特征提取模塊730或特征模型 訓(xùn)練模塊740執(zhí)行針對該驗證語音信息的特征提取和聲紋訓(xùn)練。
[0132] 在可選實施例中,聲紋識別裝置進一步還可以包括:
[0133] 字符串顯示模塊700,用于隨機生成所述第一字符串并進行顯示。
[0134] 從而,本實施例通過獲取驗證用戶的驗證語音信息中各個字符對應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量, 并通過將驗證語音信息中各個字符對應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向 量進行相似度比較,從而確定驗證用戶的的用戶身份,該方式用以比較的用戶特征向量與 具體字符對應(yīng),充分考慮到用戶朗讀不同字符時的聲紋特征,從而可有效提高聲紋識別準 確率。
[0135] 在實際測試實例中,在1000人訓(xùn)練樣本,29萬次測試中(其中身份匹配的測試在1 萬次左右,不匹配測試約在28萬次),能夠?qū)崿F(xiàn)千分之一錯誤率下79.8%的召回率,等錯概 率(EER,Equal Error Rate)為3.39%,相較于傳統(tǒng)的文本無關(guān)建模方法,聲紋識別性能提 升超過40%以上。
[0136] 本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì) 中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁 碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
[0137] 以上所揭露的僅為本發(fā)明較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范 圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【主權(quán)項】
1. 一種聲紋識別方法,其特征在于,所述方法包括: 獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息; 對所述驗證語音信息進行語音識別得到所述驗證語音信息中包含的分別與所述第一 字符串中的多個字符對應(yīng)的語音片段; 提取各個字符對應(yīng)的語音片段的聲紋特征; 根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景 模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量; 計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對 應(yīng)的特征向量的相似度分數(shù),若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶確 定為所述注冊語音信息對應(yīng)的注冊用戶。2. 如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述獲取驗證用戶朗讀第一字符串 所產(chǎn)生的驗證語音信息之前還包括: 獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字 符串擁有至少一個相同的字符; 對所述注冊語音信息進行語音識別得到所述注冊語音信息中包含的分別與所述第二 字符串中的多個字符對應(yīng)的語音片段; 提取注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征; 根據(jù)注冊語音信息中各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng) 的通用背景模型訓(xùn)練得到注冊語音信息中各個字符對應(yīng)的特征向量。3. 如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述根據(jù)所述各個字符對應(yīng)的語音 片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到驗證語音信息中各個 字符對應(yīng)的特征向量包括: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗概率算法對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,從而估計得 到驗證語音信息中各個字符對應(yīng)的特征向量。4. 如權(quán)利要求3所述的聲紋識別方法,其特征在于,所述將驗證語音信息中各個字符對 應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法對預(yù)設(shè)的相應(yīng)字符對 應(yīng)的通用背景模型的均值超向量進行調(diào)整,從而估計得到驗證語音信息中各個字符對應(yīng)的 特征向量包括: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗概率算法對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,并結(jié)合預(yù)設(shè) 的超向量子空間矩陣從而得到驗證語音信息中各個字符對應(yīng)的特征向量。5. 如權(quán)利要求4所述的聲紋識別方法,其特征在于,所述將驗證語音信息中各個字符對 應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗概率算法對預(yù)設(shè)的相應(yīng)字符對 應(yīng)的通用背景模型的均值超向量進行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩陣從而得到驗證 語音信息中各個字符對應(yīng)的特征向量包括: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用下式 對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,使得調(diào)整后的相應(yīng)字符對 應(yīng)的通用背景模型的后驗概率最大: M = m+Tc〇,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào)整前 的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗證語音 信息中相應(yīng)字符對應(yīng)的特征向量。6. 如權(quán)利要求4所述的聲紋識別方法,其特征在于,所述超向量子空間矩陣為根據(jù)所述 通用背景模型中各個高斯模塊的權(quán)重之間的相關(guān)性確定得到的。7. 如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述計算驗證語音信息中各個字符 對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù)包括: 計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對 應(yīng)的特征向量之間的余弦距離值作為所述相似度分數(shù)。8. 如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述對所述驗證語音信息進行語音 識別得到所述驗證語音信息中包含的分別與所述第一字符串中的多個字符對應(yīng)的語音片 段包括: 識別所述驗證語音信息中的有效語音片段和無效語音片段; 對所述有效語音片段進行語音識別得到分別與所述第一字符串中的多個字符對應(yīng)的 語音片段。9. 如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述將所述驗證用戶確定為所述注 冊語音信息對應(yīng)的注冊用戶之前還包括: 確定所述驗證語音信息中的多個字符的語音片段的排序與所述第一字符串中的相應(yīng) 字符的排序一致。10. 如權(quán)利要求1-9中任一項所述的聲紋識別方法,其特征在于,所述獲取驗證用戶朗 讀第一字符串所產(chǎn)生的驗證語音信息之前還包括: 隨機生成所述第一字符串并進行顯示。11. 一種聲紋識別裝置,其特征在于,所述裝置包括: 語音獲取模塊,用于獲取驗證用戶朗讀第一字符串所產(chǎn)生的驗證語音信息; 語音片段識別模塊,用于對所述驗證語音信息進行語音識別得到所述驗證語音信息中 包含的分別與所述第一字符串中的多個字符對應(yīng)的語音片段; 聲紋特征提取模塊,用于提取驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征; 特征模型訓(xùn)練模塊,用于根據(jù)所述各個字符對應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的 相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到驗證語音信息中各個字符對應(yīng)的特征向量; 相似度判斷模塊,用于計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語 音信息中相應(yīng)字符對應(yīng)的特征向量的相似度分數(shù); 用戶識別模塊,用于若所述相似度分數(shù)達到預(yù)設(shè)驗證門限,則將所述驗證用戶確定為 所述注冊語音信息對應(yīng)的注冊用戶。12. 如權(quán)利要求11所述的聲紋識別裝置,其特征在于, 所述語音獲取模塊,還用于獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所 述第二字符串與所述第一字符串擁有至少一個相同的字符; 所述語音片段識別模塊,還用于對所述注冊語音信息進行語音識別得到所述注冊語音 信息中包含的分別與所述第二字符串中的多個字符對應(yīng)的語音片段; 所述聲紋特征提取模塊,還用于提取注冊語音信息中各個字符對應(yīng)的語音片段的聲紋 特征; 所述特征模型訓(xùn)練模塊,還用于根據(jù)所述注冊語音信息中各個字符對應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各個字符對 應(yīng)的特征向量。13. 如權(quán)利要求11所述的聲紋識別裝置,其特征在于,所述特征向量計算模塊用于: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗概率算法對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,從而估計得 到驗證語音信息中各個字符對應(yīng)的特征向量。14. 如權(quán)利要求13所述的聲紋識別裝置,其特征在于,所述特征向量計算模塊用于: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗概率算法對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,并結(jié)合預(yù)設(shè) 的超向量子空間矩陣從而得到驗證語音信息中各個字符對應(yīng)的特征向量。15. 如權(quán)利要求14所述的聲紋識別裝置,其特征在于,所述特征向量計算模塊具體用 于: 將驗證語音信息中各個字符對應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用下式 對預(yù)設(shè)的相應(yīng)字符對應(yīng)的通用背景模型的均值超向量進行調(diào)整,使得調(diào)整后的相應(yīng)字符對 應(yīng)的通用背景模型的后驗概率最大: M = m+Tc〇,其中Μ代表調(diào)整后的某個字符的通用背景模型的均值超向量,m代表調(diào)整前 的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗證語音 信息中相應(yīng)字符對應(yīng)的特征向量。16. 如權(quán)利要求14所述的聲紋識別裝置,其特征在于,所述超向量子空間矩陣為根據(jù)所 述高斯混合模型的均值超向量中各個維度向量之間的相關(guān)性確定得到的。17. 如權(quán)利要求11所述的聲紋識別裝置,其特征在于,所述相似度判斷模塊用于: 計算驗證語音信息中各個字符對應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對 應(yīng)的特征向量之間的余弦距離值作為所述相似度分數(shù)。18. 如權(quán)利要求11所述的聲紋識別裝置,其特征在于,所述語音片段識別模塊包括: 有效片段識別單元,用于識別所述驗證語音信息中的有效語音片段和無效語音片段; 語音識別單元,用于對所述有效語音片段進行語音識別得到分別與所述第一字符串中 的多個字符對應(yīng)的語音片段。19. 如權(quán)利要求11所述的聲紋識別裝置,其特征在于,還包括: 字符排序確定模塊,用于確定所述驗證語音信息中的多個字符的語音片段的排序與所 述第一字符串中的相應(yīng)字符的排序一致。20. 如權(quán)利要求11-19中任一項所述的聲紋識別裝置,其特征在于,還包括: 字符串顯示模塊,用于隨機生成所述第一字符串并進行顯示。
【文檔編號】G10L17/04GK106098068SQ201610416650
【公開日】2016年11月9日
【申請日】2016年6月12日 公開號201610416650.3, CN 106098068 A, CN 106098068A, CN 201610416650, CN-A-106098068, CN106098068 A, CN106098068A, CN201610416650, CN201610416650.3
【發(fā)明人】李為, 錢柄樺, 金星明, 李科, 吳富章, 吳永堅, 黃飛躍
【申請人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1