一種基于信息傳遞的說話人聚類方法

文檔序號(hào)：2837484閱讀：320來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于信息傳遞的說話人聚類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域，具體地說，本發(fā)明涉及一種說話人聚類方法。
背景技術(shù)：
說話人聚類是近年來語(yǔ)音信號(hào)處理領(lǐng)域的一個(gè)研究熱點(diǎn)，被廣泛應(yīng)用
于語(yǔ)音識(shí)別和說話人識(shí)別等領(lǐng)域。這項(xiàng)技術(shù)通常與說話人分^:一起應(yīng)用，也就是通常所說的說話人分段聚類。說話人聚類就是將分段后的語(yǔ)音數(shù)據(jù) 進(jìn)行分類，將不同說話人的語(yǔ)音數(shù)據(jù)分配到不同的類里。
說話人聚類至今已有許多方法，可以分為兩類有監(jiān)督算法和無(wú)監(jiān)督算法。有監(jiān)督聚類一般是指已知對(duì)話中說話人的個(gè)數(shù)，按照說話人的個(gè)數(shù) 進(jìn)行聚類；無(wú)監(jiān)督說話人聚類一般是指對(duì)話中說話人的個(gè)數(shù)未知，聚類過程找到一個(gè)最優(yōu)的聚類數(shù)目以及其相應(yīng)的聚類結(jié)果。目前，說話人聚類領(lǐng) 域最為廣泛應(yīng)用的是基于層次聚類框架的算法，層次聚類初始化計(jì)算所有語(yǔ)音段兩兩之間的距離，尋找距離最近的兩段合并成一段，并更新計(jì)算其他語(yǔ)音段與該新語(yǔ)音段之間的距離，重復(fù)此過程直到得到所需要的聚類數(shù) 目或者滿足某一全局準(zhǔn)則。但是，這種算法魯棒性還有待提高。同時(shí)，此算法需要反復(fù)的計(jì)算各類與新類之間的距離(相似度)，這增加了算法的運(yùn)行時(shí)間。因此，現(xiàn)有的很多方法，都是基于此方法上的改進(jìn)，目的是增強(qiáng)算法的魯棒性和速度。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，針對(duì)語(yǔ)音信號(hào)的特點(diǎn)，通過不斷迭代計(jì)算各數(shù)據(jù)段之間的r值和a值，將這兩個(gè)值作為兩段之間的兩種交互信息，形成信息傳遞，從而提出一種魯棒且快速有效的新的無(wú)監(jiān)督和有監(jiān)督說話人聚類方法。為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明提供的基于信息傳遞的說話人聚類方法
(可參考圖1)包括初始化過程和尋找聚類中心過程；其中初始化過程包括如下步驟
1) 計(jì)算兩兩語(yǔ)音數(shù)據(jù)段(以下簡(jiǎn)稱數(shù)據(jù)段)之間的相似度^(a),其中
2) 設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度^,。，其中A表示第A個(gè)數(shù)據(jù) 段，將所有的有效值a(a)初始化為零，下文中將有效值(availability)簡(jiǎn) 稱為a值；
尋找聚類中心過程包括如下子步驟
3) 根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段的優(yōu)先度，計(jì)算兩兩數(shù)據(jù)段之間的責(zé)任值Ka)，下文中將責(zé)任值(responsibility)簡(jiǎn)稱為r值；根據(jù)各數(shù)據(jù)段的r值，計(jì)算兩兩數(shù)據(jù)段之間的a值；
4 )合并r值和a值，以該合并值決策聚類中心；
5)重復(fù)執(zhí)行步驟3)、 4),直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計(jì) 聚類數(shù)目；
以上各步驟中，f、 *分別表示第/和第*個(gè)數(shù)據(jù)段。
上述技術(shù)方案中，所述步驟l)中，所述相似度由兩兩數(shù)據(jù)段的距離得出，所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。
上述技術(shù)方案中，所述步驟2)中，所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度^(JU)均設(shè)定為所有相似度的中值。
上述技術(shù)方案中，所述步驟3 )中，計(jì)算兩兩數(shù)據(jù)段之間的責(zé)任值Ka)的方法如下A:) = W, A:) — max + y)]
上式中Ka)表示第/個(gè)數(shù)據(jù)段與第&個(gè)數(shù)據(jù)段的r值，w表示語(yǔ)音段的數(shù)目。
上述技術(shù)方案中，所述步驟3)中，計(jì)算兩兩數(shù)據(jù)段之間a值的方法如
下
當(dāng)yt = /時(shí)
Z max(0,r",&))
'.'e[l:W〗,"/t
當(dāng)/時(shí)
a(/ min
上式中"(a)表示第/個(gè)數(shù)據(jù)段與第yt個(gè)數(shù)據(jù)段的a值。上述技術(shù)方案中，所述初始化過程還包括設(shè)定聚類過程中的最大迭代
次數(shù)(MaxitNum)以及收斂迭f^次lt(iteration);
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如
下當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)不變時(shí)，或者當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn)定的聚類中心。
上述技術(shù)方案中，所述尋找聚類中心過程在步驟5)完成后，還包括如
下步驟
6)比較步驟5)中統(tǒng)計(jì)的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目，當(dāng)二者不相等時(shí)，修改各數(shù)據(jù)段的優(yōu)先度，并將各數(shù)據(jù)段的a值重新置零；其中，每個(gè)數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進(jìn)行
s"+i (&，" = & (A，"-鄉(xiāng)x (C - Cexp) 式中&0t,yt)是第n次聚類時(shí)第t個(gè)數(shù)據(jù)段的優(yōu)先度，C。是第n次聚類時(shí)得到的聚類數(shù)目，C^是預(yù)先設(shè)定的已知說話人聚類數(shù)目(即期望得到的聚類數(shù) 目)，w印是自適應(yīng)因子。
本發(fā)明具有如下技術(shù)效果與現(xiàn)有技術(shù)相比，本發(fā)明采用了一種與傳統(tǒng) 的層次聚類等方法截然不同的方法。該方法初始時(shí)認(rèn)為每一個(gè)數(shù)據(jù)段都是潛在的聚類中心，即認(rèn)為每個(gè)數(shù)據(jù)段作為最終的聚類中心的概率是一樣的，這樣可以從一定程度上避免一些不好的聚類決策，所以這個(gè)方法具有較強(qiáng)的魯棒性。同時(shí)這個(gè)方法在運(yùn)行過程中只需要一次性計(jì)算好每?jī)啥沃g的距離，在尋找聚類中心的過程中不需要再額外計(jì)算距離，層次聚類不但要計(jì)算每?jī)?段之間的距離，還需要不斷更新計(jì)算新段與其它段之間的距離。而對(duì)聚類方法影響最大的便是距離的計(jì)算，因此該方法比層次聚類具有更快的運(yùn)行速度。本發(fā)明也可以用來做無(wú)監(jiān)督聚類。

以下，結(jié)合附圖來詳細(xì)i兌明本發(fā)明的實(shí)施例，其中
圖l是本發(fā)明的聚類算法框圖2是本發(fā)明一種實(shí)施例無(wú)監(jiān)督說話人聚類詳細(xì)流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。
實(shí)施例1
本發(fā)明提供的基于信息傳遞的有監(jiān)督說話人聚類方法包括如下步驟步驟101,讀取說話人分段后得到的分段信息。
步驟102,確定語(yǔ)音段的數(shù)目N,設(shè)定聚類過程中的最大迭代次數(shù) (MaxitNum),判斷收斂時(shí)的收斂迭代次數(shù)(iteration)。在本實(shí)施例中，最大迭代次數(shù)設(shè)為500，收斂迭代次數(shù)設(shè)為50。
步驟103，從輸入語(yǔ)音信號(hào)中提取特征矢量序列，本實(shí)施例中釆用14-. 維的LSP特征。
步驟104,計(jì)算兩兩語(yǔ)音段之間的相似度。將距離加負(fù)號(hào)后作為輸入的相似度(這是本領(lǐng)域技術(shù)人員的常用作法)。在實(shí)際應(yīng)用中，將第；個(gè)數(shù)據(jù)段與第yt個(gè)數(shù)據(jù)段的相似度用s(a)表示，其中AW。常用的距離有歐式距離，馬氏距離，KL距離，以及GLR距離等。實(shí)用過程中可根據(jù)不同情況選擇距離度量。
在本實(shí)施例中采用GLR距離來最為兩兩語(yǔ)音段之間的距離。具體計(jì)算公式如下W,"=—《ifi (X ， ^ )， z' # & 上式中s(U)即是所需要的相似度，表示了兩段之間的相似程度。《w(x,.,xj是第/段與第6段之間的GLR距離。x,，^分別是第/段與第A:段的特征向量，它
們可以用兩個(gè)高斯模型來表征W(a,，H, ), W(/Vl^ ) 。 glr距離的具體
計(jì)算公式如下
"、i /";/ylL,)化;/y二 )、
其中，"*)是似然函數(shù)，少表示特征向量x,和A的結(jié)合，少用混合高斯
w( 5^ )來表征。
步驟105,選取優(yōu)先度，將所有語(yǔ)音段作為聚類中心的優(yōu)先度都設(shè)定為
所有相似度的中值。本發(fā)明中，每個(gè)數(shù)據(jù)段被選做聚類中心的幾率是相等的，
故所有語(yǔ)音段的優(yōu)先度(;^/em^)都設(shè)為同一個(gè)值，即所有相似度的中值。這些優(yōu)先度的大小關(guān)系到最終的聚類類別的數(shù)目，通過更改此值，可以得到不同的聚類數(shù)目。本發(fā)明就是通過這一條件來得到期望的聚類類別數(shù)目。優(yōu) 先度在公式中用^t,"來表示。所有的優(yōu)先度^^)都通過以下公式來計(jì)算 s(A:，A:) = wed/a",=1:JV>1: ,w|>(/，A:)]
其中m^an符號(hào)表示中值。
步驟106,將所有的有效值(a值)初始化為零；用"(a)來表示第z'個(gè)數(shù) 據(jù)段與第yt個(gè)數(shù)據(jù)段的a值。這個(gè)a值反映了除第yt個(gè)數(shù)據(jù)段以外的其他所有數(shù)據(jù)段相比，第/個(gè)數(shù)據(jù)段選擇第A個(gè)數(shù)據(jù)段作為它的聚類中心的合適程度。
10步驟107，根據(jù)以下公式計(jì)算r值
<formula>formula see original document page 11</formula>
上式中r(a)表示第/個(gè)數(shù)據(jù)段與第々個(gè)數(shù)據(jù)段的r值。這個(gè)r值反映了第*個(gè)數(shù)據(jù)段與其他第/個(gè)數(shù)據(jù)段的潛在的聚類中心相比，第個(gè)數(shù)據(jù)段作為第/個(gè)數(shù)據(jù)段的聚類中心的適合程度。根據(jù)以下公式計(jì)算a值
<formula>formula see original document page 11</formula>
當(dāng)yt*/時(shí)
<formula>formula see original document page 11</formula>
步驟108,計(jì)算所有r(a)+a(a)的值，對(duì)每一個(gè)/尋找相應(yīng)的使 Ka)+"(a)最大的&。對(duì)第/個(gè)數(shù)據(jù)段來說，使Ka)+a(a)的值最大的那個(gè) 數(shù)據(jù)段&=/時(shí)，說明第；個(gè)數(shù)據(jù)段是聚類中心，如果^",說明第/t個(gè)數(shù)據(jù)段是第/個(gè)數(shù)據(jù)段的聚類中心。
步驟109,重復(fù)執(zhí)行步驟107、步驟108，按照一定準(zhǔn)則找到穩(wěn)定的聚類
中心后，結(jié)束一次聚類，統(tǒng)計(jì)聚類數(shù)目。所述準(zhǔn)則為當(dāng)聚類中心的決策結(jié)果
持續(xù)一定數(shù)目的迭代次數(shù)保持不變時(shí)(如持續(xù)50次迭代中，決策結(jié)果保持
不變)，或者迭代次數(shù)達(dá)到最大迭代次數(shù)時(shí)，認(rèn)為此時(shí)的聚類決策穩(wěn)定可靠，從而停止該次聚類。
步驟IIO，若步驟109中得到的聚類數(shù)目不是指定的數(shù)目，則修改每個(gè)語(yǔ)音段的優(yōu)先度，這個(gè)優(yōu)先度影響到每次迭代聚類得到的類數(shù)目。重復(fù)步驟
106)、 107)、 108)、 109)，直到得到的聚類數(shù)目與指定的聚類數(shù)目相同，則
此時(shí)輸出聚類結(jié)果。在此步驟中每個(gè)語(yǔ)音段的優(yōu)先度的修改根據(jù)以下公式
、+, (&， A;) = s A;)—W印x (C — Cexp)
上式中 (yfc,yt)是第n次聚類時(shí)每個(gè)數(shù)據(jù)段的優(yōu)先度，C。是第n次聚類時(shí) 得到的聚類數(shù)目，C^是期望得到的聚類數(shù)目，w印是自適應(yīng)因子，可以根據(jù) 實(shí)驗(yàn)或經(jīng)驗(yàn)來設(shè)定。
通過以上步驟就可以完成有監(jiān)督說話人聚類。實(shí)施例2
如圖2所示，本發(fā)明提供的基于信息傳遞的無(wú)監(jiān)督說話人聚類方法包括如下步驟(本實(shí)施例中的訴述大部分步驟與實(shí)施例1相同，故對(duì)這些步驟不再作詳細(xì)講解)
步驟IOI，讀取說話人分段后得到的分段信息。
步驟102,確定語(yǔ)音段的數(shù)目，設(shè)定聚類過程中的最大迭代次數(shù)，判斷收斂時(shí)的迭代次數(shù)，以及衰減因子。
步驟103，從輸入語(yǔ)音信號(hào)中提取特征矢量序列。
步驟104，計(jì)算兩兩語(yǔ)音段之間的相似度。
步驟105,選取優(yōu)先度。
步驟106，將所有的a值初始化為零；
步驟107 ，根據(jù)公式計(jì)算r值和a值
步驟108,計(jì)算所有K!'," + "(a)的值，尋找聚類中心。步驟109,重復(fù)執(zhí)行步驟108,按照準(zhǔn)則找到穩(wěn)定的聚類中心后，停止聚類。
由上可見該無(wú)監(jiān)督說話人聚類可以作為有監(jiān)督說話人聚類的一部分來看待。有監(jiān)督說話人聚類就是不斷重復(fù)執(zhí)行無(wú)監(jiān)督說話人聚類過程，對(duì)每個(gè) 語(yǔ)音段尋找合適的優(yōu)先度，從而得到期望的聚類數(shù)目，實(shí)現(xiàn)有監(jiān)i^聚類。
最后，最后所應(yīng)說明的是，以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明，本領(lǐng)域的普通技術(shù) 人員應(yīng)當(dāng)理解，對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換，都不脫離本發(fā)明技術(shù)方案的精神和范圍，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1. 一種基于信息傳遞的說話人聚類方法，包括初始化過程和尋找聚類中心過程；其中初始化過程包括如下步驟1)計(jì)算兩兩數(shù)據(jù)段之間的相似度s(i，k)，其中k≠i；2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k，k)，其中k表示第k個(gè)數(shù)據(jù)段，將所有的有效值a(i，k)初始化為零；尋找聚類中心過程包括如下子步驟3)根據(jù)兩兩數(shù)據(jù)段之間的有效值和各數(shù)據(jù)段優(yōu)先度，計(jì)算兩兩數(shù)據(jù)段之間的責(zé)任值r(i，k)；然后根據(jù)兩兩數(shù)據(jù)段之間的責(zé)任值，再計(jì)算兩兩數(shù)據(jù)段之間的有效值；4)將相應(yīng)的責(zé)任值和有效值合并，以該合并值決策聚類中心；5)重復(fù)執(zhí)行步驟3)、4)，直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計(jì)聚類數(shù)目；以上各步驟中，i、k分別表示第i和第k個(gè)數(shù)據(jù)段。
2. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟l)中，所述相似度由兩兩數(shù)據(jù)段的距離得出，所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。
3. 根據(jù)權(quán)利要求2所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟2)中，所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度^U)均設(shè)定為所有相似度的中值。
4. 根據(jù)權(quán)利要求3所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟3)中，計(jì)算兩兩數(shù)據(jù)段之間的責(zé)任值r(a)的方法如下 r(z', A) = A:) - max _/ ) +上式中Ka)表示第/個(gè)數(shù)據(jù)段與第A個(gè)數(shù)據(jù)段的r值，N表示數(shù)據(jù)段的個(gè)數(shù)。
5. 根據(jù)權(quán)利要求4所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟3)中，計(jì)算兩兩數(shù)據(jù)段之間的有效值的方法如下當(dāng)A = /時(shí)a(/,A): Z max(0,W', A))/e[l:W],;W當(dāng)AW時(shí)a(/,A) = min
上式中"(a)表示第/個(gè)數(shù)據(jù)段與第yt個(gè)數(shù)據(jù)段的a值，N表示數(shù)據(jù)段的個(gè)數(shù)。
6. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述初始化過程還包括設(shè)定聚類過程中的最大迭代次數(shù)以及收斂迭代次數(shù)。
7. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)?shù)螖?shù) 達(dá)到最大迭代次數(shù)時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn)定的聚類中心。
8. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn) 定的聚類中心，所述一定數(shù)目是所設(shè)定的收斂迭代次數(shù)。
9. 根據(jù)權(quán)利要求6所述的基于信息傳遞的說話人聚類方法，其特征在于，所述步驟5)中，所述穩(wěn)定的聚類中心的判斷方法如下當(dāng)聚類中心的決策結(jié)果持續(xù)一定數(shù)目的迭代次數(shù)保持不變時(shí)，或者當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時(shí)，認(rèn)為此時(shí)的聚類中心是穩(wěn)定的聚類中心，所述一定數(shù)目是所設(shè) 定的收斂迭代次數(shù)。
10. 根據(jù)權(quán)利要求1所述的基于信息傳遞的說話人聚類方法，其特征在于，所述尋找聚類中心過程在步驟5)完成后，還包括如下步驟6)比較步驟5 )中統(tǒng)計(jì)的聚類數(shù)目和預(yù)先設(shè)定的已知說話人聚類數(shù)目，當(dāng)二者不相等時(shí)，修改各數(shù)據(jù)段的優(yōu)先度，并將各數(shù)據(jù)段的有效值重新置零；其中，每個(gè)數(shù)據(jù)段的優(yōu)先度的修改根據(jù)以下公式來進(jìn)行■Vi (&,幻=& W _ w卬x (c — C呻) 式中&0t,Q是第n次聚類時(shí)第A個(gè)數(shù)據(jù)段的優(yōu)先度，c;是第n次聚類時(shí)得到的聚類數(shù)目，Cexp是預(yù)先設(shè)定的已知說話人聚類數(shù)目，rf印是自適應(yīng)因子。
全文摘要
本發(fā)明提供一種基于信息傳遞的說話人聚類方法，包括如下步驟1)計(jì)算兩兩數(shù)據(jù)段之間的相似度s(i，k)，其中k≠i；2)設(shè)定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k，k)，其中k表示第k個(gè)數(shù)據(jù)段，將所有的a值a(i，k)初始化為零；3)根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段優(yōu)先度，計(jì)算兩兩數(shù)據(jù)段之間的r值r(i，k)；然后根據(jù)兩兩數(shù)據(jù)段之間的r值，再計(jì)算兩兩數(shù)據(jù)段之間的a值；4)將r值和a值合并，以該合并值決策聚類中心；5)重復(fù)執(zhí)行步驟3)、4)，直到找到穩(wěn)定的聚類中心，結(jié)束聚類，統(tǒng)計(jì)聚類數(shù)目本發(fā)明初始時(shí)認(rèn)為每一個(gè)數(shù)據(jù)段都是潛在的聚類中心，具有較強(qiáng)的魯棒性。同時(shí)本發(fā)明只需要一次性計(jì)算每?jī)啥沃g的距離，具有更快的運(yùn)行速度。
文檔編號(hào)G10L17/00GK101452704SQ20071017836
公開日2009年6月10日申請(qǐng)日期2007年11月29日優(yōu)先權(quán)日2007年11月29日
發(fā)明者萍呂, 翔張, 顏永紅申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載