日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種半監(jiān)督語音特征可變因素分解方法

文檔序號(hào):6547849閱讀:297來源:國知局
一種半監(jiān)督語音特征可變因素分解方法
【專利摘要】本發(fā)明公開了一種半監(jiān)督語音特征可變因素分解方法,把語音特征分成四類:情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、包括噪聲和語種的其他因素相關(guān)特征。首先,對(duì)語音進(jìn)行預(yù)處理得到語譜圖,不同尺寸的語譜塊輸入無監(jiān)督特征學(xué)習(xí)網(wǎng)絡(luò)SAE,預(yù)訓(xùn)練得到不同尺寸的卷積核,然后分別用不同尺寸的卷積核對(duì)整個(gè)語譜圖進(jìn)行卷積,得到若干特征映射圖,再對(duì)特征映射圖進(jìn)行最大池化,最終把特征堆疊起來形成局部不變特征y。y作為半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過最小化四個(gè)不同的損失函數(shù)項(xiàng)將y分解成四類特征。本發(fā)明解決了情感、性別、年齡語音特征相互混雜導(dǎo)致識(shí)別準(zhǔn)確率不高的問題,可分別用于基于語音信號(hào)的不同識(shí)別需求,還可以用于分解更多因素。
【專利說明】—種半監(jiān)督語音特征可變因素分解方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音識(shí)別領(lǐng)域,具體涉及一種語音特征分解的方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)滲透到生活的各個(gè)角落,各種類型的計(jì)算平臺(tái)都需要更簡便的輸入媒體,語音當(dāng)仁不讓成為用戶最佳的選擇之一。一般來說,語音中包括了說話人、說話內(nèi)容、說話人的情感、性別、年齡等多種信息。近年來,隨著一些應(yīng)用的不斷完善,促進(jìn)了對(duì)人的情感、性別、年齡、說話內(nèi)容等方面的基于語音信號(hào)的識(shí)別技術(shù)的發(fā)展。比如傳統(tǒng)的呼叫中心通常都會(huì)隨機(jī)的接通服務(wù)生來為客戶提供電話咨詢,而不能夠根據(jù)用戶的情感、性別和年齡提供個(gè)性化的服務(wù),這就促使了是否可以通過客戶的聲音來判斷其情感、性別和年齡,并以此為依據(jù)提供更加個(gè)性化的語音服務(wù)。但是在現(xiàn)有的基于語音信號(hào)的情感、性別和年齡識(shí)別相關(guān)任務(wù)中,傳統(tǒng)的特征提取方法所提取的特征往往摻雜了情感、性別、年齡、說話內(nèi)容、語言等因素,彼此之間很難區(qū)分,從而導(dǎo)致識(shí)別效果不佳。
[0003]在Dong Yu 等、名稱為 Feature Learning in Deep Neural Networks—Studies onSpeech Recognition Tasks的論文中,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)到一個(gè)深層特征,但這個(gè)特征可能混雜了很多因素,如情感、性別、年齡等因素,如果把這個(gè)特征用于語音情感識(shí)別,識(shí)別率可能會(huì)受特征中其他因素的影響。目前還未出現(xiàn)一種特征提取方法能分別提取語音信號(hào)中不同類型的特征。本發(fā)明為了克服現(xiàn)有技術(shù)的缺陷,通過基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督特征學(xué)習(xí),將語音特征分解成四類:情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、其他因素相關(guān)特征,可分別用于基于語音信號(hào)的不同識(shí)別需求。本發(fā)明進(jìn)一步拓展以后還可以用于分解更多因素。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種半監(jiān)督語音特征可變因素分解方法,使得分解出的特征不受與識(shí)別任務(wù)無關(guān)的因素的干擾,且更顯著地體現(xiàn)識(shí)別目標(biāo)類別之間的差異,從而提高識(shí)別的準(zhǔn)確度。
[0005]為了解決以上技術(shù)問題,本發(fā)明首先對(duì)語音進(jìn)行預(yù)處理得到語譜圖,然后通過基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)得到局部不變特征,再采用一種半監(jiān)督學(xué)習(xí)方法,通過重構(gòu)誤差函數(shù)、判別損失函數(shù)、正交損失函數(shù)、顯著性損失函數(shù)四個(gè)損失函數(shù)的約束將無監(jiān)督學(xué)習(xí)得到的局部不變特征,分解成四類:情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征和其他因素相關(guān)特征,可分別用于情感識(shí)別、性別識(shí)別、年齡識(shí)別,能有效提高識(shí)別準(zhǔn)確率。具體技術(shù)方案如下:
[0006]一種半監(jiān)督語音特征可變因素分解方法,其特征在于包括下列步驟:
[0007]步驟一,預(yù)處理:對(duì)語音樣本進(jìn)行預(yù)處理得到語譜圖,再采用PCA進(jìn)行主成份分析降維以及白化,從中提取出不同尺寸的語譜塊;
[0008]步驟二,無監(jiān)督的局部不變特征學(xué)習(xí):將所述語譜塊作為無監(jiān)督特征學(xué)習(xí)SAE的輸入,通過輸入不同尺寸的語譜塊,預(yù)訓(xùn)練得到不同尺寸的卷積核,然后分別用所述不同尺寸的卷積核對(duì)整個(gè)語譜圖進(jìn)行卷積,得到若干特征映射圖,再對(duì)所述特征映射圖進(jìn)行最大池化,最終把特征堆疊起來形成局部不變特征y ;
[0009]步驟三,基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督特征學(xué)習(xí):將所述局部不變特征I作為半監(jiān)督學(xué)習(xí)算法的輸入,利用基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)的方法,通過四個(gè)不同的損失函數(shù)將將局部不變特征I分解成四類特征;所述四類特征包括情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、以及包括噪聲和語種的其他因素相關(guān)特征;所述半監(jiān)督學(xué)習(xí)的損失函數(shù)由重構(gòu)誤差函數(shù)、判別損失函數(shù)、正交損失函數(shù)、顯著性損失函數(shù)四部分組成;
[0010]對(duì)于所述重構(gòu)誤差函數(shù),所述四類特征都要參與重構(gòu)局部不變特征y,誤差采用均方誤差;對(duì)于所述判別損失函數(shù),先對(duì)有標(biāo)簽的數(shù)據(jù)進(jìn)行類別預(yù)測,然后計(jì)算預(yù)測標(biāo)簽和真實(shí)標(biāo)簽之間的差異作為判別損失函數(shù)的值;對(duì)于所述正交損失函數(shù),目的是使所述四類特征相互正交,表示輸入局部不變特征y的不同的方向;對(duì)于所述顯著性損失函數(shù),目的是學(xué)習(xí)到僅體現(xiàn)識(shí)別目標(biāo)類別之間的差異且更具有類別區(qū)分性的特征;通過最小化所述損失函數(shù)來獲得四個(gè)損失函數(shù)的參數(shù)包括偏置和權(quán)重,從而得到所述四類特征。
[0011]本發(fā)明具有有益效果。本發(fā)明的半監(jiān)督特征學(xué)習(xí),通過將局部不變特征分解成情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、其他因素相關(guān)特征共四類特征,使得不同類型的特征用于不同的識(shí)別需求,避免了不同類型特征之間相互干擾的缺點(diǎn)。特別是半監(jiān)督學(xué)習(xí)的損失函數(shù)由重構(gòu)誤差函數(shù)、判別損失函數(shù)、正交損失函數(shù)、顯著性損失函數(shù)四部分組成,使得所學(xué)習(xí)到的特征能更好地描述識(shí)別目標(biāo)類別之間的差異,不受無關(guān)因素的干擾。本發(fā)明解決了不同的語音特征混雜在一起從而帶來的識(shí)別率不高的問題,能有效地提高識(shí)別準(zhǔn)確率。
【專利附圖】

【附圖說明】
[0012]圖1是語音特征分解流程圖。
[0013]圖2是無監(jiān)督特征學(xué)習(xí)流程圖。
[0014]圖3是半監(jiān)督語音特征分解結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0015]圖1給出了本發(fā)明方法的總體思路,首先,對(duì)語音進(jìn)行預(yù)處理得到語譜圖,不同尺寸的語譜塊輸入無監(jiān)督特征學(xué)習(xí)網(wǎng)絡(luò)SAE,預(yù)訓(xùn)練得到不同尺寸的卷積核,然后經(jīng)過卷積、池化操作,形成局部不變特征I。I作為半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過最小化四個(gè)不同的損失函數(shù)項(xiàng)將I分解成四類特征。
[0016]預(yù)處理后的語音信號(hào)被劃分成IixIii大小的語譜塊,i表示語譜塊的個(gè)數(shù),不同尺寸的語譜塊輸入無監(jiān)督特征學(xué)習(xí)網(wǎng)絡(luò)SAE,預(yù)訓(xùn)練得到不同尺寸的卷積核,然后分別用不同尺寸的卷積核對(duì)整個(gè)語譜圖進(jìn)行卷積,得到若干特征映射圖,再對(duì)特征映射圖進(jìn)行最大池化,最終把特征堆疊起來形成局部不變特征y,如圖2所示。y作為半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過四個(gè)不同的損失函數(shù)項(xiàng)將y分解成四類特征。半監(jiān)督的損失函數(shù)由重構(gòu)誤差函數(shù)、判別損失函數(shù)、正交損失函數(shù)、顯著性損失函數(shù)四部分組成。通過最小化損失函數(shù)來獲得四個(gè)損失函數(shù)項(xiàng)的參數(shù),從而分解得到四類特征,分別用于不同的識(shí)別需求,如圖3所示。所有特征均要參加重構(gòu),而不同類型的特征參與對(duì)應(yīng)的判別損失函數(shù)的約束。
[0017]本發(fā)明首先對(duì)語音進(jìn)行預(yù)處理,利用基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)算法得到一組局部不變特征,然后利用基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)算法把局部不變特征分解成四類特征:情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、其他因素相關(guān)特征。具體的步驟如下:
[0018]步驟一,首先把時(shí)域信號(hào)轉(zhuǎn)化成語譜圖,窗尺寸為20ms,有IOms的重疊;然后利用PCA降維以及白化,PCA有60個(gè)主成分,最終產(chǎn)生60 X η的語譜圖。從中提取若干個(gè)不重疊的60 X 15的語譜。對(duì)于每個(gè)60 X 15的語譜,從中提取兩個(gè)尺寸的語譜塊,分別為60 X 6和60X10。
[0019]步驟二,將60X6和60X 10兩種尺寸的語譜塊分別輸入到SAE,分別學(xué)習(xí)得到120個(gè)和輸入尺寸一樣大的60X6和60Χ 10的卷積核。然后利用這兩個(gè)卷積核分別對(duì)整個(gè)語譜60X15進(jìn)行卷積,得到120個(gè)IX 10和120個(gè)1X6的特征映射圖,然后每兩幀進(jìn)行最大池化,得到120個(gè)I X 5和120個(gè)I X 3的特征。即對(duì)于60 X 6的卷積核得到600個(gè)特征,對(duì)于60Χ 10的卷積核得到360個(gè)特征。這總的960個(gè)特征作為半監(jiān)督的輸入。接下來介紹一下無監(jiān)督特征學(xué)習(xí)的一般步驟。
[0020]自動(dòng)編碼器AE(Auto-Encoder)的目標(biāo)函數(shù)如下:
[0021]Jae(Q) = Σχει(χ, g(h(x))) (I)
[0022]其中X是輸入的語譜塊,此處的X是不帶標(biāo)簽的。h(x)是編碼函數(shù),
[0023]h(x) = s (ωχ+α),其中ω是權(quán)重矩陣,α是偏置,
【權(quán)利要求】
1.一種半監(jiān)督語音特征可變因素分解方法,其特征在于包括下列步驟: 步驟一,預(yù)處理:對(duì)語音樣本進(jìn)行預(yù)處理得到語譜圖,再采用PCA進(jìn)行主成份分析降維以及白化,從中提取出不同尺寸的語譜塊; 步驟二,無監(jiān)督的局部不變特征學(xué)習(xí):將所述語譜塊作為無監(jiān)督特征學(xué)習(xí)SAE的輸入,通過輸入不同尺寸的語譜塊,預(yù)訓(xùn)練得到不同尺寸的卷積核,然后分別用所述不同尺寸的卷積核對(duì)整個(gè)語譜圖進(jìn)行卷積,得到若干特征映射圖,再對(duì)所述特征映射圖進(jìn)行最大池化,最終把特征堆疊起來形成局部不變特征y ; 步驟三,基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督特征學(xué)習(xí):將所述局部不變特征y作為半監(jiān)督學(xué)習(xí)算法的輸入,利用基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)的方法,通過四個(gè)不同的損失函數(shù)將將局部不變特征I分解成四類特征;所述四類特征包括情感相關(guān)特征、性別相關(guān)特征、年齡相關(guān)特征、以及包括噪聲和語種的其他因素相關(guān)特征;所述半監(jiān)督學(xué)習(xí)的損失函數(shù)由重構(gòu)誤差函數(shù)、判別損失函數(shù)、正交損失函數(shù)、顯著性損失函數(shù)四部分組成; 對(duì)于所述重構(gòu)誤差函數(shù),所述四類特征都要參與重構(gòu)局部不變特征y,誤差采用均方誤差;對(duì)于所述判別損失函數(shù),先對(duì)有標(biāo)簽的數(shù)據(jù)進(jìn)行類別預(yù)測,然后計(jì)算預(yù)測標(biāo)簽和真實(shí)標(biāo)簽之間的差異作為判別損失函數(shù)的值;對(duì)于所述正交損失函數(shù),目的是使所述四類特征相互正交,表示輸入局部不變特征y的不同的方向;對(duì)于所述顯著性損失函數(shù),目的是學(xué)習(xí)到僅體現(xiàn)識(shí)別目標(biāo)類別之間的差異且更具有類別區(qū)分性的特征;通過最小化所述損失函數(shù)來獲得四個(gè)損失函數(shù)的參數(shù)包括偏置和權(quán)重,從而得到所述四類特征。
【文檔編號(hào)】G06K9/00GK104021373SQ201410229537
【公開日】2014年9月3日 申請日期:2014年5月27日 優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】毛啟容, 黃正偉, 薛文韜, 于永斌, 詹永照, 茍建平, 邢玉萍 申請人:江蘇大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1