專利名稱:一種快速序列標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明提供一種序列標(biāo)注方法,屬于語言信息處理領(lǐng)域。本方法可以用于語言信息處理的不同層次,包括漢語分詞、詞性標(biāo)注和命名實(shí)體識別等。
背景技術(shù):
序列標(biāo)注模型廣泛應(yīng)用于信息檢索和自然語言處理的各個方面。在中文信息處理領(lǐng)域,分詞是語言信息處理的基礎(chǔ)。中文的字符之間沒有分隔符隔開,而字并不總能表達(dá)基本意義,只有切分出詞才能確定最基本的意義單位。很多中文搜索引擎的基礎(chǔ)模塊之一就是分詞模塊。隨著網(wǎng)絡(luò)文本數(shù)量的急劇增加,速度快、效果好的分詞模塊對中文搜索引擎性能有著十分重要的影響。此外,標(biāo)注詞序列中每個詞的詞性,識別文本中的命名實(shí)體(即,專有名詞),也是文本信息處理的重要任務(wù)。無論是漢語分詞,詞性標(biāo)注,還是命名實(shí)體識別,序列標(biāo)注模型都大有用武之地。在
圖1中,每個詞都已經(jīng)切分開來,也標(biāo)上了詞性(見參考文獻(xiàn)[I])。此外,也標(biāo)識了命名實(shí)體(如,“中共中央”、“蘭紅光”)。常用的序列標(biāo)注模型如隱馬爾可夫模型(HMM),最大熵模型(MEMM),條件隨機(jī)場模型(CRFs),馬爾可夫隨機(jī)場(MRF)等。為了構(gòu)建模型,需要通過訓(xùn)練來估計(jì)模型的參數(shù)。訓(xùn)練過程是利用已帶有標(biāo)記信息的訓(xùn)練數(shù)據(jù)(如圖1中所示的數(shù)據(jù)),通過優(yōu)化目標(biāo)函數(shù),獲得模型參數(shù)的過程。目前,使用最為廣泛的模型是CRFs模型,其優(yōu)點(diǎn)是序列標(biāo)注的準(zhǔn)確度高,但缺點(diǎn)也十分明顯訓(xùn)練CRFs模型所花的時(shí)間代價(jià)非常高,尤其是類似于詞性標(biāo)注的大標(biāo)記數(shù)據(jù)在實(shí)際應(yīng)用中幾乎不可接受。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種新的方法,能夠適應(yīng)大規(guī)模訓(xùn)練數(shù)據(jù)情況下訓(xùn)練序列標(biāo)注模型。其特點(diǎn)是訓(xùn)練速度快,適合大規(guī)模語料和大的標(biāo)記集合。本發(fā)明的原理如下基于隨機(jī)梯度下降(SGD)在線學(xué)習(xí)算法,在訓(xùn)練過程中,針對特征頻率,對二階海森矩陣采用對角化近似,即利用特征頻率高低對對角元素賦予不同權(quán)重,與已有的二階海森矩陣近似算法比較,具有計(jì)算代價(jià)小的特點(diǎn);在原有SGD算法的基礎(chǔ)上,顯著提高了訓(xùn)練速度,且效果好。所述方法包括如下步驟首先,從帶有標(biāo)記信息的訓(xùn)練數(shù)據(jù)中統(tǒng)計(jì)特征的頻率;然后,對不同頻率的特征對應(yīng)的不同維度的參數(shù)給出不同的二階海森矩陣(Hessian)的對角線近似;最后,利用隨機(jī)梯度下降算法,按新的實(shí)例確定梯度,更新參數(shù)。需要指出,本方法適合于大規(guī)模訓(xùn)練數(shù)據(jù),對近似對角海森矩陣的近似輕量有效,且在不影響訓(xùn)練效果的條件下顯著加快訓(xùn)練速度。本發(fā)明提供的技術(shù)方案如下一種快速序列標(biāo)注方法,包括如下步驟a)初始化模型參數(shù)(向量
b)統(tǒng)計(jì)每個特征對所有位置的相對頻率# Φ (X,y) /#token,特征的取值是O或1,即特征函數(shù)是特征到O、I的映射Φ (X,y) — {O, 1},按公式2初始化矩陣B,其中i對應(yīng)該維度特征的參數(shù);c)取一個訓(xùn)練實(shí)例,計(jì)算梯度,梯度的計(jì)算方法是對CRFs的損失函數(shù)求導(dǎo)數(shù),即 = (x, y)是特征函數(shù)在當(dāng)前參數(shù)下的期望;d)按照公式I更新參數(shù)Θ ;e)檢查收斂性,如果未達(dá)到精度要求,則重復(fù)步驟c)_d),直至達(dá)到精度要求;
權(quán)利要求
1.一種快速序列標(biāo)注方法,包括如下步驟 a)初始化模型參數(shù)θ=0; b)統(tǒng)計(jì)每個特征對所有位置的相對頻率#Φ(X,y)/#token,特征的取值是O或I,即特征函數(shù)是特征到O、I的映射Φ (X,y) — {O, 1},按公式2初始化矩陣B,其中i對應(yīng)該維度特征的參數(shù); c)取一個訓(xùn)練實(shí)例,計(jì)算梯度,梯度的計(jì)算方法是對CRFs的損失函數(shù)求導(dǎo)數(shù),即νΚΘ) = Εφ(χ,γ)-φ(χ,ν),其中ΕΦ (X,y)是特征函數(shù)在當(dāng)前參數(shù)下的期望; d)按照公式I更新參數(shù)Θ; e)檢查收斂性,如果未達(dá)到精度要求,則重復(fù)步驟c)_d),直至達(dá)到精度要求;
2.如權(quán)利要求1所述的快速序列標(biāo)注方法,其特征是,所述a設(shè)置為O.001,b設(shè)置為Io
3.如權(quán)利要求1所述的快速序列標(biāo)注方法,其特征是,步驟e中,當(dāng)滿足下列條件之一時(shí),檢查收斂性 O留存數(shù)據(jù)集合錯誤率經(jīng)過迭代變化小于指定閾值; 2)目標(biāo)函數(shù)的值不再下降; 3)參數(shù)的模在兩輪迭代之間相對變化率小于指定閾值; 4)達(dá)到預(yù)先指定的迭代次數(shù)。
全文摘要
本發(fā)明提供一種快速序列標(biāo)注方法,屬于語言信息處理領(lǐng)域。所述方法基于隨機(jī)梯度下降(SGD)在線學(xué)習(xí)算法,適合大規(guī)模語料訓(xùn)練;在訓(xùn)練過程中,針對特征頻率,對二階海森矩陣采用對角化近似,即利用特征頻率高低對對角元素賦予不同權(quán)重,與已有的二階海森矩陣近似算法比較,具有計(jì)算代價(jià)小的特點(diǎn);在原有SGD算法的基礎(chǔ)上,顯著提高了訓(xùn)練速度,且效果好。本方法可以用于語言信息處理的不同層次,包括漢語分詞、詞性標(biāo)注和命名實(shí)體識別等。
文檔編號G06F17/20GK103064878SQ201210468749
公開日2013年4月24日 申請日期2012年11月19日 優(yōu)先權(quán)日2012年11月19日
發(fā)明者王厚峰, 何正焱 申請人:北京大學(xué)