專利名稱:一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理領(lǐng)域的識(shí)別方法,主要涉及多任務(wù)的識(shí)別,包括組塊識(shí)另Ij、分詞、詞性標(biāo)注等序列標(biāo)注任務(wù)的聯(lián)合識(shí)別。
背景技術(shù):
在自然語言處理領(lǐng)域,很多任務(wù)都是基于流水線識(shí)別的,即將一個(gè)復(fù)雜的任務(wù)簡化為幾個(gè)較簡單的,依序完成的任務(wù)。對中文進(jìn)行詞性標(biāo)注前,先對其進(jìn)行分詞。這樣處理可以有效地減少計(jì)算的復(fù)雜性,但同時(shí)它也會(huì)帶來兩個(gè)問題一是錯(cuò)誤傳遞,前一個(gè)任務(wù)的錯(cuò)誤會(huì)帶到后一個(gè)任務(wù)中,如分詞的錯(cuò)誤會(huì)帶到詞性標(biāo)注中;二是兩個(gè)任務(wù)之間的信息不能共享,磁性標(biāo)注有利于提高分詞的準(zhǔn)確性,但是先分詞再進(jìn)行詞性標(biāo)注,不能利用詞性提高分詞的準(zhǔn)確率。為了減少在多任務(wù)識(shí)別中采用流水線方法造成的錯(cuò)誤傳遞,可以首先對第一個(gè)任務(wù)生成η個(gè)最優(yōu)值,然后將這η個(gè)可能值傳到第二個(gè)任務(wù),并通過重排序方法或者約束滿足方法得到第二個(gè)任務(wù)的最優(yōu)值(
圖1)。這種方法能夠?qū)⒌谝粋€(gè)任務(wù)的信息傳遞到第二個(gè)任務(wù),但是不能傳遞回去?;袅炙购盏绿岢隽艘环N短語識(shí)別和句法分析的迭代識(shí)別方法(圖2)。但是試驗(yàn)結(jié)果表明,對于序列標(biāo)注問題,直接的迭代識(shí)別反而降低單個(gè)任務(wù)的準(zhǔn)確率。圖1和圖2中,Task I和Task 11表示任務(wù)I和任務(wù)11,分類器A,B表示采用基本特征的分類器,A2, B2表示采用基本特征和其他任務(wù)特征的分類器。
發(fā)明內(nèi)容
針對多個(gè)任務(wù)單獨(dú)識(shí)別時(shí)存在的問題,本發(fā)明提出了一種迭代識(shí)別的方法,能夠使多任務(wù)之間相互傳遞信息,解決錯(cuò)誤傳遞和信息不能共享的問題,提高識(shí)別的準(zhǔn)確率。一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,包括以下步驟步驟1:針對任務(wù)I,只采用基本特征生成分類器A,針對任務(wù)II,只采用基本特征生成分類器B ;步驟2 :針對任務(wù)I,采用任務(wù)I的基本特征和任務(wù)II的結(jié)果帶來的特征生成分類器A2,針對任務(wù)II,采用任務(wù)II的基本特征和任務(wù)I的結(jié)果帶來的特征生成分類器B2 ;步驟3 :使用集成識(shí)別算法將分類器B和B2集成為CB,將分類器A和A2集成為CA ;步驟4 :重復(fù)步驟2和3,直到兩個(gè)任務(wù)的準(zhǔn)確率達(dá)到最大值;分類器A,B表示采用基本特征的分類器,A2, B2表示采用基本特征和 其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器。作為本發(fā)明的進(jìn)一步改進(jìn),對每個(gè)子分類器A,B, A2, B2都在反向句子序列上訓(xùn)練模型,對于每個(gè)任務(wù)都產(chǎn)生四個(gè)不同的分類器來用于集成識(shí)另U,那么,上述四個(gè)步驟為以下四步
步驟1:針對任務(wù)I,只采用基本特征生成分類器A,A’,針對任務(wù)II,只采用基本特征生成分類器B,B’ ;步驟2 :針對任務(wù)I,采用任務(wù)I的基本特征和任務(wù)II的結(jié)果帶來的特征生成分類器 A2,A2,,針對任務(wù)II,采用任務(wù)II的基本特征和任務(wù)I的結(jié)果帶來的特征生成分類器B2,B2,;步驟3使用集成識(shí)別算法將分類器B、B’和B2、B2’集成為CB,將分類器A、A’和A2、A2’集成為CA;步驟4 :重復(fù)步驟2和3,直到達(dá)到最大值;分類器A,B表示采用基本特征的分類器,A2, B2表示采用基本特征和其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器;分類器A’,B’表示反向采用基本特征的分類器,A2’,B2’表示反向采用基本特征和其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器。作為本發(fā)明的進(jìn)一步改進(jìn),對于分類器A、A’、A2、A2’、B、B’、B2、B2’和集成分類
器CA、CB都采用平均感知器方法進(jìn)行識(shí)別。作為本發(fā)明的進(jìn)一步改進(jìn),平均感知器方法如下對于一個(gè)輸入句子X,它的最優(yōu)標(biāo)注為
權(quán)利要求
1.一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于,包括以下步驟 步驟1:針對任務(wù)I,只采用基本特征生成分類器A, 針對任務(wù)II,只采用基本特征生成分類器B ; 步驟2 :針對任務(wù)I,采用任務(wù)I的基本特征和任務(wù)II的結(jié)果帶來的特征生成分類器A2, 針對任務(wù)II,采用任務(wù)II的基本特征和任務(wù)I的結(jié)果帶來的特征生成分類器B2 ; 步驟3 :使用集成識(shí)別算法將分類器B和B2集成為CB,將分類器A和A2集成為CA ; 步驟4 :重復(fù)步驟2和3,直到兩個(gè)任務(wù)的準(zhǔn)確率達(dá)到最大值; 分類器A,B表示采用基本特征的分類器,A2, B2表示采用基本特征和其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器。
2.根據(jù)權(quán)利要求1所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于對每個(gè)子分類器A,B, A2, B2都在反向句子序列上訓(xùn)練模型,對于每個(gè)任務(wù)都產(chǎn)生四個(gè)不同的分類器來用于集成識(shí)別,那么,上述四個(gè)步驟為以下四步 步驟1:針對任務(wù)I,只采用基本特征生成分類器A,A’, 針對任務(wù)II,只采用基本特征生成分類器B,B’ ; 步驟2 :針對任務(wù)I,采用任務(wù)I的基本特征和任務(wù)II的結(jié)果帶來的特征生成分類器A2, A2,, 針對任務(wù)II,采用任務(wù)II的基本特征和任務(wù)I的結(jié)果帶來的特征生成分類器B2,B2’;步驟3使用集成識(shí)別算法將分類器B、B’和B2、B2’集成為CB,將分類器A、A’和A2、A2’集成為CA; 步驟4 :重復(fù)步驟2和3,直到達(dá)到最大值; 分類器A,B表示采用基本特征的分類器,A2, B2表示采用基本特征和其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器;分類器A’,B’表示反向采用基本特征的分類器,A2’,B2’表示反向采用基本特征和其他任務(wù)特征的分類器,而CA,CB則分別表示集成的分類器。
3.根據(jù)權(quán)利要求2所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于對于分類器A、A’、A2、A2’、B、B’、B2、B2’和集成分類器CA、CB都采用平均感知器方法進(jìn)行識(shí)別。
4.根據(jù)權(quán)利要求3所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于平均感知器方法如下對于一個(gè)輸入句子X,它的最優(yōu)標(biāo)注為
5.根據(jù)權(quán)利要求4所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于特征權(quán)重向量根據(jù)以下公式進(jìn)行更新
6.根據(jù)權(quán)利要求5所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于分類器集成方法如下采用一種基于序列的平均感知器集成方法,選擇每個(gè)詞在序列中的特征和前面分類器的結(jié)果作特征,實(shí)現(xiàn)整個(gè)句子的全局最優(yōu)。
7.根據(jù)權(quán)利要求5所述的一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,其特征在于在解析過程中采用寬度為k的束狀搜索策略,分類器采用判別式識(shí)別方法,從多個(gè)候選集選擇最優(yōu)值,在 一個(gè)分類器的多個(gè)候選集中選擇最優(yōu)的分類器。
全文摘要
本發(fā)明提供了一種多序列標(biāo)注問題的聯(lián)合識(shí)別方法,包括以下步驟步驟1針對任務(wù)I,只采用基本特征生成分類器A,針對任務(wù)II,只采用基本特征生成分類器B;步驟2針對任務(wù)I,采用任務(wù)I的基本特征和任務(wù)II的結(jié)果帶來的特征生成分類器A2,針對任務(wù)II,采用任務(wù)II的基本特征和任務(wù)I的結(jié)果帶來的特征生成分類器B2;步驟3使用集成識(shí)別算法將分類器B和B2集成為CB,將分類器A和A2集成為CA;步驟4重復(fù)步驟2和3,直到兩個(gè)任務(wù)的準(zhǔn)確率達(dá)到最大值。本發(fā)明彌補(bǔ)了序列標(biāo)注任務(wù)單獨(dú)識(shí)別時(shí)不能從其他任務(wù)得到有用信息的缺點(diǎn),使得多個(gè)任務(wù)之間有效的交換信息,并通過分類器集成,提高整個(gè)任務(wù)的準(zhǔn)確性。
文檔編號(hào)G06F17/28GK103020185SQ20121050505
公開日2013年4月3日 申請日期2012年11月30日 優(yōu)先權(quán)日2012年11月30日
發(fā)明者王軒, 李鑫鑫, 張加佳, 趙海楠, 李曄 申請人:哈爾濱工業(yè)大學(xué)深圳研究生院