日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種文本處理方法及系統(tǒng)的制作方法

文檔序號(hào):6400662閱讀:193來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種文本處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種文本處理方法及系統(tǒng)。
背景技術(shù)
目前,文本處理已經(jīng)被廣泛的應(yīng)用于各個(gè)領(lǐng)域,一般的,需要對(duì)文本進(jìn)行分詞、詞性標(biāo)注和實(shí)體識(shí)別,再根據(jù)分詞結(jié)果、標(biāo)注的詞性以及識(shí)別出的實(shí)體詞對(duì)文本進(jìn)行處理。其中,實(shí)體詞是指人名、地名、機(jī)構(gòu)名等詞匯,如劉德華、北京、人民大會(huì)堂等。除實(shí)體詞之外的詞匯就是非實(shí)體詞。在現(xiàn)有技術(shù)中,一般將上述分詞、詞性標(biāo)注和實(shí)體識(shí)別作為三個(gè)獨(dú)立的過(guò)程,或者,將分詞和詞性標(biāo)注作為一個(gè)過(guò)程,將實(shí)體識(shí)別作為單獨(dú)的一個(gè)過(guò)程。例如,對(duì)詞匯“人民大會(huì)堂”,先通過(guò)分詞模型對(duì)該詞匯進(jìn)行分詞處理,得到“人民”和“大會(huì)堂”兩個(gè)單元詞,再通過(guò)詞性標(biāo)注模型對(duì)“人民”和“大會(huì)堂”這兩個(gè)單元詞進(jìn)行詞性標(biāo)注(如,將這兩個(gè)單元詞均標(biāo)注為名詞)。而對(duì)“人民大會(huì)堂”進(jìn)行實(shí)體識(shí)別時(shí),則以字為單位進(jìn)行識(shí)別。具體的,先將“人民大會(huì)堂”拆分成“人”、“民”、“大”、“會(huì)”、“堂”這五個(gè)字,然后根據(jù)實(shí)體識(shí)別模型,確定“人”是實(shí)體詞中的起始字(起始字是實(shí)體詞中的第一個(gè)字),“民”、“大”、“會(huì)”是實(shí)體詞中的中間字(中間字是實(shí)體詞中除第一個(gè)字和最后一個(gè)字以外的字),“堂”是實(shí)體詞中的結(jié)束字(結(jié)束字是實(shí)體詞中的最后一個(gè)字),因此,將從起始字開(kāi)始、到結(jié)束字為止所包含的所有字識(shí)別為一個(gè)實(shí)體詞,即“人民大會(huì)堂”。但是,上述實(shí)體識(shí)別模型是以條件隨機(jī)場(chǎng)(CRF)算法為基礎(chǔ)的,而現(xiàn)有技術(shù)中的實(shí)體識(shí)別方法是以字為單位進(jìn)行的,這就增加了采用CRF算法解碼時(shí)的路徑長(zhǎng)度,導(dǎo)致實(shí)體識(shí)別的效率和準(zhǔn)確性較低,從而也降低了后續(xù)基于識(shí)別出的實(shí)體詞進(jìn)行文本處理的效率和準(zhǔn)確性。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種文本處理方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中文本處理的效率和準(zhǔn)確性較低的問(wèn)題。本發(fā)明實(shí)施例提供的一種文本處理方法,包括:對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞;針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性;根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性;根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞;根據(jù)識(shí)別出的實(shí)體詞對(duì)所述文本進(jìn)行處理。本發(fā)明實(shí)施例提供的一種文本處理系統(tǒng),包括:分詞模塊,用于對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞;詞性標(biāo)注模塊,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性;實(shí)體詞識(shí)別模塊,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性;根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞;文本處理模塊,用于根據(jù)識(shí)別出的實(shí)體詞對(duì)所述文本進(jìn)行處理。本發(fā)明實(shí)施例提供一種文本處理方法及系統(tǒng),該方法對(duì)文本進(jìn)行分詞得到單元詞,針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性,并據(jù)此確定該單元詞的實(shí)體詞屬性,根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別文本中的實(shí)體詞,根據(jù)識(shí)別出的實(shí)體詞對(duì)文本進(jìn)行處理。通過(guò)上述方法,文本處理系統(tǒng)是以單元詞為單位進(jìn)行實(shí)體識(shí)別的,因此可以有效縮短采用CRF算法解碼時(shí)的路徑長(zhǎng)度,提高實(shí)體識(shí)別的效率和準(zhǔn)確性,從而提高了后續(xù)基于識(shí)別出的實(shí)體詞進(jìn)行文本處理的效率和準(zhǔn)確性。


圖1為本發(fā)明實(shí)施例提供的文本處理過(guò)程;圖2為本發(fā)明實(shí)施例提供的文本處理系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了縮短采用CRF算法解碼時(shí)的路徑長(zhǎng)度,本發(fā)明實(shí)施例中以單元詞為單位對(duì)文本進(jìn)行實(shí)體識(shí)別,而以單元詞為單位進(jìn)行實(shí)體識(shí)別,就需要根據(jù)各單元詞的詞性確定各單元詞的實(shí)體詞屬性,再根據(jù)各單元詞的實(shí)體詞屬性進(jìn)行實(shí)體識(shí)別,從而需要將分詞、詞性標(biāo)注和實(shí)體識(shí)別結(jié)合在一起。下面結(jié)合附圖對(duì)本發(fā)明優(yōu)選的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。圖1為本發(fā)明實(shí)施例提供的文本處理過(guò)程,具體包括以下步驟:SlOl:對(duì)文本進(jìn)行分詞處理,得到該文本中的各單元詞。在本發(fā)明實(shí)施例中,文本處理系統(tǒng)在對(duì)文本進(jìn)行分詞時(shí),可以字為單位對(duì)該文本進(jìn)行拆分,得到該文本中的每個(gè)字,再針對(duì)得到的每個(gè)字,通過(guò)預(yù)設(shè)的分詞模型確定該字的字類(lèi)別以及字位置屬性,其中,上述分詞模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,字類(lèi)別包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他,字位置屬性包括起始字、中間字、結(jié)束字,最后針對(duì)字位置屬性為起始字的每個(gè)字,按照該文本中各個(gè)字的先后順序,查找排在該字之后的第一個(gè)字位置屬性為結(jié)束字的字,將該文本中從該字位置屬性為起始字的字開(kāi)始,到查找到的該字位置屬性為結(jié)束字的字位置所包含的所有字組合成一個(gè)單元詞。例如,對(duì)于輸入的文本“中國(guó)國(guó)際廣播電臺(tái)”,文字處理系統(tǒng)先以字為單位對(duì)該文本進(jìn)行拆分,拆分得到8個(gè)字:“中”、“國(guó)”、“國(guó)”、“際”、“廣”、“播”、“電”、“臺(tái)”。然后,針對(duì)得到的字“中”,通過(guò)預(yù)設(shè)的分詞模型確定“中”的字類(lèi)別為漢字,字位置屬性為起始字,因此,可將該字“中”標(biāo)注為“中HANB”。其中,“HAN”為類(lèi)別標(biāo)注,表示該字“中”的字類(lèi)別為漢字,“B”為字位置屬性標(biāo)注,表示該字“中”的字位置屬性為起始字。除上述“HAN”表示字類(lèi)別為漢字以外,其他字類(lèi)別與類(lèi)別標(biāo)注的對(duì)應(yīng)關(guān)系分別是,英文的類(lèi)別標(biāo)注為“ALPHA”,數(shù)字的類(lèi)別標(biāo)注為“NUM”,時(shí)間的類(lèi)別標(biāo)注為“TIME”,符號(hào)的類(lèi)別標(biāo)注為“SIG”,其他的類(lèi)別標(biāo)注為“OTHER”。除上述“B”表示字位置屬性為起始字以外,其他字位置屬性與字位置屬性標(biāo)注的對(duì)應(yīng)關(guān)系分別是,中間字的字位置屬性標(biāo)注為“M”,結(jié)束字的字位置屬性標(biāo)注為“E”。類(lèi)似于確定“中”的字類(lèi)別和字位置屬性的方法,同樣通過(guò)分詞模型確定其他字的字類(lèi)別和字位置屬性并進(jìn)行標(biāo)注,具體為:“國(guó)HAN E”、“國(guó)HANB”、“際HAN E”、“廣HAN B”、“播 HAN E ”、“電 HAN B ”、“ 臺(tái) HANE ”。文本處理系統(tǒng)將上述8個(gè)字分別標(biāo)注后,則可查找字位置屬性標(biāo)注為“B”的字,查找到的就是字位置屬性為起始字的字。假設(shè)查找到“中”,則按照文本中各個(gè)字的先后順序,查找排在“中”之后的第一個(gè)字位置屬性為結(jié)束字的字(可查找排在“中”之后的第一個(gè)字位置屬性標(biāo)注為“E”的字),查找到的字就是“國(guó)”,因此,文本處理系統(tǒng)可將文本中從“中”開(kāi)始到“國(guó)”為止的所有字按照這些字在文本中的順序進(jìn)行組合,得到一個(gè)單元詞,組合后的單元詞即為“中國(guó)”。類(lèi)似的,針對(duì)字位置屬性同樣為起始字的“國(guó)”、“廣”、“電”,可通過(guò)上述方法查找至IJ “國(guó)”之后的第一個(gè)字位置屬性為結(jié)束字的“際”,“廣”之后的第一個(gè)字位置屬性為結(jié)束字的“播”,“電”之后的第一個(gè)字位置屬性為結(jié)束字的“臺(tái)”,并分別進(jìn)行組合,得到單元詞“國(guó)際”、“廣播”、“電臺(tái)”。另外,由于實(shí)際應(yīng)用中存在單字成詞的情況,如“以”、“為”等,因此,為了提高分詞的準(zhǔn)確性,上述字位置屬性除包括起始字、中間字、結(jié)束字以外,還可包括獨(dú)立字,獨(dú)立字的字位置屬性標(biāo)注可設(shè)置為“S”。文本處理系統(tǒng)可通過(guò)分詞模型,將這些單字成詞的字的字位置屬性確定為獨(dú)立字,并在確定單元詞時(shí),將字位置屬性為獨(dú)立字的字確定為一個(gè)單元詞。進(jìn)一步的,上述字位置屬性除包括起始字、中間字、結(jié)束字和獨(dú)立字以外,還可包括中間第一字和中間第二字,可分別以“Ml”和“M2”標(biāo)注,其中,中間第一字表示一個(gè)單元詞中除起始字和結(jié)束字之外的第一個(gè)字,中間第二字表示一個(gè)單元詞中除起始字和結(jié)束字之外的第二個(gè)字,而中間字則表示一個(gè)單元詞中除起始字和結(jié)束字之外的最后一個(gè)字。如,假設(shè)文本為“人民大會(huì)堂”,則通過(guò)基于CRF算法的分詞模型可確定:“人”為起始字,標(biāo)注為“人HAN B”,“民”為中間第一字,標(biāo)注為“民HAN M1”,“大”為中間第二字,標(biāo)注為“大HANM2”,“會(huì)”為中間字,標(biāo)注為“會(huì)HAN M”,“堂”為結(jié)束字,標(biāo)注為“堂HAN E”。上述包括起始字、中間第一字、中間第二字、中間字、結(jié)束字、獨(dú)立字的字位置屬性可稱(chēng)為6tag。上述步驟SlOl可稱(chēng)為分詞過(guò)程。S102:針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性。在本發(fā)明實(shí)施例中,對(duì)于通過(guò)上述步驟SlOl得到的一個(gè)單元詞,文本處理系統(tǒng)可根據(jù)該單元詞中的字確定該單元詞的詞類(lèi)別,并根據(jù)該單元詞的詞類(lèi)別以及該單元詞確定該單元詞的詞性,確定該單元詞的詞性后,可采用確定的詞性對(duì)該單元詞進(jìn)行標(biāo)注。具體的,針對(duì)一個(gè)單元詞,文本處理系統(tǒng)可以該單元詞中的最后一個(gè)字的字類(lèi)別作為該單元詞的詞類(lèi)別,再根據(jù)該單元詞的詞類(lèi)別以及該單元詞,通過(guò)預(yù)設(shè)的詞性標(biāo)注模型確定該單元詞的詞性,其中,上述詞性標(biāo)注模型也是采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的。需要說(shuō)明的是,由于在確定單元詞的詞類(lèi)別時(shí),是以該單元詞中的最后一個(gè)字的字類(lèi)別作為該單元詞的詞類(lèi)別的,而字類(lèi)別包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他,因此,本發(fā)明實(shí)施例中的詞類(lèi)別也包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他。繼續(xù)沿用上例,對(duì)于得到的單元詞“中國(guó)”,由于其最后一個(gè)字“國(guó)”的字類(lèi)別是漢字,因此文本處理系統(tǒng)可確定該單元詞“中國(guó)”的詞類(lèi)別也是漢字,將其標(biāo)注為“中國(guó)HAN”。然后,文本處理系統(tǒng)根據(jù)該單元詞(“中國(guó)”)以及該單元詞的詞類(lèi)別(漢字),通過(guò)詞性標(biāo)注模型確定該單元詞的詞性為地名,因此,可將該單元詞標(biāo)注為“中國(guó)HAN ns”,其中,“HAN”表示該單元詞的詞類(lèi)別為漢字,“ ns”表示該單元詞的詞性為地名。類(lèi)似的,文本處理系統(tǒng)可采用同樣方法,確定單元詞“國(guó)際”的詞類(lèi)別為漢字,詞性為名詞,并將其標(biāo)注為“國(guó)際HAN η”;確定單元詞“廣播”的詞類(lèi)別為漢字,詞性為名動(dòng)詞,并將其標(biāo)注為“廣播HAN νη” ;確定單元詞“電臺(tái)”的詞類(lèi)別為漢字,詞性為名詞,并將其標(biāo)注為“電臺(tái)HAN η”。其中,η表示名詞,νη表示名動(dòng)詞。上述步驟S102可稱(chēng)為詞性標(biāo)注過(guò)程。S103:針對(duì)每個(gè)單元詞,根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性。在本發(fā)明實(shí)施例中,對(duì)于一個(gè)單元詞,文本處理系統(tǒng)可根據(jù)該單元詞的詞類(lèi)別、詞性以及該單元詞本身,確定該單元詞的實(shí)體詞屬性。具體的,可根據(jù)該單元詞的詞類(lèi)別、詞性以及該單元詞,采用預(yù)設(shè)的實(shí)體識(shí)別模型確定該單元詞的實(shí)體詞屬性。其中,上述實(shí)體識(shí)別模型也是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的。實(shí)體詞屬性包括實(shí)體詞詞性和單元詞位置屬性。實(shí)體詞詞性包括人名、地名、機(jī)構(gòu)名等。單元詞位置屬性包括起始詞、中間詞、結(jié)束詞。繼續(xù)沿用上例,對(duì)于單元詞“中國(guó)”,其詞類(lèi)別為漢字,詞性為名詞,則文本處理系統(tǒng)通過(guò)實(shí)體識(shí)別模型,確定該單元詞的實(shí)體詞詞性為機(jī)構(gòu)名,單元詞位置屬性為起始詞,因此,可將“中國(guó)”標(biāo)注為“中國(guó)HAN ns B-nt ”,其中,“B_nt ”中的“ B-”表示該單元詞“中國(guó)”的單元詞位置屬性是起始詞,“nt”表示該單元詞“中國(guó)”的實(shí)體詞詞性是機(jī)構(gòu)名。類(lèi)似的,文本處理系統(tǒng)可采用同樣方法,確定單元詞“國(guó)際”的實(shí)體詞詞性為機(jī)構(gòu)名、單元詞位置屬性為中間詞,并將其標(biāo)注為“國(guó)際HAN n M-nt”;確定單元詞“廣播”的實(shí)體詞詞性為機(jī)構(gòu)名、單元詞位置屬性為中間詞,并將其標(biāo)注為“廣播HAN vn M-nt”確定單元詞“電臺(tái)”的實(shí)體詞詞性為機(jī)構(gòu)名、單元詞位置屬性為結(jié)束詞,并將其標(biāo)注為“電臺(tái)HAN ηE-nt”。其中,“M-”表示單元詞位置屬性為中間詞,“E-”表示單元詞位置屬性為結(jié)束詞。另外,由于實(shí)際應(yīng)用中存在單個(gè)單元詞成實(shí)體詞的情況,因此,為了提高實(shí)體識(shí)別的準(zhǔn)確性,上述單元詞位置屬性除包括起始詞、中間詞、結(jié)束詞以外,還可包括獨(dú)立詞,獨(dú)立詞的單元詞位置屬性標(biāo)注可設(shè)置為“S-”。S104:根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別該文本中的實(shí)體詞。確定了每個(gè)單元詞的實(shí)體詞詞性和單元詞位置屬性后,文本處理系統(tǒng)可根據(jù)每個(gè)單元詞的實(shí)體詞詞性和單元詞位置屬性進(jìn)行實(shí)體識(shí)別。具體的,文本處理系統(tǒng)可針對(duì)單元詞位置屬性為起始詞的每個(gè)單元詞,按照文本中各單元詞的先后順序,查找排在該單元詞之后的第一個(gè)單元詞位置屬性為結(jié)束詞的單元詞,并將文本中從該單元詞位置屬性為起始詞的單元詞開(kāi)始,到查找到的該單元詞位置屬性為結(jié)束詞的單元詞為止所包含的所有單元詞組合成一個(gè)實(shí)體詞,然后,針對(duì)組合城的實(shí)體詞,將該實(shí)體詞中滿(mǎn)足指定條件的單元詞的實(shí)體詞詞性,確定為該實(shí)體詞的詞性,其中,針對(duì)該實(shí)體詞中的一個(gè)待定單元詞,如果該實(shí)體詞中與該待定單元詞具有相同實(shí)體詞詞性的單元詞的數(shù)量最多,則該待定單元詞為滿(mǎn)足上述指定條件的單元詞。
另外,當(dāng)文本中包括單元詞位置屬性為獨(dú)立詞的單元詞時(shí),文本處理系統(tǒng)還可將單元詞位置屬性為獨(dú)立詞的單元詞確定為一個(gè)實(shí)體詞,并將該實(shí)體詞的詞性確定為該單元詞的實(shí)體詞詞性。繼續(xù)沿用上例,針對(duì)文本中單元詞位置屬性為起始詞的單元詞“中國(guó)”,按文本中各單元詞的先后順序,查找到排在“中國(guó)”之后的第一個(gè)單元詞位置屬性為結(jié)束詞的單元詞為“電臺(tái)”,因此,文本處理系統(tǒng)將文本中從“中國(guó)”開(kāi)始到“電臺(tái)”為止所包含的所有單元詞進(jìn)行組合,得到實(shí)體詞“中國(guó)國(guó)際廣播電臺(tái)”。然后,針對(duì)該實(shí)體詞“中國(guó)國(guó)際廣播電臺(tái)”,由于其中的單元詞“中國(guó)”的實(shí)體詞詞性為機(jī)構(gòu)名,而與該單元詞“中國(guó)”的實(shí)體詞詞性相同的其他單元詞的數(shù)量最多,因此單元詞“中國(guó)”是滿(mǎn)足上述指定條件的單元詞(實(shí)際上單元詞“國(guó)際”、“廣播”、“電臺(tái)”都是滿(mǎn)足上述指定條件的單元詞),將該單元詞“中國(guó)”的實(shí)體詞詞性(即,機(jī)構(gòu)名)作為“中國(guó)國(guó)際廣播電臺(tái)”的詞性??梢?jiàn),在進(jìn)行實(shí)體識(shí)別時(shí),文本處理系統(tǒng)是以單元詞為單位進(jìn)行的,而不是以字為單位進(jìn)行的。上述針對(duì)一個(gè)實(shí)體詞,之所以將該實(shí)體詞中滿(mǎn)足指定條件的單元詞的實(shí)體詞詞性確定為該實(shí)體詞的詞性的原因在于:由于上述步驟S103中確定各單元詞的實(shí)體詞詞性時(shí)是通過(guò)基于CRF算法的實(shí)體識(shí)別模型確定的,不可避免會(huì)存在對(duì)一些單元詞的實(shí)體詞詞性確定有誤的現(xiàn)象,因此,為了避免識(shí)別出的實(shí)體詞的詞性有誤,本發(fā)明實(shí)施例中將識(shí)別出的實(shí)體詞中滿(mǎn)足上述指定條件的單元詞的實(shí)體詞詞性作為該實(shí)體詞的詞性,相當(dāng)于對(duì)通過(guò)步驟S103確定的各單元詞的實(shí)體詞詞性進(jìn)行了滑動(dòng)處理。例如,如果上例中“國(guó)際”、“廣播”、“電臺(tái)”的實(shí)體詞詞性都是機(jī)構(gòu)名,而“中國(guó)”的實(shí)體詞詞性為地名,則滿(mǎn)足指定條件的單元詞為“國(guó)際”、“廣播”和“電臺(tái)”,從而確定出的實(shí)體詞“中國(guó)國(guó)際廣播電臺(tái)”的詞性仍然是機(jī)構(gòu)名。上述步驟S103 S104可稱(chēng)為實(shí)體識(shí)別過(guò)程。S105:根據(jù)識(shí)別出的實(shí)體詞對(duì)該文本進(jìn)行處理。文本處理系統(tǒng)通過(guò)上述方法識(shí)別出文本中的實(shí)體詞,并確定了識(shí)別出的實(shí)體詞的詞性后,則可根據(jù)識(shí)別出的實(shí)體詞以及實(shí)體詞的詞性對(duì)該文本進(jìn)行處理。例如,可按照從文本中識(shí)別出的實(shí)體詞設(shè)置該文本的標(biāo)簽,再根據(jù)各文本的標(biāo)簽對(duì)文本進(jìn)行分類(lèi)。又如,當(dāng)文本是具有較強(qiáng)時(shí)效性的微博,而且該微博的熱度也較高時(shí)(說(shuō)明該微博很有可能是反映熱點(diǎn)輿情的微博),則可根據(jù)從該微博中識(shí)別出的實(shí)體詞(人名、地名或者機(jī)構(gòu)名),確定相應(yīng)的微博用戶(hù),并將該微博推送給確定出的微博用戶(hù),使其獲知該微博所反映的熱點(diǎn)輿情。再如,按照從文本中識(shí)別出的實(shí)體詞為該文本設(shè)置標(biāo)簽后,可在用戶(hù)搜索文本時(shí),查找與用戶(hù)輸入的搜索詞相匹配的標(biāo)簽,并將查找到的標(biāo)簽對(duì)應(yīng)的文本作為搜索結(jié)果提供給用戶(hù)。通過(guò)上述方法,文本處理系統(tǒng)可以單元詞為單元進(jìn)行實(shí)體識(shí)別,相比于現(xiàn)有技術(shù)中以字為單位進(jìn)行實(shí)體識(shí)別的方法,可以有效縮短采用CRF算法解碼時(shí)的路徑長(zhǎng)度,提高了實(shí)體識(shí)別的效率和準(zhǔn)確性,從而可有效提高后續(xù)基于識(shí)別出的實(shí)體詞進(jìn)行文本處理的效率和準(zhǔn)確性。另外,由上述過(guò)程可以看出,本發(fā)明實(shí)施例將分詞、詞性標(biāo)注和實(shí)體識(shí)別結(jié)合在了一起,在分詞時(shí)采用小粒度的劃分,以字為單位,確定每個(gè)字的字類(lèi)別和字位置屬性,據(jù)此得到單元詞,再以單元詞中最后一個(gè)字的字類(lèi)別作為單元詞的詞類(lèi)別,根據(jù)單元詞本身以及單元詞的詞類(lèi)別確定單元詞的詞性并標(biāo)注,最后根據(jù)單元詞本身、單元詞的詞類(lèi)別、單元詞的詞性確定單元詞的實(shí)體詞屬性,根據(jù)實(shí)體詞屬性進(jìn)行實(shí)體識(shí)別,也即,步驟SlOl對(duì)文本分詞的結(jié)果可直接用于步驟S102進(jìn)行詞性標(biāo)注,而步驟S102的詞性標(biāo)注結(jié)果又可直接用于步驟S103和S104的實(shí)體識(shí)別,實(shí)現(xiàn)了對(duì)非實(shí)體詞的小粒度分詞以及詞性標(biāo)注,對(duì)實(shí)體詞的粗粒度標(biāo)注,可以滿(mǎn)足互聯(lián)網(wǎng)中數(shù)據(jù)的一般要求。當(dāng)然,僅通過(guò)如圖1所示的步驟SlOl對(duì)文本進(jìn)行分詞處理,或者,通過(guò)步驟SlOl和S102對(duì)文本進(jìn)行分詞和詞性標(biāo)注處理也是可以的。以上是本發(fā)明實(shí)施例提供的文本處理方法,基于同樣的發(fā)明思路,本發(fā)明實(shí)施例還提供一種文本處理系統(tǒng),如圖2所示。圖2為本發(fā)明實(shí)施例提供的文本處理系統(tǒng)結(jié)構(gòu)示意圖,具體包括:分詞模塊201,用于對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞;詞性標(biāo)注模塊202,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性;實(shí)體詞識(shí)別模塊203,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性;根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞;文本處理模塊204,用于根據(jù)識(shí)別出的實(shí)體詞對(duì)所述文本進(jìn)行處理。所述分詞模塊201具體用于,以字為單位對(duì)所述文本進(jìn)行拆分,得到所述文本中的每個(gè)字;針對(duì)得到的每個(gè)字,通過(guò)預(yù)設(shè)的分詞模型確定該字的字類(lèi)別以及字位置屬性;其中,所述分詞模型是預(yù)先采用條件隨機(jī)場(chǎng)CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述字類(lèi)別包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他,所述字位置屬性包括起始字、中間字、結(jié)束字;針對(duì)字位置屬性為起始字的每個(gè)字,按照所述文本中各個(gè)字的先后順序,查找排在該字之后的第一個(gè)字位置屬性為結(jié)束字的字,將所述文本中從該字位置屬性為起始字的字開(kāi)始,到查找到的該字位置屬性為結(jié)束字的字為止所包含的所有字組合成一個(gè)單元詞。所述詞性標(biāo)注模塊202具體用于,以該單元詞中的最后一個(gè)字的字類(lèi)別作為該單元詞的詞類(lèi)別;根據(jù)該單元詞的詞類(lèi)別以及該單元詞,通過(guò)預(yù)設(shè)的詞性標(biāo)注模型確定該單元詞的詞性,其中,所述詞性標(biāo)注模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的。所述實(shí)體詞識(shí)別模塊203具體包括:屬性確定單元2031,用于根據(jù)該單元詞的詞類(lèi)別、詞性以及該單元詞,采用預(yù)設(shè)的實(shí)體識(shí)別模型確定該單元詞的實(shí)體詞屬性;其中,所述實(shí)體識(shí)別模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述實(shí)體詞屬性包括實(shí)體詞詞性和單元詞位置屬性,所述單元詞位置屬性包括起始詞、中間詞、結(jié)束詞。所述實(shí)體詞識(shí)別模塊203具體包括:識(shí)別單元2032,用于針對(duì)單元詞位置屬性為起始詞的每個(gè)單元詞,按照所述文本中各單元詞的先后順序,查找排在該單元詞之后的第一個(gè)單元詞位置屬性為結(jié)束詞的單元詞,將所述文本中從該單元詞位置屬性為起始詞的單元詞開(kāi)始,到查找到的該單元詞位置屬性為結(jié)束詞的單元詞為止所包含的所有單元詞組合成一個(gè)實(shí)體詞;針對(duì)組合成的實(shí)體詞,將該實(shí)體詞中滿(mǎn)足指定條件的單元詞的實(shí)體詞詞性,確定為該實(shí)體詞的詞性;其中,針對(duì)該實(shí)體詞中的一個(gè)待定單元詞,如果該實(shí)體詞中與該待定單元詞具有相同實(shí)體詞詞性的單元詞的數(shù)量最多,則該待定單元詞為滿(mǎn)足所述指定條件的單元詞。
本發(fā)明實(shí)施例提供一種文本處理方法及系統(tǒng),該方法文本處理系統(tǒng)對(duì)文本進(jìn)行分詞得到單元詞,針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性,并據(jù)此確定該單元詞的實(shí)體詞屬性,根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別文本中的實(shí)體詞,根據(jù)識(shí)別出的實(shí)體詞對(duì)文本進(jìn)行處理。通過(guò)上述方法,文本處理系統(tǒng)是以單元詞為單位進(jìn)行實(shí)體識(shí)別的,因此可以有效縮短采用CRF算法解碼時(shí)的路徑長(zhǎng)度,提高實(shí)體識(shí)別的效率和準(zhǔn)確性,從而提高了后續(xù)基于識(shí)別出的實(shí)體詞進(jìn)行文本處理的效率和準(zhǔn)確性。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)實(shí)施例進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)實(shí)施例的精神和范圍。這樣,倘若本申請(qǐng)實(shí)施例的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種文本處理方法,其特征在于,包括: 對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞; 針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性; 根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性; 根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞; 根據(jù)識(shí)別出的實(shí)體詞對(duì)所述文本進(jìn)行處理。
2.如權(quán)利要求1所述的方法,其特征在于,對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞,具體包括: 以字為單位對(duì)所述文本進(jìn)行拆分,得到所述文本中的每個(gè)字; 針對(duì)得到的每個(gè)字,通過(guò)預(yù)設(shè)的分詞模型確定該字的字類(lèi)別以及字位置屬性;其中,所述分詞模型是預(yù)先采用條件隨機(jī)場(chǎng)CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述字類(lèi)別包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他,所述字位置屬性包括起始字、中間字、結(jié)束字; 針對(duì)字位置屬性為起始字的每個(gè)字,按照所述文本中各個(gè)字的先后順序,查找排在該字之后的第一個(gè)字位置屬性為結(jié)束字的字,將所述文本中從該字位置屬性為起始字的字開(kāi)始,到查找到的該字位置屬性為結(jié)束字的字為止所包含的所有字組合成一個(gè)單元詞。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性,具體包括: 以該單元詞中的最后一個(gè)字的字 類(lèi)別作為該單元詞的詞類(lèi)別; 根據(jù)該單元詞的詞類(lèi)別以及該單元詞,通過(guò)預(yù)設(shè)的詞性標(biāo)注模型確定該單元詞的詞性,其中,所述詞性標(biāo)注模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性,具體包括: 根據(jù)該單元詞的詞類(lèi)別、詞性以及該單元詞,采用預(yù)設(shè)的實(shí)體識(shí)別模型確定該單元詞的實(shí)體詞屬性; 其中,所述實(shí)體識(shí)別模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述實(shí)體詞屬性包括實(shí)體詞詞性和單元詞位置屬性,所述單元詞位置屬性包括起始詞、中間詞、結(jié)束ο
5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞,具體包括: 針對(duì)單元詞位置屬性為起始詞的每個(gè)單元詞,按照所述文本中各單元詞的先后順序,查找排在該單元詞之后的第一個(gè)單元詞位置屬性為結(jié)束詞的單元詞,將所述文本中從該單元詞位置屬性為起始詞的單元詞開(kāi)始,到查找到的該單元詞位置屬性為結(jié)束詞的單元詞為止所包含的所有單元詞組合成一個(gè)實(shí)體詞; 針對(duì)組合成的實(shí)體詞,將該實(shí)體詞中滿(mǎn)足指定條件的單元詞的實(shí)體詞詞性,確定為該實(shí)體詞的詞性;其中,針對(duì)該實(shí)體詞中的一個(gè)待定單元詞,如果該實(shí)體詞中與該待定單元詞具有相同實(shí)體詞詞性的單元詞的數(shù)量最多,則該待定單元詞為滿(mǎn)足所述指定條件的單元ο
6.一種文本處理系統(tǒng),其特征在于,包括: 分詞模塊,用于對(duì)文本進(jìn)行分詞處理,得到所述文本中的各單元詞;詞性標(biāo)注模塊,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性; 實(shí)體詞識(shí)別模塊,用于針對(duì)每個(gè)單元詞,根據(jù)該單元詞的詞性以及該單元詞確定該單元詞的實(shí)體詞屬性;根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別所述文本中的實(shí)體詞; 文本處理模塊,用于根據(jù)識(shí)別出的實(shí)體詞對(duì)所述文本進(jìn)行處理。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述分詞模塊具體用于,以字為單位對(duì)所述文本進(jìn)行拆分,得到所述文本中的每個(gè)字;針對(duì)得到的每個(gè)字,通過(guò)預(yù)設(shè)的分詞模型確定該字的字類(lèi)別以及字位置屬性;其中,所述分詞模型是預(yù)先采用條件隨機(jī)場(chǎng)CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述字類(lèi)別包括漢字、英文、數(shù)字、時(shí)間、符號(hào)、其他,所述字位置屬性包括起始字、中間字、結(jié)束字;針對(duì)字位置屬性為起始字的每個(gè)字,按照所述文本中各個(gè)字的先后順序,查找排在該字之后的第一個(gè)字位置屬性為結(jié)束字的字,將所述文本中從該字位置屬性為起始字的字開(kāi)始,到查找到的該字位置屬性為結(jié)束字的字為止所包含的所有字組合成一個(gè)單元詞。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述詞性標(biāo)注模塊具體用于,以該單元詞中的最后一個(gè)字的字類(lèi)別作為該單元詞的詞類(lèi)別;根據(jù)該單元詞的詞類(lèi)別以及該單元詞,通過(guò)預(yù)設(shè)的詞性標(biāo)注模型確定該單元詞的詞性,其中,所述詞性標(biāo)注模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述實(shí)體詞識(shí)別模塊具體包括: 屬性確定單元,用于根據(jù)該單元詞的詞類(lèi)別、詞性以及該單元詞,采用預(yù)設(shè)的實(shí)體識(shí)別模型確定該單元詞的實(shí)體詞屬性;其中,所述實(shí)體識(shí)別模型是預(yù)先采用CRF算法對(duì)標(biāo)準(zhǔn)語(yǔ)料進(jìn)行學(xué)習(xí)得到的,所述實(shí)體詞屬性包括實(shí)體詞詞性和單元詞位置屬性,所述單元詞位置屬性包括起始詞、中間詞、結(jié)束詞。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述實(shí)體詞識(shí)別模塊具體包括: 識(shí)別單元,用于針對(duì)單元詞位置屬性為起始詞的每個(gè)單元詞,按照所述文本中各單元詞的先后順序,查找排在該單元詞之后的第一個(gè)單元詞位置屬性為結(jié)束詞的單元詞,將所述文本中從該單元詞位置屬性為起始詞的單元詞開(kāi)始,到查找到的該單元詞位置屬性為結(jié)束詞的單元詞為止所包含的所有單元詞組合成一個(gè)實(shí)體詞;針對(duì)組合成的實(shí)體詞,將該實(shí)體詞中滿(mǎn)足指定條件的單元詞的實(shí)體詞詞性,確定為該實(shí)體詞的詞性;其中,針對(duì)該實(shí)體詞中的一個(gè)待定單元詞,如果該實(shí)體詞中與該待定單元詞具有相同實(shí)體詞詞性的單元詞的數(shù)量最多,則該待定單元詞為滿(mǎn)足所述指定條件的單元詞。
全文摘要
本發(fā)明公開(kāi)了一種文本處理方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中文本處理的效率和準(zhǔn)確性較低的問(wèn)題。該方法文本處理系統(tǒng)對(duì)文本進(jìn)行分詞得到單元詞,針對(duì)每個(gè)單元詞,根據(jù)該單元詞中的字以及該單元詞確定該單元詞的詞性,并據(jù)此確定該單元詞的實(shí)體詞屬性,根據(jù)每個(gè)單元詞的實(shí)體詞屬性識(shí)別文本中的實(shí)體詞,根據(jù)識(shí)別出的實(shí)體詞對(duì)文本進(jìn)行處理。通過(guò)上述方法,文本處理系統(tǒng)是以單元詞為單位進(jìn)行實(shí)體識(shí)別的,因此可以有效縮短采用CRF算法解碼時(shí)的路徑長(zhǎng)度,提高實(shí)體識(shí)別的效率和準(zhǔn)確性,從而提高了后續(xù)基于識(shí)別出的實(shí)體詞進(jìn)行文本處理的效率和準(zhǔn)確性。
文檔編號(hào)G06F17/21GK103176953SQ201310090249
公開(kāi)日2013年6月26日 申請(qǐng)日期2013年3月20日 優(yōu)先權(quán)日2013年3月20日
發(fā)明者戴明洋 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1