一種自適應(yīng)的分詞方法

文檔序號(hào)：9687416閱讀：822來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種自適應(yīng)的分詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種自適應(yīng)的分詞系統(tǒng)的構(gòu)建和應(yīng)用的方法，屬于自然語(yǔ)言處理的計(jì) 算機(jī)技術(shù)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002] 目前信息的記錄和傳輸?shù)姆椒ㄖ饕峭ㄟ^(guò)人類自然語(yǔ)言。人類的語(yǔ)言與人群活動(dòng) 的環(huán)境密切相關(guān)，是相互協(xié)商，共同完成同一認(rèn)知范疇中的任務(wù)的基礎(chǔ)條件。運(yùn)種自然語(yǔ)言是人參與社會(huì)活動(dòng)，為更高效的信息交流和留存所產(chǎn)生的工具。人類的語(yǔ)言是W獨(dú)立的詞為認(rèn)知結(jié)構(gòu)，字是詞的組成元素。語(yǔ)言用來(lái)交流時(shí)，采用序列的形式，將各能表示獨(dú)立意義的詞進(jìn)行銜接，并W帶有序關(guān)系的連續(xù)字串的方式記錄下來(lái)，形成表達(dá)完整意義的句子和文章。
[0003] 提取出各句子中詞運(yùn)種語(yǔ)義單元是理解信息的基本條件。但在對(duì)文本形式記錄的句子進(jìn)行理解時(shí)，由于各獨(dú)立詞之間沒(méi)有明確的隔斷信息，不同的字串結(jié)合在一起可W形成不同的信息表達(dá)，不正確的字串的切分成詞的方式（即分詞)會(huì)帶來(lái)信息的錯(cuò)誤認(rèn)知。人腦有很強(qiáng)的糾錯(cuò)功能，完全由相關(guān)生活環(huán)境下的人來(lái)閱讀理解句子時(shí)，運(yùn)種錯(cuò)誤相對(duì)可控。
[0004] 在網(wǎng)絡(luò)和信息時(shí)代，由人參與的活動(dòng)/行為就在網(wǎng)絡(luò)上形成了不同的記錄信息，而運(yùn)些信息又絕大多數(shù)是W自然語(yǔ)言的句子運(yùn)種文本形式表達(dá)的，形成了文本信息的爆炸。對(duì)運(yùn)種海量文本的分析已無(wú)法完全由人工來(lái)處理，運(yùn)就要求計(jì)算機(jī)能有效對(duì)文本進(jìn)行切分。
[000引對(duì)文本進(jìn)行正確分詞的技術(shù)，當(dāng)前主要有兩種處理思路，即基于詞典的模式匹配和基于統(tǒng)計(jì)的分類方法?；谠~典的模型依賴于分詞所采用的詞典，當(dāng)待切分的句子的正確詞語(yǔ)在詞典中都有記錄時(shí)，分詞能達(dá)到一定效果，但準(zhǔn)確率仍相對(duì)有限；同時(shí)此方法本質(zhì) 上無(wú)法解決詞語(yǔ)的歧義及新詞沒(méi)在詞典中記錄的問(wèn)題。而基于統(tǒng)計(jì)的分詞方法是W已分好詞的語(yǔ)料為基礎(chǔ)資源，訓(xùn)練分類器生成判別模型，從而對(duì)新的語(yǔ)料進(jìn)行分詞判斷。在和訓(xùn)練語(yǔ)料相關(guān)的領(lǐng)域，運(yùn)種方法的分詞性能較好。但是此方法對(duì)訓(xùn)練語(yǔ)料依賴性強(qiáng)，應(yīng)用時(shí)需要針對(duì)不同領(lǐng)域訓(xùn)練不同的模型，而標(biāo)注語(yǔ)料的成本太高，W至于此方法不便于在不同領(lǐng)域進(jìn)行擴(kuò)充。也有技術(shù)將基于詞典和統(tǒng)計(jì)的方法進(jìn)行結(jié)合，但實(shí)際上把詞典、訓(xùn)練語(yǔ)料當(dāng)成了內(nèi)部資源或者獨(dú)立資源加入模型，應(yīng)用時(shí)推廣的效果有限。
[0006] 本發(fā)明將基于詞典和基于統(tǒng)計(jì)的方法進(jìn)行結(jié)合，把詞典信息作為一個(gè)可由外部適配調(diào)整、可在統(tǒng)計(jì)模型模型內(nèi)部產(chǎn)生影響及生成特征的資源，并全面考慮模型學(xué)習(xí)時(shí)原始訓(xùn)練語(yǔ)料對(duì)詞典的影響，而算法設(shè)置了高效的特征的生成和組合方式，可充分降低計(jì)算的復(fù)雜度，并最終有效生成高準(zhǔn)確率的分詞模型；而應(yīng)用時(shí)可方便的在詞典中有針對(duì)的加入相關(guān)的詞，有效提高算法的在不同場(chǎng)景下的適用性。
[0007]

【發(fā)明內(nèi)容】
本發(fā)明的目的是為了解決計(jì)算機(jī)在自然語(yǔ)言處理中難w對(duì)句子做準(zhǔn)確分詞、并在新領(lǐng) 域進(jìn)行有效推廣應(yīng)用的難題，提供了一種結(jié)合詞典匹配和統(tǒng)計(jì)模型的自動(dòng)分詞方法。
[0008]本發(fā)明設(shè)計(jì)的方法由訓(xùn)練模型和應(yīng)用模型兩個(gè)階段組成，它包括W下步驟：訓(xùn)練階段訓(xùn)練步驟一:獲取模型訓(xùn)練階段的依賴資源:獲取已分好詞(各句子中的字符有確定的切分成獨(dú)立詞的標(biāo)準(zhǔn)答案）的NS個(gè)句子的集合S={S(i)}為訓(xùn)練語(yǔ)料，各句子記為S(i)，其中 1 < i含NS，要求NS含50000;人工給定一個(gè)包含50個(gè)詞W上的詞典D，并人為指定詞典擴(kuò)充系數(shù)ει, ￡2; 訓(xùn)練步驟二:從訓(xùn)練語(yǔ)料中提取語(yǔ)料高相關(guān)的詞語(yǔ)，對(duì)詞典進(jìn)行擴(kuò)充，提取的步驟細(xì)節(jié) 為：訓(xùn)練步驟二一:統(tǒng)計(jì)S中所有詞的總數(shù)目，記為NW;進(jìn)一步統(tǒng)計(jì)S中所含有的不同詞的總數(shù)目，記為NWU; 訓(xùn)練步驟二二:統(tǒng)計(jì)S中所有不同的詞各自出現(xiàn)的頻次，并將詞按對(duì)應(yīng)詞頻由大到小的順序進(jìn)行排列，記排序后結(jié)果為WD={wd(l) ,wd(2),wd(NWU)}，對(duì)應(yīng)的頻次記為NWD={nwd (1) ,nwd(2), ··· ,nwd(NWU)}；訓(xùn)練步驟二Ξ:在WD中找出依序排列的第St個(gè)序位（l<st<NmJ)，使得NWD中前St個(gè)序位對(duì)應(yīng)的頻次滿足：
訓(xùn)練步驟二四：在WD中找出依序排列的第ed個(gè)序位（KecKNWU)，使得NWD中前ed個(gè)序位對(duì)應(yīng)的頻次滿足：
訓(xùn)練步驟二五:在WD中找出從第St個(gè)序位開(kāi)始，到第ed個(gè)序位的為止的依序排列的所有的詞的集合，記為WDA，即WDA={wd(st) ,wd(st+l),... ,wd(ed)}, l<st<ed<NWU 訓(xùn)練步驟二六:將WDA中所有詞加入原來(lái)的詞典中D，構(gòu)成新的詞典化，此字典中長(zhǎng)度最長(zhǎng)的詞的長(zhǎng)度記為NLot; 訓(xùn)練步驟Ξ:對(duì)訓(xùn)練語(yǔ)料S的所有字符進(jìn)行特征化表示，得到每個(gè)字符的抽取后的特征表示結(jié)果，記S(i，ji)為句子S(i)的第ji個(gè)字，其中1 < ji<句子S(i)的總字符數(shù)，則s(i, ji)對(duì)應(yīng)的特征化結(jié)果為：尸'乾屯、^:、屯,?*, f、.、.每 Α?韋?！叮?:韋3 . W flS j ; 其中各特征的提取細(xì)節(jié)步驟為：訓(xùn)練步驟Ξ-:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符，建立各序位的字符對(duì)應(yīng)的5個(gè) 一元語(yǔ)法特征，分別表示為fl, f2, f3, f4, fs :

訓(xùn)練步驟Ξ二:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的4個(gè)二元語(yǔ) 法特征，分別表示為fs, f7, fs:
訓(xùn)練步驟ΞΞ:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的3個(gè)類型相關(guān)特征，分別表示為f 10，f 11，f 12:
訓(xùn)練步驟Ξ四：對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的3個(gè)字典型特征，分別表示為f 13，f 14，f 15: fl3 =在詞典化中，W此字符為第一個(gè)字符進(jìn)行最大正向匹配所得詞的長(zhǎng)度值;在化中找不到符合條件的詞時(shí)長(zhǎng)度即為0; fl4=在詞典化中，W此字符為最后一個(gè)字符進(jìn)行逆向最大匹配所得詞的長(zhǎng)度值;在化中找不到符合條件的詞時(shí)長(zhǎng)度即為0; f 15 =在本句中，用此字符的前化Dt個(gè)序位至此字前1個(gè)序位的字在詞典化中采用正向最大匹配后，得到的經(jīng)過(guò)此位置并且不W此字為結(jié)尾字符的最長(zhǎng)詞的長(zhǎng)度值;若沒(méi)有符合條件的情況，長(zhǎng)度即為0; 訓(xùn)練步驟四：對(duì)訓(xùn)練語(yǔ)料S的各個(gè)字符的類別進(jìn)行數(shù)字化表示，對(duì)應(yīng)得到各句子S( i )的每個(gè)序位上的字符S( i，ji)對(duì)應(yīng)的類別表示結(jié)果g(i，ji);
訓(xùn)練步驟五:基于條件隨機(jī)場(chǎng)模型，將訓(xùn)練語(yǔ)料中所有字符的特征化結(jié)果F(S(i，ji)) 和對(duì)應(yīng)的類別表示結(jié)果g(i，ji)作為輸入數(shù)據(jù)，進(jìn)行訓(xùn)練，得到訓(xùn)練后的分詞模型Μ。
[0009]分詞應(yīng)用階段：對(duì)于一個(gè)要做分詞處理的句子R=kl，C2,…，Cy}，其中Cl,C2，···，Cy為此句子中的依序排列的各個(gè)字符，y為句子R的字符總數(shù)，基于W下過(guò)程進(jìn)行分詞：應(yīng)用步驟一:獲得與待分詞句子相關(guān)的詞典化(化中的詞數(shù)含0)，并將化中所有詞加入化中，行成新的詞典化，此字典中長(zhǎng)度最長(zhǎng)的詞的長(zhǎng)度記為NLoa; 應(yīng)用步驟二:先對(duì)句子中的每個(gè)字符Cm提取特征F( Cm)，其中1含m < y，而？城》》.=:也，·$2.>為龍名邊成*如《9:尤?為龍s怎,其中各特征的提取細(xì)·ρ步驟為：應(yīng)用步驟二一:對(duì)句子R中的每個(gè)序位上的字符，建立各序位的字符對(duì)應(yīng)的5個(gè)一元語(yǔ) 法特征，分別表示為fl, f2, f3, f4, fs :
應(yīng)用步驟二二:對(duì)句子R中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的4個(gè)二元語(yǔ)法特征，分別表示為fs, f7, fs:
應(yīng)用步驟二Ξ:對(duì)句子R中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的3個(gè)類型相關(guān)特征，分別表不為fio, fll, fl2:
應(yīng)用步驟二四：對(duì)句子R中的每個(gè)序位上的字符，建立各字符對(duì)應(yīng)的3個(gè)字典型特征，分另ij表習(xí)^為fl3, fl4, f化： fl3 =在詞典化中，W此字符為第一個(gè)字符進(jìn)行最大正向匹配所得詞的長(zhǎng)度值;在化中找不到符合條件的詞時(shí)長(zhǎng)度即為0; fl4=在詞典化中，W此字符為最后一個(gè)字符進(jìn)行逆向最大匹配所得詞的長(zhǎng)度值;在化中找不到符合條件的詞時(shí)長(zhǎng)度即為0; f 15 =在本句中，用此字符的前化Da個(gè)序位至此字前1個(gè)序位的字在詞典化中采用正向最大匹配后，得到的經(jīng)過(guò)此位置并且不w此字為結(jié)尾字符的最長(zhǎng)詞的長(zhǎng)度值;若沒(méi)有符合條件的情況，長(zhǎng)度即為0; 應(yīng)用步驟Ξ:將句子R中所有字符的特征化結(jié)果F(cm)輸入已訓(xùn)練好的模型Μ中，并由模型Μ進(jìn)行分類評(píng)判，輸出各字符對(duì)應(yīng)的分類結(jié)果g ( Cm); 應(yīng)用步驟四：輸出所有g(shù)(Cm)值為1或4的字符Cm的序位，即句子R可在運(yùn)些位置做句子的組成詞切分，此即是此句子的分詞結(jié)果。
[0010] 本發(fā)明的優(yōu)點(diǎn)是:本發(fā)明基于自然語(yǔ)言的句子的內(nèi)在特性，提出了結(jié)合詞典和統(tǒng) 計(jì)模型的分詞方法，處理中把詞典信息作為一個(gè)可由外部適配調(diào)整、可在統(tǒng)計(jì)模型模型內(nèi) 部產(chǎn)生影響及生成特征的資源，并全面考慮模型學(xué)習(xí)時(shí)原始訓(xùn)練語(yǔ)料對(duì)詞典的影響，而算法設(shè)置了高效的特征的生成和組合方式，可充分降低計(jì)算的復(fù)雜度，并最終有效生成高準(zhǔn) 確率的分詞模型；而應(yīng)用時(shí)可方便的在詞典中有針對(duì)的加入相關(guān)的詞，有效提局算法的在不同場(chǎng)景下的適用性。
[0011] 本發(fā)明有效實(shí)現(xiàn)了計(jì)算機(jī)自動(dòng)對(duì)自然語(yǔ)言的語(yǔ)句進(jìn)行分詞處理，并方便在不同領(lǐng) 域下進(jìn)行擴(kuò)展應(yīng)用，而語(yǔ)句分詞后的結(jié)果可提供給計(jì)算機(jī)做后續(xù)的各種分析。
【附圖說(shuō)明】
[0012] 圖1為本發(fā)明的模型訓(xùn)練的方法的流程圖，圖2為應(yīng)用的方法的流程圖。
【具體實(shí)施方式】
[0013] 下面結(jié)合附圖圖1和圖2說(shuō)明本實(shí)施方式。
[0014] 本發(fā)明設(shè)計(jì)的方法由訓(xùn)練模型和應(yīng)用模型兩個(gè)階段組成，它包括W下具體應(yīng)用方式一的訓(xùn)練階段和具體應(yīng)用方式二的應(yīng)用階段。
[0015] 具體應(yīng)用方式一:訓(xùn)練階段訓(xùn)練步驟一:獲取模型訓(xùn)練階段的依賴資源:獲取已分好詞(各句子中的字符有確定的切分成獨(dú)立詞的標(biāo)準(zhǔn)答案）的NS個(gè)句子的集合S={S(i)}為訓(xùn)練語(yǔ)料，各句子記為S(i)，其中 1 < i含NS，要求NS含50000;人工給定一個(gè)包含50個(gè)詞W上的詞典D，并人為指定詞典擴(kuò)充系數(shù)ει, ε2; 訓(xùn)練步驟二:從訓(xùn)練語(yǔ)料中提取語(yǔ)料高相關(guān)的詞語(yǔ)，對(duì)詞典進(jìn)行擴(kuò)充，提取的步驟細(xì)節(jié) 為：訓(xùn)練步驟二一:統(tǒng)計(jì)S中所有詞的總數(shù)目，記為NW;進(jìn)一步統(tǒng)計(jì)S中所含有的不同詞的總數(shù)目，記為NWU; 訓(xùn)練步驟二二:統(tǒng)計(jì)S中所有不同的詞各自出現(xiàn)的頻次，并將詞按對(duì)應(yīng)詞頻由大到小的順序進(jìn)行排列，記排序后結(jié)果為WD={wd(l)，wd(2)，…，wd(NWU)}，對(duì)應(yīng)的頻次記為NWD={nwd (1) ,nwd(2), ··· ,nwd(NWU)}；訓(xùn)練步驟二Ξ:在WD中找出依序排列的第St個(gè)序位（l<st<NmJ)，使得NWD中

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賀惠新;
技術(shù)所有人：賀惠新;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自適應(yīng)控制方法相關(guān)技術(shù)

自適應(yīng)方法相關(guān)技術(shù)

圖像自適應(yīng)濾波方法相關(guān)技術(shù)

自適應(yīng)網(wǎng)頁(yè)設(shè)計(jì)的方法相關(guān)技術(shù)

前端自適應(yīng)布局的方法相關(guān)技術(shù)

wifi自適應(yīng)測(cè)試方法相關(guān)技術(shù)

自適應(yīng)控制有哪些方法相關(guān)技術(shù)

自適應(yīng)有限元方法相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種自適應(yīng)的分詞方法