日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種自適應(yīng)的分詞方法

文檔序號(hào):9687416閱讀:822來(lái)源:國(guó)知局
一種自適應(yīng)的分詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種自適應(yīng)的分詞系統(tǒng)的構(gòu)建和應(yīng)用的方法,屬于自然語(yǔ)言處理的計(jì) 算機(jī)技術(shù)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002] 目前信息的記錄和傳輸?shù)姆椒ㄖ饕峭ㄟ^(guò)人類自然語(yǔ)言。人類的語(yǔ)言與人群活動(dòng) 的環(huán)境密切相關(guān),是相互協(xié)商,共同完成同一認(rèn)知范疇中的任務(wù)的基礎(chǔ)條件。運(yùn)種自然語(yǔ)言 是人參與社會(huì)活動(dòng),為更高效的信息交流和留存所產(chǎn)生的工具。人類的語(yǔ)言是W獨(dú)立的詞 為認(rèn)知結(jié)構(gòu),字是詞的組成元素。語(yǔ)言用來(lái)交流時(shí),采用序列的形式,將各能表示獨(dú)立意義 的詞進(jìn)行銜接,并W帶有序關(guān)系的連續(xù)字串的方式記錄下來(lái),形成表達(dá)完整意義的句子和 文章。
[0003] 提取出各句子中詞運(yùn)種語(yǔ)義單元是理解信息的基本條件。但在對(duì)文本形式記錄的 句子進(jìn)行理解時(shí),由于各獨(dú)立詞之間沒(méi)有明確的隔斷信息,不同的字串結(jié)合在一起可W形 成不同的信息表達(dá),不正確的字串的切分成詞的方式(即分詞)會(huì)帶來(lái)信息的錯(cuò)誤認(rèn)知。人 腦有很強(qiáng)的糾錯(cuò)功能,完全由相關(guān)生活環(huán)境下的人來(lái)閱讀理解句子時(shí),運(yùn)種錯(cuò)誤相對(duì)可控。
[0004] 在網(wǎng)絡(luò)和信息時(shí)代,由人參與的活動(dòng)/行為就在網(wǎng)絡(luò)上形成了不同的記錄信息,而 運(yùn)些信息又絕大多數(shù)是W自然語(yǔ)言的句子運(yùn)種文本形式表達(dá)的,形成了文本信息的爆炸。 對(duì)運(yùn)種海量文本的分析已無(wú)法完全由人工來(lái)處理,運(yùn)就要求計(jì)算機(jī)能有效對(duì)文本進(jìn)行切 分。
[000引對(duì)文本進(jìn)行正確分詞的技術(shù),當(dāng)前主要有兩種處理思路,即基于詞典的模式匹配 和基于統(tǒng)計(jì)的分類方法?;谠~典的模型依賴于分詞所采用的詞典,當(dāng)待切分的句子的正 確詞語(yǔ)在詞典中都有記錄時(shí),分詞能達(dá)到一定效果,但準(zhǔn)確率仍相對(duì)有限;同時(shí)此方法本質(zhì) 上無(wú)法解決詞語(yǔ)的歧義及新詞沒(méi)在詞典中記錄的問(wèn)題。而基于統(tǒng)計(jì)的分詞方法是W已分好 詞的語(yǔ)料為基礎(chǔ)資源,訓(xùn)練分類器生成判別模型,從而對(duì)新的語(yǔ)料進(jìn)行分詞判斷。在和訓(xùn)練 語(yǔ)料相關(guān)的領(lǐng)域,運(yùn)種方法的分詞性能較好。但是此方法對(duì)訓(xùn)練語(yǔ)料依賴性強(qiáng),應(yīng)用時(shí)需要 針對(duì)不同領(lǐng)域訓(xùn)練不同的模型,而標(biāo)注語(yǔ)料的成本太高,W至于此方法不便于在不同領(lǐng)域 進(jìn)行擴(kuò)充。也有技術(shù)將基于詞典和統(tǒng)計(jì)的方法進(jìn)行結(jié)合,但實(shí)際上把詞典、訓(xùn)練語(yǔ)料當(dāng)成了 內(nèi)部資源或者獨(dú)立資源加入模型,應(yīng)用時(shí)推廣的效果有限。
[0006] 本發(fā)明將基于詞典和基于統(tǒng)計(jì)的方法進(jìn)行結(jié)合,把詞典信息作為一個(gè)可由外部適 配調(diào)整、可在統(tǒng)計(jì)模型模型內(nèi)部產(chǎn)生影響及生成特征的資源,并全面考慮模型學(xué)習(xí)時(shí)原始 訓(xùn)練語(yǔ)料對(duì)詞典的影響,而算法設(shè)置了高效的特征的生成和組合方式,可充分降低計(jì)算的 復(fù)雜度,并最終有效生成高準(zhǔn)確率的分詞模型;而應(yīng)用時(shí)可方便的在詞典中有針對(duì)的加入 相關(guān)的詞,有效提高算法的在不同場(chǎng)景下的適用性。
[0007]

【發(fā)明內(nèi)容】
本發(fā)明的目的是為了解決計(jì)算機(jī)在自然語(yǔ)言處理中難w對(duì)句子做準(zhǔn)確分詞、并在新領(lǐng) 域進(jìn)行有效推廣應(yīng)用的難題,提供了一種結(jié)合詞典匹配和統(tǒng)計(jì)模型的自動(dòng)分詞方法。
[0008]本發(fā)明設(shè)計(jì)的方法由訓(xùn)練模型和應(yīng)用模型兩個(gè)階段組成,它包括W下步驟: 訓(xùn)練階段 訓(xùn)練步驟一:獲取模型訓(xùn)練階段的依賴資源:獲取已分好詞(各句子中的字符有確定的 切分成獨(dú)立詞的標(biāo)準(zhǔn)答案)的NS個(gè)句子的集合S={S(i)}為訓(xùn)練語(yǔ)料,各句子記為S(i),其中 1 < i含NS,要求NS含50000;人工給定一個(gè)包含50個(gè)詞W上的詞典D,并人為指定詞典擴(kuò)充系 數(shù)ει, £2; 訓(xùn)練步驟二:從訓(xùn)練語(yǔ)料中提取語(yǔ)料高相關(guān)的詞語(yǔ),對(duì)詞典進(jìn)行擴(kuò)充,提取的步驟細(xì)節(jié) 為: 訓(xùn)練步驟二一:統(tǒng)計(jì)S中所有詞的總數(shù)目,記為NW;進(jìn)一步統(tǒng)計(jì)S中所含有的不同詞的總 數(shù)目,記為NWU; 訓(xùn)練步驟二二:統(tǒng)計(jì)S中所有不同的詞各自出現(xiàn)的頻次,并將詞按對(duì)應(yīng)詞頻由大到小的 順序進(jìn)行排列,記排序后結(jié)果為WD={wd(l) ,wd(2),wd(NWU)},對(duì)應(yīng)的頻次記為NWD={nwd (1) ,nwd(2), ··· ,nwd(NWU)}; 訓(xùn)練步驟二Ξ:在WD中找出依序排列的第St個(gè)序位(l<st<NmJ),使得NWD中前St個(gè)序 位對(duì)應(yīng)的頻次滿足:
訓(xùn)練步驟二四:在WD中找出依序排列的第ed個(gè)序位(KecKNWU),使得NWD中前ed個(gè)序位 對(duì)應(yīng)的頻次滿足:
訓(xùn)練步驟二五:在WD中找出從第St個(gè)序位開(kāi)始,到第ed個(gè)序位的為止的依序排列的所 有的詞的集合,記為WDA,即WDA={wd(st) ,wd(st+l),... ,wd(ed)}, l<st<ed<NWU 訓(xùn)練步驟二六:將WDA中所有詞加入原來(lái)的詞典中D,構(gòu)成新的詞典化,此字典中長(zhǎng)度最 長(zhǎng)的詞的長(zhǎng)度記為NLot; 訓(xùn)練步驟Ξ:對(duì)訓(xùn)練語(yǔ)料S的所有字符進(jìn)行特征化表示,得到每個(gè)字符的抽取后的特征 表示結(jié)果,記S(i,ji)為句子S(i)的第ji個(gè)字,其中1 < ji<句子S(i)的總字符數(shù),則s(i, ji)對(duì)應(yīng)的特征化結(jié)果為: 尸'乾屯、^:、屯,?*, f、.、.每 Α?韋?!叮?:韋3 . W flS j ; 其中各特征的提取細(xì)節(jié)步驟為: 訓(xùn)練步驟Ξ-:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符,建立各序位的字符對(duì)應(yīng)的5個(gè) 一元語(yǔ)法特征,分別表示為fl, f2, f3, f4, fs :

訓(xùn)練步驟Ξ二:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的4個(gè)二元語(yǔ) 法特征,分別表示為fs, f7, fs:
訓(xùn)練步驟ΞΞ:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的3個(gè)類型相 關(guān)特征,分別表示為f 10,f 11,f 12:
訓(xùn)練步驟Ξ四:對(duì)各個(gè)句子S (i)中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的3個(gè)字典型 特征,分別表示為f 13,f 14,f 15: fl3 =在詞典化中,W此字符為第一個(gè)字符進(jìn)行最大正向匹配所得詞的長(zhǎng)度值;在化中 找不到符合條件的詞時(shí)長(zhǎng)度即為0; fl4=在詞典化中,W此字符為最后一個(gè)字符進(jìn)行逆向最大匹配所得詞的長(zhǎng)度值;在化 中找不到符合條件的詞時(shí)長(zhǎng)度即為0; f 15 =在本句中,用此字符的前化Dt個(gè)序位至此字前1個(gè)序位的字在詞典化中采用正向 最大匹配后,得到的經(jīng)過(guò)此位置并且不W此字為結(jié)尾字符的最長(zhǎng)詞的長(zhǎng)度值;若沒(méi)有符合 條件的情況,長(zhǎng)度即為0; 訓(xùn)練步驟四:對(duì)訓(xùn)練語(yǔ)料S的各個(gè)字符的類別進(jìn)行數(shù)字化表示,對(duì)應(yīng)得到各句子S( i )的 每個(gè)序位上的字符S( i,ji)對(duì)應(yīng)的類別表示結(jié)果g(i,ji);
訓(xùn)練步驟五:基于條件隨機(jī)場(chǎng)模型,將訓(xùn)練語(yǔ)料中所有字符的特征化結(jié)果F(S(i,ji)) 和對(duì)應(yīng)的類別表示結(jié)果g(i,ji)作為輸入數(shù)據(jù),進(jìn)行訓(xùn)練,得到訓(xùn)練后的分詞模型Μ。
[0009]分詞應(yīng)用階段: 對(duì)于一個(gè)要做分詞處理的句子R=kl,C2,…,Cy},其中Cl,C2,···,Cy為此句子中的依序排 列的各個(gè)字符,y為句子R的字符總數(shù),基于W下過(guò)程進(jìn)行分詞: 應(yīng)用步驟一:獲得與待分詞句子相關(guān)的詞典化(化中的詞數(shù)含0),并將化中所有詞加入 化中,行成新的詞典化,此字典中長(zhǎng)度最長(zhǎng)的詞的長(zhǎng)度記為NLoa; 應(yīng)用步驟二:先對(duì)句子中的每個(gè)字符Cm提取特征F( Cm),其中1含m < y, 而?城》》.=:也,·$2.>為龍名邊成*如《9:尤?為龍s怎,其中各特征的提取細(xì)·ρ步驟 為: 應(yīng)用步驟二一:對(duì)句子R中的每個(gè)序位上的字符,建立各序位的字符對(duì)應(yīng)的5個(gè)一元語(yǔ) 法特征,分別表示為fl, f2, f3, f4, fs :
應(yīng)用步驟二二:對(duì)句子R中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的4個(gè)二元語(yǔ)法特征, 分別表示為fs, f7, fs:
應(yīng)用步驟二Ξ:對(duì)句子R中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的3個(gè)類型相關(guān)特征, 分別表不為fio, fll, fl2:
應(yīng)用步驟二四:對(duì)句子R中的每個(gè)序位上的字符,建立各字符對(duì)應(yīng)的3個(gè)字典型特征,分 另ij表習(xí)^為fl3, fl4, f化: fl3 =在詞典化中,W此字符為第一個(gè)字符進(jìn)行最大正向匹配所得詞的長(zhǎng)度值;在化中 找不到符合條件的詞時(shí)長(zhǎng)度即為0; fl4=在詞典化中,W此字符為最后一個(gè)字符進(jìn)行逆向最大匹配所得詞的長(zhǎng)度值;在化 中找不到符合條件的詞時(shí)長(zhǎng)度即為0; f 15 =在本句中,用此字符的前化Da個(gè)序位至此字前1個(gè)序位的字在詞典化中采用正向 最大匹配后,得到的經(jīng)過(guò)此位置并且不w此字為結(jié)尾字符的最長(zhǎng)詞的長(zhǎng)度值;若沒(méi)有符合 條件的情況,長(zhǎng)度即為0; 應(yīng)用步驟Ξ:將句子R中所有字符的特征化結(jié)果F(cm)輸入已訓(xùn)練好的模型Μ中,并由模 型Μ進(jìn)行分類評(píng)判,輸出各字符對(duì)應(yīng)的分類結(jié)果g ( Cm); 應(yīng)用步驟四:輸出所有g(shù)(Cm)值為1或4的字符Cm的序位,即句子R可在運(yùn)些位置做句子 的組成詞切分,此即是此句子的分詞結(jié)果。
[0010] 本發(fā)明的優(yōu)點(diǎn)是:本發(fā)明基于自然語(yǔ)言的句子的內(nèi)在特性,提出了結(jié)合詞典和統(tǒng) 計(jì)模型的分詞方法,處理中把詞典信息作為一個(gè)可由外部適配調(diào)整、可在統(tǒng)計(jì)模型模型內(nèi) 部產(chǎn)生影響及生成特征的資源,并全面考慮模型學(xué)習(xí)時(shí)原始訓(xùn)練語(yǔ)料對(duì)詞典的影響,而算 法設(shè)置了高效的特征的生成和組合方式,可充分降低計(jì)算的復(fù)雜度,并最終有效生成高準(zhǔn) 確率的分詞模型;而應(yīng)用時(shí)可方便的在詞典中有針對(duì)的加入相關(guān)的詞,有效提局算法的在 不同場(chǎng)景下的適用性。
[0011] 本發(fā)明有效實(shí)現(xiàn)了計(jì)算機(jī)自動(dòng)對(duì)自然語(yǔ)言的語(yǔ)句進(jìn)行分詞處理,并方便在不同領(lǐng) 域下進(jìn)行擴(kuò)展應(yīng)用,而語(yǔ)句分詞后的結(jié)果可提供給計(jì)算機(jī)做后續(xù)的各種分析。
【附圖說(shuō)明】
[0012] 圖1為本發(fā)明的模型訓(xùn)練的方法的流程圖,圖2為應(yīng)用的方法的流程圖。
【具體實(shí)施方式】
[0013] 下面結(jié)合附圖圖1和圖2說(shuō)明本實(shí)施方式。
[0014] 本發(fā)明設(shè)計(jì)的方法由訓(xùn)練模型和應(yīng)用模型兩個(gè)階段組成,它包括W下具體應(yīng)用 方式一的訓(xùn)練階段和具體應(yīng)用方式二的應(yīng)用階段。
[0015] 具體應(yīng)用方式一:訓(xùn)練階段 訓(xùn)練步驟一:獲取模型訓(xùn)練階段的依賴資源:獲取已分好詞(各句子中的字符有確定的 切分成獨(dú)立詞的標(biāo)準(zhǔn)答案)的NS個(gè)句子的集合S={S(i)}為訓(xùn)練語(yǔ)料,各句子記為S(i),其中 1 < i含NS,要求NS含50000;人工給定一個(gè)包含50個(gè)詞W上的詞典D,并人為指定詞典擴(kuò)充系 數(shù)ει, ε2; 訓(xùn)練步驟二:從訓(xùn)練語(yǔ)料中提取語(yǔ)料高相關(guān)的詞語(yǔ),對(duì)詞典進(jìn)行擴(kuò)充,提取的步驟細(xì)節(jié) 為: 訓(xùn)練步驟二一:統(tǒng)計(jì)S中所有詞的總數(shù)目,記為NW;進(jìn)一步統(tǒng)計(jì)S中所含有的不同詞的總 數(shù)目,記為NWU; 訓(xùn)練步驟二二:統(tǒng)計(jì)S中所有不同的詞各自出現(xiàn)的頻次,并將詞按對(duì)應(yīng)詞頻由大到小的 順序進(jìn)行排列,記排序后結(jié)果為WD={wd(l),wd(2),…,wd(NWU)},對(duì)應(yīng)的頻次記為NWD={nwd (1) ,nwd(2), ··· ,nwd(NWU)}; 訓(xùn)練步驟二Ξ:在WD中找出依序排列的第St個(gè)序位(l<st<NmJ),使得NWD中
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1