日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法

文檔序號:10612785閱讀:318來源:國知局
一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法
【專利摘要】本發(fā)明公開了一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,基于依存關(guān)系對,將兩個(gè)句子的依存關(guān)系對集合進(jìn)行計(jì)算,選取使關(guān)系對相似度之和最大的對應(yīng)關(guān)系,在對應(yīng)關(guān)系的基礎(chǔ)上,求出各關(guān)系對相似度之和的平均值,作為兩個(gè)句子的句法結(jié)構(gòu)相似度。本發(fā)明比較了依存關(guān)系中兩個(gè)詞匯的本身概念、詞性、關(guān)系類別等五個(gè)特征量,衡量了句子的句法結(jié)構(gòu)相似關(guān)系;實(shí)驗(yàn)結(jié)果已經(jīng)凸顯出語義分析在句子相似度計(jì)算中的優(yōu)勢;較之現(xiàn)有技術(shù)的相似度計(jì)算,在正確率上有一定的提高,考慮了在非中心詞周圍體現(xiàn)出的關(guān)鍵信息,而現(xiàn)有技術(shù)主要考慮依存句法樹中的根節(jié)點(diǎn)?謂語中心詞及其直接支配部分兩層;該方法是一種以時(shí)間換正確率的方法。
【專利說明】
一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,尤其涉及一種基于細(xì)粒度依存關(guān)系的中文長 句相似度計(jì)算方法。
【背景技術(shù)】
[0002] 中文信息處理研究中,句子相似度計(jì)算是一個(gè)重要部分,在自動文摘、機(jī)器翻譯、 信息檢索、自動問答系統(tǒng)等方面有著廣泛的應(yīng)用。目前,句子相似度計(jì)算的研究大體可分為 基于詞語的相似度、基于詞義的相似度、基于句法結(jié)構(gòu)的相似度、基于編輯距離、基于動態(tài) 規(guī)劃的相似度等幾種。這幾種方法可以歸納為兩類:一是不需要或僅需要淺層的語法結(jié)構(gòu) 關(guān)系,二是需要深層的語法結(jié)構(gòu)與語義分析。而在基于實(shí)例的機(jī)器翻譯和語料庫主題自動 分類中,語句相似度的衡量機(jī)制與對語句的分析深度是密切相關(guān)的。因此,結(jié)合語義的依存 分析為句子相似度計(jì)算提供了有力支持。依存句法是由法國語言學(xué)家L.Tesniere在其1959 年的著作《結(jié)構(gòu)句法基礎(chǔ)》中提出,對語言學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)的影響,特別是在計(jì)算語言 學(xué)界備受推崇。依存句法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張 動詞中心論,即認(rèn)為句子中的動詞支配其他成分,而自身卻不受其他任何成分的支配,所有 受支配成分都以某種依存關(guān)系從屬于支配者。依存句法分析的常用方法有基于規(guī)則的、基 于統(tǒng)計(jì)的、規(guī)則與統(tǒng)計(jì)相結(jié)合的、基于樹庫等幾種。目前針對漢語研究的樹庫主要有賓夕法 尼亞大學(xué)U-Penn樹庫、中國臺北中研院Sinica樹庫、清華大學(xué)漢語句法樹庫、哈爾濱工業(yè)大 學(xué)依存樹庫等。依存句法在自然語言處理領(lǐng)域有著廣泛的應(yīng)用。胡寶順等基于句法依存分 析計(jì)算語料的路徑相似度,實(shí)現(xiàn)中文問答系統(tǒng)的答案提取。李歡等運(yùn)用依存關(guān)系樹比對來 檢測文本中多語義約束的方法,通過定義部分依存關(guān)系樹(PDT)核函數(shù)計(jì)算兩個(gè)對象之間 的相似度。王步康等基于中文依存關(guān)系樹,采用有效的剪枝算法和特征,使用最大熵分類器 實(shí)現(xiàn)了中文語義角色的識別和分類。古凌嵐等利用語義角色標(biāo)注和依存語法分析思想,研 究了中文本體學(xué)習(xí)中的非分類關(guān)系的抽取方法。大多數(shù)基于依存語法的研究及應(yīng)用均考慮 其形式簡潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn)。由于依存句法可以描述句子的語法結(jié)構(gòu)信息,從 而準(zhǔn)確地刻畫一個(gè)句子所表達(dá)的意思,因此用于句子相似度計(jì)算有較高的準(zhǔn)確率。穗志方 等提出的骨架依存樹僅限兩層,用于基于實(shí)例的機(jī)器翻譯中語句相似度的計(jì)算,降低了計(jì) 算復(fù)雜度。李彬等通過計(jì)算有效搭配對之間的相似度來降低計(jì)算復(fù)雜度。但是,這些方法用 于中文長難句的相似度計(jì)算時(shí),可能會遺失一些重要的語義結(jié)構(gòu)。
[0003] 綜合目前基于依存句法的句子相似度方法發(fā)現(xiàn)均未對依存關(guān)系結(jié)構(gòu)本身進(jìn)行度 量,而是采用粗粒度的依存關(guān)系,有的甚至沒有標(biāo)注具體的依存關(guān)系。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,旨 在解決目前基于依存句法的句子相似度方法未充分考慮依存關(guān)系內(nèi)部各元素的角色重要 程度,而僅僅將依存關(guān)系作為整體進(jìn)行標(biāo)注的問題。
[0005] 本發(fā)明是這樣實(shí)現(xiàn)的,一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,所 述基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法基于依存關(guān)系對,將兩個(gè)句子的依存關(guān) 系對集合進(jìn)行匹配,選取使關(guān)系對相似度之和最大的對應(yīng)關(guān)系,在對應(yīng)關(guān)系的基礎(chǔ)上,求出 各關(guān)系對相似度之和的平均值,作為兩個(gè)句子的句法結(jié)構(gòu)相似度。該方案的目的是全面充 分考慮句子依存句法中的語義信息,不會因?yàn)檫x擇有效搭配而丟失部分信息。
[0006] 進(jìn)一步,所述基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法比較了依存關(guān)系中 兩個(gè)詞匯的本身概念、詞性、關(guān)系類別等五個(gè)特征量,綜合衡量了句子的句法結(jié)構(gòu)相似關(guān) 系。該方案的目的是全面充分依存關(guān)系內(nèi)部各元素的在關(guān)系中扮演的角色及其重要性,最 大程度實(shí)現(xiàn)基于語義的相似度計(jì)算。
[0007] 進(jìn)一步,所述基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法通過計(jì)算兩個(gè)依存 句法樹的相似度,實(shí)現(xiàn)中文長句的相似度計(jì)算。該方案將整個(gè)句子的組成成分均列入相似 度計(jì)算的范圍,最大程度保留句子的完整語義信息。
[0008] 進(jìn)一步,所述依存關(guān)系對的結(jié)構(gòu)相容度的獲取方法包括:
[0009] 依存關(guān)系對〈1^,1?2>,分別對比仏((:1,厶 1,01,〇?1,厶?1)和1?2((: 2>,02,〇?2,厶?2)中的五 個(gè)特征量,相容取1,不相容取〇;
[0010]然后,按權(quán)重順序從高位到低位排列這五個(gè)〇或1,得到一個(gè)二進(jìn)制數(shù)(bbbbb)2,該 值的取值范圍為0-31,其中0對應(yīng)RjPR2完全不相等的情況,31對應(yīng)RjPR2完全相等的情況; 在該二進(jìn)制數(shù)的基礎(chǔ)上,定義Ri和R 2的結(jié)構(gòu)相容度如下:
[0011]
[0012 ]例如,假設(shè)在兩個(gè)五元組 Ri (d,Ai,Di,CPi,APi)和 R2 (C2,A2,D2,CP2,AP2)中,&與&相 容,A^A2不相容,D^D2相容,CP^CP2相容,AP^AP 2不相容,則依照各特征權(quán)重順序排列 得出二進(jìn)制數(shù)為(10110) 2,則RdPR2的結(jié)構(gòu)相容度為:
[0013]
[0014] 進(jìn)一步,所述依存關(guān)系對的相似度計(jì)算方法包括:
[0015]依存關(guān)系對〈1^,1?2>中的元素存在語義相容,通過計(jì)算〈1^,1? 2>相對應(yīng)的核心詞和 支配詞的語義相似度,度量依存關(guān)系對的語義相似度,采用基于知網(wǎng)的計(jì)算方法計(jì)算詞的 語義相似度,并賦予不同的權(quán)值α和β,得到R4PR 2的語義相似度如下:
[0016] Ss(Ri,R2) = aSw(Ci, C2) +PSw(Αι, A2);
[0017] 式中,SdCi%)表示〈Rhfc〉中對應(yīng)核心詞的語義相似度表示對應(yīng)支配 詞的語義相似度,α>β且α+β = 1。
[0018] 進(jìn)一步,基于5:揭為) = ^^χ100% = ||χ100% = 70.97%和式 +陽乂心,A2),得到依存關(guān)系對的相似度計(jì)算方法如下:
[0019] Ri|R2 = Sim(Ri,R2) = Sc(Ri,R2) · Ss(Ri,R2)。
[0020] 進(jìn)一步,所述依存關(guān)系對集合相似度計(jì)算方法包括:
[0021] 存在依存關(guān)系對集合△=(&1,&^)和依存關(guān)系對集合8=(131,1^夂),不失一般 性,A中依存關(guān)系對的數(shù)目小于等于B,即n<m;對于每一個(gè)aie A,1 ,都可以找到若干 個(gè)b j e B,1 < j 與之對應(yīng),不同的ai對應(yīng)不同b j,則集合A與集合B的對應(yīng)關(guān)系總數(shù)如下:
[0022]
[0023] 集合A與B存在確定的對應(yīng)關(guān)系,在,對于給定的ai都有一個(gè) bj與之匹配,記作匕=Ω k(ai);則定義Ω k的相似度為:
[0024]
[0025] 兩個(gè)依存關(guān)系對集合A與B的相似度取Ω k中的最大值,gp :
[0026]
[0027]
[0028] 本發(fā)明提供的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,在充分保留句子 的組成成分前提下,聚焦于詞匯的語義信息進(jìn)行相似度計(jì)算,深入依存關(guān)系內(nèi)部,充分考慮 各元素的角色及其重要性,避免丟失語義信息?;谝来骊P(guān)系對,將兩個(gè)句子的依存關(guān)系對 集合進(jìn)行匹配,選取使關(guān)系對相似度之和最大的對應(yīng)關(guān)系;在該對應(yīng)關(guān)系的基礎(chǔ)上,求出各 關(guān)系對相似度之和的平均值,作為兩個(gè)句子的句法結(jié)構(gòu)相似度。本發(fā)明的算法比較了依存 關(guān)系中兩個(gè)詞匯的本身概念、詞性、關(guān)系類別等五個(gè)特征量,綜合衡量了句子的句法結(jié)構(gòu)相 似關(guān)系。實(shí)驗(yàn)結(jié)果已經(jīng)凸顯出語義分析在句子相似度計(jì)算中的優(yōu)勢,而本發(fā)明算法較之現(xiàn) 有技術(shù)的基于語義的相似度計(jì)算,在正確率上有一定的提高,考慮了非中心詞周圍體現(xiàn)的 關(guān)鍵信息,而現(xiàn)有技術(shù)主要考慮依存句法樹中的根節(jié)點(diǎn)-謂語中心詞及其直接支配部分兩 層。本發(fā)明是一種以時(shí)間換正確率的方法。
【附圖說明】
[0029] 圖1是本發(fā)明實(shí)施例提供的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法流程 圖。
[0030] 圖2是本發(fā)明實(shí)施例提供的句子依存關(guān)系對比示例示意圖。
【具體實(shí)施方式】
[0031] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對本發(fā)明 進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于 限定本發(fā)明。
[0032] 下面結(jié)合附圖對本發(fā)明的應(yīng)用原理作詳細(xì)的描述。
[0033] 如圖1所示,本發(fā)明實(shí)施例的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法包 括以下步驟:
[0034] S101:基于依存關(guān)系對,將兩個(gè)句子的依存關(guān)系對集合進(jìn)行匹配,選取使關(guān)系對相 似度之和最大的對應(yīng)關(guān)系;
[0035] S102:在該對應(yīng)關(guān)系的基礎(chǔ)上,求出各關(guān)系對相似度之和的平均值,作為兩個(gè)句子 的句法結(jié)構(gòu)相似度。
[0036]下面結(jié)合具體實(shí)施例對本發(fā)明的應(yīng)用原理作進(jìn)一步的描述。
[0037] 1依存句法樹相似度計(jì)算
[0038]定義1.定義依存關(guān)系以(:,4,0^?,4?)為一個(gè)五元組,其中(:為核心詞4為依存詞, D為依存關(guān)系的類型,CP為C的詞性,AP為A的詞性。R五元組中的各元素為特征量,其特征權(quán) 重各不相同。
[0039]由依存句法理論得知,依存句法樹中一個(gè)節(jié)點(diǎn)(詞)只能有一個(gè)支配節(jié)點(diǎn)(詞),但 是可以有多個(gè)從屬節(jié)點(diǎn)(詞),所以在R中C的重要性要大于A。另外,一個(gè)詞可有多種詞性,而 每種詞性包含許多詞,所以詞語本身的重要性大于詞性。最后,兩個(gè)特定詞的依賴關(guān)系D既 與詞本身有關(guān),又與詞性有關(guān),所以D的重要性介于詞本身與詞性之間。由此依存關(guān)系R中各 特征權(quán)重順序?yàn)?C>A>D>CP>AP。
[0040] 1.1依存關(guān)系對的結(jié)構(gòu)相容度
[0041 ] 假設(shè)存在一個(gè)依存關(guān)系對〈Ri,R2>,分別對比心(Ci,Ai,Di,CPi,APi)和R2 (C2,A2,D2, CP2,AP2)中的五個(gè)特征量,相容取1(相容是指詞性和語義類別上是兼容的,如ns與n相容, "動物"和"生物"是相容的),不相容取0。然后,按權(quán)重順序從高位到低位排列這五個(gè)0或1, 得到一個(gè)二進(jìn)制數(shù)(bbbbb) 2,該值的取值范圍為0-31,其中0對應(yīng)RjPR2完全不相等的情況, 31對應(yīng)心和此完全相等的情況。在該二進(jìn)制數(shù)的基礎(chǔ)上,定義RjPR 2的結(jié)構(gòu)相容度如下:
[0042]
[0043 ]例如,假設(shè)在兩個(gè)五元組心(d,A!,D!,CP!,AP!)和R2 (C2,A2,D2,CP2,AP2)中,若&與C 2 相容,A^A2不相容,D^D2相容,CP^CP2相容,AP^AP 2不相容,則依照各特征權(quán)重順序排 列得出二進(jìn)制數(shù)為(1 〇 11 〇) 2,則RdPR2的結(jié)構(gòu)相容度為:
[0044]
[0045] 1.2依存關(guān)系對的相似度
[0046]由于依存關(guān)系對〈Ri,R2>中的元素存在語義相容,則通過計(jì)算〈Ri,R2>相對應(yīng)的核 心詞和支配詞的語義相似度,可以度量依存關(guān)系對的語義相似度。采用基于知網(wǎng)的計(jì)算方 法計(jì)算詞的語義相似度,并賦予不同的權(quán)值α和β,得到RdPR 2的語義相似度如下:
[0047] Ss (Ri, R2) = a Sw (Ci, C2) +PSw (Ai, A2) (2)
[0048] 式⑵中,SW(&,C2)表示中對應(yīng)核心詞的語義相似度,Sw(Ai,A 2)表示對應(yīng)支 配詞的語義相似度,α>β且α+β=1。由于基于知網(wǎng)的詞匯相似度計(jì)算中考慮了詞性,因此對〈 Ri,R2>中的相容詞性的度量不再計(jì)算。
[0049] 基于式(1)和式(2),得到依存關(guān)系對的相似度計(jì)算方法如下:
[0050] Ri|R2 = Sim(Ri,R2) = Sc(Ri,R2) · Ss(Ri,R2) (3)
[0051] 1.3關(guān)系對集合相似度計(jì)算
[0052] 假設(shè)存在依存關(guān)系對集合厶=(&1,&^)和依存關(guān)系對集合8=(13 1,1^_1^),不失 一般性,設(shè)A中依存關(guān)系對的數(shù)目小于等于B,即n<m。
[0053] 為了計(jì)算A與B的相似度,需要確定A中各依存關(guān)系對和B中各依存關(guān)系對的對應(yīng)關(guān) 系。對于每一個(gè)ai e A,1彡i彡η,都可以找到若干個(gè)bj e B,1 < j彡m與之對應(yīng),假設(shè)不同的ai 對應(yīng)不同bj,則集合A與集合B的對應(yīng)關(guān)系總數(shù)如下:
[0054]
[0055] 定義2.若集合A與B存在確定的對應(yīng)關(guān)系% ,在Ω k中,對于給定的ai 都有一個(gè)匕與之匹配,記作匕=Ω k(ai)。則定義Ω k的相似度為:
[0056]
[0057] 宙々3.西個(gè)依存關(guān)系對隼合A與R的相似庶取Ω k中的#女值,即:
[0058]
[0059] 式⑶中,
[0060] 為說明算法的計(jì)算過程,現(xiàn)以短句"安陽是甲骨文的故鄉(xiāng)"和"安陽是中國八大古 都之一"為例分析,采用哈工大社會計(jì)算與信息檢索研究中心的語言技術(shù)平臺(Language Technology Platform,LTP)為工具,得到兩句的依存關(guān)系如圖2所示。
[00611圖1對應(yīng)的依存關(guān)系對如表1所示,其中忽略了由Root出發(fā)的HED關(guān)系。"ail bj(^j 可相等)"表示依存關(guān)系&1與匕的相似度,根據(jù)公式(3)計(jì)算,其中計(jì)算SU^Rs)時(shí)α和β按經(jīng) 驗(yàn)取值為0 = 0.65,0 = 0.35,并取&#」的最大值作為5(1?1,1?2)最優(yōu)值。
[0062]表1句子關(guān)系對集合
[0063]
[0064] 由此,利用公式(3)進(jìn)行依存句法樹的相似度計(jì)算如下:
[0065] &
[0066] 下面結(jié)合實(shí)驗(yàn)對本發(fā)明的應(yīng)用效果作詳細(xì)的說明。
[0067] 1實(shí)驗(yàn)及分析
[0068]從搜狗新聞?wù)Z料中隨機(jī)選擇50個(gè)句子作為標(biāo)準(zhǔn)句子集,這些句子來自體育、政治、 環(huán)境、交通、教育、藝術(shù)等10個(gè)類別,每個(gè)類別5個(gè)句子,這些句子均是長句,平均詞長為16.8 (即分詞后的詞語數(shù)量有16.8個(gè))。另外選擇1000個(gè)句子作為噪聲集。對50個(gè)標(biāo)準(zhǔn)句子,逐一 選擇某句作為參考句,計(jì)算該參考句與其它句子的相似度,并按數(shù)值遞減順序排列,取相似 度最高的前4個(gè)句子,若這些句子所屬類別與參考句的類別一致,則認(rèn)為相似度計(jì)算是正確 的。表2顯示了幾種句子相似度計(jì)算方法的正確率統(tǒng)計(jì)結(jié)果。
[0069]表2句子相似度計(jì)算正確率
[0070]
[0071]
[0072] 從實(shí)驗(yàn)結(jié)果可以看出,中文長句相似度算法正確率普遍不高,尤其是在開放測試 時(shí),原因如下:
[0073] 1)實(shí)驗(yàn)過程中的分詞采用的是LTP平臺的分詞算法,相似度計(jì)算與分詞算法正確 率緊密相關(guān);
[0074] 2)長句在句法分析上難度較大,容易出現(xiàn)歧義及分析錯誤;
[0075] 3)算法效果直接依賴于LTP平臺的句法分析正確率;
[0076] 4)實(shí)驗(yàn)句子直接取自搜狗語料,存在部分病句或省略句,如"1999年日本計(jì)算機(jī)病 毒發(fā)病數(shù)是有紀(jì)錄以來次數(shù)最多的一個(gè)。"
[0077] 5)相似度正確率的判斷以句子類別為準(zhǔn),部分句子類別并不正確或并不唯一,如 "藝術(shù)人才的培養(yǎng),是關(guān)乎藝術(shù)事業(yè)能否發(fā)展的大事。"在搜狗語料中的類別為教育類,而該 句歸為藝術(shù)類也是合理的。
[0078] 6)基于知網(wǎng)進(jìn)行詞語語義相關(guān)度計(jì)算時(shí),有一些詞匯在知網(wǎng)中并未收錄,導(dǎo)致計(jì) 算結(jié)果為〇。
[0079]實(shí)驗(yàn)結(jié)果已經(jīng)凸顯出語義分析在句子相似度計(jì)算中的優(yōu)勢,本發(fā)明在正確率上有 一定的提高,主要原因是有一些關(guān)鍵信息是在非中心詞周圍體現(xiàn),本發(fā)明由于充分考慮了 句子成分的語義聯(lián)系,增加了計(jì)算復(fù)雜度,但是獲得了更高的正確率,因此是一種以時(shí)間換 正確率的方法。
[0080]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于,所述基于細(xì)粒 度依存關(guān)系的中文長句相似度計(jì)算方法基于依存關(guān)系對,將兩個(gè)句子的依存關(guān)系對集合進(jìn) 行匹配,選取使關(guān)系對相似度之和最大的對應(yīng)關(guān)系,在對應(yīng)關(guān)系的基礎(chǔ)上,求出各關(guān)系對相 似度之和的平均值,作為兩個(gè)句子的句法結(jié)構(gòu)相似度。2. 如權(quán)利要求1所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于, 所述基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法比較了依存關(guān)系中兩個(gè)詞匯本身的 概念、詞性、關(guān)系類別五個(gè)特征量,綜合衡量了句子的句法結(jié)構(gòu)相似關(guān)系。3. 如權(quán)利要求1所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于, 所述基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法對關(guān)注詞語本身概念和詞性、詞間的 依存關(guān)系W及重要程度進(jìn)行了度量;通過計(jì)算兩個(gè)依存句法樹的相似度,實(shí)現(xiàn)中文長句的 相似度計(jì)算。4. 如權(quán)利要求1所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于, 所述依存關(guān)系對的結(jié)構(gòu)相容度的獲取方法包括: 依存關(guān)系對 <Ri,R2〉,分別對比 Ri (。,Ai,Di,CPi,APi)和 R2 (C2,A2,,CP2,AP2)中的五個(gè)特 征量,相容取1,不相容取0; 然后,按權(quán)重順序從高位到低位排列運(yùn)五個(gè)0或1,得到一個(gè)二進(jìn)制數(shù)(b化化)2,該值的 取值范圍為0-31,其中0對應(yīng)化和R2完全不相等的情況,31對應(yīng)Ri和R2完全相等的情況;在該 二進(jìn)制數(shù)的基礎(chǔ)上,定義Ri和化的結(jié)構(gòu)相容度如下:假設(shè)在兩個(gè)五元組 Ri (Cl,Ai,Di,CPi,APi)和 R2 (C2,A2,〇2,CP2,AP2)中,Cl 與 C2 相容,Ai 與 A2 不相容,Di與化相容,CPi與CP2相容,APi與AP2不相容,則依照各特征權(quán)重順序排列得出二進(jìn) 制數(shù)為(10110) 2,貝化1和化的結(jié)構(gòu)相容度為:5. 如權(quán)利要求1所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于, 所述依存關(guān)系對的相似度計(jì)算方法包括: 依存關(guān)系對<Ri,R2>中的元素存在語義相容,通過計(jì)算<Ri,R2>相對應(yīng)的核屯、詞和支配詞 的語義相似度,度量依存關(guān)系對的語義相似度,采用基于知網(wǎng)的計(jì)算方法計(jì)算詞的語義相 似度,并賦予不同的權(quán)值α和0,得到Ri和化的語義相似度如下: Ss(Ri,R2)=aSw(Ci,C2)+0Sw(Ai,A2); 式中,Sw(Cl,C2)表示<Ri,R2>中對應(yīng)核屯、詞的語義相似度,Sw(Ai,A2)表示對應(yīng)支配詞的 語義相似度,α〉0且0+0=1。6. 如權(quán)利要求4或5所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在 于,基于陽式 Ss(Ri,R2)=aSw(Ci,C2)+eSw(Ai,A2), 得到依存關(guān)系對的相似度計(jì)算方法如下: Ri|R2 = Sim(化,R2)=Sc(Ri,R2) · Ss(Ri,I?2)。7. 如權(quán)利要求1所述的基于細(xì)粒度依存關(guān)系的中文長句相似度計(jì)算方法,其特征在于, 所述依存關(guān)系對集合相似度計(jì)算方法包括: 存在依存關(guān)系對集合A=(al,a2…an)和依存關(guān)系對集合B=(bl,b2…bm),不失一般性,A 中依存關(guān)系對的數(shù)目小于等于B,即n《m;對于每一個(gè)aieA,l《i《n,找到若干個(gè)b聲B,l《 與之對應(yīng),不同的a擁應(yīng)不同bj,貝蝶合A與集合B的對應(yīng)關(guān)系總數(shù)如下:集合A與B存在確定的對應(yīng)關(guān)系A(chǔ)>在Qk中,對于給定的ai都有一個(gè)bj與 之匹配,記作bj = Ω k(ai);則走義Ω k的相似度為:兩個(gè)依存關(guān)系對集合A與B的相似度取Ω k中的最大值,即:
【文檔編號】G06F17/27GK105975458SQ201610287388
【公開日】2016年9月28日
【申請日】2016年5月3日
【發(fā)明人】熊晶, 郭濤, 翟雪, 孫華, 王繼鵬, 高峰, 袁冬
【申請人】安陽師范學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1