日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

文本查重方法、裝置、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品與流程

文檔序號(hào):39714048發(fā)布日期:2024-10-22 13:00閱讀:3來(lái)源:國(guó)知局
文本查重方法、裝置、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品與流程

本公開(kāi)涉及計(jì)算機(jī),尤其涉及文本查重方法、裝置、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品。


背景技術(shù):

1、文本查重操作是指通過(guò)對(duì)待測(cè)文本進(jìn)行相似度分析,判斷待測(cè)文本中否存在大量相似或完全重復(fù)的現(xiàn)有文本。

2、相關(guān)技術(shù)中,在利用聚類(lèi)算法進(jìn)行相似文本塊的聚類(lèi)判斷時(shí),聚類(lèi)中心的選取一般是通過(guò)常規(guī)的多個(gè)最短距離位置進(jìn)行指定。這種聚類(lèi)中心的選取方式?jīng)]有考慮待測(cè)文本中的詞匯分布情況,導(dǎo)致聚類(lèi)結(jié)果不夠準(zhǔn)確,從而影響文本查重結(jié)果。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本公開(kāi)示例性實(shí)施例提供了一種文本查重方法、裝置、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品,以解決相關(guān)技術(shù)中存在的問(wèn)題。

2、本公開(kāi)示例性實(shí)施例的第一方面,提供了一種文本查重方法,包括:

3、獲取文本樣本數(shù)據(jù),從文本樣本數(shù)據(jù)中提取多種初始詞匯,并獲取多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù);

4、對(duì)多種初始詞匯進(jìn)行聚類(lèi)處理,得到多個(gè)初始詞匯聚簇;

5、基于各初始詞匯聚簇中每種初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇;

6、基于多個(gè)目標(biāo)詞匯聚簇確定多個(gè)目標(biāo)詞匯,并利用多個(gè)目標(biāo)詞匯對(duì)待測(cè)文本進(jìn)行查重。

7、本公開(kāi)示例性實(shí)施例的第二方面,提供了一種文本查重裝置,包括:

8、處理模塊,用于獲取文本樣本數(shù)據(jù),從文本樣本數(shù)據(jù)中提取多種初始詞匯,并獲取多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù);

9、聚類(lèi)模塊,用于對(duì)多種初始詞匯進(jìn)行聚類(lèi)處理,得到多個(gè)初始詞匯聚簇;

10、調(diào)整模塊,用于基于各初始詞匯聚簇中每種初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇;

11、處理模塊還用于基于多個(gè)目標(biāo)詞匯聚簇確定多個(gè)目標(biāo)詞匯,并利用多個(gè)目標(biāo)詞匯對(duì)待測(cè)文本進(jìn)行查重。

12、本公開(kāi)示例性實(shí)施例的第三方面,提供了一種電子設(shè)備,包括:

13、至少一個(gè)處理器;

14、用于存儲(chǔ)至少一個(gè)處理器可執(zhí)行指令的存儲(chǔ)器;

15、其中,至少一個(gè)處理器用于執(zhí)行指令,以實(shí)現(xiàn)上述方法的步驟。

16、本公開(kāi)實(shí)施例的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行上述方法的步驟。

17、本公開(kāi)示例性實(shí)施例的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其中,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

18、本公開(kāi)示例性實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:通過(guò)獲取文本樣本數(shù)據(jù),從文本樣本數(shù)據(jù)中提取多種初始詞匯,并獲取多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù);對(duì)多種初始詞匯進(jìn)行聚類(lèi)處理,得到多個(gè)初始詞匯聚簇;基于各初始詞匯聚簇中每種初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇;基于多個(gè)目標(biāo)詞匯聚簇確定多個(gè)目標(biāo)詞匯,并利用多個(gè)目標(biāo)詞匯對(duì)待測(cè)文本進(jìn)行查重,能夠在得到多個(gè)初始詞匯聚簇之后,利用多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇,使得基于多個(gè)目標(biāo)詞匯聚簇確定的多個(gè)目標(biāo)詞匯能夠更加準(zhǔn)確地表征對(duì)應(yīng)目標(biāo)詞匯聚簇包括的初始詞匯的含義,進(jìn)而在利用多個(gè)目標(biāo)詞匯對(duì)待測(cè)文本進(jìn)行查重時(shí),可以提高文本查重結(jié)果的準(zhǔn)確性。



技術(shù)特征:

1.一種文本查重方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于各所述初始詞匯聚簇中每種所述初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)所述多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述空間分布數(shù)據(jù)包括空間分布距離,所述空間分布距離用于表征相鄰兩個(gè)相同初始詞匯在所述文本樣本數(shù)據(jù)中的空間分布情況;所述基于所述初始詞匯聚簇中每種所述初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),計(jì)算所述初始詞匯聚簇的調(diào)整必要性參數(shù),包括:

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述初始詞匯聚簇中初始詞匯的種類(lèi)為多種;所述對(duì)所述初始詞匯聚簇進(jìn)行劃分,得到多個(gè)局部詞匯聚簇,包括:

5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述初始詞匯聚簇的調(diào)整必要性參數(shù)和各所述局部詞匯聚簇的調(diào)整必要性參數(shù),對(duì)所述初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇,包括:

6.根據(jù)權(quán)利要求1~5任一項(xiàng)所述的方法,其特征在于,所述基于所述多個(gè)目標(biāo)詞匯聚簇確定多個(gè)目標(biāo)詞匯,包括:

7.根據(jù)權(quán)利要求1~5任一項(xiàng)所述的方法,其特征在于,所述利用所述多個(gè)目標(biāo)詞匯對(duì)待測(cè)文本進(jìn)行查重,包括:

8.一種文本查重裝置,其特征在于,包括:

9.一種電子設(shè)備,其特征在于,包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得所述電子設(shè)備能夠執(zhí)行如權(quán)利要求1~7中任一項(xiàng)所述的方法的步驟。

11.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法的步驟。


技術(shù)總結(jié)
本公開(kāi)涉及文本查重方法、裝置、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品。該文本查重方法包括:獲取文本樣本數(shù)據(jù),從文本樣本數(shù)據(jù)中提取多種初始詞匯,并獲取多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù);對(duì)多種初始詞匯進(jìn)行聚類(lèi)處理,得到多個(gè)初始詞匯聚簇;基于各初始詞匯聚簇中每種初始詞匯對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),對(duì)多個(gè)初始詞匯聚簇進(jìn)行調(diào)整,得到多個(gè)目標(biāo)詞匯聚簇;利用基于多個(gè)目標(biāo)詞匯聚簇確定的多個(gè)目標(biāo)詞匯,對(duì)待測(cè)文本進(jìn)行查重。本公開(kāi)能夠在對(duì)多種初始詞匯進(jìn)行聚類(lèi)處理時(shí),考慮多種初始詞匯分別對(duì)應(yīng)的詞匯數(shù)量和空間分布數(shù)據(jù),提高了聚類(lèi)結(jié)果的準(zhǔn)確性,進(jìn)而提高文本查重結(jié)果的準(zhǔn)確性。

技術(shù)研發(fā)人員:張建強(qiáng),宋功鵬,王方旭,馬超,張熙,陳彬,杜飛,馬福壇,趙潔,韓鑫鑫,姜彤彤,張波,張夢(mèng),王見(jiàn)雷,楊合林,王星,劉澤宇
受保護(hù)的技術(shù)使用者:中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1