本公開(kāi)涉及自然語(yǔ)言的計(jì)算機(jī)處理,尤其涉及一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)。
背景技術(shù):
1、相關(guān)技術(shù)中,隨著信息化技術(shù)的迅速發(fā)展,知識(shí)庫(kù)應(yīng)用和管理系統(tǒng)成為了學(xué)術(shù)研究和技術(shù)開(kāi)發(fā)的重要工具。這些系統(tǒng)存儲(chǔ)了大量的研究報(bào)告、技術(shù)文檔和數(shù)據(jù)資料,為科研人員提供了便捷的資源共享和知識(shí)管理平臺(tái)。然而,隨著知識(shí)庫(kù)的傳播和共享,知識(shí)庫(kù)中的文件也面臨著高相似度的問(wèn)題,導(dǎo)致知識(shí)庫(kù)中信息質(zhì)量低,難以保證數(shù)據(jù)的真實(shí)性和原創(chuàng)性。
技術(shù)實(shí)現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法、裝置及系統(tǒng)。
2、根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,包括:
3、對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)所述煤礦知識(shí)庫(kù)中待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞;
4、針對(duì)所述多個(gè)分詞中的每個(gè)第一分詞,確定所述第一分詞在所述第一文本中的重要程度值;
5、確定所述第一分詞與所述多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值;
6、針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值;
7、對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,以根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度。
8、在本公開(kāi)一些實(shí)施例中,所述對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:
9、針對(duì)每個(gè)第一分詞,確定所述第一分詞對(duì)應(yīng)的多個(gè)相似度評(píng)估值的平均值;所述多個(gè)相似度評(píng)估值與所述多個(gè)第二分詞一一對(duì)應(yīng);
10、對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值。
11、在本公開(kāi)一些實(shí)施例中,所述對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:
12、通過(guò)以下公式對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述融合評(píng)估值value:
13、
14、其中,x為任意一個(gè)第一分詞,target[x]為包括所述第一文本中全部第一分詞的數(shù)組。
15、在本公開(kāi)一些實(shí)施例中,所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:
16、所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值。
17、在本公開(kāi)一些實(shí)施例中,所述根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度,包括:
18、根據(jù)預(yù)設(shè)的多個(gè)融合評(píng)估閾值區(qū)間,確定所述融合評(píng)估值的所屬融合評(píng)估閾值區(qū)間;
19、確定所述所屬融合評(píng)估閾值區(qū)間對(duì)應(yīng)的預(yù)設(shè)級(jí)別;
20、在所述預(yù)設(shè)級(jí)別滿足預(yù)設(shè)要條件的情況下,確定所述第一文本與所述第二文本相似。
21、在本公開(kāi)一些實(shí)施例中,在所述對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值之前,方法還包括:
22、分別對(duì)每個(gè)第一分詞和所述第一分詞對(duì)應(yīng)的重要程度值以鍵值對(duì)的形式存儲(chǔ)至第一哈希表中;
23、針對(duì)所述至少一個(gè)相似度指標(biāo)值中的每個(gè)相似度指標(biāo)值,將所述相似度指標(biāo)值和所述相似度指標(biāo)值對(duì)應(yīng)的第一分詞以鍵值對(duì)的形式存儲(chǔ)至相應(yīng)的第二哈希表中;所述第二哈希表存儲(chǔ)有相同類型的相似度指標(biāo)值;
24、所述根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:
25、從所述第一哈希表中查找與所述第一分詞對(duì)應(yīng)的所述重要程度值;
26、從至少一個(gè)第二哈希表中的每個(gè)第二哈希表中查找與所述第一分詞對(duì)應(yīng)的相似度指標(biāo)值;
27、根據(jù)所述重要程度值和每個(gè)第二哈希表中與所述第一分詞對(duì)應(yīng)的相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值。
28、根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估裝置,包括:
29、分詞單元,用于對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞;所述第二文本用于與所述第一文本進(jìn)行相似度比對(duì);
30、第一確定單元,用于針對(duì)所述多個(gè)分詞中的每個(gè)第一分詞,確定所述第一分詞在所述第一文本中的重要程度值;
31、第二確定單元,用于確定所述第一分詞與所述多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值;
32、第三確定單元,用于針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值;
33、評(píng)估單元,用于對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,以根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度。
34、根據(jù)本公開(kāi)實(shí)施例的第三方面,一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。
35、根據(jù)本公開(kāi)實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。
36、根據(jù)本公開(kāi)實(shí)施例的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一項(xiàng)所述的方法。
37、本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:通過(guò)對(duì)待評(píng)估的第一文本進(jìn)行分詞處理,得到多個(gè)第一分詞,以及對(duì)煤礦知識(shí)庫(kù)中待比對(duì)的第二文本進(jìn)行分詞處理,得到多個(gè)第二分詞,針對(duì)多個(gè)分詞中的每個(gè)第一分詞,確定第一分詞在第一文本中的重要程度值;確定第一分詞與多個(gè)第二分詞中每個(gè)第二分詞的至少一個(gè)相似度指標(biāo)值,針對(duì)多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)第一分詞對(duì)應(yīng)的重要程度值和第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定第一分詞的相似度評(píng)估值,對(duì)多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到第一文本的融合評(píng)估值,從而根據(jù)融合評(píng)估值評(píng)估第一文本與第二文本的相似程度,進(jìn)而能夠?qū)γ旱V知識(shí)庫(kù)中相似度較高的文本進(jìn)行識(shí)別,提高文本的真實(shí)性和原創(chuàng)性。
38、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
1.一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述對(duì)所述多個(gè)第一分詞的相似度評(píng)估值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:
3.根據(jù)權(quán)利要求2所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述對(duì)所述多個(gè)第一分詞各自對(duì)應(yīng)的平均值進(jìn)行融合處理,得到所述第一文本的融合評(píng)估值,包括:
4.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述針對(duì)所述多個(gè)第二分詞中的每個(gè)第二分詞,根據(jù)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值,確定所述第一分詞的相似度評(píng)估值,包括:
5.根據(jù)權(quán)利要求1所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,所述根據(jù)所述融合評(píng)估值評(píng)估所述第一文本與所述第二文本的相似程度,包括:
6.根據(jù)權(quán)利要求4所述的煤礦知識(shí)庫(kù)的文本相似度評(píng)估方法,其特征在于,在所述對(duì)所述第一分詞對(duì)應(yīng)的所述重要程度值和所述第二分詞對(duì)應(yīng)的至少一個(gè)相似度指標(biāo)值進(jìn)行加權(quán)求和,得到所述第一分詞的相似度評(píng)估值之前,方法還包括:
7.一種煤礦知識(shí)庫(kù)的文本相似度評(píng)估裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的方法。