本申請涉及文檔智能管理,尤其涉及一種電子文檔的分類方法、裝置、電子設(shè)備和計算機可讀介質(zhì)。
背景技術(shù):
1、隨著數(shù)字化時代的到來,電子文檔已經(jīng)成為人們獲取知識、進行學(xué)術(shù)研究的重要途徑之一。但在處理大量電子文檔時,由于各類電子文檔內(nèi)容的多樣性和復(fù)雜性,如何快速準(zhǔn)確地對電子文檔進行分類管理成為了一個挑戰(zhàn)。其中,一個重要的問題是如何對混疊區(qū)域數(shù)據(jù)類別進行分類,即如何區(qū)分不同的電子文檔類型,例如文獻、報告、論文、專著等。
2、當(dāng)前的電子文檔分類方法主要包括基于關(guān)鍵詞的分類方法和基于文本相似度的分類方法等?;陉P(guān)鍵詞的分類方法簡單直觀,但需要手工標(biāo)注關(guān)鍵詞,標(biāo)注工作量大,分類結(jié)果不夠客觀;基于文本相似度的方法適用于不同版本或同一版本不同語言的電子文檔之間的比較,但對于文本間相似度較高的混疊區(qū)域數(shù)據(jù),難以進行準(zhǔn)確分類。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的是提供一種電子文檔的分類方法、裝置、電子設(shè)備和計算機可讀介質(zhì),能夠提高電子文檔分類的準(zhǔn)確性。
2、為解決上述技術(shù)問題,本申請實施例是通過以下各方面實現(xiàn)的。
3、第一方面,本申請實施例提供了一種電子文檔的方法,包括:根據(jù)待分類文檔的內(nèi)容特征,確定所述待分類文檔的內(nèi)容特征向量;根據(jù)所述待分類文檔的結(jié)構(gòu)特征,確定所述待分類文檔的結(jié)構(gòu)特征向量;根據(jù)所述內(nèi)容特征向量和所述結(jié)構(gòu)特征向量,確定分類特征向量;根據(jù)所述分類特征向量,確定所述待分類文檔的類型。
4、第二方面,本申請實施例提供了一種電子文檔的分類裝置,包括:內(nèi)容特征向量確定模塊,用于根據(jù)待分類文檔的內(nèi)容特征,確定所述待分類文檔的內(nèi)容特征向量;結(jié)構(gòu)特征向量確定模塊,用于根據(jù)所述待分類文檔的結(jié)構(gòu)特征,確定所述待分類文檔的結(jié)構(gòu)特征向量;特征融合模塊,用于根據(jù)所述內(nèi)容特征向量和所述結(jié)構(gòu)特征向量,確定分類特征向量;分類模塊,用于根據(jù)所述分類特征向量,確定所述待分類文檔的類型。
5、第三方面,本申請實施例提供了一種電子設(shè)備,包括:存儲器、處理器和存儲在所述存儲器上并可在所述處理器上運行的計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被所述處理器執(zhí)行時實現(xiàn)上述第一方面所述的電子文檔的分類方法。
6、第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)用于存儲計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)上述第一方面所述的電子文檔的分類方法。
7、在本申請實施例中,通過根據(jù)待分類文檔的內(nèi)容特征,確定所述待分類文檔的內(nèi)容特征向量;根據(jù)所述待分類文檔的結(jié)構(gòu)特征,確定所述待分類文檔的結(jié)構(gòu)特征向量;根據(jù)所述內(nèi)容特征向量和所述結(jié)構(gòu)特征向量,確定分類特征向量;根據(jù)所述分類特征向量,確定所述待分類文檔的類型,能夠提高電子文檔分類的準(zhǔn)確性。
1.一種電子文檔的分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)待分類文檔的內(nèi)容特征,確定所述待分類文檔的內(nèi)容特征向量,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待分類文檔的結(jié)構(gòu)特征,確定所述待分類文檔的結(jié)構(gòu)特征向量,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述內(nèi)容特征向量和所述結(jié)構(gòu)特征向量,確定分類特征向量,包括:
5.根據(jù)權(quán)利要求4的方法,其特征在于,所述根據(jù)所述內(nèi)容特征向量、用于表示內(nèi)容特征向量的高斯分布不確定性的第一權(quán)重、所述結(jié)構(gòu)特征向量以及用于表示所述結(jié)構(gòu)特征向量的高斯分布不確定性的第二權(quán)重,確定所述分類特征向量,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分類特征向量,確定所述待分類文檔的類型,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述內(nèi)容特征包括主題詞、關(guān)鍵詞和文本長度中的至少之一,所述結(jié)構(gòu)特征包括篇章結(jié)構(gòu)。
8.一種電子文檔的分類裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機可讀介質(zhì),其特征在于,所述計算機可讀介質(zhì)存儲一個或多個程序,所述一個或多個程序當(dāng)被包括多個應(yīng)用程序的電子設(shè)備執(zhí)行時,使得所述電子設(shè)備執(zhí)行以下權(quán)利要求1-7中任一項所述的電子文檔的分類方法。