本公開涉及計(jì)算機(jī),尤其涉及一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、目前對(duì)文檔圖像還原對(duì)應(yīng)的文檔的方式先通過(guò)版面分析以及文字檢測(cè)方法提取出文檔圖像中的文字、表格、插圖等信息,再通過(guò)一定的啟發(fā)式的方法進(jìn)行排序,從而還原出文檔圖像對(duì)應(yīng)的文檔。但是上述文檔識(shí)別的方式涉及論文雜志等涉及雙欄、多欄、表格、插圖等非常復(fù)雜的場(chǎng)景時(shí),文檔識(shí)別的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本公開提供了一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)。
2、本公開實(shí)施例提供了一種文檔識(shí)別方法,所述方法包括:
3、獲取目標(biāo)文檔圖像;
4、提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容;
5、對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理,得到多模態(tài)特征;
6、將所述多模態(tài)特征輸入閱讀順序模型中,還原得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容,其中,所述目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的所述文檔元素對(duì)應(yīng)的文字內(nèi)容。
7、本公開實(shí)施例還提供了一種文檔識(shí)別裝置,所述裝置包括:
8、獲取模塊,用于獲取目標(biāo)文檔圖像;
9、提取模塊,用于提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容;
10、特征處理模塊,用于對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理,得到多模態(tài)特征;
11、識(shí)別模塊,用于基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容,其中,所述目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的所述文檔元素對(duì)應(yīng)的文字內(nèi)容。
12、本公開實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述指令以實(shí)現(xiàn)如本公開實(shí)施例提供的文檔識(shí)別方法。
13、本公開實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行如本公開實(shí)施例提供的文檔識(shí)別方法。
14、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):本公開實(shí)施例提供的文檔識(shí)別方案,獲取目標(biāo)文檔圖像;提取目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容;對(duì)目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理,得到多模態(tài)特征;基于多模態(tài)特征進(jìn)行處理得到目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容,其中,目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的文檔元素對(duì)應(yīng)的文字內(nèi)容。采用上述技術(shù)方案,針對(duì)目標(biāo)文檔圖像提取其中文檔元素的位置和文字內(nèi)容,結(jié)合目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理得到的多模態(tài)特征通過(guò)閱讀順序模型可以還原文檔內(nèi)容,該文檔內(nèi)容包括按照閱讀順序排序的文檔元素的文字內(nèi)容,實(shí)現(xiàn)了利用多模態(tài)特征按照閱讀順序還原圖像對(duì)應(yīng)的文檔,尤其涉及到復(fù)雜場(chǎng)景,極大提升文檔識(shí)別的準(zhǔn)確性。
1.一種文檔識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文檔元素包括文本行和非文本對(duì)象,提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理,得到多模態(tài)特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,基于所述文檔元素的位置和內(nèi)容確定所述文檔元素的布局特征和語(yǔ)義特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,對(duì)所述文檔元素的文字內(nèi)容進(jìn)行特征提取,得到所述文檔元素的語(yǔ)義特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容,包括:
8.一種文檔識(shí)別裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-7中任一所述的文檔識(shí)別方法。