一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào)：39710449發(fā)布日期：2024-10-22 12:55閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及計(jì)算機(jī)，尤其涉及一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、目前對(duì)文檔圖像還原對(duì)應(yīng)的文檔的方式先通過(guò)版面分析以及文字檢測(cè)方法提取出文檔圖像中的文字、表格、插圖等信息，再通過(guò)一定的啟發(fā)式的方法進(jìn)行排序，從而還原出文檔圖像對(duì)應(yīng)的文檔。但是上述文檔識(shí)別的方式涉及論文雜志等涉及雙欄、多欄、表格、插圖等非常復(fù)雜的場(chǎng)景時(shí)，文檔識(shí)別的準(zhǔn)確性較低。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問(wèn)題，本公開提供了一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)。

2、本公開實(shí)施例提供了一種文檔識(shí)別方法，所述方法包括：

3、獲取目標(biāo)文檔圖像；

4、提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容；

5、對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理，得到多模態(tài)特征；

6、將所述多模態(tài)特征輸入閱讀順序模型中，還原得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，其中，所述目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的所述文檔元素對(duì)應(yīng)的文字內(nèi)容。

7、本公開實(shí)施例還提供了一種文檔識(shí)別裝置，所述裝置包括：

8、獲取模塊，用于獲取目標(biāo)文檔圖像；

9、提取模塊，用于提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容；

10、特征處理模塊，用于對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理，得到多模態(tài)特征；

11、識(shí)別模塊，用于基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，其中，所述目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的所述文檔元素對(duì)應(yīng)的文字內(nèi)容。

12、本公開實(shí)施例還提供了一種電子設(shè)備，所述電子設(shè)備包括：處理器；用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器；所述處理器，用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令，并執(zhí)行所述指令以實(shí)現(xiàn)如本公開實(shí)施例提供的文檔識(shí)別方法。

13、本公開實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序用于執(zhí)行如本公開實(shí)施例提供的文檔識(shí)別方法。

14、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)：本公開實(shí)施例提供的文檔識(shí)別方案，獲取目標(biāo)文檔圖像；提取目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容；對(duì)目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理，得到多模態(tài)特征；基于多模態(tài)特征進(jìn)行處理得到目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，其中，目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的文檔元素對(duì)應(yīng)的文字內(nèi)容。采用上述技術(shù)方案，針對(duì)目標(biāo)文檔圖像提取其中文檔元素的位置和文字內(nèi)容，結(jié)合目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理得到的多模態(tài)特征通過(guò)閱讀順序模型可以還原文檔內(nèi)容，該文檔內(nèi)容包括按照閱讀順序排序的文檔元素的文字內(nèi)容，實(shí)現(xiàn)了利用多模態(tài)特征按照閱讀順序還原圖像對(duì)應(yīng)的文檔，尤其涉及到復(fù)雜場(chǎng)景，極大提升文檔識(shí)別的準(zhǔn)確性。

技術(shù)特征：

1.一種文檔識(shí)別方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述文檔元素包括文本行和非文本對(duì)象，提取所述目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述目標(biāo)文檔圖像、所述文檔元素的位置和文字內(nèi)容進(jìn)行特征處理，得到多模態(tài)特征，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，基于所述文檔元素的位置和內(nèi)容確定所述文檔元素的布局特征和語(yǔ)義特征，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，對(duì)所述文檔元素的文字內(nèi)容進(jìn)行特征提取，得到所述文檔元素的語(yǔ)義特征，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述多模態(tài)特征進(jìn)行處理得到所述目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，包括：

8.一種文檔識(shí)別裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序用于執(zhí)行上述權(quán)利要求1-7中任一所述的文檔識(shí)別方法。

技術(shù)總結(jié)
本公開實(shí)施例涉及一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)，其中該方法包括：獲取目標(biāo)文檔圖像；提取目標(biāo)文檔圖像中文檔元素的位置和文字內(nèi)容；對(duì)目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理，得到多模態(tài)特征；基于多模態(tài)特征進(jìn)行處理得到目標(biāo)文檔圖像對(duì)應(yīng)的目標(biāo)文檔內(nèi)容，其中，目標(biāo)文檔內(nèi)容包括按照閱讀順序排序的文檔元素對(duì)應(yīng)的文字內(nèi)容。本公開結(jié)合目標(biāo)文檔圖像、文檔元素的位置和文字內(nèi)容進(jìn)行特征處理得到的多模態(tài)特征通過(guò)閱讀順序模型可以還原文檔內(nèi)容，該文檔內(nèi)容包括按照閱讀順序排序的文檔元素的文字內(nèi)容，實(shí)現(xiàn)了利用多模態(tài)特征按照閱讀順序還原圖像對(duì)應(yīng)的文檔，尤其涉及到復(fù)雜場(chǎng)景，極大提升文檔識(shí)別的準(zhǔn)確性。

技術(shù)研發(fā)人員：林春暉,黃燦
受保護(hù)的技術(shù)使用者：北京火山引擎科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林春暉,黃燦
技術(shù)所有人：北京火山引擎科技有限公司
我是此專利的發(fā)明人

上一篇：一種工程基坑防護(hù)欄的制作方法
上一篇：一種芯片生產(chǎn)用顯影機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程

一種文檔識(shí)別方法、裝置、設(shè)備及介質(zhì)與流程