字符辨識裝置以及識別函數生成方法
【技術領域】
[0001] 本發(fā)明設及光學性字符辨識技術,特別設及特征空間上的字符的識別技術。
【背景技術】
[0002] 作為本技術領域的【背景技術】,有日本特開2010-39778號公報(專利文獻1)。在專 利文獻1中,記載有;"使用辭典生成用特征圖案群,通過多項式神經網絡來學習二次函數, 選擇保存二次函數的主要分量的部分空間,從而削減特征空間的維度。在初始系數設定步 驟、系數修正步驟中,W使將二次函數用作識別函數時的損失函數的值變小的方式,通過梯 度下降法或者概率的梯度下降法來修正系數。在基向量導出步驟中,導出二次函數的二次 項的二次型的矩陣的特征向量和一次項的系數向量。接下來,在投影矩陣導出步驟中,從特 征向量和系數向量中,選擇成為主分量的1個W上的向量,將通過所選擇的向量而生成的 部分空間生成為新的特征空間"。
[0003] 現有技術文獻
[0004] 專利文獻
[0005] 專利文獻1日本特開2010-39778號公報
【發(fā)明內容】
[0006] 發(fā)明所要解決的技術問題
[0007] 作為字符辨識中的識別函數,廣泛使用在識別精度和識別速度該雙方中具有高性 能的二次函數。在二次函數中,有拋物型、雙曲型、楠圓型該3種。
[000引在基于W往技術的識別函數的生成方法中,有如下的方法;定義與誤讀相關的損 失函數,W使損失函數的值變小的方式,根據學習樣本反復修正系數,從而創(chuàng)建識別函數 (參照例如專利文獻1)。在該方法中,一般來說,識別函數不會為楠圓型。
[0009] 在圖15中示意性地示出了該種情形。用等高線表示的是字符類型"X"的識別函 數的等高線。W區(qū)分字符類型"X"和其它字符類型的方式來形成等高線,有表示字符類型 "X"的圈的圖形的一側是識別函數的值大的一側,相反側是識別函數的值小的一側。在該方 法中,W區(qū)分不同的字符彼此的方式來生成識別函數,但如圖15所示,非字符有時位于取 高值的區(qū)域。因此,存在如下的問題;雖然辨識精度高,但非字符丟棄精度低。
[0010] 作為利用W往技術的識別函數的其它生成方法,有如下方法:對各字符類型的字 符的分布假設高斯分布,根據高斯分布的分布密度,來確定識別函數。在該方法中,如圖17 那樣,識別函數為楠圓型。在該情況下,由于不是W減小損失函數等的方式來直接調整系數 的方法,所W雖然辨識精度低,但丟棄精度高。
[0011] 因此,課題在于;通過將識別函數維持為楠圓型,并且W使損失函數的值變小的方 式來修正系數,從而創(chuàng)建識別函數,實現高的正確讀取率和高的丟棄率。
[0012] 解決技術問題的技術方案
[001引如果示出本發(fā)明的代表性的一個例子,則如下所述。即,一種字符辨識裝置,具有 處理器w及存儲裝置,其特征在于,所述存儲裝置保持多個字符類型的多個學習用字符圖 像,所述處理器執(zhí)行;特征提取處理,將所述各學習用字符圖像變換為規(guī)定維數的向量;二 次函數初始設定處理,針對每個所述字符類型,定義所述規(guī)定維數的向量空間上的楠圓型 二次識別函數;損失函數定義處理,定義測量使用所述楠圓型二次識別函數來識別了所述 學習用字符圖像時的誤差程度的損失函數;樣本位置修正幅度計算處理,計算用于W使在 使用所述楠圓型二次識別函數來識別出從所述多個學習用字符圖像中選擇的樣本時的所 述損失函數的值變小的方式使所述樣本的向量的位置移動的修正向量;系數修正處理,根 據所述修正向量,W將所述楠圓型二次識別函數的等高線原樣地維持為楠圓形而使所述損 失函數的值變小的方式,修正所述楠圓型二次識別函數的參數;W及保存處理,將具有所修 正的所述參數的所述楠圓型二次識別函數,作為用于所輸入的字符圖像的識別和丟棄的識 別函數,保存于所述存儲裝置。
[0014] 發(fā)明效果
[0015] 根據本發(fā)明的一個方式,能夠在字符辨識中實現高的正確讀取率和高的非字符丟 棄率。
【附圖說明】
[0016] 圖1是示出本發(fā)明的實施例的字符辨識裝置的結構的一個例子的框圖。
[0017] 圖2是示出由本發(fā)明的實施例的字符辨識裝置實施的文檔電子化的處理的流程 的典型的例子的流程圖。
[001引圖3是示出由本發(fā)明的實施例的字符辨識裝置實施的文檔電子化的處理的流程 的具體例的說明圖。
[0019]圖4是由本發(fā)明的實施例的字符辨識裝置實施的字符截取處理的說明圖。
[0020] 圖5是由本發(fā)明的實施例的字符辨識裝置實施的字符識別的結果的說明圖。
[0021] 圖6是由本發(fā)明的實施例的字符辨識裝置實施的辨識結果的候選的網絡的說明 圖。
[0022] 圖7是示出由本發(fā)明的實施例的字符辨識裝置實施的特征提取的處理的例子的 說明圖。
[0023]圖8是由本發(fā)明的實施例的字符辨識裝置實施的梯度特征提取方法的第1說明 圖。
[0024]圖9是由本發(fā)明的實施例的字符辨識裝置實施的梯度特征提取方法的第2說明 圖。
[0025] 圖10是由本發(fā)明的實施例的字符辨識裝置實施的字符識別用的方式的說明圖。
[0026] 圖11是示出本發(fā)明的實施例的字符辨識裝置所保持的學習用字符圖像數據庫的 例子的說明圖。
[0027] 圖12是示出由本發(fā)明的實施例的字符辨識裝置丟棄的字符的第1例的說明圖。 [002引圖13是示出由本發(fā)明的實施例的字符辨識裝置丟棄的字符的第2例的說明圖。
[0029] 圖14是W往的識別函數的生成方法的第1例的說明圖。
[0030] 圖15是通過W往的方法所生成的識別函數的第1例的說明圖。
[0031] 圖16是W往的識別函數的生成方法的第2例的說明圖。
[0032] 圖17是通過W往的方法所生成的識別函數的第2例的說明圖。
[0033] 圖18是示出由本發(fā)明的實施例的字符辨識裝置實施的識別函數的創(chuàng)建方法的流 程圖。
[0034]圖19是示意地示出由本發(fā)明的實施例的字符辨識裝置實施的識別函數的參數的 修正的說明圖。
[0035] 圖20是根據本發(fā)明的實施例的字符辨識裝置的楠圓型的識別函數的中屯、的移動 的說明圖。
[0036] 圖21是根據本發(fā)明的實施例的字符辨識裝置的楠圓型的識別函數的中屯、W外的 參數的變更的說明圖。
[0037] 符號說明
[003引 201 ;子化辨識裝置;202 ;輸入裝置;203 ;顯不裝置;204 ;影像獲取裝置;205 ;通 信裝置;206 ;運算裝置仰U) ;207 ;外部存儲裝置;213 ;學習用字符圖像數據庫;214 ;字符 辨識用辭典。
【具體實施方式】
[0039] W下,參照圖表,對本發(fā)明的字符辨識裝置的實施例進行說明。本實施例的字符辨 識裝置是如下的裝置:對通過利用掃描儀等讀取例如紙件文檔而獲取的輸入文檔圖像中的 字符進行檢測并辨識,并對字符進行代碼化,從而使輸入文檔電子化。在輸入文檔中,,除了 一般文檔W外,還有例如票據、說明書等。
[0040] 圖1是示出本發(fā)明的實施例的字符辨識裝置的結構的一個例子的框圖。
[0041] 本實施例的字符辨識裝置201進行例如印章辨識W及票據辨識,具備輸入裝置 202、顯示裝置203、影像獲取裝置204、通信裝置205、運算裝置(CPU) 206、外部存儲裝置 207。外部存儲裝置207包括學習用字符圖像數據庫213 W及字符識別用辭典214。
[0042] 輸入裝置202是例如用于輸入命令等的鍵盤W及鼠標等。輸入裝置202是用于輸 入為了由運算裝置(CPU) 206執(zhí)行的程序的控制、W及連接設備的控制而執(zhí)行的命令等的 裝置。
[0043] 顯示裝置203是適宜顯示處理內容的顯示器等裝置。
[0044] 影像獲取裝置204是掃描儀等影像獲取用的裝置。獲取的影像也可W存儲于外部 存儲裝置207等。
[0045] 通信裝置205用于進行與PC或者服務器等外部設備(圖示省略)之間的數據交 換。通信裝置205用于獲取來自外部設備的由用戶輸入的執(zhí)行命令,獲取來自外部設備的 圖像、文本等信息等目的。另外,通信裝置205還用于將字符辨識裝置201中的處理內容發(fā) 送到外部設備等目的。
[0046] 運算裝置(CPU)206是執(zhí)行在文檔圖像中的字符辨識中使用的字符識別用辭典 214的生成等處理的運算裝置。
[0047] 外部存儲裝置207是硬盤驅動器(皿D) W及存儲器等外部存儲裝置。在外部存儲 裝置207中,保存了學習用字符圖像數據庫213 W及字符識別用辭典214等各種數據。另 夕F,外部存儲裝置207還用于臨時地存儲在由運算裝置(CPU) 206執(zhí)行的處理的途中所生成 的數據等。
[0048] 也可W沒有輸入裝置202、顯示裝置203、影像獲取裝置204 W及通信裝置205。在 沒有輸入裝置202的情況下,字符辨識裝置201既可W在使用通信裝置205從外部設備指 示了時開始處理,或者也可W通過時刻指定等自動地開始處理。在沒有顯示裝置203的情 況下,處理結果被使用通信裝置205發(fā)送到外部設備、或者存儲到外部存儲裝置207。
[0049] 也可W經由外部存儲裝置207,進行執(zhí)行處理的模塊的輸出和輸入。目P,也可W例 如由運算裝置206實現的某個處理部(圖示省略、此處記載為處理部1)將處理結果輸出到 由運算裝置206實現的其它處理部(圖示省略、此處記載為處理部2),處理部2在將其處理 結果作為輸入受理的情況下,實際上,處理部1預先將處理結果輸出到外部存儲裝置207而 存儲,處理部2將在外部存儲裝置207中存儲了的處理部1的輸出結果作為輸入獲取。
[0050] 接下來,轉移到由本實施例中的字符辨識裝置201所實施的處理的說明。
[0化1] W下,首先,使用圖2等,說明本發(fā)明的實施例的字符辨識裝置201執(zhí)行的文檔電 子化處理。之后,使用圖18等,說明作為本實施例的特征的、在文檔電子化中使用的字符識 別用辭典214的生成處理。
[0052] 首先,對本發(fā)明的實施例的字符辨識裝置所執(zhí)行的文檔電子化處理進行說明。
[0053] 圖2是示出由本發(fā)明的實施例的字符辨識裝置201實施的文檔電子化的處理的流 程的典型的例子的流程圖。另外,圖3是示出由本發(fā)明的實施例的字符辨識裝置201實施 的文檔電子化的處理的流程的具體例的說明圖。
[0化4] 在文檔的圖像化(掃描)501中,字符辨識裝置201的CPU206通過影像獲取裝置204(例如掃描儀等)將文檔讀入并圖像化。此時,在背景印刷是用彩色進行了印字的情況 等下,CPU206還有時進行將特定顏色的印字光學地去除的濾色(color化opout)等處理。 輸入文檔有一般文檔、票據類,W及一開始就W用字符辨識裝置來進行處理為目的而制作 的標記表(marksheet)用紙等。
[0055] 在預處理502中,CPU 206進行文檔圖像的彩色圖像的二值化(白黑化)、噪聲去 除、W及背景印刷等不需要部分的去除等處理。預處理后的二值圖像例如如圖3的票據圖 像601所示。
[0化6] 在布局解析503中,CPU 206進行二值圖像的布局解析,辨識圖表的位置、段落構 造、W及項目和數據的位置等。關于項目和數據的位置,CPU 206在例如是票據圖像601的 情況下,根據表構造的關系,解析為"支付金額"是項目名,其下的記載有"7, 890, 123"的框 是數據框等。在是論文W及技術報告書的情況等下,有時還根據文檔的構造和位置關系