表格文件處理/辨識/編輯系統

本研究主要是執行印刷表格的處理、辨識、與編輯等工作 (例如,銀行、郵局的各種表單、稅單的自動處理與辨識)。表格內可以有印刷體字、手寫體字、中文字、英文字、數字、符號、影像及圖形等資訊。這個系統共分為四個模組:(i) 前置處理模組包含影像自動二值化、傾斜偵測及校正、連結區塊分析、及圖文分離;(ii) 線條及欄位擷取模組包含表格線條擷取、虛線處理、欄位抽取、及欄位關係描述;(iii) 筆劃與線條重疊分離與重建模組主要是分離並修補與線條重疊的文字區塊;(iv) 屬性擷取與表格辨識模組包括偵測各欄位中字串的書寫方向,判斷連結區塊為圖形或文字、手寫或印刷、中文或英數字等屬性,及階層式的表格辨識。

 

部份研究成果:影像自動二值化、圖文分離、表格線條擷取、虛線處理、

               欄位抽取、表格辨識

 

The original document.

The form image.

 

 

The extracted lines.

The RTF file.