2

我用 Python 编写,如果需要,使用pytesseract或直接Popen调用。

我尝试对具有不规则结构的文档进行 OCR,一封如下所示的字母: 在此处输入图像描述 问题出在.hocrTesseract 生成的文件中,我得到由左右列组成的行,如“收件人:发件人:”

我想要实现的是从左列和右列分开的输出。如果有合理的详​​细解释,使用第三方 Python 实用程序对图像进行预处理是一种可接受的解决方案。该脚本必须是自主的,并且以某种方式检测到此问题,因为并非所有字母都有这种奇怪的格式。

尝试/想法:

用于--psm 1允许输入格式检测 - 对默认值没有改进,可能是因为结构太复杂。

调整一些配置文件选项,例如gapmap_use_endstextord_words_maxspace- 我找不到关于这些的好的文档,并且可能存在正确的值组合,但有 57 个选项名称为“空格”......对这些的任何见解将不胜感激。

编辑.hocr- 不确定如何为不干扰其他任何地方的正常文本的单词框编写适当的分组规则......

4

0 回答 0