我用 Python 编写,如果需要,使用pytesseract
或直接Popen
调用。
我尝试对具有不规则结构的文档进行 OCR,一封如下所示的字母:
问题出在.hocr
Tesseract 生成的文件中,我得到由左右列组成的行,如“收件人:发件人:”
我想要实现的是从左列和右列分开的输出。如果有合理的详细解释,使用第三方 Python 实用程序对图像进行预处理是一种可接受的解决方案。该脚本必须是自主的,并且以某种方式检测到此问题,因为并非所有字母都有这种奇怪的格式。
尝试/想法:
用于--psm 1
允许输入格式检测 - 对默认值没有改进,可能是因为结构太复杂。
调整一些配置文件选项,例如gapmap_use_ends
和textord_words_maxspace
- 我找不到关于这些的好的文档,并且可能存在正确的值组合,但有 57 个选项名称为“空格”......对这些的任何见解将不胜感激。
编辑.hocr
- 不确定如何为不干扰其他任何地方的正常文本的单词框编写适当的分组规则......