1

我有一个 tiff 文件,其中包含一些由制表符(4 个空格)分隔的文本。但是当我从这个 tiff 图像文件中提取文本时,我总是在两列之间得到一个空格。一个示例:

TIFF IMAGE:
col-a    col-b    col-c

desired output:
col-a    col-b    col-c

but I am getting the following:
col-a col-b col-c

我尝试了多张相同格式的图像,但结果总是一样的。我该如何解决这个问题?我可以训练 tesseract 来理解这一点吗?

4

2 回答 2

8

经过很长时间的研究,我找到了解决方案。以下是要遵循的步骤

  1. 将您的 tesseract 升级到 3.04

  2. 创建config.txt(在输入图片文件的目录下创建文件)

  3. 在配置文件中定义“ preserve_interword_spaces

  4. 工作后preserve_interword_spaces给出 0 或 1。例如:

preserve_interword_spaces 0

或者

preserve_interword_spaces 1

  1. 测试和干杯!!!
于 2016-04-05T13:49:10.203 回答
4

Tesseract 将连续的空格压缩为一个。您需要修改baseapi.cpp以保留空格。代码更改可以在以下帖子中找到:

https://groups.google.com/forum/#!searchin/tesseract-ocr/spaces/tesseract-ocr/lGBQiryHcrY/wy5a-L9O3i4J

https://groups.google.com/forum/#!searchin/tesseract-ocr/spaces/tesseract-ocr/9nzPrBZ3118/b3W5GtsFPo0J

于 2013-08-07T23:29:36.043 回答