9

我正在尝试改进我制作的 OCR 程序,以读取我正在使用的某个图像的布局。现在,我希望我的 OCR 程序只识别数字 0-9。

我试图按照问题的解决方案:

限制字符 tesseract 正在寻找

但是我陷入了必须将 tesseract 称为:

tesseract input.tif output nobatch letters  

这是哪里?

4

4 回答 4

8

我在使用 python 时遇到了同样的问题,机智 tesseract 3 假设更多的读者可能会这样做。

从这里:https ://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

在这里: https ://github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

我成功使用:

pytesseract.image_to_string(someimage, config='outputbase digits')

于 2016-11-14T01:27:47.190 回答
6

我前段时间在 SO 中发布了一些关于 tesseract 的内容:请参阅Tesseract OCR Library - Learning Font。值得注意的是一个tesseract 训练的链接,它将告诉你如何限制你的字符集并描述你的歧义。

于 2012-07-03T07:55:24.153 回答
4

这个问题在Tesseract FAQ上得到了回答

以下是如何让 tesseract 仅识别数字:

Tesseract 2 - 在调用 Init 函数之前或将其放入名为 tessdata/configs/digits 的文本文件中:

tessedit_char_whitelist 0123456789

然后你的命令行变成:

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已经创建了一个数字配置文件,所以只需运行一个 tesseract 命令,如下所示:

tesseract imagename outputbase digits
于 2013-11-05T10:55:42.530 回答
1

它是您用来在命令行上运行 tesseract 的命令。

为了获得更好的答案,我们需要知道您是在命令行上运行 tesseract 还是作为库运行。

于 2012-07-08T17:11:27.613 回答