我正在尝试改进我制作的 OCR 程序,以读取我正在使用的某个图像的布局。现在,我希望我的 OCR 程序只识别数字 0-9。
我试图按照问题的解决方案:
但是我陷入了必须将 tesseract 称为:
tesseract input.tif output nobatch letters
这是哪里?
我正在尝试改进我制作的 OCR 程序,以读取我正在使用的某个图像的布局。现在,我希望我的 OCR 程序只识别数字 0-9。
我试图按照问题的解决方案:
但是我陷入了必须将 tesseract 称为:
tesseract input.tif output nobatch letters
这是哪里?
我在使用 python 时遇到了同样的问题,机智 tesseract 3 假设更多的读者可能会这样做。
从这里:https ://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
我成功使用:
pytesseract.image_to_string(someimage, config='outputbase digits')
我前段时间在 SO 中发布了一些关于 tesseract 的内容:请参阅Tesseract OCR Library - Learning Font。值得注意的是一个tesseract 训练的链接,它将告诉你如何限制你的字符集并描述你的歧义。
这个问题在Tesseract FAQ上得到了回答
以下是如何让 tesseract 仅识别数字:
Tesseract 2 - 在调用 Init 函数之前或将其放入名为 tessdata/configs/digits 的文本文件中:
tessedit_char_whitelist 0123456789
然后你的命令行变成:
tesseract image.tif outputbase nobatch digits
Tesseract 3 - 已经创建了一个数字配置文件,所以只需运行一个 tesseract 命令,如下所示:
tesseract imagename outputbase digits
它是您用来在命令行上运行 tesseract 的命令。
为了获得更好的答案,我们需要知道您是在命令行上运行 tesseract 还是作为库运行。