python - 让 tesseract 只识别数字

Question

我正在尝试改进我制作的 OCR 程序，以读取我正在使用的某个图像的布局。现在，我希望我的 OCR 程序只识别数字 0-9。

我试图按照问题的解决方案：

但是我陷入了必须将 tesseract 称为：

tesseract input.tif output nobatch letters

这是哪里？

score 8 · Accepted Answer

我在使用 python 时遇到了同样的问题，机智 tesseract 3 假设更多的读者可能会这样做。

我成功使用：

pytesseract.image_to_string(someimage, config='outputbase digits')

score 6 · Accepted Answer

我前段时间在 SO 中发布了一些关于 tesseract 的内容：请参阅Tesseract OCR Library - Learning Font。值得注意的是一个tesseract 训练的链接，它将告诉你如何限制你的字符集并描述你的歧义。

score 4 · Accepted Answer

以下是如何让 tesseract 仅识别数字：

Tesseract 2 - 在调用 Init 函数之前或将其放入名为 tessdata/configs/digits 的文本文件中：

tessedit_char_whitelist 0123456789

然后你的命令行变成：

tesseract image.tif outputbase nobatch digits

Tesseract 3 - 已经创建了一个数字配置文件，所以只需运行一个 tesseract 命令，如下所示：

tesseract imagename outputbase digits

score 1 · Accepted Answer

它是您用来在命令行上运行 tesseract 的命令。

为了获得更好的答案，我们需要知道您是在命令行上运行 tesseract 还是作为库运行。

4 回答 4