3

我在 python 中使用 Tesseract-OCR 版本 3.05 dev 对一些文档进行 OCR。我遇到的主要问题是打字机字体中的数字 4。它几乎总是会错过它并输出空而不是 4 或一些不正确的文本。我已经上传了一个示例图片。在此处输入图像描述

我也不必使用 tesseract,如果您对其他(更好的)引擎有建议,请告诉我。

4

1 回答 1

4

如果您只查找数字,则可以添加仅包含数字的白名单。C++ 中的示例:

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

如果这不起作用,我建议您针对这种特定字体训练 tesseract-ocr。可以在此处找到一个很好且清晰的指南:https ://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

希望这有助于解决您的问题。:)

于 2016-05-09T12:39:55.430 回答