python - Tesseract OCR 无法识别任何字符

Question

我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集，因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作

二值化和阈值化
将单词分成构成它的字符
调整提取字符的大小
让 tesseract 弄清楚英文字母是什么

我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中，然后可能会从它们中形成一个模板。为此，我需要知道它是哪个角色。
这是我得到的结果 -

所有字符都被正确分割（大多数情况下）。这更像是一个 tesseract 问题，而不是一个 python 问题，但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract（由 pytesseract 处理）。我向你保证，输入不是问题。我还需要做什么才能让 tesseract 工作吗？

这些字符都无法识别。

score 2 · Accepted Answer

Tesseract不能很好地支持手写文本。您应该为此尝试 ABBYY OCR 或其他免费库，如Lipi Toolkit。

python - Tesseract OCR 无法识别任何字符

1 回答 1

Related

Reference