我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集,因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作
- 二值化和阈值化
- 将单词分成构成它的字符
- 调整提取字符的大小
- 让 tesseract 弄清楚英文字母是什么
我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中,然后可能会从它们中形成一个模板。为此,我需要知道它是哪个角色。
这是我得到的结果 -
所有字符都被正确分割(大多数情况下)。这更像是一个 tesseract 问题,而不是一个 python 问题,但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证,输入不是问题。我还需要做什么才能让 tesseract 工作吗?
这些字符都无法识别。