1

我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集,因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作

  • 二值化和阈值​​化
  • 将单词分成构成它的字符
  • 调整提取字符的大小
  • 让 tesseract 弄清楚英文字母是什么

我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中,然后可能会从它们中形成一个模板。为此,我需要知道它是哪个角色。
这是我得到的结果 -
在此处输入图像描述

所有字符都被正确分割(大多数情况下)。这更像是一个 tesseract 问题,而不是一个 python 问题,但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证,输入不是问题。我还需要做什么才能让 tesseract 工作吗?

这些字符都无法识别。

4

1 回答 1

2

Tesseract不能很好地支持手写文本。您应该为此尝试 ABBYY OCR 或其他免费库,如Lipi Toolkit

于 2017-04-02T19:59:02.227 回答