ocr - 有没有办法用小字体改进 tesseract OCR？

Question

我正在尝试通过 python-tesseract 使用 tesseract-OCR 来读取如下所示的低分辨率字体：

在此处输入图像描述

不幸的是，图像返回

ZIJZHZI

我认为分辨率太低，这会导致问题。我尝试放大图像，并将其裁剪为单个字符，但这些都没有提供太大的改进。还有什么我应该考虑做的事情，最好是可以使用 Python Imaging Library 完成的事情？或者我应该放弃/训练 tesseract。

值得一提的是，PIL 具有以下内置过滤器：

BLUR、CONTOUR、DETAIL、EDGE_ENHANCE、
EDGE_ENHANCE_MORE、EMBOSS、FIND_EDGES、
SMOOTH、SMOOTH_MORE 和 SHARPEN

score 18 · Accepted Answer

我试图用以下方法放大图像：

  convert -resize 400% in.bmp out.bmp

然后阅读它：

  tesseract out.bmp res

结果是正确的：

1 回答 1