java - 为什么这个图像的 tesseract 失败了？

Question

在此处输入图像描述

我已经在这张图片和一些扫描的图片上尝试了 tesseract，其中一些文本在矩形内。但每次都会失败，并输出一些垃圾文本。并在文本周围不带框的情况下进行更正。请告诉我如何处理图像或 tesseract ？请帮忙

score 0 · Accepted Answer

Tesseract 在分类之前将图像转换为灰度，因此粉红色的线条可能被提取为文本。

只从图像中提取黑色像素，你应该没问题。您可以为此使用ImageMagick 。

score 0 · Accepted Answer

如前所述，在进行 OCR 之前，您应该去掉粉色线条（尽管它们仍然可以用作字符边界）

一旦你提取了你的 gliphs 并将它们二值化（转换为位图），你就可以开始在它上面使用 tesseract。请记住，tesseract 使用形状提取方法并依赖于字典支持 - 您可能会通过 Hu 等不变矩获得更好的结果（和更快的处理时间）

如果您对基于 java 的方法感兴趣，这里是我们的 OCR 库在纯 java 中执行此操作（可以移植到其他语言）：

2 回答 2