0

在此处输入图像描述

我已经在这张图片和一些扫描的图片上尝试了 tesseract,其中一些文本在矩形内。但每次都会失败,并输出一些垃圾文本。并在文本周围不带框的情况下进行更正。请告诉我如何处理图像或 tesseract ?请帮忙

4

2 回答 2

0

Tesseract 在分类之前将图像转换为灰度,因此粉红色的线条可能被提取为文本。

只从图像中提取黑色像素,你应该没问题。您可以为此使用ImageMagick 。

于 2012-12-05T08:02:13.157 回答
0

如前所述,在进行 OCR 之前,您应该去掉粉色线条(尽管它们仍然可以用作字符边界)

一旦你提取了你的 gliphs 并将它们二值化(转换为位图),你就可以开始在它上面使用 tesseract。请记住,tesseract 使用形状提取方法并依赖于字典支持 - 您可能会通过 Hu 等不变矩获得更好的结果(和更快的处理时间)

如果您对基于 java 的方法感兴趣,这里是我们的 OCR 库在纯 java 中执行此操作(可以移植到其他语言):

http://sourceforge.net/projects/javaocr/

于 2012-12-05T08:13:25.840 回答