我已经在这张图片和一些扫描的图片上尝试了 tesseract,其中一些文本在矩形内。但每次都会失败,并输出一些垃圾文本。并在文本周围不带框的情况下进行更正。请告诉我如何处理图像或 tesseract ?请帮忙
问问题
2566 次
2 回答
0
Tesseract 在分类之前将图像转换为灰度,因此粉红色的线条可能被提取为文本。
只从图像中提取黑色像素,你应该没问题。您可以为此使用ImageMagick 。
于 2012-12-05T08:02:13.157 回答
0
如前所述,在进行 OCR 之前,您应该去掉粉色线条(尽管它们仍然可以用作字符边界)
一旦你提取了你的 gliphs 并将它们二值化(转换为位图),你就可以开始在它上面使用 tesseract。请记住,tesseract 使用形状提取方法并依赖于字典支持 - 您可能会通过 Hu 等不变矩获得更好的结果(和更快的处理时间)
如果您对基于 java 的方法感兴趣,这里是我们的 OCR 库在纯 java 中执行此操作(可以移植到其他语言):
于 2012-12-05T08:13:25.840 回答