1

我正在使用 OCR 开发一个使用Tesseract Libs, 和tess-two项目的 Android 应用程序,正如我在这里看到的:http: //gaut.am/making-an-ocr-android-app-using-tesseract/

该应用程序运行良好,但我正在修复与照片内容一起返回的字符串,有时会带有陌生人字符。示例:我正在阅读此内容:www.caelum.com.br并收到类似以下内容:r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr
搜索,我已配置此内容:baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
但我认为这变得最糟糕。

我想阅读葡萄牙语和英语的文本。所以,我下载了每种语言的训练数据并按照我的意愿使用它,但是这些陌生人字符与编码项目有关吗?

感谢帮助 :)

4

1 回答 1

0

Tesseract 仅识别包含文本且仅包含文本的图像的文本。仅包含文本的图像将被它准确识别,并且您也可以获得良好的准确性。然而,Tesseract 为图像+文本识别提供了乱码输出。我没有在这个识别上工作,所以无法进一步帮助。

所以你的问题应该是如何裁剪图像部分,以便只从图像中获取文本部分。就像 Tesseract 可以很好地识别并在输出中提供所需的文本。

谢谢。

于 2012-11-28T09:45:40.627 回答