character - OCR 重新识别奇怪的字符。为什么？

Question

我正在使用 OCR 开发一个使用Tesseract Libs, 和tess-two项目的 Android 应用程序，正如我在这里看到的：http: //gaut.am/making-an-ocr-android-app-using-tesseract/

该应用程序运行良好，但我正在修复与照片内容一起返回的字符串，有时会带有陌生人字符。示例：我正在阅读此内容：www.caelum.com.br并收到类似以下内容：r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr
搜索，我已配置此内容：baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
但我认为这变得最糟糕。

我想阅读葡萄牙语和英语的文本。所以，我下载了每种语言的训练数据并按照我的意愿使用它，但是这些陌生人字符与编码项目有关吗？

感谢帮助：）

score 0 · Accepted Answer

Tesseract 仅识别包含文本且仅包含文本的图像的文本。仅包含文本的图像将被它准确识别，并且您也可以获得良好的准确性。然而，Tesseract 为图像+文本识别提供了乱码输出。我没有在这个识别上工作，所以无法进一步帮助。

所以你的问题应该是如何裁剪图像部分，以便只从图像中获取文本部分。就像 Tesseract 可以很好地识别并在输出中提供所需的文本。

谢谢。

character - OCR 重新识别奇怪的字符。为什么？

1 回答 1

Related

Reference