我正在使用 OCR 开发一个使用Tesseract Libs
, 和tess-two
项目的 Android 应用程序,正如我在这里看到的:http: //gaut.am/making-an-ocr-android-app-using-tesseract/
该应用程序运行良好,但我正在修复与照片内容一起返回的字符串,有时会带有陌生人字符。示例:我正在阅读此内容:www.caelum.com.br
并收到类似以下内容:r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr
搜索,我已配置此内容:baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
但我认为这变得最糟糕。
我想阅读葡萄牙语和英语的文本。所以,我下载了每种语言的训练数据并按照我的意愿使用它,但是这些陌生人字符与编码项目有关吗?
感谢帮助 :)