我正在使用Tess-two 来OCR 文档。看来Tesseract 的团队做得很好,结果非常好!!
但现在我只想使用我的 user_data 文件中的单词。
这里https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data就是一个很好的例子。我在我的 android 项目中找到了 Tesseract 链接建议的每个文件,但我不能让程序使用 user_data 文件中的单词。我在 configs 文件夹中找到了 .bazaar 文件,但是我如何在我的代码中设置它?
有什么我想念的吗?
下面是我初始化 tessbaseApi 并设置命令的部分代码。
TessBaseAPI baseApi = new TessBaseAPI();
baseApi.setDebug(true);
baseApi.init(Environment.getExternalStorageDirectory() + "/EMB/dataBase/", "eng");
baseApi.setPageSegMode(TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_AUTO_OSD);
baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
baseApi.ReadConfigFile("/path/to/configs/bazaar");
baseApi.setImage(myBitmap);
//variable for recognizing
String recognizedText = baseApi.getUTF8Text();
/*recognizedText = recognizedText.replaceAll(blackList, "");//remove space*/
String resultTxt = recognizedText;
//
baseApi.end();
ocrreadytext.setText(resultTxt);
提前致谢!