我正在使用流行的 OCR tessercat fork for android tess-two https://github.com/rmtheis/tess-two。我整合了所有的员工,它的工作原理等等......
但我只需要检测数字,我现在的代码是:
TessBaseAPI baseApi = new TessBaseAPI();
baseApi.init(pathToLngFile, langName);
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();
baseApi.end();
doSomething(recognizedText);
从这里https://code.google.com/p/tesseract-ocr/wiki/FAQ#How_do_I_recognize_only_digits?
我使用的是 V3 版本,没有代码解决方案,而是一些命令行解决方案 - 与 android 项目无关(我认为......)。所以我尝试实现版本 < V3 的解决方案并添加以下行:
baseApi.SetVariable("tessedit_char_whitelist", "0123456789");
我的问题是如何处理 init()?我不需要任何语言,但我仍然需要 init & aint init() 方法......
编辑:更具体地说
我的最终目标是纯文档(不是纯 Excel 表格),看起来像所附图片(标题和 3 列由空格分隔)。
我的要求是使数字有意义:能够分离并确定哪些数字属于哪一行和哪一列。
谢谢,