0

Tesseract 支持指定字符集白名单和黑名单,还支持使用 UNVL 的 UZN 文件格式指定区域。

但是,我现在需要扫描一个包含 2 个区域的文档,一个仅包含数字,一个包含普通文本。我可以在不执行 Tesseract 两次的情况下为 2 个区域指定不同的字符集吗?

如果没有,我可能会尝试修改UNICHARSET类的代码以某种方式做到这一点。

4

1 回答 1

1

我终于通过使用 Base API 中的 SetImage()/SetRectangle() 做到了。对于每个矩形,我运行以下代码:

    api.SetRectangle(left, top, width, height);
    api.SetVariable("tessedit_char_whitelist", whitelist.c_str());
    char *s = api.GetUTF8Text();
    printf("%s", s);
    delete s;
于 2013-04-04T13:37:25.750 回答