tesseract - Tesseract 中每个区域的不同字符集白名单

Question

Tesseract 支持指定字符集白名单和黑名单，还支持使用 UNVL 的 UZN 文件格式指定区域。

但是，我现在需要扫描一个包含 2 个区域的文档，一个仅包含数字，一个包含普通文本。我可以在不执行 Tesseract 两次的情况下为 2 个区域指定不同的字符集吗？

如果没有，我可能会尝试修改UNICHARSET类的代码以某种方式做到这一点。

score 1 · Accepted Answer

我终于通过使用 Base API 中的 SetImage()/SetRectangle() 做到了。对于每个矩形，我运行以下代码：

    api.SetRectangle(left, top, width, height);
    api.SetVariable("tessedit_char_whitelist", whitelist.c_str());
    char *s = api.GetUTF8Text();
    printf("%s", s);
    delete s;

tesseract - Tesseract 中每个区域的不同字符集白名单

1 回答 1

Related

Reference