.net - tesseract-ocr 仅使用 ascii？

Question

我一直在使用运行良好的 tesseract-ocr（在 .NET 中）。我提供给它的图像只有 ascii (A-z0-9)。有没有办法告诉它不要使用特殊字符？

score 0 · Accepted Answer

在上面链接的谷歌论坛上有一个关于这个问题的新话题。第一个答案得出的结论是，这可能是不可能的。

据我所知，这是正确的，如果您使用的是与 Tesseract 打包的语言数据文件。但是，如果您在自己的 box 文件上进行训练，则可以非常轻松地限制输出字符。它实际上是自动的：如果unicharset_extractor在 box 文件中没有找到任何非 ASCII 字符，您将永远不会在输出中看到非 ASCII 字符。

当我第一次开始使用 Tesseract 时，我同样对输出中的所有断点和其他不寻常的字符感到沮丧，并且对我自己的 box 文件进行培训解决了这个问题。您甚至可以使用 Tesseract训练数据作为起点。

score 0 · Accepted Answer

0

使用 tessedit_char_whitelist 配置选项。

于 2016-07-04T03:37:39.597 回答

.net - tesseract-ocr 仅使用 ascii？

2 回答 2

Related

Reference