1

我一直在使用运行良好的 tesseract-ocr(在 .NET 中)。我提供给它的图像只有 ascii (A-z0-9)。有没有办法告诉它不要使用特殊字符?

4

2 回答 2

0

在上面链接的谷歌论坛上有一个关于这个问题的新话题。第一个答案得出的结论是,这可能是不可能的。

据我所知,这是正确的,如果您使用的是与 Tesseract 打包的语言数据文件。但是,如果您在自己的 box 文件上进行训练,则可以非常轻松地限制输出字符。它实际上是自动的:如果unicharset_extractor在 box 文件中没有找到任何非 ASCII 字符,您将永远不会在输出中看到非 ASCII 字符。

当我第一次开始使用 Tesseract 时,我同样对输出中的所有断点和其他不寻常的字符感到沮丧,并且对我自己的 box 文件进行培训解决了这个问题。您甚至可以使用 Tesseract训练数据作为起点。

于 2010-05-26T02:26:01.400 回答
0

使用 tessedit_char_whitelist 配置选项。

于 2016-07-04T03:37:39.597 回答