4

我已经看到要限制扫描错误,您可以为字符定义白名单。

但我在ocr.Init(@"c:\temp", "fra", false);

假设您只想扫描数字:将白名单设置为“0123456789”对于获得最佳识别结果是正确的,但是 Init 方法的 numericMode 参数有什么作用?即使白名单是“0123456789”,我也一直认为它是错误的。

还有什么是图像馈送到 tessnet 的最佳位图参数(像素格式)。

4

2 回答 2

1

Tesseract FAQ中列出了扫描号码的问题。如果你有版本 3,你应该能够发出命令:

tesseract image.tif outputbase nobatch digits
于 2011-09-29T07:54:13.303 回答
1

根据经验,数字模式将结果限制为数字和支持字符。我见过“0123456789,.+-/*%<>$(){}”等等。允许使用货币符号。

同样根据我的经验,我没有看到减少位深度格式对全彩色图像的任何巨大好处。但是,我没有针对速度进行优化,只针对准确性进行了优化。如果您的字体很小(小写>= 8 像素高),那么放大图像可以真正提高准确性。

于 2012-07-30T23:47:29.563 回答