我已经看到要限制扫描错误,您可以为字符定义白名单。
但我在ocr.Init(@"c:\temp", "fra", false);
假设您只想扫描数字:将白名单设置为“0123456789”对于获得最佳识别结果是正确的,但是 Init 方法的 numericMode 参数有什么作用?即使白名单是“0123456789”,我也一直认为它是错误的。
还有什么是图像馈送到 tessnet 的最佳位图参数(像素格式)。
我已经看到要限制扫描错误,您可以为字符定义白名单。
但我在ocr.Init(@"c:\temp", "fra", false);
假设您只想扫描数字:将白名单设置为“0123456789”对于获得最佳识别结果是正确的,但是 Init 方法的 numericMode 参数有什么作用?即使白名单是“0123456789”,我也一直认为它是错误的。
还有什么是图像馈送到 tessnet 的最佳位图参数(像素格式)。
Tesseract FAQ中列出了扫描号码的问题。如果你有版本 3,你应该能够发出命令:
tesseract image.tif outputbase nobatch digits
根据经验,数字模式将结果限制为数字和支持字符。我见过“0123456789,.+-/*%<>$(){}”等等。允许使用货币符号。
同样根据我的经验,我没有看到减少位深度格式对全彩色图像的任何巨大好处。但是,我没有针对速度进行优化,只针对准确性进行了优化。如果您的字体很小(小写>= 8 像素高),那么放大图像可以真正提高准确性。