3

使用 Kofax Capture 10(SP1、FP2),我在文档的某些字段上设置了识别区域。这些字段始终将 I 识别为 1。我已经尝试了所有我能想到的设置组合,它们不会抹去该字段中的所有字符,但无济于事。我尝试过 Advanced OCR 和 High Performance OCR,不同的字符过滤器。各种事情。

我可以尝试哪些选项来自动识别此字符?我应该告诉制作表格的人(它们是由计算机生成的)他们需要尝试使用不同的字体吗?说服他们现在是考虑使用验证的时候了?

我当前的字段设置:

Kofax Advanced OCR 没有自定义设置,除了高级对话框中的最大化准确度。这和我迄今为止尝试过的任何其他方法一样有效。

使用的字体是 8 - 12 pt arial,顺便说一句。

4

1 回答 1

3

如果涉及 OCR,无论是处理电子文档还是纸质文档,验证都是必须的。对于纸质文档,这是一个更大的必须。

使用至少 11pt Arial 并将文档渲染为 300 dpi 图像。这会给你我说的 99.9% 的准确率(即每 1000 个错过的字符中有 1 个字符)。如果您的数据中数字和字母混合在一个单词中,尤其是 1-I、0-O、6-G,则准确性可能会下降。

如果您知道没有此类混合数据并且 OCR 仍返回混合的数字和字母,则可以使用识别脚本。您可以使用 PostRecognition 脚本事件从 OCR 引擎捕获识别结果,并使用 SBL 或 VB.NET 脚本对其进行修改。但这在很大程度上取决于您处理的文档和数据。

图像清理对电子文档没有任何好处。

我会说你最好的办法是使用验证。至少这会将责任推给验证操作员。

于 2013-01-22T20:31:53.103 回答