1

我正在使用标准的 Brother A3 Multifunction 扫描大量 A3 文档,然后使用 FineReader Pro 对图像进行 OCR 处理。

但是,我在识别的字符中有很多错误,还有很多非字母数字的奇怪字符。

有人可以给我任何关于以编程方式提高 OCR 准确性的提示,无论是对扫描图像进行预处理,还是对识别的文本进行后处理?


编辑:查找示例 pdf。它包括一些样本图像,我从中得到最差的结果。

4

1 回答 1

2

您是否有可以在某处发布的示例图像,然后我们可以快速告诉您导致大多数问题的原因。FineReader 是目前最好的 OCR 引擎之一,因此肯定有原因导致您的结果不佳。

这可能与较差的对比度和阈值设置、图像倾斜、扫描仪中的脏滚轮、复杂和彩色背景、抖动背景、字体太小、扫描 dpi 太低等有关。

看到附图后,有一些小问题。

  1. 背景页面上有很多脏污点。FineReader 似乎在您的图像上做了合理的工作。
  2. 有一些轻微的偏差,但这不会导致问题。
  3. FineReader 与用于列标题的粗体 Arial 字体混淆了。
    4 一个大问题似乎是页面底部区域对比度差,图像模糊。这似乎是扫描仪的问题,但可能是由于打印问题。

印刷很差,我猜是报纸扫描的。大多数错误是由于扫描问题造成的,因此很难以编程方式改进结果。

首先,我会尝试使用稍高的分辨率以灰度扫描图像,看看是否有帮助。FineReader 适用于灰度图像。如果您必须拥有黑白图像,请查看扫描仪驱动程序是否包含动态阈值设置并将其打开。

对于任何 OCR 引擎来说,您的图像都不是一件容易的事。如果您可以改进扫描,您将获得更好的结果。第 3 页的右下角有很多噪音。

您使用的是哪个版本的 FineReader?FR10 可能会比以前的版本提供更好的结果。

于 2011-01-12T01:58:13.573 回答