image-processing - 提高扫描文档的 OCR 准确性

Question

我正在使用标准的 Brother A3 Multifunction 扫描大量 A3 文档，然后使用 FineReader Pro 对图像进行 OCR 处理。

但是，我在识别的字符中有很多错误，还有很多非字母数字的奇怪字符。

有人可以给我任何关于以编程方式提高 OCR 准确性的提示，无论是对扫描图像进行预处理，还是对识别的文本进行后处理？

编辑：查找示例 pdf。它包括一些样本图像，我从中得到最差的结果。

score 2 · Accepted Answer

您是否有可以在某处发布的示例图像，然后我们可以快速告诉您导致大多数问题的原因。FineReader 是目前最好的 OCR 引擎之一，因此肯定有原因导致您的结果不佳。

这可能与较差的对比度和阈值设置、图像倾斜、扫描仪中的脏滚轮、复杂和彩色背景、抖动背景、字体太小、扫描 dpi 太低等有关。

看到附图后，有一些小问题。

背景页面上有很多脏污点。FineReader 似乎在您的图像上做了合理的工作。
有一些轻微的偏差，但这不会导致问题。
FineReader 与用于列标题的粗体 Arial 字体混淆了。
4 一个大问题似乎是页面底部区域对比度差，图像模糊。这似乎是扫描仪的问题，但可能是由于打印问题。

印刷很差，我猜是报纸扫描的。大多数错误是由于扫描问题造成的，因此很难以编程方式改进结果。

首先，我会尝试使用稍高的分辨率以灰度扫描图像，看看是否有帮助。FineReader 适用于灰度图像。如果您必须拥有黑白图像，请查看扫描仪驱动程序是否包含动态阈值设置并将其打开。

对于任何 OCR 引擎来说，您的图像都不是一件容易的事。如果您可以改进扫描，您将获得更好的结果。第 3 页的右下角有很多噪音。

您使用的是哪个版本的 FineReader？FR10 可能会比以前的版本提供更好的结果。

1 回答 1