我正在使用标准的 Brother A3 Multifunction 扫描大量 A3 文档,然后使用 FineReader Pro 对图像进行 OCR 处理。
但是,我在识别的字符中有很多错误,还有很多非字母数字的奇怪字符。
有人可以给我任何关于以编程方式提高 OCR 准确性的提示,无论是对扫描图像进行预处理,还是对识别的文本进行后处理?
编辑:查找示例 pdf。它包括一些样本图像,我从中得到最差的结果。
我正在使用标准的 Brother A3 Multifunction 扫描大量 A3 文档,然后使用 FineReader Pro 对图像进行 OCR 处理。
但是,我在识别的字符中有很多错误,还有很多非字母数字的奇怪字符。
有人可以给我任何关于以编程方式提高 OCR 准确性的提示,无论是对扫描图像进行预处理,还是对识别的文本进行后处理?
编辑:查找示例 pdf。它包括一些样本图像,我从中得到最差的结果。
您是否有可以在某处发布的示例图像,然后我们可以快速告诉您导致大多数问题的原因。FineReader 是目前最好的 OCR 引擎之一,因此肯定有原因导致您的结果不佳。
这可能与较差的对比度和阈值设置、图像倾斜、扫描仪中的脏滚轮、复杂和彩色背景、抖动背景、字体太小、扫描 dpi 太低等有关。
看到附图后,有一些小问题。
印刷很差,我猜是报纸扫描的。大多数错误是由于扫描问题造成的,因此很难以编程方式改进结果。
首先,我会尝试使用稍高的分辨率以灰度扫描图像,看看是否有帮助。FineReader 适用于灰度图像。如果您必须拥有黑白图像,请查看扫描仪驱动程序是否包含动态阈值设置并将其打开。
对于任何 OCR 引擎来说,您的图像都不是一件容易的事。如果您可以改进扫描,您将获得更好的结果。第 3 页的右下角有很多噪音。
您使用的是哪个版本的 FineReader?FR10 可能会比以前的版本提供更好的结果。