2

我正在尝试对某些具有以下纹理的表单进行 OCR:

原始图像

此纹理导致 OCR 程序忽略它,将其标记为图像区域。

我考虑过使用形态学。带有星号的关闭操作最终如下:

关闭操作

这个结果对于 OCR 来说仍然不够好。

当我手动擦除“胡椒”并对图像进行自适应阈值处理时,如下在 OCR 上给出了良好的结果:

编辑和阈值

你对这个问题还有其他想法吗?

谢谢

4

4 回答 4

1

考虑到您知道字体大小,您还可以考虑使用连通分量过滤,也许与形态学操作相结合。为了能够保留逗号,如果一个较小的连接组件靠近一个与您尝试阅读的字符大小相似的连接组件,请小心。

于 2014-09-16T15:02:09.400 回答
1

也许看看这个:https ://code.google.com/p/ocropus/source/browse/DIRS?repo= ocroold(见 ocr-doc-clean)。

于 2014-09-16T14:51:34.090 回答
1

背景图案非常规则和方向性,因此傅里叶域中的过滤在这里必须做得很好。例如尝试巴特沃斯滤波器

可以在此处找到使用 gimp 进行此类过滤的具体示例

于 2014-09-16T14:52:59.420 回答
1

对于给定的图像,5x5 中值滤波器的效果比关闭要好一些。从那里,具有自适应阈值的二值化可以去除更多的背景。

无论如何,最终的质量将在很大程度上取决于图像,并且无法获得完美的结果。

在此处输入图像描述

于 2014-09-16T14:40:51.350 回答