ocr - 如何在将扫描文档传递给 tesseract 进行 OCRing 之前从扫描文档中删除图形？

Question

我正在处理 OCR 项目，但我不知道如何从扫描的文档图像中删除图形，然后再将其传递给 tesseract。我想删除图形的一些扫描文档如下：

任何建议都非常感谢。非常感谢。

score 1 · Accepted Answer

由于文本区域通常是稀疏的，并且不相互连接，因此可以考虑在原始图像上进行sobel边缘检测，并以一定的阈值检测最大的连接区域来检测图像区域。

同时，由于图像是一个矩形区域，另一种方法是进行霍夫平移来检测直线，使其由 4 条线组成的矩形。如果你这样做，建议你先缩放图像以降低计算复杂度。

score 1 · Accepted Answer

您可以从使用AForge.Net中可用的算法检测文本区域开始。请参阅HorizontalRunLengthSmoothing和VerticalRunLengthSmoothing。该算法不是很复杂，您可以使用您喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。

2 回答 2