1

我正在处理 OCR 项目,但我不知道如何从扫描的文档图像中删除图形,然后再将其传递给 tesseract。我想删除图形的一些扫描文档如下:

http://www.mediafire.com/view/hvmpty2z3cw3vao/IMG_0087.JPG

http://www.mediafire.com/view/1sgy5s2aaj2o8y3/IMG_0086.JPG

任何建议都非常感谢。非常感谢。

4

2 回答 2

1

由于文本区域通常是稀疏的,并且不相互连接,因此可以考虑在原始图像上进行sobel边缘检测,并以一定的阈值检测最大的连接区域来检测图像区域。

同时,由于图像是一个矩形区域,另一种方法是进行霍夫平移来检测直线,使其由 4 条线组成的矩形。如果你这样做,建议你先缩放图像以降低计算复杂度。

于 2013-10-23T07:39:41.460 回答
1

您可以从使用AForge.Net中可用的算法检测文本区域开始。请参阅Horizo​​ntalRunLengthSmoothingVerticalRunLengthSmoothing。该算法不是很复杂,您可以使用您喜欢的图像处理库轻松实现它。唯一的限制是大致了解图像中字符的大小。

于 2013-10-23T20:48:15.473 回答