image-processing - OpenCV中的行、列检测（OCR预处理）

Question

首先，我的最终目标是使用 tesseract 处理以下图像：http: //ubuntuone.com/72m0ujsL9RhgfMIlugRDWP （我清除了第二列和第三列……）

然而，tesseract 的虚线背景存在问题。所以我的想法是用OpenCV对图像进行预处理。最好的办法是我能以某种方式检测每一行，因为我需要通过应用与偶数行不同的阈值来移除虚线背景。有什么办法可以解决我的问题吗？到目前为止，我已经找到了 Hough 变换和分段，但结果不是很好（可能是因为参数错误）......但我不确定，如果这些是可能的方法以及我最投入时间的方法。列检测也可以，因为第二列只包含数字和第三个字符。将这些“知识”传递给 tesseract 可以进一步提高其检测率。

如果有人能给我一些提示如何解决这个问题以及最好使用哪些 OpenCV 函数，以及哪些参数，我将非常感激。一些让我对不同步骤有一个公平了解的片段也会有所帮助。

预先感谢！！！

亲切的问候。

score 0 · Accepted Answer

我建议你使用类似腐蚀的东西，因为与字母的宽度相比，这些点似乎相当小。

或者我会使用适当的阈值进行 Canny 边缘检测，这样我就会丢弃点的相当短和薄的边缘。

希望这会有所帮助，玩得开心！

image-processing - OpenCV中的行、列检测（OCR预处理）

1 回答 1

Related

Reference