0

i have a document image (b/w, 300dpi) containing newspaper like formated text (title, paragraph columns etc).
- How can i detect paragraphs columns to floodfill them with Black Color?
- How can i get distance with of floodfill textcolumns?

Is this possible using OpenCV or EmguCV/C# ?

See this link http://goo.gl/6djHt (no Spam its a shortlink) of what i mean.

Thanks in advance for any hints and code-snippets.

4

2 回答 2

1

您可以尝试计算图像每列中黑色像素的数量。这将为您提供一个如下所示的数组(所有数字都是组成的):

0 0 0 987 935 967 923 975 954 932 944 0 0 0 923 965 987 933 965 976 922 0 0 0

所以基本上你有一些大数字和一些零。大数字表示包含文本的列。零表示不包含任何内容的列。如果图像中有噪点,你可能不会得到零,但你可能会得到小数字,你可以处理它们。

您可以使用上面的数组拆分图像并获取列。然后,您可以使用类似的技术来查找文本行(通过对图像行中的黑色像素求和)。您还可以使用此技术来测量段落之间的距离。

当文本行不水平时,此方法可能会失败。此外,当您必须分析报纸的整个页面并且布局复杂时,这可能会失败。但如果您需要处理链接中的图像,这是一种很好的尝试技术。

于 2013-01-20T17:41:21.560 回答
-1

试试 cvDetectParagraph()。

说真的,另一位发帖人已经回答了您的问题,而您似乎只是希望有人为您完成这项工作。如果你能摆脱如此懒惰,那么软件编程就不会成为一种职业。

于 2013-01-22T18:27:07.340 回答