-1

我想以与 reCaptcha 项目类似的方式将一本书数字化。是否已经有一个系统可以输入图像,然后输出围绕单词裁剪的小图像?关于如何做到这一点的任何想法?

4

2 回答 2

0

如果您只想将图像拆分为多个图像,每个图像一个单词,您可以尝试找到单词边界框,然后将这些坐标用于拆分。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每一行来完成。可以在本文中找到一个示例算法,其中包含一些描述该想法的图片:“通过边界框投影技术进行文档页面分解”(http://haralick.org/conferences/71281119.pdf)。你可以在 OpenCV 中实现它。

或者,您可以使用 beppe9000 提到的 Tessaract。也许这有帮助:使用 python-tesseract 获取已识别单词的边界框

但是,即使您只需要边界框,您也会得到训练 OCR 的全部复杂性。

于 2015-10-01T14:49:40.947 回答
0

您应该查看reCaptcha 可能基于的Tesseract OCR项目。它具有输出识别单词坐标的能力。然后你将页面裁剪到这些坐标,你就完成了。

于 2015-09-27T11:44:36.263 回答