ocr - 一个扫描的页面如何像 reCaptcha 项目那样分成单词？

Question

我想以与 reCaptcha 项目类似的方式将一本书数字化。是否已经有一个系统可以输入图像，然后输出围绕单词裁剪的小图像？关于如何做到这一点的任何想法？

score 0 · Accepted Answer

如果您只想将图像拆分为多个图像，每个图像一个单词，您可以尝试找到单词边界框，然后将这些坐标用于拆分。这可以通过在水平方向上获取文档的直方图/投影然后在垂直方向上获取每一行来完成。可以在本文中找到一个示例算法，其中包含一些描述该想法的图片：“通过边界框投影技术进行文档页面分解”（http://haralick.org/conferences/71281119.pdf）。你可以在 OpenCV 中实现它。

或者，您可以使用 beppe9000 提到的 Tessaract。也许这有帮助：使用 python-tesseract 获取已识别单词的边界框

但是，即使您只需要边界框，您也会得到训练 OCR 的全部复杂性。

score 0 · Accepted Answer

您应该查看reCaptcha 可能基于的Tesseract OCR项目。它具有输出识别单词坐标的能力。然后你将页面裁剪到这些坐标，你就完成了。

ocr - 一个扫描的页面如何像 reCaptcha 项目那样分成单词？

2 回答 2

Related

Reference