tesseract - 通过从图像中查找文本坐标来提取文本区域

Question

我正在开发一种图像处理软件，它可以从手机摄像头拍摄的图像中提取/裁剪并增强这种裁剪后的单页表单。表单没有矩形边界以简化提取过程。是的，它是白色背景黑色文本格式，但是除此之外没有什么是固定的。现在将出现一些文本，以验证图像是否符合要求。所以我的问题是这些。

1）我可以使用 leptonica 库本身搜索特定的正则表达式，还是我必须将焦点转移到其他库（如 tessarect API）来执行此操作。到目前为止，我还没有找到任何此类

2）现在假设我知道左上角和右下角的文本并且我成功搜索它。我可以获得我正在搜索的特定文本的坐标然后相应地裁剪图像吗？

score 0 · Accepted Answer

Leptonica 不对文本做任何事情，它是一个图像处理库。

要启用获取文本的位置，请将tessedit_create_hocr 1Tesseract 配置文件添加到您的配置文件中（或者如果您将 Tesseract 用作库，则以您配置 Tesseract 的任何方式设置此选项）。

结果不再是文本文件，而是 UTF-8 编码的 HTML 文件（注意：它不是有效的 XML）。它的格式是不言自明的。它将包含所有页面上所有单词的位置和尺寸（以像素为单位），如在输入图像上找到的那样。您需要解析该 HTML，找到您要查找的单词，然后将这些单词包围起来。

1 回答 1