tesseract - 如何获取已识别字符的坐标

Question

我有一个非常简单的基于 Tesseract 的 OCR 应用程序。在识别步骤之后，我还提供了一个用户验证步骤，允许在 OCR 错误的情况下进行更正。为了改善用户界面，我计划在原始输入图像的 OCR 字符顶部绘制一个矩形，并将其与 OCR 输出并排放置。为此，我需要识别字符的坐标。

我尝试过这样的事情，但它似乎让我胡言乱语：

   ETEXT_DESC output;
   tess->Recognize(&output);
   text = tess->GetUTF8Text();

现在，如果我访问 output->count，它会给我一些高于 10,000 的值，这显然是错误的，因为整个图像只有 20 个左右的字符。

我在正确的轨道上吗？请问可以指点一下吗？

score 6 · Accepted Answer

获取盒子的坐标可能会有所帮助。试试 tesseract 的可执行文件。使用命令

“tesseract.exe [图像] [输出] makebox”

毕竟你得到每个字符的坐标，每行一个。然后你就可以比较了。

score 1 · Accepted Answer

The tesseract executable has an option hocr to output recognized characters and their coordiantes in html format. To get this programmatically, the FAQ says to refer to baseapi.h.

tesseract - 如何获取已识别字符的坐标

2 回答 2

Related

Reference