5

我有一个非常简单的基于 Tesseract 的 OCR 应用程序。在识别步骤之后,我还提供了一个用户验证步骤,允许在 OCR 错误的情况下进行更正。为了改善用户界面,我计划在原始输入图像的 OCR 字符顶部绘制一个矩形,并将其与 OCR 输出并排放置。为此,我需要识别字符的坐标。

我尝试过这样的事情,但它似乎让我胡言乱语:

   ETEXT_DESC output;
   tess->Recognize(&output);
   text = tess->GetUTF8Text();

现在,如果我访问 output->count,它会给我一些高于 10,000 的值,这显然是错误的,因为整个图像只有 20 个左右的字符。

我在正确的轨道上吗?请问可以指点一下吗?

4

2 回答 2

6

获取盒子的坐标可能会有所帮助。试试 tesseract 的可执行文件。使用命令

“tesseract.exe [图像] [输出] makebox”

毕竟你得到每个字符的坐标,每行一个。然后你就可以比较了。

于 2012-03-16T13:38:45.980 回答
1

The tesseract executable has an option hocr to output recognized characters and their coordiantes in html format. To get this programmatically, the FAQ says to refer to baseapi.h.

于 2013-04-03T04:47:11.977 回答