2

我正在尝试使用Tesseract-OCR来检测包含纯文本的图像文本,但这些文本有一种名为Journal的手写字体。

例子:

在此处输入图像描述

结果不是最好的:

千里马!尺寸` W (35)

是否有可能改善结果或更确切地说是获得确切的结果?

4

2 回答 2

5

我很惊讶 Tesseract 做得这么好。通过一些培训,您应该能够训练小写“l”被正确识别。

您遇到的主要问题是大 T 字符的顶部。水平线跨越 2 个(可能是 3 个)其他字符单元格,这将导致任何 OCR 引擎在尝试分割字符以进行识别时出现问题。在这种情况下,培训可能会有所帮助。

下一个问题是 . 和 :它们非常轻/薄,可能在 OCR 开始之前就已通过图像预处理被移除。

总体而言,使用 Tesseract 改善结果的唯一机会是调查培训。这里有一些可能会有所帮助的链接。

Tesseract OCR 培训的替代方案?
Tesseract OCR库学习字体
Tesseract混淆两个数字

于 2012-01-07T02:53:16.870 回答
-1

就像 Andrew Cash 提到的那样,对那个 T 字母执行 OCR 将非常困难,因为它与许多下一个字符相交。

为了改进结果,您可能需要尝试更准确的 SDK。看看ABBYY Cloud OCR SDK,它是 ABBYY 最近推出的基于云的 OCR SDK。它处于测试阶段,所以现在完全免费使用。我在 ABBYY 工作,如有必要,可以为您提供有关我们产品的更多信息。我已将您附加到我们 SDK 的图像发送给我们,并得到了以下回复:

Maximal size: lall (35)
于 2012-01-10T09:18:06.730 回答