ocr - Tesseract OCR - 手写字体

Question

我正在尝试使用Tesseract-OCR来检测包含纯文本的图像文本，但这些文本有一种名为Journal的手写字体。

例子：

在此处输入图像描述

结果不是最好的：

千里马！尺寸` W (35)

是否有可能改善结果或更确切地说是获得确切的结果？

score 5 · Accepted Answer

我很惊讶 Tesseract 做得这么好。通过一些培训，您应该能够训练小写“l”被正确识别。

您遇到的主要问题是大 T 字符的顶部。水平线跨越 2 个（可能是 3 个）其他字符单元格，这将导致任何 OCR 引擎在尝试分割字符以进行识别时出现问题。在这种情况下，培训可能会有所帮助。

下一个问题是 . 和：它们非常轻/薄，可能在 OCR 开始之前就已通过图像预处理被移除。

总体而言，使用 Tesseract 改善结果的唯一机会是调查培训。这里有一些可能会有所帮助的链接。

Tesseract OCR 培训的替代方案？
Tesseract OCR库学习字体
 Tesseract混淆两个数字

score -1 · Accepted Answer

就像 Andrew Cash 提到的那样，对那个 T 字母执行 OCR 将非常困难，因为它与许多下一个字符相交。

为了改进结果，您可能需要尝试更准确的 SDK。看看ABBYY Cloud OCR SDK，它是 ABBYY 最近推出的基于云的 OCR SDK。它处于测试阶段，所以现在完全免费使用。我在 ABBYY 工作，如有必要，可以为您提供有关我们产品的更多信息。我已将您附加到我们 SDK 的图像发送给我们，并得到了以下回复：

Maximal size: lall (35)

ocr - Tesseract OCR - 手写字体

2 回答 2

Related

Reference