ocr - 针对特定单词训练 Tesseract - 可能吗？

Question

我想使用 Tesseract 从文档中提取大约 10-20 个关键字。该文件将包含所有英文字符/单词。我感兴趣的是“年龄：23”之类的东西。这里 Age 是我感兴趣的关键字，并且也想提取 23（它的值）。

我想到的第一种方法是将整个页面提取为文本，然后在识别的文本中查找关键字。但是在训练 tesseract 方面，如果我知道关键字是否有更好的方法，这可能会导致更好的准确性？

我或多或少意识到 Tesseract OCR 的局限性。试图在该限制内最大化。感谢您的所有专家建议。

score 5 · Accepted Answer

5

在 Tesseract 中尝试集市匹配模式。

于 2013-09-07T15:29:25.763 回答

1 回答 1