ocr - Tesseract OCR 培训的替代方案？

Question

在过去的 3 个月里，我一直在尝试训练 Tesseract
识别我拥有的一组图像，由于确实缺乏
适当的文档，并且非常复杂，我开始
放弃将 Tesseract 作为一个解决方案。

我正在寻找一种替代方法，它对训练来说相对无痛
，我不想在这里重新发现轮子。

如果没有任何免费的东西，我想付费解决方案将
不得不做（不超过 200 美元）

score 6 · Accepted Answer

根据您的评论，您只需要以几乎 100% 的准确率扫描相对少量的文档，并且您的预算约为 200 美元

那么，答案很简单。您不需要任何编程解决方案。只需购买优质的商业 OCR 产品，fe ABBYY FineReader（免责声明：我为 ABBYY 工作）。它在不同地区有不同的价格，但我想它在你的预算范围内。

商业桌面 OCR 产品将为您提供开箱即用的典型语言几乎 100% 的准确性。他们还拥有方便的手动验证工具来修复所有剩余的错误。通常它们支持各种现代字体，但如果你的字体不是微不足道的，它们确实有字体训练实用程序。

我确实认为这对您来说是最佳解决方案。

更新：Linux平台。不幸的是，对于 Linux，几乎没有高质量的 OCR 产品可供选择，抱歉。我知道的唯一一个来自 ABBYY：http ://ocr4linux.com/en:start ，但它没有 UI、验证和字体训练。但至少你可以试一试，看看它是否能给你带来足够好的准确性，这可能恰好是这种情况。

score 2 · Accepted Answer

您可以使用jTessBoxEditor来编辑您生成的框文件。与它捆绑在一起的是一个 PowerShell 脚本，用于自动生成盒子文件和最终的 .traineddata 文件。

ocr - Tesseract OCR 培训的替代方案？

2 回答 2

Related

Reference