在过去的 3 个月里,我一直在尝试训练 Tesseract
识别我拥有的一组图像,由于确实缺乏
适当的文档,并且非常复杂,我开始
放弃将 Tesseract 作为一个解决方案。
我正在寻找一种替代方法,它对训练来说相对无痛
,我不想在这里重新发现轮子。
如果没有任何免费的东西,我想付费解决方案将
不得不做(不超过 200 美元)
根据您的评论,您只需要以几乎 100% 的准确率扫描相对少量的文档,并且您的预算约为 200 美元
那么,答案很简单。您不需要任何编程解决方案。只需购买优质的商业 OCR 产品,fe ABBYY FineReader(免责声明:我为 ABBYY 工作)。它在不同地区有不同的价格,但我想它在你的预算范围内。
商业桌面 OCR 产品将为您提供开箱即用的典型语言几乎 100% 的准确性。他们还拥有方便的手动验证工具来修复所有剩余的错误。通常它们支持各种现代字体,但如果你的字体不是微不足道的,它们确实有字体训练实用程序。
我确实认为这对您来说是最佳解决方案。
更新:Linux平台。不幸的是,对于 Linux,几乎没有高质量的 OCR 产品可供选择,抱歉。我知道的唯一一个来自 ABBYY:http ://ocr4linux.com/en:start ,但它没有 UI、验证和字体训练。但至少你可以试一试,看看它是否能给你带来足够好的准确性,这可能恰好是这种情况。
您可以使用jTessBoxEditor来编辑您生成的框文件。与它捆绑在一起的是一个 PowerShell 脚本,用于自动生成盒子文件和最终的 .traineddata 文件。