我有一组特定的 10 张图像来执行 OCR。它们都是数字;有点短,每张图片大约 20 位数字。有一个特定的图像,如果我先运行它,它会出现一些不匹配;但是,如果我先运行其他测试,然后再回到那个测试,所有字符都匹配。
我倾向于得出结论,随着更多 OCR 操作的执行,Tesseract 正在学习字符,这让我非常高兴。现在的问题是,如果可能的话,让我保存学习数据,以便 Tesseract 知道下次我使用它时将其拾取吗?
我有一组特定的 10 张图像来执行 OCR。它们都是数字;有点短,每张图片大约 20 位数字。有一个特定的图像,如果我先运行它,它会出现一些不匹配;但是,如果我先运行其他测试,然后再回到那个测试,所有字符都匹配。
我倾向于得出结论,随着更多 OCR 操作的执行,Tesseract 正在学习字符,这让我非常高兴。现在的问题是,如果可能的话,让我保存学习数据,以便 Tesseract 知道下次我使用它时将其拾取吗?
您可以在您的 Tesseract 配置文件中将classify_save_adapted_templates 设置为1 以保存调整后的模板,并将classify_use_pre_adapted_templates 设置为1 以在您下次运行Tesseract 时加载模板
指定这些选项的行为的代码在这里: http ://code.google.com/p/tesseract-ocr/source/browse/trunk/classify/classify.cpp?r=570