numbers - Tesseract 将 7 混淆为 1，文本不返回任何内容。

翻译自：https://stackoverflow.com/questions/14093184 2012-12-30T18:05:39.593

422 次

我正在尝试 OCR 扫描的表格，其中包含数字字段和一些文本。但是，在裁剪后的文本上运行 tesseract 不会产生正确的结果。

例如，对于数字 7： 7 号

运行时给出的结果是 1：

tesseract -psm 10 7test.jpg out digits

尽管中风通过了七。

同时，对于文本字段，它的难度更大，以下字段一无所获：

测试名称

有什么简单的方法可以提高这里的准确性吗？由于表单的手写性质，理想情况下避免产生大量的训练集。

在名称字段上，我可能可以改进方向并删除包围该字段的线条，但缺少任何输出令人担忧。

对于数字，我不知道，除了可能从表格中生成手动训练集。

0 回答 0