我正在尝试 OCR 扫描的表格,其中包含数字字段和一些文本。但是,在裁剪后的文本上运行 tesseract 不会产生正确的结果。
例如,对于数字 7:
运行时给出的结果是 1:
tesseract -psm 10 7test.jpg out digits
尽管中风通过了七。
同时,对于文本字段,它的难度更大,以下字段一无所获:
有什么简单的方法可以提高这里的准确性吗?由于表单的手写性质,理想情况下避免产生大量的训练集。
在名称字段上,我可能可以改进方向并删除包围该字段的线条,但缺少任何输出令人担忧。
对于数字,我不知道,除了可能从表格中生成手动训练集。