在过去的几个小时里,我一直在试验 PyTesser,它是一个非常好的工具。我注意到有关 PyTesser 准确性的几件事:
- 带有图标、图像和文本的文件 - 5-10% 准确率
- 仅包含文本的文件(已删除图像和图标)- 50-60% 准确率
- 带有拉伸的文件(这是最好的部分)- 在 x 或 y 轴上拉伸上面 2)中的文件将精度提高了 10-20%
因此,显然 Pytesser 不关心字体尺寸或图像拉伸。尽管有很多关于图像处理和 OCR 的理论需要阅读,但在应用 PyTesser 或其他库之前是否需要完成任何标准的图像清理程序(除了擦除图标和图像),而与语言无关?
............
哇,这个帖子现在很老了。最近几天,我再次开始了对 OCR 的研究。这次我放弃了 PyTesser 并使用了带有 ImageMagik 的 Tesseract 引擎。直奔主题,这就是我发现的:
1) You can increase the resolution with ImageMagic(There are a bunch of simple shell commands you can use)
2) After increasing the resolution, the accuracy went up by 80-90%.
因此,Tesseract Engine 无疑是市场上最好的开源 OCR 引擎。这里不需要事先进行图像清理。需要注意的是,它不适用于具有大量嵌入图像的文件,我无法找到一种方法来训练 Tesseract 忽略它们。图像中的文本布局和格式也有很大的不同。它适用于只有文本的图像。希望这有帮助。