1

我正在尝试使用 Tesseract 3.02 从应用程序中读取文本以进行验证(自动化测试)。如果字体很小(8 到 10),它总是给我不正确的结果。在将图像传递给 tesseract 之前,我遵循了下面提到的图像处理。1. 将图像转换为灰度。(图片格式 JPG) 2. 重新缩放的图片 3. 转换为 300 DPI 的图片

对图像进行预处理后,将其传递给 tesseract。我拥有的大多数应用程序图像的字体都很小。此外,我确保字体类型在训练数据中可用,但准确率仍然很低。

如果我遗漏了什么,谁能指导我。

4

1 回答 1

0

我在阅读 8 pt 时遇到了同样的问题。图像中的文本。即使在尝试了 GrayScale,重新缩放到 400% 之后,它也只起到了一点作用。Tesseract OCR 只是不太擅长小字体文本。我的同事建议我在https://cloud.google.com/vision/尝试 Google Cloud Vision 。Tesseract-OCR 的准确率约为 50%,但 Google Vision 的准确率为 100%。在https://cloud.google.com/sdk/docs/#windows有一个 Windows SDK,也有示例 .NET Cloud Vision 项目。我已经尝试了示例项目,它可以完美地处理我图像中的文本,考虑到 Tesseract-OCR 的准确率只有 50% 左右,这非常令人印象深刻。唯一的缺点是它是一项基于云的付费服务,但您至少可以免费试用。

于 2016-08-18T21:29:50.737 回答