0

我需要对标签中的一些特定信息进行 OCR,这些标签大多是已知布局。数据来源是照片,我知道这可能很棘手。数据可以是条形码(简单)、短文本(大部分是已知单词,随着时间的推移可以随着时间的推移而学习)和数字(设置格式和长度)。

我做了一些研究,似乎 Tesseract 可以在多个平台上做我想做的事,但我有几个问题。

1)我如何只裁剪相关标签。很久以前,我为大学课程做了一些非常基本的信号处理。我想这不是太难。有什么好的图书馆吗?

2)由于我知道布局,有没有办法为每个所需的特定值按部分 OCR 标记?

3)关于预处理图片的任何其他提示?

4) Tesseract 是适合这项工作的工具吗?

4

1 回答 1

0

我之前没有处理过 Tesseract。但是,我们使用了另一个名为leadtools 的第三方工具包。该工具包可以识别条形码、文本和数字,然后将结果保存为文档格式。它可以满足您的要求,因为它提供了在您要识别的文本周围绘制特定区域的方法,并且它具有一些预处理图像的方法。此外,它还提供了自动查找文件中要进行 OCR 的区域的功能。有关更多信息,您可以查看本教程

于 2012-11-01T15:22:52.163 回答