2

我正在尝试进行培训过程,但我什至不明白如何开始。我想训练阅读它的数字。我的图像来自现实世界,所以阅读过程并不顺利。

它说我必须有一个带有示例的“.tif”图像......是每个数字的单个图像(在这种情况下)还是具有许多不同类型数字的图像(但相同的字体)?

那么makebox呢?该命令在这里不起作用。

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

有人可以更好地解释我,至少如何开始?

我看到一些软件可以更快地做到这一点,但我尝试了一个(SunnyPage 1.8)但不是免费的。任何人都知道任何免费软件可以做到这一点?还是好的教程?

使用 Tesseract 3、Windows 8(32 位)。

4

2 回答 2

3

耐心地关注培训 wiki 谷歌代码项目网站是很重要的。如果需要多次。它是一个开源库,并且在不断发展。

您将必须创建一个包含许多不同类型数字的训练图像(tiff),可能应该包含您希望引擎识别的所有数字。

请考虑发布您使用 make 框收到的确切错误消息。

我认为 Tesseract 是最好的免费解决方案。您必须继续工作并寻求社区的帮助。

Cédric在这里发表了一篇非常好的文章,解释了 Tesseract 的训练过程。

于 2013-11-07T08:24:16.050 回答
0

一个很好的免费 OCR 软件是 PDF OCR X,它也是基于 Tesseract。我试图从我以 1200 dpi 扫描的德语复制笔记,结果值得称道,但并不完美。我发现这个网站 - http://onlineocr.net - 要准确得多。如果您未注册,它允许大多数图像格式(BMP、PNG、JPEG 等)和 PDF 的最大文件大小为 4mb。它可以将它们输出为 Word 文件、Excel 文件或 txt 文件。希望这可以帮助。

于 2014-02-20T18:03:49.837 回答