windows-8 - 有人可以向我解释一下 Tesseract OCR 的培训吗？

Question

我正在尝试进行培训过程，但我什至不明白如何开始。我想训练阅读它的数字。我的图像来自现实世界，所以阅读过程并不顺利。

它说我必须有一个带有示例的“.tif”图像......是每个数字的单个图像（在这种情况下）还是具有许多不同类型数字的图像（但相同的字体）？

那么makebox呢？该命令在这里不起作用。

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

有人可以更好地解释我，至少如何开始？

我看到一些软件可以更快地做到这一点，但我尝试了一个（SunnyPage 1.8）但不是免费的。任何人都知道任何免费软件可以做到这一点？还是好的教程？

使用 Tesseract 3、Windows 8（32 位）。

score 3 · Accepted Answer

耐心地关注培训 wiki 谷歌代码项目网站是很重要的。如果需要多次。它是一个开源库，并且在不断发展。

您将必须创建一个包含许多不同类型数字的训练图像（tiff），可能应该包含您希望引擎识别的所有数字。

请考虑发布您使用 make 框收到的确切错误消息。

我认为 Tesseract 是最好的免费解决方案。您必须继续工作并寻求社区的帮助。

Cédric在这里发表了一篇非常好的文章，解释了 Tesseract 的训练过程。

score 0 · Accepted Answer

一个很好的免费 OCR 软件是 PDF OCR X，它也是基于 Tesseract。我试图从我以 1200 dpi 扫描的德语复制笔记，结果值得称道，但并不完美。我发现这个网站 - http://onlineocr.net - 要准确得多。如果您未注册，它允许大多数图像格式（BMP、PNG、JPEG 等）和 PDF 的最大文件大小为 4mb。它可以将它们输出为 Word 文件、Excel 文件或 txt 文件。希望这可以帮助。

windows-8 - 有人可以向我解释一下 Tesseract OCR 的培训吗？

2 回答 2

Related

Reference