3

我有一个关于 tesseract 培训的问题。我目前正在使用 Tess4J 将 tesseract 集成到我的 java 程序中。阅读有关 tesseract 训练的 tesseract wiki 页面 (http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3),可以使用具有各种组合和字体的训练图像来训练 tesseract。

我是否可以只安装一个“普通”的 tesseract 3.02(windows 或 unix)安装来构建这些 lang.traineddata 文件,然后将其包含在我的 java 程序中的 Tess4J 包装器使用的 tessdata 文件夹中。或者 Tess4J 是否仅限于包含的英语语言数据以及与程序捆绑在一起的示例图像?

如果是这样,是否可以通过其他方式将这些包含到我的 Tess4J 构建中?

4

1 回答 1

3

由于它只是 Tesseract OCR 引擎的包装器,因此它接受任何标准问题或自定义训练数据文件。您可以在https://github.com/tesseract-ocr/tessdata找到标准的训练数据。

于 2012-09-08T21:33:04.473 回答