1

我已经成功地训练了 tesseract 2.x 来识别一些特定的字体。但是,似乎我无法让 tesseract 同时识别所有这些字体 - 即源图像包含所有这些字体。目前,只有一组 tesseract 数据可以放入 tessdata 文件夹(即一组具有一种训练过的字体)。

我知道 tesseract 3.x 可以正确处理多种字体 - 但是,我无法升级,因为没有与 .NET 的良好绑定,它与 2.x 版的 .NET 绑定具有相同的功能。

另外,我想避免对每种字体多次进行所有预处理和 OCR 本身。

4

1 回答 1

2

对于 Tesseract 2.0x,一个语言数据包可以识别多种字体。您是否对训练文件进行了聚类?

Tesseract 3.01 有几个出色的 .NET 包装器。查看其附加页面以获取更多信息。

于 2012-10-13T14:11:00.903 回答