ocr - tesseract 2.x - 同时使用多种字体

Question

我已经成功地训练了 tesseract 2.x 来识别一些特定的字体。但是，似乎我无法让 tesseract 同时识别所有这些字体 - 即源图像包含所有这些字体。目前，只有一组 tesseract 数据可以放入 tessdata 文件夹（即一组具有一种训练过的字体）。

我知道 tesseract 3.x 可以正确处理多种字体 - 但是，我无法升级，因为没有与 .NET 的良好绑定，它与 2.x 版的 .NET 绑定具有相同的功能。

另外，我想避免对每种字体多次进行所有预处理和 OCR 本身。

score 2 · Accepted Answer

对于 Tesseract 2.0x，一个语言数据包可以识别多种字体。您是否对训练文件进行了聚类？

Tesseract 3.01 有几个出色的 .NET 包装器。查看其附加页面以获取更多信息。

1 回答 1