windows - Tesseract - 我应该如何处理多字体类型？

翻译自：https://stackoverflow.com/questions/15495049 2013-03-19T08:56:31.700

733 次

0

我有这样的文件输入（只有数字，但有多种字体类型）。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型，还是在一个 tiff 文件中制作多种字体类型？

在此处输入图像描述

有什么更好的，请给我一些提示。感谢您的所有帮助。

1 回答 1

1

每个训练图像中的一种字体样式。正方体训练 Wiki声明如下：

训练数据应按字体分组。理想情况下，单一字体的所有样本都应该放在一个 tiff 文件中，但这可能是多页 tiff（如果您安装了 libtiff 或 leptonica），因此单一字体的总训练数据可能有很多页和很多 10s数千个字符，允许对大字符集语言进行训练。
不要在图像文件中混合字体（准确地说是在单个 .tr 文件中
。）这将导致特征在聚类时被丢弃，从而导致识别错误。

于 2013-03-19T23:24:01.153 回答