0

我有这样的文件输入(只有数字,但有多种字体类型)。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型,还是在一个 tiff 文件中制作多种字体类型?

在此处输入图像描述

有什么更好的,请给我一些提示。感谢您的所有帮助。

4

1 回答 1

1

每个训练图像中的一种字体样式。正方体训练 Wiki声明如下:

  • 训练数据应按字体分组。理想情况下,单一字体的所有样本都应该放在一个 tiff 文件中,但这可能是多页 tiff(如果您安装了 libtiff 或 leptonica),因此单一字体的总训练数据可能有很多页和很多 10s数千个字符,允许对大字符集语言进行训练。

  • 不要在图像文件中混合字体(准确地说是在单个 .tr 文件中
    。)这将导致特征在聚类时被丢弃,从而导致识别错误。

于 2013-03-19T23:24:01.153 回答