我有这样的文件输入(只有数字,但有多种字体类型)。所以如果我想使用 Tesseract 来训练数据。我应该在一个 tiff 文件中制作一组一种字体类型,还是在一个 tiff 文件中制作多种字体类型?
有什么更好的,请给我一些提示。感谢您的所有帮助。
每个训练图像中的一种字体样式。正方体训练 Wiki声明如下:
训练数据应按字体分组。理想情况下,单一字体的所有样本都应该放在一个 tiff 文件中,但这可能是多页 tiff(如果您安装了 libtiff 或 leptonica),因此单一字体的总训练数据可能有很多页和很多 10s数千个字符,允许对大字符集语言进行训练。
不要在图像文件中混合字体(准确地说是在单个 .tr 文件中
。)这将导致特征在聚类时被丢弃,从而导致识别错误。