我已经使用 jtessboxeditor 训练了我自己的乌尔都语模型来创建 tiff/box 文件,然后使用 Serak tesseract 训练器来创建训练数据文件,模型正在识别乌尔都语,但除了准确性之外主要有 2 个问题(准确性将在解决以下问题后进行测试2 个问题)。
- 模型无法识别单词的空格。
- 模型以 LTR 形式显示文本(乌尔都语是 RTL 语言,类似于阿拉伯语)我知道该领域有非常特定的人群,但我只是想要一个正确方向的提示,所以任何帮助将不胜感激。提前致谢。
我已经使用 jtessboxeditor 训练了我自己的乌尔都语模型来创建 tiff/box 文件,然后使用 Serak tesseract 训练器来创建训练数据文件,模型正在识别乌尔都语,但除了准确性之外主要有 2 个问题(准确性将在解决以下问题后进行测试2 个问题)。