python - 用于乌尔都语的 Tesseract 自定义训练模型从左到右输出并且没有识别出空格

翻译自：https://stackoverflow.com/questions/51798126 2018-08-11T09:01:51.830

1149 次

4

我已经使用 jtessboxeditor 训练了我自己的乌尔都语模型来创建 tiff/box 文件，然后使用 Serak tesseract 训练器来创建训练数据文件，模型正在识别乌尔都语，但除了准确性之外主要有 2 个问题（准确性将在解决以下问题后进行测试2 个问题）。

模型无法识别单词的空格。
模型以 LTR 形式显示文本（乌尔都语是 RTL 语言，类似于阿拉伯语）我知道该领域有非常特定的人群，但我只是想要一个正确方向的提示，所以任何帮助将不胜感激。提前致谢。

0 回答 0