1

我通过在我的一张图像上运行以下命令创建了一个可搜索的 pdf 文件。

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

这是我已转换为可搜索 pdf 的图像。 在此处输入图像描述

该图像包含乌尔都语文本,但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时,这就是我得到的。

格布菲”</p>

请任何可以解决我的问题的tesseract OCR和编码专家,任何帮助将不胜感激,在此先感谢。

4

1 回答 1

1

pdf 是配置文件名。它需要在命令中排在最后,在 --oem --psm -l 等之后。

该命令的正确格式如下。

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

我以这种方式解决了我的问题。

于 2018-10-16T15:40:36.823 回答