pdf - 当我从可搜索的 pdf 文件（使用 tesseract 命令创建）复制文本并将其粘贴到记事本中时，文本正在被更改

Question

我通过在我的一张图像上运行以下命令创建了一个可搜索的 pdf 文件。

tesseract page.jpg test pdf --oem 1 --psm 5 -l urd

这是我已转换为可搜索 pdf 的图像。

该图像包含乌尔都语文本，但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时，这就是我得到的。

格布菲”</p>

请任何可以解决我的问题的tesseract OCR和编码专家，任何帮助将不胜感激，在此先感谢。

score 1 · Accepted Answer

pdf 是配置文件名。它需要在命令中排在最后，在 --oem --psm -l 等之后。

该命令的正确格式如下。

tesseract page.jpg test --oem 1 --psm 5 -l urd pdf

我以这种方式解决了我的问题。

1 回答 1