Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我通过在我的一张图像上运行以下命令创建了一个可搜索的 pdf 文件。
tesseract page.jpg test pdf --oem 1 --psm 5 -l urd
这是我已转换为可搜索 pdf 的图像。
该图像包含乌尔都语文本,但是当我从新创建的 pdf 文件中复制它并将其粘贴到任何其他文本编辑器中时,这就是我得到的。
格布菲”</p>
请任何可以解决我的问题的tesseract OCR和编码专家,任何帮助将不胜感激,在此先感谢。
pdf 是配置文件名。它需要在命令中排在最后,在 --oem --psm -l 等之后。
该命令的正确格式如下。
tesseract page.jpg test --oem 1 --psm 5 -l urd pdf
我以这种方式解决了我的问题。