1

我在使用 pytesseract 时遇到了一些问题。使用这行代码,pytesseract 与乌尔都语的效果很差:

text = pytesseract.image_to_string(img, lang="urd")

我应该使用什么配置来提高乌尔都语的准确性?我可以对图像进行哪些预处理?

我正在使用这种图像:TestFile

对于附加的图像,输出应为:

بعد نجی ٹی وی سے گفتگو کرتے ہوئے وزیر خارجہ شاہ محمود قریشی نے بتایا کہ ملاقات

但我得到的输出是:

٦ری‏ وی سے کلوکرتے ہونے وز خارمہ اہ مود رٹ نے نال لات

图像采用以下字体:Pak Nastaleeq、Alvi Nastaleeq、Jameel Noori Nastaleeq、Nafees Nastaleeq。

4

0 回答 0