我在使用 pytesseract 时遇到了一些问题。使用这行代码,pytesseract 与乌尔都语的效果很差:
text = pytesseract.image_to_string(img, lang="urd")
我应该使用什么配置来提高乌尔都语的准确性?我可以对图像进行哪些预处理?
我正在使用这种图像:TestFile
对于附加的图像,输出应为:
بعد نجی ٹی وی سے گفتگو کرتے ہوئے وزیر خارجہ شاہ محمود قریشی نے بتایا کہ ملاقات
但我得到的输出是:
٦ری وی سے کلوکرتے ہونے وز خارمہ اہ مود رٹ نے نال لات
图像采用以下字体:Pak Nastaleeq、Alvi Nastaleeq、Jameel Noori Nastaleeq、Nafees Nastaleeq。