nlp - pytesseract 的配置（乌尔都语）

翻译自：https://stackoverflow.com/questions/68704748 2021-08-08T21:03:56.070

130 次

1

我在使用 pytesseract 时遇到了一些问题。使用这行代码，pytesseract 与乌尔都语的效果很差：

text = pytesseract.image_to_string(img, lang="urd")

我应该使用什么配置来提高乌尔都语的准确性？我可以对图像进行哪些预处理？

我正在使用这种图像：TestFile

对于附加的图像，输出应为：

بعد نجی ٹی وی سے گفتگو کرتے ہوئے وزیر خارجہ شاہ محمود قریشی نے بتایا کہ ملاقات

但我得到的输出是：

٦ری‏ وی سے کلوکرتے ہونے وز خارمہ اہ مود رٹ نے نال لات

图像采用以下字体：Pak Nastaleeq、Alvi Nastaleeq、Jameel Noori Nastaleeq、Nafees Nastaleeq。

0 回答 0