java - Tesseract 无法识别阿拉伯字符

翻译自：https://stackoverflow.com/questions/41904112 2017-01-27T22:32:58.757

706 次

3

我正在开发一个使用 tesseract api 识别车牌号码的应用程序，但在车牌中有阿拉伯语字符。

有人知道如何制作这个吗？

这是车牌的一个例子

2 回答 2

1

您可以使用阿拉伯字符的特定 Tesseract 模块：https ://linuxac.org/forum/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D9%88% D8%AA%D8%B7%D8%A8%D9%8A%D9%82%D8%A7%D8%AA-%D8%B3%D8%B7%D8%AD-%D8%A7%D9%84% D9%85%D9%83%D8%AA%D8%A8/%D8%A8%D8%B1%D8%A7%D9%85%D8%AC-%D8%A7%D9%84%D8%AA% D8%AD%D8%B1%D9%8A%D8%B1-%D8%A7%D9%84%D9%85%D9%83%D8%AA%D8%A8%D9%8A-%D9%88% D8%A7%D9%84%D9%86%D8%B4%D8%B1-%D8%A7%D9%84%D8%B7%D8%A8%D8%A7%D8%B9%D9%8A/57245 -tesseract-%D8%A7%D9%84%D8%A7%D9%86-%D9%8A%D8%AF%D8%B9%D9%85-%D8%A7%D9%84%D8%B9% D8%B1%D8%A8%D9%8A%D8%A9

于 2017-01-28T12:21:50.857 回答

1

首先，您需要传递图像以进行预处理和裁剪盘子周围的区域。然后只需执行二值化以获得更好的 OCR 体验。

Tesseract 无法识别 Tashkeel。但是，对于字符，使用下面的行能够检测阿拉伯字符和英文文本。另外，请记住选择合适的页面分割模式。

pytesseract.image_to_string(image,lang='eng+ara')

您可能还需要使用以下命令来查看可以进行的配置来改进它。

tesseract --print-parameters

于 2021-07-28T23:02:56.827 回答