我正在尝试使用 python 从图像中检测孟加拉字符,所以我决定使用pytesseract。为此,我使用了以下代码:
import pytesseract
from PIL import Image, ImageEnhance, ImageFilter
im = Image.open("input.png") # the second one
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save('temp2.png')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
text = pytesseract.image_to_string(Image.open('temp2.png'),lang="ben")
print text
问题是,如果我给出了一个英文字符的图像,就会被检测到。但是,当我lang="ben"
从孟加拉语字符的图像中编写和检测时,我的代码会运行无穷无尽的时间或永远运行。
PS:我已将孟加拉语训练数据下载到 tessdata 文件夹,我正在尝试在PyCharm中运行它。
谁能帮我解决这个问题?