我正在使用 pytesser 对一个小图像进行 OCR 并从中获取一个字符串:
image= Image.open(ImagePath)
text = image_to_string(image)
print text
但是,pytesser 有时喜欢识别并返回非 ascii 字符。当我现在想打印我刚刚识别的内容时,就会出现问题。在 python 2.7(这是我正在使用的)中,程序崩溃了。
有什么方法可以让 pytesser 不返回任何非 ascii 字符?也许您可以在 tesseract OCR 中更改某些内容?
或者,是否有某种方法可以测试非 ascii 字符的字符串(不会使程序崩溃),然后不打印该行?
有些人会建议使用 python 3.4,但根据我的研究,pytesser 似乎无法使用它:Python 3.4 中的 Pytesser: name 'image_to_string' is not defined?