我试图在 Python 中使用 Tesseract OCR 从图像文件中提取文本,但我面临一个错误,我可以弄清楚如何处理它。我所有的环境都很好,因为我在 python 中使用 ocr 测试了一些示例图像!
这是代码
from PIL import Image
import pytesseract
strs = pytesseract.image_to_string(Image.open('binarized_image.png'))
print (strs)
以下是我从 Eclipse 控制台得到的错误
strs = pytesseract.image_to_string(Image.open('binarized_body.png'))
File "C:\Python35x64\lib\site-packages\pytesseract\pytesseract.py", line 167, in image_to_string
return f.read().strip()
File "C:\Python35x64\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 20: character maps to <undefined>
我在 Windows10上使用python 3.5 x64