7

我试图在 Python 中使用 Tesseract OCR 从图像文件中提取文本,但我面临一个错误,我可以弄清楚如何处理它。我所有的环境都很好,因为我在 python 中使用 ocr 测试了一些示例图像!

这是代码

from PIL import Image
import pytesseract
strs = pytesseract.image_to_string(Image.open('binarized_image.png'))

print (strs)

以下是我从 Eclipse 控制台得到的错误

strs = pytesseract.image_to_string(Image.open('binarized_body.png'))
  File "C:\Python35x64\lib\site-packages\pytesseract\pytesseract.py", line 167, in image_to_string
    return f.read().strip()
  File "C:\Python35x64\lib\encodings\cp1252.py", line 23, in decode
    return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 20: character maps to <undefined>

我在 Windows10上使用python 3.5 x64

4

2 回答 2

8

问题是 python 试图使用控制台的编码(CP1252)而不是它打算使用的编码(UTF-8)。PyTesseract 找到了一个 unicode 字符,现在正试图将其翻译成 CP1252,但它无法做到。在另一个平台上,您不会遇到此错误,因为它将使用 UTF-8。

您可以尝试使用不同的函数(可能会返回bytes而不是返回,str这样您就不必担心编码)。您可以更改其中一条评论中提到的 python 的默认编码,尽管当您尝试在 Windows 控制台上打印字符串时会导致问题。或者,这是我推荐的解决方案,您可以下载 Cygwin 并在其上运行 python 以获得干净的 UTF-8 输出。

如果您想要一个不会破坏任何东西(还)的快速而肮脏的解决方案,您可以考虑以下一种方法:

import builtins

original_open = open
def bin_open(filename, mode='rb'):       # note, the default mode now opens in binary
    return original_open(filename, mode)

from PIL import Image
import pytesseract

img = Image.open('binarized_image.png')

try:
    builtins.open = bin_open
    bts = pytesseract.image_to_string(img)
finally:
    builtins.open = original_open

print(str(bts, 'cp1252', 'ignore'))
于 2015-12-15T15:48:34.937 回答
3

我和你有同样的问题,但我不得不将 pytesseract 的输出保存到一个文件中。因此,我使用 pytesseract 为 ocr 创建了一个函数,并在保存到文件时添加了参数encoding='utf-8',所以我的函数现在看起来像这样:

def image_ocr(image_path, output_txt_file_name):
  image_text = pytesseract.image_to_string(image_path, lang='eng+ces', config='--psm 1')
  with open(output_txt_file_name, 'w+', encoding='utf-8') as f:
    f.write(image_text)

我希望这可以帮助别人 :)

于 2018-10-02T07:47:30.253 回答