3

尝试安装 tesseract-ocr 包以与 pytesseract 一起使用,遇到了一个奇怪的问题。使用 pip 安装其他所有内容都有效,但是当我按照此处sudo pip install tesseract-ocr的说明尝试时,出现以下错误:

Command /usr/bin/python -c "import setuptools, tokenize;__file__='/tmp/pip_build_root/tesseract-ocr/setup.py';exec(compile(getattr(tokenize, 'open', open)(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /tmp/pip-zsaPkE-record/install-record.txt --single-version-externally-managed --compile failed with error code 1 in /tmp/pip_build_root/tesseract-ocr
Traceback (most recent call last):
  File "/usr/bin/pip", line 9, in <module>
    load_entry_point('pip==1.5.4', 'console_scripts', 'pip')()
  File "/usr/lib/python2.7/dist-packages/pip/__init__.py", line 235, in main
    return command.main(cmd_args)
  File "/usr/lib/python2.7/dist-packages/pip/basecommand.py", line 161, in main
    text = '\n'.join(complete_log)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 42: ordinal not in range(128)

我感觉回溯导致了 UnicodeDecodeError。有没有人对如何解决这个问题有任何想法?

4

1 回答 1

4

提供的链接仅提及使用 Pip 安装 pytesseract 而不是 Tesseract-OCR。

如前所述,您还需要 Python Imaging Library (PIL),如果您的系统中未安装它,您可以通过使用sudo pip install pillow.

Tesseract-OCR 没有使用 Pip 安装,sudo pip install tesseract-ocr因为它不是像 pytesseract 这样的 Python 模块。据我所知,Tesseract-OCR 主要是用 C++ 编写的。

给出的链接http://code.google.com/p/tesseract-ocr/不再托管 Tesseract-OCR,因为该项目已移至https://github.com/tesseract-ocr/tesseract

安装说明可以在https://github.com/tesseract-ocr/tesseract/wiki上找到。

供 Linux 使用,sudo apt-get install tesseract-ocrsudo apt-get install tesseract-ocr-all安装所有语言。

供 Mac 使用,brew install tesseractbrew install tesseract --all-languages安装所有语言。你需要安装 Homebrew,它可以在https://brew.sh找到。

对于 Windows,安装程序可以在https://github.com/tesseract-ocr/tesseract/wiki/Downloads/上找到。当前的稳定版本应该包含所有语言。

于 2017-03-14T15:54:56.573 回答