5

我正在使用 python 3.x 并使用以下代码将图像转换为文本:

from PIL import Image
from pytesseract import image_to_string

image = Image.open('image.png', mode='r')
print(image_to_string(image))

我收到以下错误:

Traceback (most recent call last):
  File "C:/Users/hp/Desktop/GII/Image_to_text.py", line 12, in <module>
    print(image_to_string(image))
  File "C:\Users\hp\Downloads\WinPython-64bit-3.5.1.2\python-3.5.1.amd64\lib\site-packages\pytesseract\pytesseract.py", line 161, in image_to_string
    config=config)
  File "C:\Users\hp\Downloads\WinPython-64bit-3.5.1.2\python-3.5.1.amd64\lib\site-packages\pytesseract\pytesseract.py", line 94, in run_tesseract
    stderr=subprocess.PIPE)
  File "C:\Users\hp\Downloads\WinPython-64bit-3.5.1.2\python-3.5.1.amd64\lib\subprocess.py", line 950, in __init__
    restore_signals, start_new_session)
  File "C:\Users\hp\Downloads\WinPython-64bit-3.5.1.2\python-3.5.1.amd64\lib\subprocess.py", line 1220, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] The system cannot find the file specified

请注意,我已将图像放在我的 python 所在的同一目录中。此外,它不会引发错误, image = Image.open('image.png', mode='r')但会引发错误print(image_to_string(image))

知道这里可能有什么问题吗?谢谢

4

5 回答 5

7

您必须tesseract在您的路径中安装和访问。

根据 sourcepytesseract只是一个包装器,用于subprocess.Popen将 tesseract 二进制文件作为二进制文件运行。它本身不执行任何类型的 OCR。

相关部分来源:

def run_tesseract(input_filename, output_filename_base, lang=None, boxes=False, config=None):
    '''
    runs the command:
        `tesseract_cmd` `input_filename` `output_filename_base`

    returns the exit status of tesseract, as well as tesseract's stderr output
    '''
    command = [tesseract_cmd, input_filename, output_filename_base]

    if lang is not None:
        command += ['-l', lang]

    if boxes:
        command += ['batch.nochop', 'makebox']

    if config:
        command += shlex.split(config)

    proc = subprocess.Popen(command,
            stderr=subprocess.PIPE)
    return (proc.wait(), proc.stderr.read())

引用另一部分来源:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

改变tesseract路径的快速方法是:

import pytesseract
pytesseract.tesseract_cmd = "/absolute/path/to/tesseract"  # this should be done only once 
pytesseract.image_to_string(img)
于 2016-07-21T16:07:22.207 回答
1

您还需要下载 tesseract OCR 设置。使用此链接下载设置:http ://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.01.exe

然后,在代码中包含这一行以使用 tesseract 可执行文件:pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract'

这是安装 tesseract 的默认位置。

就是这样。我还按照这些步骤在最后运行代码。

希望这会有所帮助。

于 2017-09-12T17:19:42.653 回答
1

请安装以下软件包以从图像 pnf/jpeg 中提取文本

pip install pytesseract

pip install Pillow 

使用python pytesseract OCR(光学字符识别)是从图像中以电子方式提取文本的过程

PIL 用途广泛,从简单的图像文件读写到科学图像处理、地理信息系统、遥感等等。

from PIL import Image
from pytesseract import image_to_string 
print(image_to_string(Image.open('/home/ABCD/Downloads/imageABC.png'),lang='eng'))
于 2019-12-19T09:21:25.887 回答
0

你的“当前”目录不是你想的。

==> 你可以指定图片的完整路径,例如:image = Image.open(r'C:\Users\hp\Downloads\WinPython-64bit-3.5.1.2\python-3.5.1.amd64\image .png',模式='r')

于 2016-07-21T16:04:09.350 回答
0

您可以尝试使用这个 python 库:https ://github.com/prabhakar267/ocr-convert-image-to-text

正如包的自述文件中所述,使用非常简单。

usage: python main.py [-h] input_dir [output_dir]

positional arguments:
  input_dir
  output_dir

optional arguments:
  -h, --help  show this help message and exit
于 2018-10-18T22:48:50.493 回答