3

我想从图像中执行文本识别,我想使用 Python。我安装了蟒蛇。现在我想安装 Tesseract,但我还需要安装 Leptonica。我没有找到任何明确的说明如何在 Windows 中执行此操作。对于 Leptonica,我不想安装 Visual Studio。那么任何人都可以提供明确的说明如何在没有 Visual Studio 的情况下在 Windows 上安装 leptonica 和 tesseract 以在 anaconda 中使用?谢谢。

4

1 回答 1

4

以下是让 tesseract 3.05 开发版(截至 2016 年 4 月 22 日)在 Windows 7 和 Windows 8 机器上运行的简单步骤:

1-从官方 tesseract-ocr 页面的可执行文件安装 tesseract(windoes 版本 3.02 就足够了)

2- 从http://domasofan.spdns.eu/tesseract/下载以下两个用于 tesseract 3.05 开发版的文件

有2个exe文件:

  • tesseract-core-yyyymmdd.exe 无语言数据的 Tesseract 核心应用程序
  • tesseract-langs-yyyymmdd.exe 可用于 Tesseract 的所有语言数据。

(yyyymmdd 表示年 4 位、月 2 位和日 2 位。)

该应用程序是便携式的,因此您可以将其安装在 USB 记忆棒或其他位置。

安装这些的子步骤:

  1. 下载 tesseract-core 和 tesseract-langs 包。
  2. 双击 tesseract-core 包并将其解压缩到您想要的目录(一个名为“Tess_temp”的临时新文件夹)。
  3. 双击 tesseract-langs 包并将其解压缩到同一目录,但将 \tessdata 添加到上面的“Tess_temp”文件夹中。例如,如果我将 tesseract-core 提取到 c:\Tess_temp,则 tesseract-langs 需要转到 c:\Tess_temp\tessdata。

  4. 现在将“Tess_temp”中的所有内容复制到上述步骤 1 中安装 tesseract 3.02 的位置(通常在 C:\Program Files (x86)\Tesseract-OCR 中)(将 3.02 材料替换为 3.05 )

  5. 它现在应该适用于 windows 上的 3.05 版本。将示例图像 test.png(带有文本)复制到此 tesseract-ocr 文件夹并打开 cmd 并键入以下命令:

    转到 tesseract 文件夹:cd C:\Program Files <x86>\Tesseract-OCR

    在 test.png 上运行 tesseract:tesseract -l eng test.png test_text -psm 6

它会告诉你

Tesseract Open Source OCR Engine v3.05.00dev with Leptonica

恭喜!(检查 test_txt.txt 以获取提取的文本)

于 2016-04-22T16:35:00.137 回答