我想从图像中执行文本识别,我想使用 Python。我安装了蟒蛇。现在我想安装 Tesseract,但我还需要安装 Leptonica。我没有找到任何明确的说明如何在 Windows 中执行此操作。对于 Leptonica,我不想安装 Visual Studio。那么任何人都可以提供明确的说明如何在没有 Visual Studio 的情况下在 Windows 上安装 leptonica 和 tesseract 以在 anaconda 中使用?谢谢。
1 回答
以下是让 tesseract 3.05 开发版(截至 2016 年 4 月 22 日)在 Windows 7 和 Windows 8 机器上运行的简单步骤:
1-从官方 tesseract-ocr 页面的可执行文件安装 tesseract(windoes 版本 3.02 就足够了)
2- 从http://domasofan.spdns.eu/tesseract/下载以下两个用于 tesseract 3.05 开发版的文件
有2个exe文件:
- tesseract-core-yyyymmdd.exe 无语言数据的 Tesseract 核心应用程序
- tesseract-langs-yyyymmdd.exe 可用于 Tesseract 的所有语言数据。
(yyyymmdd 表示年 4 位、月 2 位和日 2 位。)
该应用程序是便携式的,因此您可以将其安装在 USB 记忆棒或其他位置。
安装这些的子步骤:
- 下载 tesseract-core 和 tesseract-langs 包。
- 双击 tesseract-core 包并将其解压缩到您想要的目录(一个名为“Tess_temp”的临时新文件夹)。
双击 tesseract-langs 包并将其解压缩到同一目录,但将 \tessdata 添加到上面的“Tess_temp”文件夹中。例如,如果我将 tesseract-core 提取到 c:\Tess_temp,则 tesseract-langs 需要转到 c:\Tess_temp\tessdata。
现在将“Tess_temp”中的所有内容复制到上述步骤 1 中安装 tesseract 3.02 的位置(通常在 C:\Program Files (x86)\Tesseract-OCR 中)(将 3.02 材料替换为 3.05 )
它现在应该适用于 windows 上的 3.05 版本。将示例图像 test.png(带有文本)复制到此 tesseract-ocr 文件夹并打开 cmd 并键入以下命令:
转到 tesseract 文件夹:
cd C:\Program Files <x86>\Tesseract-OCR
在 test.png 上运行 tesseract:
tesseract -l eng test.png test_text -psm 6
它会告诉你
Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
恭喜!(检查 test_txt.txt 以获取提取的文本)