3

嗨,我是 python 和 tesseract 的新手。当我尝试从图像中获取数据时,我正在使用 anaconda 分发并尝试使用 pytesseract-ocr,它给了我以下错误:

tesseract imageSample1.jpg test.txt digits
// output 
Tesseract Open Source OCR Engine v3.04.01 with Leptonica
Error opening data file /anaconda/envs/_build/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

所以首先这个没有这样的/anaconda/envs/_build/share/tessdata/目录。我有 anaconda3 文件夹。我从 git 下载了 end.traindata。但不确定将这些数据放在哪里。难道我做错了什么。需要一些帮助。谢谢你。

4

2 回答 2

5

Tesseract 将首先在 /usr/share/tessdata 中搜索。

如果您希望 tesseract 搜索其他地方,您可以执行以下操作之一

  • 将环境变量设置为TESSDATA_PREFIX放置数据的路径。
  • 调用 tesseract--tessdata-dir=<pathToYourData>
于 2017-12-02T12:54:31.253 回答
0

您是否尝试过从命令窗口执行命令:tesseract,您应该得到如下输出: 正方体输出

如果没有,那么您应该在您的机器上安装任何版本的 tesseract tesseract 下载

注意:要使 pytesseract 工作,您需要将 tessearct 安装到系统中。

希望这可以帮助 :)

于 2017-12-02T12:51:02.340 回答