问题标签 [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
337 浏览

openshift - 如何在 OpenShift 中安装 TesseractOCR?

当我 ssh 我的应用程序时,我尝试获取 tesseract:</p>

它告诉我我不能写这个文件(权限被拒绝)所以,我可以在 openshift 中安装 tesseract 吗?

0 投票
0 回答
3580 浏览

python-imaging-library - 来自图像的 Python OCR 文本


我想从扫描的护照图像中提取数据。
我正在使用 PIL 进行图像处理过程,并使用 pytesseract 将图像转换为文本。
我的问题是我没有得到我需要的东西..我得到 5 而不是 S ..和类似的东西。
我认为问题不在于 pytesseract ,而在于 PIL ,因为我没有很好地过滤图像。
有人可以帮我从图像中提取,只有黑色像素吗?
或者,如果有人可以帮助我就我可以使用哪些健身器材来获得最佳效果提供建议。谢谢!我正在尝试这个:

0 投票
7 回答
21137 浏览

python - OSError: [Errno 2] No such file or directory using pytesser

这是我的问题,我想使用 pytesser 来获取图片的内容。我的操作系统是Mac OS 10.11,我已经安装了PIL、pytesser、tesseract-ocr引擎以及libpng等其他支持库。但是当我运行我的代码时,如下所示,会发生错误。

接下来是错误信息

此外,tesseract-ocr 引擎在我的 Mac 上运行良好,我可以在终端中运行它并得到结果。下面是测试图片结果。 正方体结果

有人可以帮我解决这个问题吗?

0 投票
1 回答
295 浏览

python - 使用 Spark 的 Python 脚本中的内存泄漏

我刚开始第一次使用 Spark 执行 OCR 任务,我有一个包含扫描文本文档的 PDF 文件文件夹,我想将其转换为纯文本。我首先创建文件夹中所有 pdf 的并行数据集,然后执行 Map 操作来创建图像。我使用 Wand 图像来完成这项任务。最后,我使用 foreach 使用 pytesseract 进行 OCR,它是 Tesseract 的包装器。

这种方法的问题是内存使用量随着每个新文档的增加而增加,最后我得到一个错误“操作系统无法分配内存”。我感觉它将完整的 Img 对象存储在内存中,但我需要的只是临时文件位置的列表。如果我用几个 PDF 文件运行它,它可以工作,但超过 5 个文件系统崩溃......

我正在使用具有 8gb 内存 Java 7 和 Python3.5 的 Ubuntu

0 投票
2 回答
486 浏览

python - 在 Ubuntu 15.x 上安装 python-tesseract

python-tesseract在 Ubuntu 系统上安装时遇到问题。
从 14.04 开始,我尝试了几个版本的 32 位 Ubuntu 系统,但我一无所获。我下载python-tesseract_0.9-0.5ubuntu2_i386.deb并尝试安装它,但出现了依赖问题,并且在安装了所需的软件包后,这些问题并没有消失。

如何在Ubuntu 14.0415.10上安装 python-tesseract ?谢谢

编辑:我正在 python 上开发一个光学字符识别应用程序,我需要访问 tesseractTessBaseAPI提供的许多功能。我找到了几个用于 python 的 tesseract 包装器,但是python-tesseract(我知道这与 pytesseract 不一样)是唯一一个允许访问所有函数的,而不仅仅是少数几个。我下载了一个python-tesseract.deb文件,但出现了上述问题。

0 投票
5 回答
8674 浏览

python - 在 Ubuntu 上安装 Python-tesseract

我正在尝试从 Ubuntu 15.04 上的 deb 文件安装 python-tesseract 0.9-0.5,但它给出了几个错误。这就是我所做的:

1-我在终端上打开文件的路径并写入

2-在此之后,控制台显示几个错误:

3-只是为了检查,我打开安装文件并提取了 tesseract.py 类,并在 python 中单独使用。我是这样打开的:

,但我得到了这个:

问题是我想在 python 上使用 tesseract 函数来进行光学字符识别应用程序,我知道最好的包装器是 python-tesseract(我认为与 pytesseract 不同)。

我的问题是:如何在 Ubuntu 15.04 上安装 python-tesseract?非常感谢

0 投票
0 回答
442 浏览

python - Python没有找到Tesseract命令

我已经用自制软件安装了 Tesseract,并且在命令行上它工作正常,例如:

但是当我尝试将它与 python tesseract 包装器(如 textract 或 pytesseract)结合使用时,我收到此错误:

当我尝试时:

我得到错误:

brew info tesseract 返回:

0 投票
1 回答
10687 浏览

python - 在 Pytesser 中使用多种语言

我已经开始使用 Pytesser,它对英文和中文都很好用,但是有没有办法让两种语言同时工作?我必须制作自己的训练数据文件吗?我的代码是:

中英文

0 投票
1 回答
1754 浏览

ocr - 如何使用 tesseract 和 python 正确地进行 OCR 打字机字体

我在 python 中使用 Tesseract-OCR 版本 3.05 dev 对一些文档进行 OCR。我遇到的主要问题是打字机字体中的数字 4。它几乎总是会错过它并输出空而不是 4 或一些不正确的文本。我已经上传了一个示例图片。在此处输入图像描述

我也不必使用 tesseract,如果您对其他(更好的)引擎有建议,请告诉我。

0 投票
0 回答
777 浏览

python - python 2.7 tesseractError:1 上的 pytesseract 错误

请帮我解决这个问题~

使用pytesseract时出现如下错误:</p>


我使用 pip 安装枕头和 pytesseract。我还在 C:\Program Files (x86)\Tesseract-OCR 中安装了 tesseract-ocr-setup-3.02.02.exe,路径没问题

我的代码是:</p>

非常感谢