问题标签 [python-tesseract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1353 问题

0 投票

1 回答

337 浏览

openshift - 如何在 OpenShift 中安装 TesseractOCR？

当我 ssh 我的应用程序时，我尝试获取 tesseract：</p>

它告诉我我不能写这个文件（权限被拒绝）所以，我可以在 openshift 中安装 tesseract 吗？

2016-02-04T07:14:13.117

0 投票

0 回答

3580 浏览

python-imaging-library - 来自图像的 Python OCR 文本

我想从扫描的护照图像中提取数据。
我正在使用 PIL 进行图像处理过程，并使用 pytesseract 将图像转换为文本。
我的问题是我没有得到我需要的东西..我得到 5 而不是 S ..和类似的东西。
我认为问题不在于 pytesseract ，而在于 PIL ，因为我没有很好地过滤图像。
有人可以帮我从图像中提取，只有黑色像素吗？
或者，如果有人可以帮助我就我可以使用哪些健身器材来获得最佳效果提供建议。谢谢！我正在尝试这个：

python-imaging-library ocr tesseract pillow python-tesseract

2016-02-14T15:39:04.597

0 投票

7 回答

21137 浏览

python - OSError: [Errno 2] No such file or directory using pytesser

这是我的问题，我想使用 pytesser 来获取图片的内容。我的操作系统是Mac OS 10.11，我已经安装了PIL、pytesser、tesseract-ocr引擎以及libpng等其他支持库。但是当我运行我的代码时，如下所示，会发生错误。

接下来是错误信息

此外，tesseract-ocr 引擎在我的 Mac 上运行良好，我可以在终端中运行它并得到结果。下面是测试图片结果。正方体结果

有人可以帮我解决这个问题吗？

python error-handling python-tesseract pytesser

2016-02-24T18:09:06.767

0 投票

1 回答

295 浏览

python - 使用 Spark 的 Python 脚本中的内存泄漏

我刚开始第一次使用 Spark 执行 OCR 任务，我有一个包含扫描文本文档的 PDF 文件文件夹，我想将其转换为纯文本。我首先创建文件夹中所有 pdf 的并行数据集，然后执行 Map 操作来创建图像。我使用 Wand 图像来完成这项任务。最后，我使用 foreach 使用 pytesseract 进行 OCR，它是 Tesseract 的包装器。

这种方法的问题是内存使用量随着每个新文档的增加而增加，最后我得到一个错误“操作系统无法分配内存”。我感觉它将完整的 Img 对象存储在内存中，但我需要的只是临时文件位置的列表。如果我用几个 PDF 文件运行它，它可以工作，但超过 5 个文件系统崩溃......

我正在使用具有 8gb 内存 Java 7 和 Python3.5 的 Ubuntu

python apache-spark ocr wand python-tesseract

2016-03-11T08:44:36.490

0 投票

2 回答

486 浏览

python - 在 Ubuntu 15.x 上安装 python-tesseract

我python-tesseract在 Ubuntu 系统上安装时遇到问题。
从 14.04 开始，我尝试了几个版本的 32 位 Ubuntu 系统，但我一无所获。我下载python-tesseract_0.9-0.5ubuntu2_i386.deb并尝试安装它，但出现了依赖问题，并且在安装了所需的软件包后，这些问题并没有消失。

如何在Ubuntu 14.04或15.10上安装 python-tesseract ？谢谢

编辑：我正在 python 上开发一个光学字符识别应用程序，我需要访问 tesseractTessBaseAPI提供的许多功能。我找到了几个用于 python 的 tesseract 包装器，但是python-tesseract（我知道这与 pytesseract 不一样）是唯一一个允许访问所有函数的，而不仅仅是少数几个。我下载了一个python-tesseract.deb文件，但出现了上述问题。

python tesseract python-tesseract

2016-03-17T18:01:49.777

0 投票

5 回答

8674 浏览