问题标签 [python-tesseract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1353 问题

0 投票

1 回答

1812 浏览

python - 带有tesseract的pyocr内存不足

我制作了一个脚本，在 tesseract 和 pyocr 的帮助下将 pdf 扫描成文本批处理。代码如下。问题是，在处理大量文件（例如 20+）时，有时脚本会耗尽内存并因 OSError 而失败。我目前做了它，以便它可以在手动重启后顺利赶上崩溃的地方，但是这些手动重启很乏味。

由于 pyocr 对我来说基本上是一个黑匣子，我尝试将脚本包装到其他 Python 脚本中，以便在崩溃时重新启动它，但它们似乎都出现了该错误，只有在每个相关脚本终止时才释放内存。

我能想到的唯一其他解决方案是制作一个完全外部的包装器，它将检查脚本是否正在运行，如果没有，则重新启动它并且仍然有未处理的文件。

但也许有更好的解决方案？或者也许我编写了可以改进的蹩脚代码以避免这些内存崩溃？（除此之外，我知道它很蹩脚，但效果很好:)）。

2017-03-28T14:17:53.670

0 投票

1 回答

1526 浏览

python - Tesseract OCR 无法识别任何字符

我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集，因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作

二值化和阈值化
将单词分成构成它的字符
调整提取字符的大小
让 tesseract 弄清楚英文字母是什么

我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中，然后可能会从它们中形成一个模板。为此，我需要知道它是哪个角色。
这是我得到的结果 -

所有字符都被正确分割（大多数情况下）。这更像是一个 tesseract 问题，而不是一个 python 问题，但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract（由 pytesseract 处理）。我向你保证，输入不是问题。我还需要做什么才能让 tesseract 工作吗？

这些字符都无法识别。

python opencv tesseract python-tesseract

2017-04-02T19:31:58.173

0 投票

1 回答

475 浏览

python - 安装 tesseract Mac OS 时出错

我尝试了许多方法来安装 Tesseract，但我似乎无法让它工作。我在 Mac 上，这是我不断收到的错误

有谁知道我如何用 tesseract 解决这个问题？

python macos tesseract python-tesseract

2017-04-08T20:56:29.980

0 投票

1 回答

4293 浏览

python - pip install tesserocr 失败并出现错误“tesserocr 构建轮子失败”

我已经有了 leptonica 和 tesseract 的最新版本

我还安装了所有依赖项，例如 python-dev

这是我在 virtualenv 中执行 pip install tesserocr 时遇到的错误

我在底部收到此错误

python pip virtualenv tesseract python-tesseract

2017-04-10T06:29:18.253

0 投票

1 回答

326 浏览

python - pytesseract 没有这样的文件或目录 OSError no 2

当我使用 pytesseract 的image_to_string函数时，它会抛出OSError: [Errno 2] No such file or directory. 完整的错误信息在这里。当我使用subprocess.call(["tesseract", "inputfile.png", "outputfile"]). 其他所有建议都说我需要安装 tesseract，并能够在命令行上使用它。但是，我事先这样做了，并且可以通过运行从命令行使用 tesseract tesseract inputfile.png outputfile，这工作正常。问题是 python 子进程不支持 tesseract，即使它已安装并可从命令行访问。顺便说一句，我在 macOS 上。

python subprocess tesseract python-tesseract

2017-04-15T15:46:39.853

0 投票

3 回答

7987 浏览