问题标签 [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1812 浏览

python - 带有tesseract的pyocr内存不足

我制作了一个脚本,在 tesseract 和 pyocr 的帮助下将 pdf 扫描成文本批处理。代码如下。问题是,在处理大量文件(例如 20+)时,有时脚本会耗尽内存并因 OSError 而失败。我目前做了它,以便它可以在手动重启后顺利赶上崩溃的地方,但是这些手动重启很乏味。

由于 pyocr 对我来说基本上是一个黑匣子,我尝试将脚本包装到其他 Python 脚本中,以便在崩溃时重新启动它,但它们似乎都出现了该错误,只有在每个相关脚本终止时才释放内存。

我能想到的唯一其他解决方案是制作一个完全外部的包装器,它将检查脚本是否正在运行,如果没有,则重新启动它并且仍然有未处理的文件。

但也许有更好的解决方案?或者也许我编写了可以改进的蹩脚代码以避免这些内存崩溃?(除此之外,我知道它很蹩脚,但效果很好:))。

0 投票
1 回答
1526 浏览

python - Tesseract OCR 无法识别任何字符

我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集,因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作

  • 二值化和阈值​​化
  • 将单词分成构成它的字符
  • 调整提取字符的大小
  • 让 tesseract 弄清楚英文字母是什么

我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中,然后可能会从它们中形成一个模板。为此,我需要知道它是哪个角色。
这是我得到的结果 -
在此处输入图像描述

所有字符都被正确分割(大多数情况下)。这更像是一个 tesseract 问题,而不是一个 python 问题,但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证,输入不是问题。我还需要做什么才能让 tesseract 工作吗?

这些字符都无法识别。

0 投票
1 回答
475 浏览

python - 安装 tesseract Mac OS 时出错

我尝试了许多方法来安装 Tesseract,但我似乎无法让它工作。我在 Mac 上,这是我不断收到的错误

有谁知道我如何用 tesseract 解决这个问题?

0 投票
1 回答
4293 浏览

python - pip install tesserocr 失败并出现错误“tesserocr 构建轮子失败”

我已经有了 leptonica 和 tesseract 的最新版本

我还安装了所有依赖项,例如 python-dev

这是我在 virtualenv 中执行 pip install tesserocr 时遇到的错误

我在底部收到此错误

0 投票
1 回答
326 浏览

python - pytesseract 没有这样的文件或目录 OSError no 2

当我使用 pytesseract 的image_to_string函数时,它会抛出OSError: [Errno 2] No such file or directory. 完整的错误信息在这里。当我使用subprocess.call(["tesseract", "inputfile.png", "outputfile"]). 其他所有建议都说我需要安装 tesseract,并能够在命令行上使用它。但是,我事先这样做了,并且可以通过运行从命令行使用 tesseract tesseract inputfile.png outputfile,这工作正常。问题是 python 子进程不支持 tesseract,即使它已安装并可从命令行访问。顺便说一句,我在 macOS 上。

0 投票
3 回答
7987 浏览

python-tesseract - 尝试安装 tesserocr 时出错

当我尝试安装时,我不断收到相同的错误

萨钦系统错误:

0 投票
1 回答
20665 浏览

python - Pytesseract 设置字符白名单

有谁知道如何为 Pytesseract 设置字符白名单?我希望它只输出 Az 和 0-9。这可能吗?我有以下内容:

我得到了其他字符,例如 / 代表 1,所以我想限制可能字符的选项。

0 投票
2 回答
3370 浏览

python - 在 Windows 10 上 pip install tesserocr 给出错误

我正在尝试在 Windows10 主机操作系统上为 python 安装 tesserocr 包,但出现以下错误

执行

如何克服这个问题?

0 投票
1 回答
1082 浏览

python - Tesseract RuntimeError: 识别图片失败

我是 tesseract 的新手,在尝试使用外部训练的数据集时出现此错误。

我不知道如何解决它。问题出在外部库上,但除此之外,我不知道。任何指导表示赞赏。

我在带有 Tesserocr 包装器的 Ubuntu 16.04 LTS、x86_64、Python 2.7 上。外部库来自:https ://github.com/arturaugusto/display_ocr 。

我刚刚将letsgodigital.traineddata文件粘贴到:

代码:

语言检查

使用默认英文库运行代码有效

正方体版本信息:

0 投票
2 回答
4338 浏览

python - pytesseract:无法访问带有“Image.open”“Errno 2”错误的图像

我正在尝试pytesseract第一次使用。我对 python 也不太满意。我在python_test桌面上创建了一个新文件夹。我在 Mac 上。在这个文件夹中,我有一个test.png文件和一个 py 脚本:

所以从我的终端,我进入 python_test 文件夹然后我正在运行python read.py然后我有以下错误:

我做错了什么?