问题标签 [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 带有tesseract的pyocr内存不足
我制作了一个脚本,在 tesseract 和 pyocr 的帮助下将 pdf 扫描成文本批处理。代码如下。问题是,在处理大量文件(例如 20+)时,有时脚本会耗尽内存并因 OSError 而失败。我目前做了它,以便它可以在手动重启后顺利赶上崩溃的地方,但是这些手动重启很乏味。
由于 pyocr 对我来说基本上是一个黑匣子,我尝试将脚本包装到其他 Python 脚本中,以便在崩溃时重新启动它,但它们似乎都出现了该错误,只有在每个相关脚本终止时才释放内存。
我能想到的唯一其他解决方案是制作一个完全外部的包装器,它将检查脚本是否正在运行,如果没有,则重新启动它并且仍然有未处理的文件。
但也许有更好的解决方案?或者也许我编写了可以改进的蹩脚代码以避免这些内存崩溃?(除此之外,我知道它很蹩脚,但效果很好:))。
python - Tesseract OCR 无法识别任何字符
我正在从事一个需要字符识别作为其中一部分的项目。我正在使用 IAM 的手写数据集,因此所有图像或多或少都是在相同条件下拍摄的。我正在使用数据集提供的单词图片并按照以下步骤操作
- 二值化和阈值化
- 将单词分成构成它的字符
- 调整提取字符的大小
- 让 tesseract 弄清楚英文字母是什么
我想要实现的是将一个人文档的字符存储在按字母分类的文件夹中,然后可能会从它们中形成一个模板。为此,我需要知道它是哪个角色。
这是我得到的结果 -
所有字符都被正确分割(大多数情况下)。这更像是一个 tesseract 问题,而不是一个 python 问题,但我正在使用 python 编写脚本并通过 pytesseract 包装器调用 tesseract。
我正在使用 OpenCV 来操作图像。这些字母矩阵的图像作为输入发送到 tesseract(由 pytesseract 处理)。我向你保证,输入不是问题。我还需要做什么才能让 tesseract 工作吗?
这些字符都无法识别。
python - 安装 tesseract Mac OS 时出错
我尝试了许多方法来安装 Tesseract,但我似乎无法让它工作。我在 Mac 上,这是我不断收到的错误
有谁知道我如何用 tesseract 解决这个问题?
python - pip install tesserocr 失败并出现错误“tesserocr 构建轮子失败”
我已经有了 leptonica 和 tesseract 的最新版本
我还安装了所有依赖项,例如 python-dev
这是我在 virtualenv 中执行 pip install tesserocr 时遇到的错误
我在底部收到此错误
python - pytesseract 没有这样的文件或目录 OSError no 2
当我使用 pytesseract 的image_to_string
函数时,它会抛出OSError: [Errno 2] No such file or directory
. 完整的错误信息在这里。当我使用subprocess.call(["tesseract", "inputfile.png", "outputfile"])
. 其他所有建议都说我需要安装 tesseract,并能够在命令行上使用它。但是,我事先这样做了,并且可以通过运行从命令行使用 tesseract tesseract inputfile.png outputfile
,这工作正常。问题是 python 子进程不支持 tesseract,即使它已安装并可从命令行访问。顺便说一句,我在 macOS 上。
python-tesseract - 尝试安装 tesserocr 时出错
当我尝试安装时,我不断收到相同的错误
萨钦系统错误:
python - Pytesseract 设置字符白名单
有谁知道如何为 Pytesseract 设置字符白名单?我希望它只输出 Az 和 0-9。这可能吗?我有以下内容:
我得到了其他字符,例如 / 代表 1,所以我想限制可能字符的选项。
python - 在 Windows 10 上 pip install tesserocr 给出错误
我正在尝试在 Windows10 主机操作系统上为 python 安装 tesserocr 包,但出现以下错误
执行
如何克服这个问题?
python - Tesseract RuntimeError: 识别图片失败
我是 tesseract 的新手,在尝试使用外部训练的数据集时出现此错误。
我不知道如何解决它。问题出在外部库上,但除此之外,我不知道。任何指导表示赞赏。
我在带有 Tesserocr 包装器的 Ubuntu 16.04 LTS、x86_64、Python 2.7 上。外部库来自:https ://github.com/arturaugusto/display_ocr 。
我刚刚将letsgodigital.traineddata文件粘贴到:
代码:
语言检查
使用默认英文库运行代码有效
正方体版本信息:
python - pytesseract:无法访问带有“Image.open”“Errno 2”错误的图像
我正在尝试pytesseract
第一次使用。我对 python 也不太满意。我在python_test
桌面上创建了一个新文件夹。我在 Mac 上。在这个文件夹中,我有一个test.png
文件和一个 py 脚本:
所以从我的终端,我进入 python_test 文件夹然后我正在运行python read.py
然后我有以下错误:
我做错了什么?