问题标签 [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 无法在 Ubuntu 16.04 上使用 pip3 安装“tesserocr”
我正在尝试使用以下命令在 Ubuntu 16.04 上为 python 3.5 安装“tesserocr”模块
pip3 install tesserocr --user
或者
sudo pip3 install tesserocr
我已经使用以下方法安装了 Tesseract 3.04 和 Leptonica 1.73:
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
出于某种原因,当我尝试安装“tesserocr”时,Cython 会生成编译器错误
我不明白为什么会这样!:/
imagemagick - 如何从转换为pdf的图像中提取签名
我有一堆从图像转换而来的 PDF 文件。我需要从中提取文本和手写签名。我可以使用 Imagemagik 和 Tesseract 提取文本,但无法提取手写签名。请让我知道是否有任何方法可以从这些文件中提取手写签名。
python-2.7 - pytesser 设置模式文件的路径
在大学工作,我遇到了无法更改 tessdata 中的“数字”等配置文件的问题,因为我没有管理员权限。所以我想在家里运行一切,在那里创建模式、配置和训练数据文件。像这样开始我的检测适用于预期的输出:
即通过设置我运行tesseract 的路径。但是如何在 pytesser 调用 tesseract 的行中包含这条路径(最好是绝对路径)?它看起来如下
这是行不通的。仅使用数字作为路径会从我不想要的通用程序和文件存档中提取数字文件。
在此处包含绝对路径以告诉 tesseract 从何处绘制配置文件的方法是什么?或者那不可能?任何提示将不胜感激!
python - Pytesseract:调用 tesseract OCR 时出现 Windows 错误 [错误 2]“系统找不到指定的文件”
我正在尝试通过基于 Python 2.7 的 Anaconda 使 tesseract OCR 工作。在对流程提出各种更改后,这是这里编写的最终代码。
对 image_to_string 的调用会生成 Windows Error[Error 2] :
我已经尝试了所有我能找到的。我在 windows 上,conda 找不到发行版,所以我手动将 pytesser 提取到 Anaconda2\Lib,修改init.py以指向 tesseract 3.02 安装它给出了与此相同的错误。然后我尝试了 pytesseract 我可以通过它找到
系统变量 TESSDATA_PREFIX 和指针变量 image_to_string 指向正确:
我无法弄清楚哪个地址引用出错了。
编辑:同样的错误出现在print command
:
该command
对象在下面的函数中定义。添加到值检查的print
语句在错误之前没有显示在控制台中,并且错误传播到if config:
python - 如何使用 Tesseract API 迭代单词?
我正在尝试与 Tesseract API 并行学习 Python。我的最终目标是学习如何使用 Tesseract API 来读取文档并进行一些基本的错误检查。我找到了一些似乎是不错的起点的示例,但是我无法理解两段代码之间的区别,尽管行为不同,但在我看来它们应该是等价的。这些都是从https://pypi.python.org/pypi/tesserocr稍微修改的。
第一个示例产生以下输出:
这是准确的,并在 14 秒内完成。查看输出的其余部分,它非常好——我可能距离 99+% 的准确率还有一些 SetVariable 命令。
手动查看结果,似乎获得了所有文本。
第二个示例产生此输出。
这不太准确(在一个单词中检测到额外的空格)并且速度较慢(需要 17.5 秒)。
这非常缺乏大量的文字,我不明白为什么它会遗漏一些东西。
我的最终目标依赖于了解文本在文档中的位置,因此我需要像第二个示例一样的边界框。据我所知, iterate_level 没有公开找到的文本的坐标,所以我需要 GetComponentImages ...但输出不等价。
为什么这些代码在速度和准确性方面表现不同?我可以让 GetComponentImages 匹配 GetIterator 吗?
python - 为什么 pytesseract 会抛出 WinError 6?
这是我第一次使用 pytesseract。我正在尝试对小图像执行简单的 OCR。代码归结为:
这会引发 OSError: [WinError 6] The handle is invalid
我在 Windows 7 上使用 Python 3.5。
在此先感谢您的时间!
python - pytesseract 错误 Windows 错误 [错误 2]
您好我正在尝试使用 python 库 pytesseract 从图像中提取文本。请找到代码:
但是出现了以下错误:
我没有找到具体的解决方案。谁能帮我做什么。还有什么要下载或从哪里可以下载等等。
提前致谢 :)