问题标签 [python-tesseract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1353 问题

0 投票

1 回答

1481 浏览

python-3.x - 无法在 Ubuntu 16.04 上使用 pip3 安装“tesserocr”

我正在尝试使用以下命令在 Ubuntu 16.04 上为 python 3.5 安装“tesserocr”模块

pip3 install tesserocr --user

或者

sudo pip3 install tesserocr

我已经使用以下方法安装了 Tesseract 3.04 和 Leptonica 1.73：

sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev

出于某种原因，当我尝试安装“tesserocr”时，Cython 会生成编译器错误

我不明白为什么会这样！：/

2016-10-26T00:07:28.507

0 投票

2 回答

6930 浏览

python - Python tesseract 提高了 OCR 的准确性

我有很简单的图片，但 tesseract 没有成功地给我正确的答案。

代码：

示例图片给出了结果

我也尝试将我自己的单词添加到字典中，如果它使某些东西变得更好，但仍然没有。

我的单词列表看起来像这样

我应该如何解决这个问题，也许我必须在预测之前转换图像？文本颜色可以在几种颜色之间变化，但背景总是黑色。

python machine-learning ocr tesseract python-tesseract

2016-11-19T13:26:33.937

0 投票

0 回答

591 浏览

imagemagick - 如何从转换为pdf的图像中提取签名

我有一堆从图像转换而来的 PDF 文件。我需要从中提取文本和手写签名。我可以使用 Imagemagik 和 Tesseract 提取文本，但无法提取手写签名。请让我知道是否有任何方法可以从这些文件中提取手写签名。

imagemagick tesseract imagemagick-convert pdftotext python-tesseract

2016-12-06T21:50:42.370

0 投票

1 回答

218 浏览

python-2.7 - pytesser 设置模式文件的路径

在大学工作，我遇到了无法更改 tessdata 中的“数字”等配置文件的问题，因为我没有管理员权限。所以我想在家里运行一切，在那里创建模式、配置和训练数据文件。像这样开始我的检测适用于预期的输出：

即通过设置我运行tesseract 的路径。但是如何在 pytesser 调用 tesseract 的行中包含这条路径（最好是绝对路径）？它看起来如下

这是行不通的。仅使用数字作为路径会从我不想要的通用程序和文件存档中提取数字文件。

在此处包含绝对路径以告诉 tesseract 从何处绘制配置文件的方法是什么？或者那不可能？任何提示将不胜感激！

python-2.7 tesseract python-tesseract pytesser

2016-12-13T15:36:26.147

0 投票

1 回答

728 浏览

python - Pytesseract：调用 tesseract OCR 时出现 Windows 错误 [错误 2]“系统找不到指定的文件”

我正在尝试通过基于 Python 2.7 的 Anaconda 使 tesseract OCR 工作。在对流程提出各种更改后，这是这里编写的最终代码。

对 image_to_string 的调用会生成 Windows Error[Error 2] ：

我已经尝试了所有我能找到的。我在 windows 上，conda 找不到发行版，所以我手动将 pytesser 提取到 Anaconda2\Lib，修改init.py以指向 tesseract 3.02 安装它给出了与此相同的错误。然后我尝试了 pytesseract 我可以通过它找到

系统变量 TESSDATA_PREFIX 和指针变量 image_to_string 指向正确：

我无法弄清楚哪个地址引用出错了。

编辑：同样的错误出现在print command：

该command对象在下面的函数中定义。添加到值检查的print语句在错误之前没有显示在控制台中，并且错误传播到if config:

python tesseract python-tesseract

2016-12-13T16:23:09.060

0 投票

1 回答

5043 浏览

python - 如何使用 Tesseract API 迭代单词？

我正在尝试与 Tesseract API 并行学习 Python。我的最终目标是学习如何使用 Tesseract API 来读取文档并进行一些基本的错误检查。我找到了一些似乎是不错的起点的示例，但是我无法理解两段代码之间的区别，尽管行为不同，但在我看来它们应该是等价的。这些都是从https://pypi.python.org/pypi/tesserocr稍微修改的。

第一个示例产生以下输出：

这是准确的，并在 14 秒内完成。查看输出的其余部分，它非常好——我可能距离 99+% 的准确率还有一些 SetVariable 命令。

手动查看结果，似乎获得了所有文本。

第二个示例产生此输出。

这不太准确（在一个单词中检测到额外的空格）并且速度较慢（需要 17.5 秒）。

这非常缺乏大量的文字，我不明白为什么它会遗漏一些东西。

我的最终目标依赖于了解文本在文档中的位置，因此我需要像第二个示例一样的边界框。据我所知， iterate_level 没有公开找到的文本的坐标，所以我需要 GetComponentImages ...但输出不等价。

为什么这些代码在速度和准确性方面表现不同？我可以让 GetComponentImages 匹配 GetIterator 吗？

python python-tesseract

2016-12-29T17:45:49.773

0 投票

2 回答