问题标签 [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1007 浏览

csv - 如何以编程方式读取图像中的电子邮件并将其转换为文本?

我有一个包含 1900 多个 GIF 图像链接条目的 CSV 文件。

每个图像都包含一个电子邮件地址。

我想以编程方式读取每个条目并将它们转换为相应的文本,最好是在另一个或相同的 CSV 文件中。我使用 Mac OS 并且更喜欢使用 Python 或 Java 来完成此任务。

关于如何使用 OCR 或通过任何其他方法进行操作的任何想法?示例代码将不胜感激。

我已经尝试过 tesseract 的示例条目,但结果不准确。这是我尝试过的:

email.gif看起来像:

out.txt中生成的输出为:

CSV 文件如下所示(前 2 个条目):

这是我在 SO 中的第一个问题。如果我错过了任何其他相关信息,我们深表歉意。我很乐意提供更多。

0 投票
1 回答
1669 浏览

python - pytesseract.TesseractError: (-5, 'dyld: Library not loaded: Reason: image not found)

在 Pytesseract 中使用 image_to_string() 函数时,出现以下错误:

尝试重新安装 Tesseract(查看 Brew)、PyTesseract、PIL,但没有成功。在我测试的其他机器上没有问题,都是 OSX Yosemite 10.10.3。

难住了。

0 投票
2 回答
594 浏览

cygwin - Tesseract 3.03 编译错误:“选择”未在此范围内声明

cygwin用来编译Tesseract 3.03 源代码

make运行后遇到以下错误configure。我不知道修改 Tesseract 源代码。以前有人见过这个错误吗?或者是否有任何 Tessearct 3.03 的预构建版本?我需要这个版本,因为它包含培训工具text2image,而且他们声称可以使用make training.

在此处输入图像描述

加 1

下面是有问题的代码片段。

在此处输入图像描述

在我看来,该select函数是一个 C++ 库函数。我的 Cygwin 安装中可能缺少某些库。但我不确定是哪一个。

添加 2

以下rubenvb关于此线程的建议:使用 MinGW/MSYS 制作“xz-5.2.1”时出错

我开始使用MSYS2 + MinGW-w64编译Tesseract 3.03。在克服了所有依赖项和先决条件之后。我终于成功configureTesseract 3.03 source。然后在期间遇到以下错误make

在此处输入图像描述

我发现了一个类似的线程:致命错误:strtok_r.h:没有这样的文件或目录(在MinGW中编译tesseract-ocr-3.01时)

看来我需要手动将一些文件添加到 tesseract 源。但我不知道把它放在哪里。

现在我需要睡一会儿。

希望有人可以对这个问题有所了解。我明天继续...

参考

用 vs2013 编译 Tesseract 3.03

http://vorba.ch/2014/tesseract-3.03-vs2013.html

用 Cygwin 编译 Tesseract 3.02

http://vorba.ch/2014/tesseract-cygwin.html

0 投票
1 回答
728 浏览

fonts - '光栅字体'是否有真正的字体文件?

我正在Tesseract为一些屏幕截图做 OCR。截图中的字符在raster fonts. 但Tesseract需要True Type Font文件进行培训。

我可以在文件夹中找到许多真字体文件Windows/Fonts。我想知道是否有一个用于光栅字体的?

0 投票
1 回答
368 浏览

python - 与 mod_wsgi 一起使用时出现 pytesseract 错误

我正在尝试设置 OCR Web 服务,以便可以从多个位置发送图像进行处理。

我从来没有对 cgi 做过任何事情,所以我说是时候尝试 mod_wsgi 了。我花了 2 天时间来安装所有的库,以及 opencv 和 pytesseract。如果我以“正常方式”(启动新的 python 窗口解释器)进行操作,我的 OCR 工作得很好。我在让一些库与 mod_wsgi 一起工作时遇到了很多麻烦,即使它们工作正常。

我被困在 pytessearct 上。如果我运行它:

一切正常文件。

即使我这样做:

这也有效。

如果我使用 mod_wsgi 执行此操作,我的httpd 日志文件中会出现此错误:

这是我的app.wsgi文件:

正如您在源代码中看到的那样,我也尝试使用 subprocess 的 check_output 来自己启动一个新的 pytesseract 进程,但我得到了同样的错误。

我已经从源代码构建了 tesseract 和 mod_wsgi。但同样,我确信它与 mod_wsgi 有关,因为如果我在 python 中正常执行它,它就可以工作。

更新:我对 mod_wsgi 和 opencv 有类似的“奇怪”问题。问题和答案可以在这里找到:Occasional ctypes error importing numpy from mod_wsgi django app

任何建议将不胜感激。

0 投票
1 回答
2079 浏览

python - 访问 python-tesseract 的信心

我正在尝试为 python-tesseract 构建一个 OCR 扩展,专门处理具有内部结构的数据表(例如,包含行和列的小计和总计,允许用户通过强制执行结构来提高准确性)。

我正在尝试访问 tesseract 分配给多个结果的置信度(例如,来自无约束运行的所有结果以及所有来自字符限制为 的运行的结果[0-9\.])。

我已经看到了一些有关访问 api 方法的x_wconf属性的信息,GetHOCRText但无法弄清楚如何从 python api 访问它。你如何调用/访问这个值?谢谢!

我在 OSX 10.10.3 和 Python 2.7 上使用 python-tesseract 0.9.1。

0 投票
1 回答
1393 浏览

ocr - 在 Ubuntu 中成功安装 tesseract_ocr 后,它显示没有名为 tesseract_ocr 的 mudule

我通过Linux终端安装了Tesseract OCR,但是当我尝试在Python中导入它时,出现了错误:

/usr/bin/python2.7 /home/web/Documents/pnt/ocr.py
Traceback(最近一次调用最后一次):
文件“/home/web/Documents/pnt/ocr.py”,第 1 行,在
import tesseract
ImportError:没有名为 tesseract 的模块

0 投票
1 回答
1230 浏览

python - 将远程 PDF 的页面转换为 OCR 的临时图像

我有一个远程 PDF 文件,我需要逐页阅读并不断将每个文件传递给 OCR,该 OCR 将为我提供 OCR 文本。

我想过使用cStringIOortempfile但我不知道如何将它们用于此目的。

如何解决这个问题?

0 投票
1 回答
10062 浏览

python - 在 Windows 上开始使用 Python OCR?

我以前从未使用过python,我不知道从哪里开始。我的目标是获取数字和多色背景的图像数据,并可靠地识别出正确的字符。我查看了为此所需的工具,我发现了 Anaconda python 发行版,其中包括我可能需要的所有可能的包,以及 tesseract-ocr 和 pytesser。

不幸的是,我不知道如何开始。我正在使用 PyCharm 社区 IDE,只是尝试遵循本指南: http: //www.manejandodatos.es/2014/11/ocr-python-easy/ 来掌握 OCR。

这是我正在使用的代码:

我相信我正在使用的 Anaconda 发行版有 PIL,但我收到了这个错误:

谁能指出我正确的方向?

0 投票
2 回答
1592 浏览

image-processing - 在 MTG 卡上使用 tesseract

到目前为止,我的第一个障碍是在 MTG 卡的图像上运行 tesseract vanilla 无法识别卡标题(老实说,这就是我所需要的,因为我可以使用该文本从数据库中提取其余的卡信息)我认为问题可能需要训练 tesseract 以识别 mtg 卡中使用的字体,但我想知道 tesseract 是否可能是一个问题,因为 tesseract 没有查看或没有检测到图像的一部分(特别是标题)中的文本。

编辑:包括一张 MTG 卡的图像以供参考。http://gatherer.wizards.com/Handlers/Image.ashx?multiverseid=175263&type=card