“python-tesseract”的相关标签问题

0 投票

1 回答

1007 浏览

csv - 如何以编程方式读取图像中的电子邮件并将其转换为文本？

我有一个包含 1900 多个 GIF 图像链接条目的 CSV 文件。

每个图像都包含一个电子邮件地址。

我想以编程方式读取每个条目并将它们转换为相应的文本，最好是在另一个或相同的 CSV 文件中。我使用 Mac OS 并且更喜欢使用 Python 或 Java 来完成此任务。

关于如何使用 OCR 或通过任何其他方法进行操作的任何想法？示例代码将不胜感激。

我已经尝试过 tesseract 的示例条目，但结果不准确。这是我尝试过的：

email.gif看起来像：

out.txt中生成的输出为：

CSV 文件如下所示（前 2 个条目）：

http://d1hnc0v5nyu4l2.cloudfront.net/kh/communications/original/1417577580/C2AFA720-7A9C-11E4-9201-22000AA51306?1417577580

http://d306v9rz034cgu.cloudfront.net/kh/communications/original/1367212416/55BE4627-B463-4523-8332-4046835D3D79?1367212416

这是我在 SO 中的第一个问题。如果我错过了任何其他相关信息，我们深表歉意。我很乐意提供更多。

2015-04-13T20:34:40.613

0 投票

1 回答

1669 浏览

python - pytesseract.TesseractError: (-5, 'dyld: Library not loaded: Reason: image not found)

在 Pytesseract 中使用 image_to_string() 函数时，出现以下错误：

尝试重新安装 Tesseract（查看 Brew）、PyTesseract、PIL，但没有成功。在我测试的其他机器上没有问题，都是 OSX Yosemite 10.10.3。

难住了。

python python-2.7 tesseract python-tesseract

2015-04-30T14:56:57.573

0 投票

2 回答

594 浏览

cygwin - Tesseract 3.03 编译错误：“选择”未在此范围内声明

我cygwin用来编译Tesseract 3.03 源代码。

make运行后遇到以下错误configure。我不知道修改 Tesseract 源代码。以前有人见过这个错误吗？或者是否有任何 Tessearct 3.03 的预构建版本？我需要这个版本，因为它包含培训工具text2image，而且他们声称可以使用make training.

在此处输入图像描述

加 1

下面是有问题的代码片段。

在此处输入图像描述

在我看来，该select函数是一个 C++ 库函数。我的 Cygwin 安装中可能缺少某些库。但我不确定是哪一个。

添加 2

以下rubenvb关于此线程的建议：使用 MinGW/MSYS 制作“xz-5.2.1”时出错

我开始使用MSYS2 + MinGW-w64编译Tesseract 3.03。在克服了所有依赖项和先决条件之后。我终于成功configure了Tesseract 3.03 source。然后在期间遇到以下错误make：

在此处输入图像描述

我发现了一个类似的线程：致命错误：strtok_r.h：没有这样的文件或目录（在MinGW中编译tesseract-ocr-3.01时）

看来我需要手动将一些文件添加到 tesseract 源。但我不知道把它放在哪里。

现在我需要睡一会儿。

希望有人可以对这个问题有所了解。我明天继续...

参考

用 vs2013 编译 Tesseract 3.03

http://vorba.ch/2014/tesseract-3.03-vs2013.html

用 Cygwin 编译 Tesseract 3.02

http://vorba.ch/2014/tesseract-cygwin.html

cygwin tesseract python-tesseract

2015-05-05T14:27:15.610

0 投票

1 回答

728 浏览

fonts - '光栅字体'是否有真正的字体文件？

我正在Tesseract为一些屏幕截图做 OCR。截图中的字符在raster fonts. 但Tesseract需要True Type Font文件进行培训。

我可以在文件夹中找到许多真字体文件Windows/Fonts。我想知道是否有一个用于光栅字体的？

fonts tesseract raster truetype python-tesseract

2015-05-11T08:47:54.917

0 投票

1 回答

368 浏览

python - 与 mod_wsgi 一起使用时出现 pytesseract 错误

我正在尝试设置 OCR Web 服务，以便可以从多个位置发送图像进行处理。

我从来没有对 cgi 做过任何事情，所以我说是时候尝试 mod_wsgi 了。我花了 2 天时间来安装所有的库，以及 opencv 和 pytesseract。如果我以“正常方式”（启动新的 python 窗口解释器）进行操作，我的 OCR 工作得很好。我在让一些库与 mod_wsgi 一起工作时遇到了很多麻烦，即使它们工作正常。

我被困在 pytessearct 上。如果我运行它：

一切正常文件。

即使我这样做：

这也有效。

如果我使用 mod_wsgi 执行此操作，我的httpd 日志文件中会出现此错误：

这是我的app.wsgi文件：

正如您在源代码中看到的那样，我也尝试使用 subprocess 的 check_output 来自己启动一个新的 pytesseract 进程，但我得到了同样的错误。

我已经从源代码构建了 tesseract 和 mod_wsgi。但同样，我确信它与 mod_wsgi 有关，因为如果我在 python 中正常执行它，它就可以工作。

更新：我对 mod_wsgi 和 opencv 有类似的“奇怪”问题。问题和答案可以在这里找到：Occasional ctypes error importing numpy from mod_wsgi django app

任何建议将不胜感激。

python tesseract python-tesseract

2015-05-18T17:35:17.443

0 投票

1 回答

2079 浏览

python - 访问 python-tesseract 的信心

我正在尝试为 python-tesseract 构建一个 OCR 扩展，专门处理具有内部结构的数据表（例如，包含行和列的小计和总计，允许用户通过强制执行结构来提高准确性）。

我正在尝试访问 tesseract 分配给多个结果的置信度（例如，来自无约束运行的所有结果以及所有来自字符限制为的运行的结果[0-9\.]）。

我已经看到了一些有关访问 api 方法的x_wconf属性的信息，GetHOCRText但无法弄清楚如何从 python api 访问它。你如何调用/访问这个值？谢谢！

我在 OSX 10.10.3 和 Python 2.7 上使用 python-tesseract 0.9.1。

python ocr python-tesseract

2015-06-07T00:23:16.353

0 投票

1 回答

1393 浏览

ocr - 在 Ubuntu 中成功安装 tesseract_ocr 后，它显示没有名为 tesseract_ocr 的 mudule

我通过Linux终端安装了Tesseract OCR，但是当我尝试在Python中导入它时，出现了错误：

/usr/bin/python2.7 /home/web/Documents/pnt/ocr.py
Traceback（最近一次调用最后一次）：
文件“/home/web/Documents/pnt/ocr.py”，第 1 行，在
import tesseract
ImportError：没有名为 tesseract 的模块

ocr pycharm tesseract python-tesseract

2015-06-24T09:59:01.820

0 投票

1 回答

1230 浏览

python - 将远程 PDF 的页面转换为 OCR 的临时图像

我有一个远程 PDF 文件，我需要逐页阅读并不断将每个文件传递给 OCR，该 OCR 将为我提供 OCR 文本。

我想过使用cStringIOortempfile但我不知道如何将它们用于此目的。

如何解决这个问题？

python pdf wand python-tesseract

2015-06-28T00:39:11.990

0 投票

1 回答

10062 浏览

python - 在 Windows 上开始使用 Python OCR？

我以前从未使用过python，我不知道从哪里开始。我的目标是获取数字和多色背景的图像数据，并可靠地识别出正确的字符。我查看了为此所需的工具，我发现了 Anaconda python 发行版，其中包括我可能需要的所有可能的包，以及 tesseract-ocr 和 pytesser。

不幸的是，我不知道如何开始。我正在使用 PyCharm 社区 IDE，只是尝试遵循本指南： http: //www.manejandodatos.es/2014/11/ocr-python-easy/ 来掌握 OCR。

这是我正在使用的代码：

我相信我正在使用的 Anaconda 发行版有 PIL，但我收到了这个错误：

谁能指出我正确的方向？

python python-imaging-library anaconda python-tesseract pytesser

2015-06-28T19:37:55.727

0 投票

2 回答

1592 浏览

image-processing - 在 MTG 卡上使用 tesseract

到目前为止，我的第一个障碍是在 MTG 卡的图像上运行 tesseract vanilla 无法识别卡标题（老实说，这就是我所需要的，因为我可以使用该文本从数据库中提取其余的卡信息）我认为问题可能需要训练 tesseract 以识别 mtg 卡中使用的字体，但我想知道 tesseract 是否可能是一个问题，因为 tesseract 没有查看或没有检测到图像的一部分（特别是标题）中的文本。

编辑：包括一张 MTG 卡的图像以供参考。http://gatherer.wizards.com/Handlers/Image.ashx?multiverseid=175263&type=card

image-processing ocr python-tesseract

2015-07-01T18:30:54.273

问题标签 [python-tesseract]

加 1

添加 2

参考

Reference