问题标签 [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
633 浏览

python - 在python中为本地语言实现OCR

我需要在 python 中为我家乡的一种区域语言实现 OCR。

我四处搜索并阅读了有关 Tesseract OCR 引擎的信息。但它支持有限的语言。

如何修改它以支持其他语言?

0 投票
1 回答
2689 浏览

tesseract - 如何在 python-tesseract 中设置 tessedit_write_images?

我正在尝试设置tessedit_write_images但似乎无法做到,我在任何地方都看不到 tessinput.tif

我正在做:

但我尝试过使用“True”、“1”和其他一些变体,似乎根本不起作用。

有什么帮助吗?

0 投票
1 回答
6081 浏览

python - tesseract 从表中读取值

我的问题是关于使用 OCR 从图像中的表中提取数据的这篇文章。

我正在使用tesseract将表格图像转换为文本。除了不保留表格的格式外,这很好用。一种解决方案是用一些字母替换列,这些字母tesseract会识别并欺骗它把表格当作一些文本。

这是一个没有列的表的示例在此处输入图像描述

我使用以下代码绘制“QQ”的列

这给了我以下图片 在此处输入图像描述

问题是 tesseract 甚至可以识别 QQ。我也是在空白页写QQ栏,tesseract不认识。

有没有办法使用 tesseract 将此表以 png 格式转换为文本?有什么东西让我逃脱了吗?

0 投票
2 回答
4399 浏览

tesseract - 正方体安静模式

在 Ubuntu 下,我在 3.02 版本中使用 tesseract-ocr。特别是python的包装器pytesseract,但这个问题也是关于命令行工具的。

https://code.google.com/p/tesseract-ocr/wiki/FAQ#How_can_I_make_the_error_messages_go_to_tesseract.log_instead_of下的常见问题解答中

写的是有一个选项/配置文件“安静”抑制了 tesseract 的信息行。

但是,当我使用此选项调用 tesseract 命令行时,它会说

“read_params_file:无法安静地打开”

没错,在相应的配置文件夹中没有“安静”的配置文件。

我在哪里可以获得它或如何创建它?

我要禁止的信息行是:“Tesseract Open Source OCR Engine v3.02 with Leptonica”。

0 投票
1 回答
3422 浏览

python - 在 Linux 系统上安装 Python-Tesseract

我在我的 linux 系统上安装 python-tesseract 时遇到问题。我一直在使用本教程: http ://delimitry.blogspot.be/2014/10/installing-tesseract-for-python-on.html

我得到的错误是:

在按顺序执行其余说明后运行python setup.py clean时。/python-tesseract

在这个系统上运行 linux 3.2.0-4-amd64。

Whereis tesseract-ocr返回:

Whereis leptonica返回:

Whereis tesseract返回:

我还尝试运行其他一些教程/指南来安装 python-tesseract,它们返回了其他错误,例如缺少 libleptonica 然后缺少 libc6,但我没有对这些进行过多调查。只是想看看是否有任何其他指南立即起作用。此外,当我在终端中运行 tesseract 时,它可以工作,但 import tesseract 没有。

我究竟做错了什么?我该如何解决这个问题并安装 python-tesseract?

0 投票
1 回答
2572 浏览

python - 安装了pytesser,但无法导入

我正在尝试安装 PyTesser 以在我的脚本中用作 OCR。.zip 源代码中的自述文件说:

PyTesser 在此版本中没有安装功能。将 pytesser.zip 解压到包含其他脚本的目录中。

然后我提取pytesser_v0.0.1.zipC:\Python27\Lib\site-packages\pytesser.

但是,当我尝试在 VS2013 中导入它(使用from pytesser import *)时,出现No module named pytesser错误。

我究竟做错了什么?顺便说一句,我正在使用 Python 2.7。我知道 Python 3+ 不支持 PIL。

谢谢!

更新:我发现我可以通过编辑 PYTHONPATH 变量来添加模块,但这似乎既不可靠又不可靠。

更新 2:是的,我得到了 Tumbleweed 徽章!

更新 3:这里是 C:\Python27\Lib\site-packages\pytesser 中的文件:

0 投票
4 回答
11309 浏览

python-2.7 - 如何在pytesseract中获取角色位置

我正在尝试使用 pytesseract library 获取图像文件的字符位置。

是否有任何库可以获取角色的每个位置

0 投票
2 回答
9463 浏览

python - 当使用 Gimp 手动预处理图像时,使用 Tesseract-OCR 的图像到文本识别比我的 Python 代码更好

我正在尝试用 Python 编写代码,以使用 Tesseract-OCR 进行手动图像预处理和识别。

手动处理:
为了手动识别单个图像的文本,我使用 Gimp 预处理图像并创建 TIF 图像。然后我将它提供给正确识别它的 Tesseract-OCR。

要使用 Gimp 预处理图像,我会这样做 -

  1. 将模式更改为 RGB / 灰度
    菜单 -- 图像 -- 模式 -- RGB
  2. 阈值
    菜单 -- 工具 -- 颜色工具 -- 阈值 -- 自动
  3. 将模式更改为索引
    菜单 -- 图像 -- 模式 -- 索引
  4. Resize / Scale to Width > 300px
    Menu -- Image -- Scale image -- Width=300
  5. 另存为 Tif

然后我喂它 tesseract -

我总是得到一个准确的结果。

Python 代码:
我尝试使用 OpenCV 和 Tesseract 复制上述过程 -

但我没有得到同样的准确性。我错过了什么?

更新 1:

  1. 原始图像
    在此处输入图像描述
  2. 使用 Gimp 创建的 Tif 图像
    在此处输入图像描述
  3. 我的 python 代码创建的 Tif 图像
    在此处输入图像描述

更新 2:

此代码可在https://github.com/hussaintamboli/python-image-to-text获得

0 投票
1 回答
1243 浏览

python - 如何使用 python tesseract 设置仅初始化参数?

我正在尝试使用 python-tesseract 包装器设置一些 Tesseract 参数,但对于Init Only参数我无法这样做。

我一直在阅读 Tesseract 文档,看来我必须使用 Init() 来设置这些。这就是 setVariable 文档所说的:

仅适用于非初始化变量 *(初始化变量应传递给 Init())。

所以 Init() 函数有这个签名:

我的代码如下:

问题是我收到以下错误:

这个问题与那些 GenericVectors 有关。如果我改用这条线:

有用。所以问题是那些 GenericVectors。如何将正确的参数传递给 Init()?

有没有其他方法可以在代码中设置仅初始化参数?我可以使用这些参数从代码中加载配置文件吗?

感谢您的宝贵时间,非常感谢您的帮助。

0 投票
2 回答
4588 浏览

python-3.x - Pytesseract:UnicodeDecodeError:'charmap'编解码器无法解码字节

我正在使用 Pytesseract 在屏幕截图上运行大量 OCR。这在大多数情况下运行良好,但少数情况下会导致此错误:

我正在使用 Python 3.4。任何关于如何防止此错误发生的建议(除了尝试/例外)都会非常有帮助。