问题标签 [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在python中为本地语言实现OCR
我需要在 python 中为我家乡的一种区域语言实现 OCR。
我四处搜索并阅读了有关 Tesseract OCR 引擎的信息。但它支持有限的语言。
如何修改它以支持其他语言?
tesseract - 如何在 python-tesseract 中设置 tessedit_write_images?
我正在尝试设置tessedit_write_images
但似乎无法做到,我在任何地方都看不到 tessinput.tif
我正在做:
但我尝试过使用“True”、“1”和其他一些变体,似乎根本不起作用。
有什么帮助吗?
python - tesseract 从表中读取值
我的问题是关于使用 OCR 从图像中的表中提取数据的这篇文章。
我正在使用tesseract
将表格图像转换为文本。除了不保留表格的格式外,这很好用。一种解决方案是用一些字母替换列,这些字母tesseract
会识别并欺骗它把表格当作一些文本。
我使用以下代码绘制“QQ”的列
问题是 tesseract 甚至可以识别 QQ。我也是在空白页写QQ栏,tesseract不认识。
有没有办法使用 tesseract 将此表以 png 格式转换为文本?有什么东西让我逃脱了吗?
tesseract - 正方体安静模式
在 Ubuntu 下,我在 3.02 版本中使用 tesseract-ocr。特别是python的包装器pytesseract,但这个问题也是关于命令行工具的。
写的是有一个选项/配置文件“安静”抑制了 tesseract 的信息行。
但是,当我使用此选项调用 tesseract 命令行时,它会说
“read_params_file:无法安静地打开”
没错,在相应的配置文件夹中没有“安静”的配置文件。
我在哪里可以获得它或如何创建它?
我要禁止的信息行是:“Tesseract Open Source OCR Engine v3.02 with Leptonica”。
python - 在 Linux 系统上安装 Python-Tesseract
我在我的 linux 系统上安装 python-tesseract 时遇到问题。我一直在使用本教程: http ://delimitry.blogspot.be/2014/10/installing-tesseract-for-python-on.html
我得到的错误是:
在按顺序执行其余说明后运行python setup.py clean
时。/python-tesseract
在这个系统上运行 linux 3.2.0-4-amd64。
Whereis tesseract-ocr
返回:
Whereis leptonica
返回:
Whereis tesseract
返回:
我还尝试运行其他一些教程/指南来安装 python-tesseract,它们返回了其他错误,例如缺少 libleptonica 然后缺少 libc6,但我没有对这些进行过多调查。只是想看看是否有任何其他指南立即起作用。此外,当我在终端中运行 tesseract 时,它可以工作,但 import tesseract 没有。
我究竟做错了什么?我该如何解决这个问题并安装 python-tesseract?
python - 安装了pytesser,但无法导入
我正在尝试安装 PyTesser 以在我的脚本中用作 OCR。.zip 源代码中的自述文件说:
PyTesser 在此版本中没有安装功能。将 pytesser.zip 解压到包含其他脚本的目录中。
然后我提取pytesser_v0.0.1.zip
到C:\Python27\Lib\site-packages\pytesser
.
但是,当我尝试在 VS2013 中导入它(使用from pytesser import *
)时,出现No module named pytesser
错误。
我究竟做错了什么?顺便说一句,我正在使用 Python 2.7。我知道 Python 3+ 不支持 PIL。
谢谢!
更新:我发现我可以通过编辑 PYTHONPATH 变量来添加模块,但这似乎既不可靠又不可靠。
更新 2:是的,我得到了 Tumbleweed 徽章!
更新 3:这里是 C:\Python27\Lib\site-packages\pytesser 中的文件:
python-2.7 - 如何在pytesseract中获取角色位置
我正在尝试使用 pytesseract library 获取图像文件的字符位置。
是否有任何库可以获取角色的每个位置
python - 当使用 Gimp 手动预处理图像时,使用 Tesseract-OCR 的图像到文本识别比我的 Python 代码更好
我正在尝试用 Python 编写代码,以使用 Tesseract-OCR 进行手动图像预处理和识别。
手动处理:
为了手动识别单个图像的文本,我使用 Gimp 预处理图像并创建 TIF 图像。然后我将它提供给正确识别它的 Tesseract-OCR。
要使用 Gimp 预处理图像,我会这样做 -
- 将模式更改为 RGB / 灰度
菜单 -- 图像 -- 模式 -- RGB - 阈值
菜单 -- 工具 -- 颜色工具 -- 阈值 -- 自动 - 将模式更改为索引
菜单 -- 图像 -- 模式 -- 索引 - Resize / Scale to Width > 300px
Menu -- Image -- Scale image -- Width=300 - 另存为 Tif
然后我喂它 tesseract -
我总是得到一个准确的结果。
Python 代码:
我尝试使用 OpenCV 和 Tesseract 复制上述过程 -
但我没有得到同样的准确性。我错过了什么?
更新 1:
更新 2:
此代码可在https://github.com/hussaintamboli/python-image-to-text获得
python - 如何使用 python tesseract 设置仅初始化参数?
我正在尝试使用 python-tesseract 包装器设置一些 Tesseract 参数,但对于Init Only参数我无法这样做。
我一直在阅读 Tesseract 文档,看来我必须使用 Init() 来设置这些。这就是 setVariable 文档所说的:
仅适用于非初始化变量 *(初始化变量应传递给 Init())。
所以 Init() 函数有这个签名:
我的代码如下:
问题是我收到以下错误:
这个问题与那些 GenericVectors 有关。如果我改用这条线:
有用。所以问题是那些 GenericVectors。如何将正确的参数传递给 Init()?
有没有其他方法可以在代码中设置仅初始化参数?我可以使用这些参数从代码中加载配置文件吗?
感谢您的宝贵时间,非常感谢您的帮助。
python-3.x - Pytesseract:UnicodeDecodeError:'charmap'编解码器无法解码字节
我正在使用 Pytesseract 在屏幕截图上运行大量 OCR。这在大多数情况下运行良好,但少数情况下会导致此错误:
我正在使用 Python 3.4。任何关于如何防止此错误发生的建议(除了尝试/例外)都会非常有帮助。