问题标签 [pytesser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3701 浏览

python-3.x - NameError:名称“pytesseract”未定义

Pytesseract 无法识别。我已经尝试了在线记录的所有修复,包括将 Tesseract-OCR 添加到我的路径变量中,将pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'命令路径合并到我的脚本中,卸载并重新安装 pytesseract 和 tesseract。

0 投票
1 回答
285 浏览

python-3.x - 如何使 pytesseract 正确读取 slahed 0

我正在尝试读取图像上的电话号码。由于图像非常清晰,我没有应用任何预处理但 pytesseract 有时无法正确识别 0。我试图训练类似的字体,但它给出了相同的结果。一个例子是 这张图片

我的代码非常简单:

我得到这个结果:'9543 684 9993'

我尝试对我的图像进行微调,但我做不到,因为所有教程都是基于 ubuntu 的,我不熟悉它。你有什么建议吗?

0 投票
1 回答
2299 浏览

python - Pytesseract 提高 OCR 准确性

我想从python. 为了做到这一点,我选择了pytesseract. 当我尝试从图像中提取文本时,结果并不令人满意。我也经历了这个并实现了所有列出的技术。然而,它的表现似乎并不好。

图片:

在此处输入图像描述

代码:

输出:

即使是 1 个不需要的空间也会让我付出很多代价。我希望结果是 100% 准确的。任何帮助,将不胜感激。谢谢!

0 投票
1 回答
400 浏览

python - 改进 tesseract 的图像预处理(视频游戏截图)

我正在尝试阅读视频游戏中的价格文本,并且在预处理图像时遇到了困难。

我的其余代码是“完整的”,因为在提取文本后,我正在对其进行格式化并输出到 CSV 以供以后使用。

这是我迄今为止为以下图像提出的建议,并希望输入其他阈值或预处理工具,以使 OCR 更准确。

原始图像截图

伽玛之后,左边的去噪 - 右边的二进制阈值

检测到的文字

如您所见,它非常接近但并不完美。我想让它更准确,因为我最终会处理很多帧。

这是我当前的代码:

感谢任何帮助,因为我对此很陌生!

0 投票
0 回答
41 浏览

raspberry-pi3 - Tesseract 未安装在您的路径中 - Raspbian for Robots (dexter)

我以前在Raspbian 中为dexter 行业的机器人pytesseract做一些文本识别。

如屏幕截图tesseract所示,我已经使用.sudo apt-get tesseract-ocr

tesseract-ocr版本_

pytesseractpython3承认。并不断获得

0 投票
0 回答
98 浏览

python - pytesseract 尽可能精细地擦除表格边框

我正在使用 pytesseract 和 opencv 来擦除图像的边界。使用 tesseract 从图像中提取文本

这是我根据这篇文章写的源代码。 以编程方式删除图像中的所有线条和边框(保留文本)的方法是什么?

在此处输入图像描述

去除了边框的图片 在此处输入图像描述

图像质量很差,所以表格中的垂直线被破坏了。我需要做哪些额外的工作才能擦除这条断线?即使您通过导入图像来增加 dpi 或增加照片的大小,垂直虚线也不会被删除。

0 投票
1 回答
157 浏览

python - Python PyTesseract 模块从图像中返回乱码

我猜这是因为我拥有的图像在图片顶部包含文本。pytesseract.image_to_string() 通常可以正确扫描文本,但它也会返回大量乱码:我猜这是因为文本下方的图片使 Pytesseract 认为它们也是文本或其他东西。

当 Pytesseract 返回一个字符串时,我怎样才能使它不包含任何文本,除非它确定文本是正确的。就像,如果 Pytesseract 有办法也返回某种数字,告诉我如何准确地扫描文本?

我知道我听起来有点笨但有人请帮忙

0 投票
0 回答
108 浏览

ocr - 如何使用 pytesseract 进行未知方向的文本识别任务?

我有一个看起来像这样的图像: nid卡图片

我想使用 pytesseract 检测和识别该图像中的文本,但最新的 pytesseract 0.3.8 为我提供了该图像的空输出。我猜这是因为图像中的钓鱼国民身份证(给我们非水平文本),是有什么方法可以使用 pytesseract 从该图像中旋转和裁剪国民身份证?或者 pytesseract 是否可以自动识别图像中弯曲或未知方向的文本?我尝试了在这篇文章中讨论的代码:如何增强 OCR 的 Tesseract 自动文本旋转功能?

这是我尝试过的代码:

它实际上旋转了整个图像并且不能旋转图像内部的 NID 卡,所以错误的输出看起来像这样:

加工后方向错误

我想识别 NID 卡中存在的所有英文文本,如果不可能,那么至少我想使用 pytesseract 仔细识别任何未知方向的图像的 NID 号,我知道 paddleocr 和 easyocr 可以处理这样的图像但是我想知道是否可以使 pytesseract 文本识别适用于这样的图像?如果可以,我该怎么做?我还能认出这张图片中的所有单词吗?例如:bangla,english,english numbers using pytesseract???谢谢

0 投票
0 回答
27 浏览

python - 使用 pytesseract 将图像转换为数字

我正在尝试将图像转换为数字文本,但我遇到了一些问题,输出出现了一些编码字符 (♀)。

输入图像: 在此处输入图像描述

这是我的代码:

我得到这个输出:

我想要的输出:

任何帮助解决这个问题,非常感谢

0 投票
1 回答
48 浏览

python - 如何为 Pytesseract 处理这个图像?

我想自动解决像这样的验证码。我一直在尝试处理图像以使 Pytesseract 能够读取它,但没有成功。

你能帮助我吗?

图片

我试试这个: