问题标签 [pytesser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

102 问题

0 投票

1 回答

3701 浏览

python-3.x - NameError：名称“pytesseract”未定义

Pytesseract 无法识别。我已经尝试了在线记录的所有修复，包括将 Tesseract-OCR 添加到我的路径变量中，将pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'命令路径合并到我的脚本中，卸载并重新安装 pytesseract 和 tesseract。

2020-03-06T02:16:36.593

0 投票

1 回答

285 浏览

python-3.x - 如何使 pytesseract 正确读取 slahed 0

我正在尝试读取图像上的电话号码。由于图像非常清晰，我没有应用任何预处理但 pytesseract 有时无法正确识别 0。我试图训练类似的字体，但它给出了相同的结果。一个例子是这张图片

我的代码非常简单：

我得到这个结果：'9543 684 9993'

我尝试对我的图像进行微调，但我做不到，因为所有教程都是基于 ubuntu 的，我不熟悉它。你有什么建议吗？

python-3.x ocr tesseract python-tesseract pytesser

2020-07-22T12:11:54.747

0 投票

1 回答

2299 浏览

python - Pytesseract 提高 OCR 准确性

我想从python. 为了做到这一点，我选择了pytesseract. 当我尝试从图像中提取文本时，结果并不令人满意。我也经历了这个并实现了所有列出的技术。然而，它的表现似乎并不好。

图片：

代码：

输出：

即使是 1 个不需要的空间也会让我付出很多代价。我希望结果是 100% 准确的。任何帮助，将不胜感激。谢谢！

python python-3.x ocr tesseract pytesser

2020-09-28T09:14:52.040

0 投票

1 回答

400 浏览

python - 改进 tesseract 的图像预处理（视频游戏截图）

我正在尝试阅读视频游戏中的价格文本，并且在预处理图像时遇到了困难。

我的其余代码是“完整的”，因为在提取文本后，我正在对其进行格式化并输出到 CSV 以供以后使用。

这是我迄今为止为以下图像提出的建议，并希望输入其他阈值或预处理工具，以使 OCR 更准确。

原始图像截图

伽玛之后，左边的去噪 - 右边的二进制阈值

检测到的文字

如您所见，它非常接近但并不完美。我想让它更准确，因为我最终会处理很多帧。

这是我当前的代码：

感谢任何帮助，因为我对此很陌生！

python tesseract cv2 python-tesseract pytesser

2021-01-08T19:21:02.490

0 投票

0 回答

41 浏览

raspberry-pi3 - Tesseract 未安装在您的路径中 - Raspbian for Robots (dexter)

我以前在Raspbian 中为dexter 行业的机器人pytesseract做一些文本识别。

如屏幕截图tesseract所示，我已经使用.sudo apt-get tesseract-ocr

tesseract-ocr版本_

但pytesseract不python3承认。并不断获得

raspberry-pi3 tesseract raspbian python-tesseract pytesser

2021-03-21T11:58:19.850

0 投票

0 回答

98 浏览

python - pytesseract 尽可能精细地擦除表格边框

我正在使用 pytesseract 和 opencv 来擦除图像的边界。使用 tesseract 从图像中提取文本

这是我根据这篇文章写的源代码。以编程方式删除图像中的所有线条和边框（保留文本）的方法是什么？

去除了边框的图片

图像质量很差，所以表格中的垂直线被破坏了。我需要做哪些额外的工作才能擦除这条断线？即使您通过导入图像来增加 dpi 或增加照片的大小，垂直虚线也不会被删除。

python opencv tesseract python-tesseract pytesser

2021-06-10T07:24:08.023

0 投票

1 回答

157 浏览

python - Python PyTesseract 模块从图像中返回乱码

我猜这是因为我拥有的图像在图片顶部包含文本。pytesseract.image_to_string() 通常可以正确扫描文本，但它也会返回大量乱码：我猜这是因为文本下方的图片使 Pytesseract 认为它们也是文本或其他东西。

当 Pytesseract 返回一个字符串时，我怎样才能使它不包含任何文本，除非它确定文本是正确的。就像，如果 Pytesseract 有办法也返回某种数字，告诉我如何准确地扫描文本？

我知道我听起来有点笨但有人请帮忙

python python-tesseract pytesser

2021-08-20T20:33:01.913

0 投票

0 回答

108 浏览

ocr - 如何使用 pytesseract 进行未知方向的文本识别任务？

我有一个看起来像这样的图像：

我想使用 pytesseract 检测和识别该图像中的文本，但最新的 pytesseract 0.3.8 为我提供了该图像的空输出。我猜这是因为图像中的钓鱼国民身份证（给我们非水平文本），是有什么方法可以使用 pytesseract 从该图像中旋转和裁剪国民身份证？或者 pytesseract 是否可以自动识别图像中弯曲或未知方向的文本？我尝试了在这篇文章中讨论的代码：如何增强 OCR 的 Tesseract 自动文本旋转功能？

这是我尝试过的代码：

它实际上旋转了整个图像并且不能旋转图像内部的 NID 卡，所以错误的输出看起来像这样：

我想识别 NID 卡中存在的所有英文文本，如果不可能，那么至少我想使用 pytesseract 仔细识别任何未知方向的图像的 NID 号，我知道 paddleocr 和 easyocr 可以处理这样的图像但是我想知道是否可以使 pytesseract 文本识别适用于这样的图像？如果可以，我该怎么做？我还能认出这张图片中的所有单词吗？例如：bangla,english,english numbers using pytesseract???谢谢

ocr tesseract python-tesseract text-recognition pytesser

2021-10-13T07:00:58.800

0 投票

0 回答

27 浏览