问题标签 [pytesser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
265 浏览

python - Python pytesseract 从图像中提取不正确的文本

0 投票
0 回答
53 浏览

python - This line of code fixed a pytesseract path issue I was having but I don't understand how it works, can someone explain how it works

So I was trying to run some code using pytesseract, and I got this error:

There was a post on this site that provided the solution, I added it to my code and it fixed things:

However, I want to understand what exactly this line of code is doing as I don't understand? It looks like it is calling a method on the pytesseract library? I don't understand, is this a line of code that can work with any library? What does the "r" in front of the path of the program file do?

0 投票
0 回答
175 浏览

python-3.x - 如何从填写的银行账户表格中自动提取用户信息

我正在尝试从扫描的开户表格中提取手写信息。为此,我使用 Pytesseract python 库来提取文本数据。但是使用这个模块我在输出中有很多不规则的地方,因为我得到了不均匀的字符。

此外,用户填写个人信息(如姓名、地址、出生日期等)的表单中的框也会导致问题,因为模块 pytesseract 将其检测为字母“I”。那么有没有办法处理这些盒子呢?

还有其他方法可以完成这项任务吗?如果有请建议。这是我正在处理的扫描表格

下面是我做的代码

0 投票
3 回答
4813 浏览

python-3.x - 将 image_to_osd 方法与 pytesseract 一起使用时出错

这是我的代码:

对于第一个输出,我得到了我需要的字母 D

这是有意的,但是当它尝试执行第二个打印语句时,它会吐出这个。

我不知道该怎么办。我在网上真的找不到太多关于这个错误的信息。我也不知道该怎么办。目标只是让它吐出我的信的方向。感谢您提前提供所有有用的评论!

0 投票
1 回答
1363 浏览

python - 我想从 OCR 数据中提取表格信息

我想从 OCR 数据中提取表格信息,我有原始文本,它是文本。我尝试了 pytesseract 但找不到实际的实现。

这是一张图片:https ://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

我试过这个:https ://github.com/WZBSocialScienceCenter/pdftabextract

这种方法对我根本不起作用。

我想从 OCR 数据中获得该表的表格结构,以供我进一步处理。

0 投票
0 回答
147 浏览

python-3.x - Pytesseract:尝试使用 Image_to_Boxes() API 时文件丢失

[Errno 2] 没有这样的文件或目录:'/tmp/tess_3gyrbu0d_out.box'

当我尝试使用 Image_to_Boxes() API 时出现此错误。Image_to_String() 工作没有任何错误。提前致谢 !!!!

0 投票
1 回答
5833 浏览

pandas - 将 pytesseract 字符串输出转换为 pandas df

我从赛百味收到了全天详细销售、工人等的收据,我需要为管理课程提取数据。

我拍了收据的照片,并用 pytesseract 将它们处理成一个由 \n 分隔的字符串,但现在不知道如何使用 pd.read_csv 和 StringIO 将其转换为数据帧。如果这是最好的方法,请不要这样做。还可能需要使用 cv2 编辑图像,以便更好地处理。

这是目前周一的一些变数。

它应该看起来像一个数据框:

0 投票
1 回答
2991 浏览

python-3.x - 如何使用 Python 将 .png 图像转换为文本

最近,我接了一个项目。使用 Python tesseract 将扫描的 PDF 转换为可搜索的 PDF/word。

经过几次尝试,我可以将扫描的 PDF 转换为 PNG 图像文件,之后,我很震惊,谁能帮我将 PNG 文件转换为可搜索的 Word/PDF。附上我的一段代码

请找到随附的图像以供参考。

就是这样,我已经写了......然后我得到了多个“.PNG”图像......现在我只能将一个 PNG 图像转换为文本。

如何转换所有图像并将其保存为 CSV/word?

0 投票
1 回答
2044 浏览

python - 使用 Python tesseract 从 PNG 图像中提取文本

最近,我接了一个项目。使用 Python tesseract 将扫描的 PDF 转换为可搜索的 PDF/word。

经过几次尝试,我可以将扫描的 PDF 转换为 PNG 图像文件,之后,我很震惊,谁能帮我将 PNG 文件转换为可搜索的 Word/PDF。附上我的一段代码

请找到随附的图像以供参考。

就是这样,我已经写了......然后我得到了多个“.PNG”图像......现在我只能将一个 PNG 图像转换为文本。

如何转换所有图像并将其保存为 CSV/word?

0 投票
1 回答
1262 浏览

python - 不支持 TSV 输出。正方体 >=3.05 需要

我遇到了 tesseract 版本的问题。

错误日志:

raise TSVNotSupported() pytesseract.pytesseract.TSVNotSupported:不支持 TSV 输出。正方体 >=3.05 需要

如何安装 tesseract 3.05 ?