问题标签 [pytesser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
808 浏览

python - 如何使用 pytesseract 增加图像识别的可能性

我正在尝试将此图像列表转换为文本。图像相当小但非常易读(15x160,只有灰色文本和白色背景)我似乎无法让 pytesseract 正确读取图像。我试图用 .resize() 来增加大小,但它似乎根本没有做太多。这是我的一些代码。我可以添加什么新东西来增加我的机会吗?就像我说的,我很惊讶 pytesseract 在这里让我失望,与我似乎抓住的一些东西相比,它很小但超级可读。

0 投票
0 回答
83 浏览

python-3.x - 如何提高处理速度?

我正在做一个从图像中读取文本的小项目。现在,在 Ubuntu 14.0 上运行 20k 图像需要将近 10 个小时 下面是需要花费大量时间的部分代码。请建议/帮助提高速度或如何对下面提到的代码使用多处理?

问候, 施里

代码:

0 投票
2 回答
8806 浏览

python - python导入:ModuleNotFoundError:没有名为“pytesser”的模块

嗨,我是 python 和 OCR 的新手。我正在尝试实施 OCR。我已经安装了 OCR 所需的所有依赖项。同样重要的是我正在使用 Anaconda custom 提供的 Python。因此,当我尝试导入 pytesser 时,它会显示给我ModuleNotFoundError: No module named 'pytesser'。我正在尝试执行一个简单的以下程序:

并得到以下输出:

我相信因为 python 的 conda 分布它不能使用它。有什么方法可以链接。或者我做错了什么。需要一些帮助。谢谢你。

我深入研究了这个问题。我安装了两个python版本,一个是python2.7,另一个是python3.6。所以我所有的pytesseract配置都是用python2.7。但我使用的是 3.6 版。所以我认为我需要做的是删除所有 pytesseract 并针对 python3.6 安装。否则将所有配置移至指向python3.6。我试图通过 conda 版本的 pytesseractconda install -c auto pytesseract但得到以下错误:

有没有办法解决这个问题。需要一些帮助。

0 投票
2 回答
6772 浏览

python - 无法找到 Tesseract 的 tessdata

嗨,我是 python 和 tesseract 的新手。当我尝试从图像中获取数据时,我正在使用 anaconda 分发并尝试使用 pytesseract-ocr,它给了我以下错误:

所以首先这个没有这样的/anaconda/envs/_build/share/tessdata/目录。我有 anaconda3 文件夹。我从 git 下载了 end.traindata。但不确定将这些数据放在哪里。难道我做错了什么。需要一些帮助。谢谢你。

0 投票
1 回答
1408 浏览

tesseract - pytesseract 结果与 tesseract 命令行结果不同

我正在尝试在 Ubuntu 上使用 pytesseract 和 tesseract 命令行将扫描的页面转换为文本。结果明显不同(pytesseract 比 tesseract 命令行执行得更好),我无法理解为什么。我查看了参数的默认值并尝试更改 tesseract 命令行中的一些参数值(如 psm ),但我无法获得与 pytesseract 相同的结果。由于 pytesseract 中缺乏适当的文档,我无法弄清楚使用了哪些参数的默认值。

这是我的 pytesseract 代码 print(pytesseract.image_to_string(Image.open('test.tiff'))

0 投票
1 回答
9820 浏览

python - Pytesseract,试图从屏幕上检测文本

我将 MSS 与 pytesseract 结合使用来尝试在屏幕上读取,以确定来自被监控区域的字符串。我的代码如下:

我得到以下错误返回: AttributeError: 'numpy.ndarray' object has no attribute 'read'

我还尝试使用 pyplot 将其转换回图像,如代码示例中的注释行所示。但是,这会打印出错误: TypeError: img is not a numpy array, not a scalar

我对 Python 有点陌生(周日才开始涉足它)。但是,我在其他检测图像方面的尝试相当成功。但是,为了达到我的最终目标,我需要能够阅读屏幕上的字符。它们将始终具有相同的字体和相同的大小,因此我不必担心缩放问题,但目前我正试图通过将图像存储在内存中来了解它是如何工作的(不保存到文件)从桌面上的回收站图标中,并尝试从图像中获取字符串“回收站”。

更新 我想我可能有一些突破,但如果我试图同时显示流,就会出现一些问题。但是,我可以通过使用临时文件足够快地处理流。

我更新的代码如下:

这目前吐出一个权限被拒绝的错误,如下:

我怀疑这是否正常,我将在家里的笔记本电脑上尝试此更新。这可能是由于对工作笔记本电脑的限制,我只是没有时间解决这个问题。

我很困惑为什么在没有 while True: 循环的情况下显示图像可以正常工作,作为屏幕截图。但是,将其放入 while True: 循环会导致窗口冻结。

0 投票
1 回答
228 浏览

python - 图像到文本转换器的 Python/CV2 程序显示 WindowsError: [错误 2] 系统找不到指定的文件

我写了一个 python/cv2 图像到文本转换器。启动程序C:\Users\mikez\Pictures\examples.png时,我在要求图像时输入。

此后它显示以下错误:

Traceback:“WindowsError:[错误2]系统找不到指定的文件”。

我不知道我的代码有什么问题:

0 投票
2 回答
6294 浏览

python - pytesseract 输出未定义

尝试在 python 上运行 tesseract,这是我的代码:

我得到的错误如下:

NameError:未定义名称“输出”

知道为什么我会得到这个吗?谢谢你!

0 投票
0 回答
488 浏览

python - pytesseract 导入错误

在 pytesseract 导入中出现以下错误。

代码:

回溯(最近一次调用):文件“E:\mini project\main.py”,第 10 行,in print(image_to_string(im,lang='eng',config=tessdata_dir_config)) 文件“C:\Python35\lib \site-packages\pytesseract\pytesseract.py",第 136 行,在 image_to_string nice=nice) 文件 "C:\Python35\lib\site-packages\pytesseract\pytesseract.py",第 82 行,在 run_tesseract proc = subprocess. Popen(命令,stderr=subprocess.PIPE)文件“C:\Python35\lib\subprocess.py”,第 950 行,在init restore_signals,start_new_session 中)文件“C:\Python35\lib\subprocess.py”,第 1220 行, in _execute_child startupinfo) FileNotFoundError: [WinError 2] 系统找不到指定的文件

0 投票
1 回答
1655 浏览

image-processing - 支付账单的图像识别

我想从账单图像中提取有用的信息。

我已经使用 OCR + pytesseract 将图像转换为文本,并根据特定单词(如总数、金额等)提取信息。

处理各种类型的非结构化票据以提取票据的地点和金额的最佳通用方法是什么?