问题标签 [python-tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
133 浏览

image-processing - 无法正确设置 tesseract

我正在尝试在此图像上使用 tesseract:

在此处输入图像描述

当我使用默认配置时:

它返回\KD FWOW
如您所见,唯一的错误是第一个字母L被识别为反斜杠

因此,我/usr/share/tesseract-ocr/tessdata/configs使用以下设置创建了一个配置文件:

tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ

目标是只识别字母,而不是特殊字符。但是,当我使用此配置运行 tesseract 时:

结果是XKD FVOIV,现在它缺少一个以上的字符,主要是 'W'。

这对我来说毫无意义,我不明白为什么它在白名单上时停止识别 W。当然,我在配置中遗漏了一些东西。

我该如何解决?

0 投票
1 回答
1637 浏览

python - UnicodeDecodeError 'charmap' 编解码器与 Python 中的 Tesseract OCR

我正在尝试使用 teseract-OCR 对 python 中的图像文件进行 OCR。我的环境是-Windows 机器上的 Python 3.5 Anaconda。

这是代码:

我得到的错误是:

我已经尝试过这里提到的解决方案 黑客不起作用

我已经在 Mac OS 上尝试了我的代码,它正在运行。

我调查了 pytesseract 问题:这是一个未解决的问题

谢谢

0 投票
1 回答
2115 浏览

python-3.x - 在 Python3 文本库中使用 tesseract

我想从 PDF 文件中提取文本。我可以成功安装 tesseract(它在终端中工作)和 textract(按照说明)。

但是,当我运行代码时,出现错误。

错误是:

我尝试了几次修改,但它们从来没有工作,我得到了同样的错误。

  1. return b''.join(contents)
  2. contents = [str(item) for item in contents]之前插入return
  3. contents = [item.decode("utf-8") for item in contents]之前插入return
0 投票
0 回答
140 浏览

php - PHP 无法在 Python 中执行 Pytesseract

我正在使用Postman将 base64 图像发送到我的 Apache Web 服务器上的 PHP 文件。图像始终发送成功。PHP 脚本执行 python 脚本以从图像中提取文本(使用 Pytesseract/Tesseract-OCR)并将输出发送回 PHP。(使用 Windows 10,如果这很重要)

前两个打印语句总是在 Postman 中返回,但第三和第四个打印语句不返回。仅当注释掉 pytesseract 行时,最后一个 print 语句才返回。

当我自己运行 python 脚本时,所有打印语句都成功返回。

Python (test.py)

PHP (连接.php)

0 投票
1 回答
330 浏览

php - PHP 无法通过 shell_exec() 在 Python 中执行 Pytesseract

我正在使用 Postman 将 base64 图像发送到我的 Apache Web 服务器上的 PHP 文件。图像始终发送成功。PHP 脚本执行 python 脚本以从图像中提取文本(使用 Pytesseract/Tesseract-OCR)并将输出发送回 PHP。(使用 Windows 10,如果这很重要)

前两个打印语句总是在 Postman 中返回,但第三和第四个打印语句不返回。仅当注释掉 pytesseract 行时,最后一个 print 语句才返回。

当我自己运行 python 脚本时,所有打印语句都成功返回。

Python (test.py)

PHP (连接.php)

我相信问题是能够运行 python 脚本,但 python 脚本在 PHP 执行时无法执行 tesseract。

0 投票
1 回答
9150 浏览

python - 使用 Tesseract 和 Pyocr 在 Python 中获取字体大小

pyocr是否可以使用或从图像中获取字体大小Tesseract?下面是我的代码。

在这里,我使用函数从图像中获取文本image_to_string。现在,我的问题是,如果我也能得到font-size(数字)我的文字。

0 投票
0 回答
482 浏览

python - 有没有办法使用 tesseract ocr 或任何其他 python 包从检查中读取 micr 字体字符?

当我在支票上使用 pytesseract 进行字符识别时,没有正确识别 micr 字符。

0 投票
0 回答
1217 浏览

python - 为什么 tesseract-ocr 无法检测到框中的文本?

考虑这个实验:

我有两张图片,一张带有自由文本,另一张带有文本框(由边框包围)

如果我在这两个图像上运行 tesseract-ocr,自由文本图像输出“文本”,而装箱图像输出 Nothing ''

这是为什么?

作为修复,我可以使用一些图像处理来裁剪边框,但我想知道是什么导致了这个问题。

免费图片 盒装图像

到目前为止,我使用以下逻辑裁剪了图像的边框[我们应该将其提供给外边框轮廓裁剪图像],然后我就能够检测到文本。但是我不明白为什么 tesseract 没有检测到盒装文本。随意尝试附加的图像。

0 投票
1 回答
7814 浏览

python - 在 pytesseract 中运行示例代码

我正在运行 python 2.6.6 并想安装pytesseract包。解压安装后,我可以从命令行调用pytesseract。但是我想在 python 中运行 tesseract。我有以下代码(ocr.py):

当我通过 python ocr.py 运行代码时,我得到以下输出:

test.png 和 test-european.jpg 在工作目录中。有人可以帮我运行这段代码吗?我尝试了以下方法:

  1. 将 tesseract_cmd 调整为“pytesseract”
  2. 安装了 tesseract-ocr

感谢任何帮助,因为我现在正试图解决这个问题几个小时。

0 投票
1 回答
394 浏览

python - 通过 Boost 将图像从 Python 发送到 C++

我正在尝试使用 Boost 在 Python 上优化我的程序,并用 C++ 函数替换一些 Python 代码。

Python代码:

和 C++ 上的代码:

所以,我需要做两件事:

  1. 使用 . 将图像从 Python 发送到 C++ Boost.Python
  2. 将图像数组发送到 C++(我想通过在 C++ 中使用多威胁来提高性能)。