问题标签 [python-tesseract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - 如何以编程方式读取图像中的电子邮件并将其转换为文本?
我有一个包含 1900 多个 GIF 图像链接条目的 CSV 文件。
每个图像都包含一个电子邮件地址。
我想以编程方式读取每个条目并将它们转换为相应的文本,最好是在另一个或相同的 CSV 文件中。我使用 Mac OS 并且更喜欢使用 Python 或 Java 来完成此任务。
关于如何使用 OCR 或通过任何其他方法进行操作的任何想法?示例代码将不胜感激。
我已经尝试过 tesseract 的示例条目,但结果不准确。这是我尝试过的:
email.gif看起来像:
out.txt中生成的输出为:
CSV 文件如下所示(前 2 个条目):
这是我在 SO 中的第一个问题。如果我错过了任何其他相关信息,我们深表歉意。我很乐意提供更多。
python - pytesseract.TesseractError: (-5, 'dyld: Library not loaded: Reason: image not found)
在 Pytesseract 中使用 image_to_string() 函数时,出现以下错误:
尝试重新安装 Tesseract(查看 Brew)、PyTesseract、PIL,但没有成功。在我测试的其他机器上没有问题,都是 OSX Yosemite 10.10.3。
难住了。
cygwin - Tesseract 3.03 编译错误:“选择”未在此范围内声明
我cygwin
用来编译Tesseract 3.03 源代码。
make
运行后遇到以下错误configure
。我不知道修改 Tesseract 源代码。以前有人见过这个错误吗?或者是否有任何 Tessearct 3.03 的预构建版本?我需要这个版本,因为它包含培训工具text2image
,而且他们声称可以使用make training
.
加 1
下面是有问题的代码片段。
在我看来,该select
函数是一个 C++ 库函数。我的 Cygwin 安装中可能缺少某些库。但我不确定是哪一个。
添加 2
以下rubenvb
关于此线程的建议:使用 MinGW/MSYS 制作“xz-5.2.1”时出错
我开始使用MSYS2 + MinGW-w64
编译Tesseract 3.03
。在克服了所有依赖项和先决条件之后。我终于成功configure
了Tesseract 3.03 source
。然后在期间遇到以下错误make
:
我发现了一个类似的线程:致命错误:strtok_r.h:没有这样的文件或目录(在MinGW中编译tesseract-ocr-3.01时)
看来我需要手动将一些文件添加到 tesseract 源。但我不知道把它放在哪里。
现在我需要睡一会儿。
希望有人可以对这个问题有所了解。我明天继续...
参考
用 vs2013 编译 Tesseract 3.03
http://vorba.ch/2014/tesseract-3.03-vs2013.html
用 Cygwin 编译 Tesseract 3.02
fonts - '光栅字体'是否有真正的字体文件?
我正在Tesseract
为一些屏幕截图做 OCR。截图中的字符在raster fonts
. 但Tesseract
需要True Type Font
文件进行培训。
我可以在文件夹中找到许多真字体文件Windows/Fonts
。我想知道是否有一个用于光栅字体的?
python - 与 mod_wsgi 一起使用时出现 pytesseract 错误
我正在尝试设置 OCR Web 服务,以便可以从多个位置发送图像进行处理。
我从来没有对 cgi 做过任何事情,所以我说是时候尝试 mod_wsgi 了。我花了 2 天时间来安装所有的库,以及 opencv 和 pytesseract。如果我以“正常方式”(启动新的 python 窗口解释器)进行操作,我的 OCR 工作得很好。我在让一些库与 mod_wsgi 一起工作时遇到了很多麻烦,即使它们工作正常。
我被困在 pytessearct 上。如果我运行它:
一切正常文件。
即使我这样做:
这也有效。
如果我使用 mod_wsgi 执行此操作,我的httpd 日志文件中会出现此错误:
这是我的app.wsgi文件:
正如您在源代码中看到的那样,我也尝试使用 subprocess 的 check_output 来自己启动一个新的 pytesseract 进程,但我得到了同样的错误。
我已经从源代码构建了 tesseract 和 mod_wsgi。但同样,我确信它与 mod_wsgi 有关,因为如果我在 python 中正常执行它,它就可以工作。
更新:我对 mod_wsgi 和 opencv 有类似的“奇怪”问题。问题和答案可以在这里找到:Occasional ctypes error importing numpy from mod_wsgi django app
任何建议将不胜感激。
python - 访问 python-tesseract 的信心
我正在尝试为 python-tesseract 构建一个 OCR 扩展,专门处理具有内部结构的数据表(例如,包含行和列的小计和总计,允许用户通过强制执行结构来提高准确性)。
我正在尝试访问 tesseract 分配给多个结果的置信度(例如,来自无约束运行的所有结果以及所有来自字符限制为 的运行的结果[0-9\.]
)。
我已经看到了一些有关访问 api 方法的x_wconf
属性的信息,GetHOCRText
但无法弄清楚如何从 python api 访问它。你如何调用/访问这个值?谢谢!
我在 OSX 10.10.3 和 Python 2.7 上使用 python-tesseract 0.9.1。
ocr - 在 Ubuntu 中成功安装 tesseract_ocr 后,它显示没有名为 tesseract_ocr 的 mudule
我通过Linux终端安装了Tesseract OCR,但是当我尝试在Python中导入它时,出现了错误:
/usr/bin/python2.7 /home/web/Documents/pnt/ocr.py
Traceback(最近一次调用最后一次):
文件“/home/web/Documents/pnt/ocr.py”,第 1 行,在
import tesseract
ImportError:没有名为 tesseract 的模块
python - 将远程 PDF 的页面转换为 OCR 的临时图像
我有一个远程 PDF 文件,我需要逐页阅读并不断将每个文件传递给 OCR,该 OCR 将为我提供 OCR 文本。
我想过使用cStringIO
ortempfile
但我不知道如何将它们用于此目的。
如何解决这个问题?
python - 在 Windows 上开始使用 Python OCR?
我以前从未使用过python,我不知道从哪里开始。我的目标是获取数字和多色背景的图像数据,并可靠地识别出正确的字符。我查看了为此所需的工具,我发现了 Anaconda python 发行版,其中包括我可能需要的所有可能的包,以及 tesseract-ocr 和 pytesser。
不幸的是,我不知道如何开始。我正在使用 PyCharm 社区 IDE,只是尝试遵循本指南: http: //www.manejandodatos.es/2014/11/ocr-python-easy/ 来掌握 OCR。
这是我正在使用的代码:
我相信我正在使用的 Anaconda 发行版有 PIL,但我收到了这个错误:
谁能指出我正确的方向?
image-processing - 在 MTG 卡上使用 tesseract
到目前为止,我的第一个障碍是在 MTG 卡的图像上运行 tesseract vanilla 无法识别卡标题(老实说,这就是我所需要的,因为我可以使用该文本从数据库中提取其余的卡信息)我认为问题可能需要训练 tesseract 以识别 mtg 卡中使用的字体,但我想知道 tesseract 是否可能是一个问题,因为 tesseract 没有查看或没有检测到图像的一部分(特别是标题)中的文本。
编辑:包括一张 MTG 卡的图像以供参考。http://gatherer.wizards.com/Handlers/Image.ashx?multiverseid=175263&type=card