问题标签 [tesseract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
7837 浏览

python - Python Tesseract 无法识别此字体

我有这张图片:

替代文字

我想用 python 把它读成一个字符串,我认为这并不难。我遇到了 tesseract,然后是使用 tesseract 的 python 脚本包装器。

所以我开始阅读图片,在我尝试阅读这张图片之前,它做得很好。我是否必须训练它来阅读该特定字体?关于该特定字体的任何想法?或者有没有更好的 ocr 引擎可以与 python 一起使用来完成这项工作。

编辑:也许我可以围绕数字制作某种矢量,然后以更大的尺寸重新绘制它们?更大的图像是更好的 tesseract ocr 似乎阅读它们(不足为奇,哈哈)。

0 投票
1 回答
4682 浏览

c# - C# 中的正方体 OCR

可能重复:
带有 Tesseract 界面的 OCR

只是想知道是否有人有在 C# 中运行的 tesseract ocr 引擎的示例项目或编译的 dll?我已经尝试过 tessnet2 演示(此处),但由于某种原因,我无法在当前的 VS2008 安装中安装 C++ 内容,因此无法构建它。

谢谢!

0 投票
1 回答
3765 浏览

ocr - 在 Linux 上使用 OCRopus/Tesseract 进行 Fraktur 识别

我正在尝试使用 fraktur 字体和 ocropus 来识别德语文本,但它似乎没有使用 deu-f 包。

这是我执行的步骤。

  1. 编译并安装了 tesseract 和 ocropus。
  2. 下载http://tesseract-ocr.googlecode.com/files/tesseract-2.01.deu-f.tar.gz,解压到 tessdata/。

但是当我打电话

p>

结果和我打电话的时候一样

p>

任何想法是什么问题?

0 投票
2 回答
3918 浏览

open-source - 中文开源OCR

我搜索了中文的开源 OCR。但是如果没有任何运气,似乎很少有一些可用的开源 OCR(中文)。

所以我在这里想知道:

  1. 有没有可以用于生产环境的中文开源OCR?

  2. 为拉丁语言和中文实现 OCR 时的主要区别是什么?我知道一些好的OCR比如Tesseract或者Ocropus,如果我想让它支持中文怎么办?

任何帮助表示赞赏并提前感谢~

0 投票
2 回答
20957 浏览

iphone - Iphone 的 Tesseract 示例

我已经编译了 tesseract 以便在以下 xcode 中使用它:http: //iphone.olipion.com/cross-compilation/tesseract-ocr

我获取 .a 文件,将其作为框架导入到 iphone 项目中,并更新 tesseract 头文件的头搜索路径。

所以现在我需要一个简单的例子来开始。我在 http://code.google.com/p/tesseract-ocr/ 或谷歌搜索中找不到任何东西。

任何人都可以帮我给我一个起点(代码片段)..?!非常感谢!

-- 后来我发现了这段代码:

#include "baseapi.h"


TessBaseAPI::InitWithLanguage(NULL, NULL, language, NULL, false, 0, NULL); char* text = TessBaseAPI::TesseractRect(imagedata, bytes_per_pixel, bytes_per_line, 0, 0, width, height); TessBaseAPI::End();


但是当我尝试为设备编译时(只插入没有上面代码的包含语句)我得到以下信息:

错误:“PAGE_RES”警告之前的语法错误:“PAGE_RES”声明中的类型默认为“int”警告:数据定义没有类型或存储类

BLOCK_LIST、IMAGE 等。


如果为模拟器编译我得到

错误:在 'PAGE_RES' 之前需要 '=',',',','asm' 或 ' attribute ' 等等,使用 BLOCK_LIST、IMAGE 和 TessBaseAPI

--- 其他更新:我找到了包含问题的解决方案:发生包含的地方必须将 file.m 重命名为 .mm 扩展名,因为我们必须告诉 xcode 我们必须同时使用 Objective-c 和 c++。

0 投票
7 回答
100611 浏览

ocr - 限制字符 tesseract 正在寻找

是否可以限制tesseract正在寻找的字符集(例如仅搜索字母 az)?这将大大改善我的结果。

0 投票
1 回答
490 浏览

ocr - OCR 和文字审查

我正在将 Tesseract 用于我的字母识别项目,目前识别效果非常好。图像处理部分是使用 OpenCv 库完成的。这些字母是手写的。但是当我用它来识别字母“O”和数字“0”时出现了一些问题。这些字母在数据区域中用作输入名称的字段。所以名字不能有任何数字。当我们使用数据字段系统作为出生日期时,它只包含数字。所以我愿意限制识别系统,说相应的数据字段只有数字或字母。

而且我也愿意用可能的词来复习已识别的字母,这样我们就可以提高数据的准确性。我愿意为这项任务使用 openCv 库。但我不知道有哪些库可以帮助完成这项任务,以及它们的功能是什么。所以请有人可以帮助我。谢谢你。

问候,蒂兰卡。

0 投票
7 回答
4138 浏览

python - 通过 OCR 从 T 恤照片中提取代码

我最近看到有人穿着一件背面有一些 Perl 代码的 T 恤。我拍了一张照片并裁剪出代码:

替代文字

接下来,我尝试通过 OCR 从图像中提取代码,因此我安装了Tesseract OCR及其 Python 绑定pytesser

Pytesser 仅适用于 TIFF 图像,因此我在 Gimp 中转换了图像并输入了以下代码(Ubuntu 9.10):

这显然是来自 OCR 引擎的胡言乱语。所以,我的问题是:

  • 我该怎么做才能从 Tesseract 中获得更好的 OCR 结果?
  • 或者,其他人是否有更好的运气以另一种方式从上面的图像中提取代码?
0 投票
3 回答
12921 浏览

c# - C# 中的 Tesseract.NET

您知道如何在http://www.pixel-technology.com/freeware/tessnet2/中使用 bin 和 dll 的分步指南吗?

我花了 2 天时间尝试使用它,在编译时我被要求提供我从网站下载的 zip 文件中不存在的 dll。

任何帮助将不胜感激。

0 投票
1 回答
2696 浏览

bitmap - OCR:如何提高准确性 - 用于删除非文本“家具”、形状等的现有库以避免混淆 OCR?

我想删除在屏幕截图图像中包含文本的矩形等,以便我可以执行光学字符识别以从屏幕截图中获取准确的文本。

背景:

我这样做是为了从遗留应用程序中提取数据以用于其他应用程序。这是获取此数据的唯一方法,因为相关文件是封闭的、专有的、二进制格式。

我将使用 AutoItScript 驱动应用程序在其 UI 中显示数据,然后我将截屏并将其提供给 tesseract。

我已经在自动化 UI 方面取得了一些成功,并且已经能够使用 tesseract 从位图中获取纯 ascii 文本。

有几篇 AutoItScripr 论坛文章讨论了它与 tesseract/OCR 的使用,但不是专门针对我的问题。 http://www.autoitscript.com/forum/index.php?s=6c32c3ece12756e635a619cdf175eff9&showforum=2

我需要做什么

有一些细长的 1 像素宽的矩形紧密地包围了一些文本,当输入到 tesseract 时,它会像我一样看到它们,例如矩形的垂直线。

关于如何删除矩形或最佳实践的任何想法?

我在问是否有基于通用命令行的工具集来覆盖矩形,例如,在 .png 文件中。然后我可以通过这个传递.png,然后将它传递给tesseract。

我使用的 tesseract 发布/设置的详细信息如下:

转到此处:http ://code.google.com/p/tesseract-ocr/downloads/list - 对于基本的英文通用字符集以启动和运行 Tesseract 并将您的位图文本识别为 ascii 文本,请使用 tesseract-2.00。 eng.tar.gz(撰写本文时的当前版本是:“Tesseract 的英语语言数据(2.00 及更高版本)2007 年 7 月 989 KB 84845”)

我已经在 Stack Overflow 上查看过的相关问题

在这些中,我的问题没有得到完全回答,或者正在出售商业解决方案。我不想在这个阶段考虑商业解决方案。