问题标签 [ocr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
7837 浏览

python - Python Tesseract 无法识别此字体

我有这张图片:

替代文字

我想用 python 把它读成一个字符串,我认为这并不难。我遇到了 tesseract,然后是使用 tesseract 的 python 脚本包装器。

所以我开始阅读图片,在我尝试阅读这张图片之前,它做得很好。我是否必须训练它来阅读该特定字体?关于该特定字体的任何想法?或者有没有更好的 ocr 引擎可以与 python 一起使用来完成这项工作。

编辑:也许我可以围绕数字制作某种矢量,然后以更大的尺寸重新绘制它们?更大的图像是更好的 tesseract ocr 似乎阅读它们(不足为奇,哈哈)。

0 投票
1 回答
5727 浏览

c# - C# 中优秀的开源 OCR

C# 中有没有好的开源 OCR 实现?我正在尝试解决以下问题。我有一个包含盒子的文件,人们在盒子里输入他们的身份证号码。现在我想弄清楚程序中的id号。

谢谢你,巴拉

0 投票
1 回答
4682 浏览

c# - C# 中的正方体 OCR

可能重复:
带有 Tesseract 界面的 OCR

只是想知道是否有人有在 C# 中运行的 tesseract ocr 引擎的示例项目或编译的 dll?我已经尝试过 tessnet2 演示(此处),但由于某种原因,我无法在当前的 VS2008 安装中安装 C++ 内容,因此无法构建它。

谢谢!

0 投票
5 回答
211755 浏览

java - Java OCR 实现

这主要是出于好奇,但是纯 Java 中是否有任何 OCR 实现?我很好奇这将如何纯粹在 Java 中执行,而 OCR 通常让我感兴趣,所以我很想看看它是如何用我完全理解的语言实现的。自然,这需要实现是开源的,但我仍然对专有解决方案感兴趣,因为我至少可以检查这种情况下的性能。

我见过一些可以在 Java 中使用的(比如Asprise),但似乎这些不是纯 Java 实现......有吗?

0 投票
8 回答
627 浏览

c# - 将金额字符串解析为数字

我正在开发一个使用 OCR 引擎识别纸质文档的系统。这些文件是包含总额、增值税和净额等金额的发票。我需要将这些金额字符串解析为数字,但它们有多种格式和风格,在每张发票的数字中使用不同的十进制符号和千位分隔符。如果我尝试在 .NET 中使用正常的 double.tryparse 和 double.parse 方法,那么它们通常会在某些数量上失败

这些是我收到的一些例子

我需要一些方法来猜测数字中的小数分隔符和千位分隔符是什么,然后将值呈现给用户以决定这是否正确。

我想知道如何以优雅的方式解决这个问题。

0 投票
1 回答
3765 浏览

ocr - 在 Linux 上使用 OCRopus/Tesseract 进行 Fraktur 识别

我正在尝试使用 fraktur 字体和 ocropus 来识别德语文本,但它似乎没有使用 deu-f 包。

这是我执行的步骤。

  1. 编译并安装了 tesseract 和 ocropus。
  2. 下载http://tesseract-ocr.googlecode.com/files/tesseract-2.01.deu-f.tar.gz,解压到 tessdata/。

但是当我打电话

p>

结果和我打电话的时候一样

p>

任何想法是什么问题?

0 投票
2 回答
3022 浏览

ruby-on-rails - 使用 Ruby 和 Ubuntu 进行光学字符识别

我是一名大学生,是时候再次购买教科书了。本季度有超过 20 本书我需要上课。通常这没什么大不了的,因为我只需将 ISBN 复制并粘贴到亚马逊。但是,ISBN 会在我学校的图书网站上转换为图像。我想要做的就是将 ISBN 放入一个字符串中,这样我就不必手动输入每一个。我已经使用 GOCR 将图像转换为文本,但我想将它与 Ruby 脚本一起使用,这样我就可以自动化这个过程并为我的同学做同样的事情。

我可以导航到该站点。如何将图像保存到计算机上的文件(运行 UBUNTU),使用 GOCR 转换图像,最后将其保存到文件中,以便我可以使用 Ruby 脚本再次访问它们?

0 投票
7 回答
10864 浏览

ocr - 需要好的 OCR 来打印源代码列表,有什么想法吗?

在我的工作中,有时我必须获取一些打印的源代码并手动将源代码输入文本编辑器。不要问为什么。

显然,输入它需要很长时间,而且总是需要额外的时间来调试输入错误(哎呀,那里错过了一个“$”符号)。

我决定尝试一些 OCR 解决方案,例如:

  • Microsoft Document Imaging - 内置 OCR
    • 结果:错过了所有前导空格,错过了所有下划线,错误地解释了许多标点符号。
    • 结论:比手动输入代码要慢。
  • 各种在线网络 OCR 应用程序
    • 结果:与 Microsoft Document Imaging 相似或更差
    • 结论:比手动输入代码要慢。

考虑到字体是无衬线和等宽字体,我觉得源代码很容易进行 OCR。

你们中有人找到了一个很好的在源代码上运行的 OCR 解决方案吗?

也许我只需要一个更好的 OCR 解决方案(不一定是特定于源代码的)?

0 投票
3 回答
1925 浏览

iphone - 任何开源/免费的 OCR(模式识别)软件?(对于移动平台?)

我想从用户用手机选择的图像中提取文本信息(中文)。所以我在这里想知道是否有任何用于移动平台的开源/免费 OCR(模式识别)软件。目前我正在使用 iPhone(还有 android、blackberry 平台?)

我已经搜索了 stackoverflow,但似乎只有一些关于 C#/.Net 的问题

先谢谢啦~

0 投票
2 回答
3918 浏览

open-source - 中文开源OCR

我搜索了中文的开源 OCR。但是如果没有任何运气,似乎很少有一些可用的开源 OCR(中文)。

所以我在这里想知道:

  1. 有没有可以用于生产环境的中文开源OCR?

  2. 为拉丁语言和中文实现 OCR 时的主要区别是什么?我知道一些好的OCR比如Tesseract或者Ocropus,如果我想让它支持中文怎么办?

任何帮助表示赞赏并提前感谢~