问题标签 [text-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
134 浏览

sorting - 解决文本的两个字符列争夺的方法

我有一段文本被两个字符的列打乱。我的任务的目的是解读它:

我目前查找正确列顺序的方法是尝试根据单词出现计数标准递归地找到每列的最佳位置。

我想到的算法核心的伪代码是:

当对每一列进行迭代后没有移动列时,算法停止。我猜它应该适用于任何语言(尽管我只对英语的解决方案感兴趣)只要写作是基于由字母组成的单词并且样本足够大。

关于任何其他方法或改进的任何建议?我想知道这个问题的最佳解决方案(可能是基于字典的字典来寻找常见单词的出现?重建算法以避免递归,会更快吗?)。

0 投票
2 回答
305 浏览

android - ABBYY 识别名片工作但照片失败

当我从 ABBYY 名片中识别出文本时,它就可以工作了。当我用照片尝试它时,我拍了它失败了。它确实适用于 ABBYY 的演示,所以它不是我的硬件。

有人知道为什么是这样吗?

我用来拍照的代码:

0 投票
1 回答
1941 浏览

android - 如何识别画布上绘制的字符

我正在使用手指画线,到目前为止,我已经想出了以下代码:

但不幸的是,上面的代码不能满足我的要求。我想创建按字母顺序组织的工作表,用户通过触摸进行操作。我想知道他从哪里开始,他要去哪里,他在哪里结束以识别他在画布上绘制的内容,我知道从哪里获取接触点,但问题是如何识别画布上绘制的内容?想在 Playstore 上识别像这样的 VisionObjects应用程序。 在此处输入图像描述

0 投票
1 回答
183 浏览

c# - .NET 程序扫描 .PDF 中图表中的可呈现文本 - 不是针对单词,而是针对值 - 文本位置功能?

您好,我有一张图表,需要进行系统审查并给出结果...

图表图像位于此处....

示例图表 .pdf http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/

http://imageshack.us/photo/my-images/651/scorecardchartexample.gif/

--假设图表是 .PDF 并且文本是可渲染的 IE “高亮”。

--假设图表每次都以完全相同的方式和相同的位置放置在页面上

--假设图表可以更改-也就是说,我需要能够上传 1000 个这些图表,所有这些图表都遵循完全相同的格式,但图表之间有一些替代信息。

——假设在 .NET 方面具有 VAST 专业知识,而在实际文本解释方面几乎没有专业知识。

--假设具有解释具有可编辑字段的 .PDF 的专业知识...我已经在这样做了,这仅限于我创建的 .PDF 并且能够在每个字段上放置值等。

--假设这个图表只能在一个单一的文本可呈现的.PDF中交付——也就是说——我们与一个创建这个图表的网站交互——这个网站没有API可以交互,我们必须从网页打印这个图表到PDF这就是我们所能做的……(政府网站)

使用 .NET 系统,我需要创建一个程序...或将现有应用程序合并到我的 .NET 系统中,它将查看此图表并能够分辨每个“X”代表什么...也就是说左边一英寸或下一行的“X”表示不同的结果(参见图表)

我需要该程序根据击中文件夹或其他任何内容的 .PDF 文档的触发器来执行搜索并返回结果。假设我们从头开始创建程序,我们可以处理这部分......否则我们将仅限于根据需要与现有应用程序进行交互。

我们对各种策略持开放态度。假设存在这样的类或对象,我们正在考虑根据文档中的位置读取文本,例如 X、Y 之类的东西。另一个理想的路线是某种 stringBuffer(假设 C#),但需要能够导航图表网格线,并且需要计算空格以准确解释“X”的位置以及“X”的含义根据它的位置。第三个选项,我们不知道的事情。

如果某件事存在并且经过验证并且是真实的,那当然是最好的。然后是使用 .NET 和 C# 与它交互的任何提示。

非常感谢大家提前Code Gawds!

卷轴

0 投票
3 回答
11921 浏览

javascript - JavaScript 文本识别和 OCR 开启

我找到了一个可以识别手写数学方程式的网络应用程序:

http://webdemo.visionobjects.com/equation.html?locale=default

我想知道是否有人知道实现这种机制的应用程序或教程或开源项目,因为从这个 webapp 获取它真的很复杂。

注意:我只需要在画布中绘制的方程式在输入文本框中进行翻译即可。

0 投票
2 回答
6636 浏览

android - 使用 tesseract 或 OpenCV 的 android 对象检测

我已经成功地将 tesseract 集成到我的 android 应用程序中,它可以读取我捕获的任何图像,但准确性非常低。但大多数情况下,我在捕获后没有得到正确的文本,因为感兴趣区域周围的一些文本也被捕获了。

我只想准确地阅读矩形区域中的所有文本,而无需捕获矩形的边缘。我已经做了一些研究并在stackoverflow上发布了两次,但仍然没有得到满意的结果!

以下是我发的 2 个帖子:

https://stackoverflow.com/questions/16663504/extract-text-from-a-captured-image?noredirect=1#comment23973954_16663504

从android中捕获的图像中提取信息

我不确定是继续使用 tesseract 还是使用 openCV

0 投票
1 回答
394 浏览

xml-parsing - 执行 DetEval 软件以评估我的文本识别算法的性能时出错

我想出了一个文本识别算法。该算法识别自然图像中的文本。我正在尝试根据可用于 ICDAR 强大阅读挑战的数据集的基本事实对其进行测试。为此,我生成了一个 xml 文件,其中包含场景图像中文本区域的坐标,正如我的算法所识别的那样。为 groundtruth 数据提供了一个类似的 xml 文件。

要生成两个 xml 文件比较的定量结果,我需要使用DetEval 软件(如网站中所述)。我已经在 linux 上安装了命令行版本。

问题是:DetEval 没有读取输入的 xml 文件。具体来说,

我运行以下命令(根据DetEval 网站上的说明): rocplot /home/ekta/workspace/extract/result_ICDAR_2011/txt/GT2.xml { /home/ekta/workspace/extract/result_ICDAR_2011/txt/final.xml }

在这里,GT2.xml 是 groundtruth,final.xml 是我的算法生成的文件。

我收到以下错误消息: evaldetection -p 0.8,0.4,0.8,0.4,0.4,0.8,0,1 "{" "/home/ekta/workspace/extract/result_ICDAR_2011/txt/GT2.xml" | readdeteval -p 1 - >> /tmp/evaldetectioncurves20130818-21541-1kum9m9-0 evaldetection -p 0.8,0.4,0.8,0.4,0.4,0.8,0,1 "{" "/home/ekta/workspace/extract/result_ICDAR_2011/ txt/GT2.xml"I/O 警告:未能加载外部实体 "{" 无法解析文档 { -:1:解析器错误:文档为空 ^ -:1:解析器错误:需要开始标记,'<'未找到 ^ I/O 错误:无效搜索无法解析文档 - rocplot:错误运行命令:evaldetection -p 0.8,0.4,0.8,0.4,0.4,0.8,0,1 "{" "/home/ekta/workspace/extract/result_ICDAR_2011/txt/GT2.xml" | readdeteval -p 1 - >> /tmp/evaldetectioncurves20130818-21541-1kum9m9-0错误代码:256

我该怎么办?我很肯定在生成我的 xml 文件时没有错误,因为即使是从网站获得的 groundtruth 文件也没有被解析。请帮忙!

问候埃克塔

0 投票
1 回答
5980 浏览

python - 从图像中读取文本的 OCR 库(最好是 python)

我需要从一些图像中读取文本,图像清晰且噪音非常低。所以我最初的想法是获取文本应该很容易。(我知道的很少)

我测试了一些python库但没有成功(pytesser),他们可能会得到 10% 的正确率。我求助于谷歌的 tesseract-occ,但它仍然远远不够好。

这是一个例子: 在此处输入图像描述

结果如下:

我究竟做错了什么?还是 OCR 识别真的这么糟糕?

0 投票
1 回答
94 浏览

python - 使用 numpy 将列附加到空列表以进行基本 OCR?

我正在尝试制作一个程序,该程序通过模拟一行文本并从中获取每个字母的图像。考虑二维像素阵列的图像,如果连续列中存在黑色像素,则这些列将被写入缓冲区。一旦到达没有黑色像素的列(即字母之间的空间),缓冲区将变成已检测到的字母的图像。但是,我遇到了一个我不明白的编译器错误,希望你们能帮助我。希望您也能发现我没有发现的任何逻辑错误。

无论如何,代码:

我得到的错误是:

0 投票
1 回答
130 浏览

machine-learning - 识别考试中的问题(文本识别)

我有成千上万的 pdf 考试,我想将其问题提取为标准格式(JSON、YML 或 XML)。

它们是多项选择:

问题 1

谁是第一个在月球上行走的人?

a) 尤里·加加林

b) 艾伦·里普利

c) 尼尔·阿姆斯特朗

d) 谢泼德

问题2

太阳系中有多少颗行星?

一)10

b) 12

c) 14

d) 15

(...)

在 JSON 中:

需要注意的是,由于这些考试是由不同的老师进行的,所以它们可能会略有不同。这意味着即使提取为纯文本,我也无法使用正则表达式进行匹配。(我试过了,组合(措辞结构/替代结构)是巨大的)

例如:

“问题 X (...)”。

“问题 (X) (...)”。

“问题 X - (...)”。

“X) (...)”。

“X- (...)”。

替代方案也可能会改变:

一个) (...)

一个。(...)

一个- (...)

1) (...)

我想我需要某种机器学习工具来“教”程序什么是问题并让它找到。

作为替代方案,由于问题(印刷中的)在物理上彼此相距很远,我想我可以将这些 PDF 转换为图像并使用某种图像识别。

可行吗?是否有用于识别这些问题的工具(包、库、算法)?