9

这不是真正的“OCR”,因为它不能识别字符,但它与应用于曲线的想法相同。任何人都知道用于从(光栅)绘图图像中检索值的图像处理库或已建立的算法?例如,在此图中,我很难用眼睛读取确切的值,因为网格线之间存在这样的差距:

替代文字

我可以使用直尺或其他任何东西,但它仍然容易出错。如果有软件可以截取任何旧图并自动将其转换为值表或可以查询的函数,那就太好了。

好像叫“曲线识别”?也可用于从未公布基础数据的科学论文的曲线中提取数据。

并且可以有一些人工指导。例如,OCR 没有理由无法读取“100”并将其与线匹配,但是在机器提取曲线相对于网格线的路径后,让人类为线提供数值是可以的。我最感兴趣的是相对于网格跟踪曲线的功能,即使网格以非仿射方式倾斜、旋转或扭曲

更新:

现在有一篇 Wikipedia 文章,名为将扫描的图形转换为数据,链接中有一堆软件。还有一些在alternativeto.net 上的软件。我猜这个理论现在属于http://dsp.stackexchange.com,而软件解决方案属于http://superuser.com

4

7 回答 7

6

这是非常困难且容易出错的。(我们在尝试分析化学的化学中经常做这种事情。)它主要取决于各种参数和条件。

  1. 图像是位图(仅像素)还是矢量(EMF、WMF、SVG、PS、PDF...)?矢量比像素好得多。我们处理矢量(包括 PDF),但不接触像素。我们的一些合作者会尝试使用像素,但仅限于最近的文档。
  2. 如果您被像素卡住了,那么您的图像是否都来自同一个来源?如果是这样,您提取字体信息的机会很小。恐怕你的形象太差了,需要做很多工作。但是,如果您可以计算出字体,那么如果所有文档都来自同一来源,您就有机会提取文本和数字。您可以使用启发式(例如数字可能在哪里的规则)或机器学习(可以训练方法的特征列表)。
  3. 您的图像似乎已被扫描(因为轴是像素化的)。这使情况变得更糟。对机器来说,看起来直线的东西是可怕的。您的图像在页面上是否倾斜?您可能需要对其进行校正。
  4. 如果您有线条和曲线的模型,那么您可能会将建模预期参数更改为图像。但这不是微不足道的。

很抱歉我很悲观。如果你真的想要这些信息,那么可以通过大量投资或与做这类事情的团体合作来完成。

于 2009-11-01T19:35:28.230 回答
3

谷歌“曲线识别软件”建议http://www.curveunscan.com/

于 2009-11-01T22:54:33.840 回答
3

http://www.digitizeit.de/是一个数字化图表的程序。

于 2010-12-26T19:31:29.677 回答
2

还有相关的potrace,该页面又提到了其他替代方案

于 2010-08-15T00:31:29.713 回答
1

我不知道有什么软件可以满足您的要求,但是如果您只能获得几个点,您可以使用某种回归来找到适合这些点的最佳函数。这个特殊的图表看起来像一个指数函数。所以你想找到一个指数回归计算器。

于 2009-11-01T19:45:13.610 回答
1

我使用 im2graph 将图形图像转换为数据,即数字。im2graph 是免费的,可用于 Linux 和 Windows。非常顺利,您只需很少的努力即可产生结果。见http://www.im2graph.co.il

于 2015-04-24T04:38:02.637 回答
0

用肉眼很难刮取值。但是您可以使用图形数字化仪来对离网点进行采样。互联网上有很多这样的工具。有人已经提到过Digitizeit。但是,它不是免费的。

这是我经常用来从图表和扫描文档中提取数据点的首选工具。

  1. PlotDigitizer.com:免费(在线)和付费(离线),并支持许多图表。它还支持对数刻度,就像您的图表中的那样。
  2. WebPlotDigitizer:它也是一个非常流行的工具并且完全免费。但有时,我发现这是错误和故障。
  3. Digitizeit:它是一个付费工具,没有在线版本。
于 2021-01-04T07:00:52.900 回答