1

我看到不同的文章谈到 OCR 表单识别(数据提取),他们说他们使用神经网络来进行表单识别,那么人工神经网络(ANN)和表单识别之间有什么关系?如果我想从名片中提取字段,是需要使用 ANN 还是可选的?换句话说,我什么时候需要使用 ANN,什么时候不需要?

4

3 回答 3

1

这有点不同。ANN 只是所有 OCR 中的“专家”。但是 OCR 引擎包含许多专家。当您学习 ANN 时,您将仅使用 ANN 构建一个简单的 OCR 引擎,但这与将它与三元组、形态学、数据类型(对 BCR 和 Forms 非常重要)、字典、连接组件算法结合使用的现代引擎相比无法比较等。因此,将其视为提取质量结果的技巧包中的工具之一。一个好的引擎将包含 ANN 和所有其他引擎。在 BCR 中还有额外的考虑,它应该非常重视连接的组件,首先是字典,然后使用 ANN 和模式匹配进行实际识别。

于 2012-04-06T17:08:57.040 回答
1

ANN 是执行 OCR 的一种方式。还有其他的。因此,如果您想使用 ANN 从名片中提取字段只是可选的。

于 2012-04-05T15:04:22.960 回答
1

好问题。我最近花了一些时间玩 OCRopus,这是一个做 OCR 的谷歌项目——你可以免费获得它并自己玩。我很确定它有一个人工神经网络作为它背后的模块之一。然而,光学字符识别的整个过程可以有很多步骤(很多不同的小模块,每个模块都做某事并将结果传递给下一个模块)。

所以,以下是我记得的一些由该项目中的模块完成的事情:

  1. 有一个模块可以将图像变成黑白 - 这使得以后的模块更容易处理。
  2. 摆脱斑点/斑点。
  3. 理顺文本行。
  4. 将文本行分解为单个单词(已经有几个星期了,不确定这个)

基本上,您可以使用不涉及神经网络的少量代码来完成上述操作。所以用这些小代码做起来更简单。

我认为神经网络仅用于识别单个字符 - 它是一组可能字符中的哪个字符。

OCRopus 中有一个训练命令,我已经连续运行了一个多星期,它不断向地图发送线路样本,并在运行过程中慢慢改变地图。我认为这是在训练 ANN 部分。

于 2014-10-04T19:00:17.993 回答