0

图像或 PDF 可能包含

**

  1. 印刷文字,
  2. 手写文字,
  3. 段落,
  4. 键值对,
  5. 复杂表。

**

在训练时,我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。

4

1 回答 1

1

你需要做3个步骤:

  1. 首先,您应该为图像编写基本的对象识别算法。该算法必须将您的图像裁剪为 ROI(感兴趣区域),然后它应该按内容类型列表中的元素对每个 ROI 进行分类。对于这一部分,您可以使用一些启发式规则(例如,表格,有时有一个矩形边界)来获取 ROI 特征。然后你可以使用像决策树这样的轻量级分类器。

  2. 接下来,您应该提供用于读取由 ROI 类型定义的数据结构的算法。例如,对于表格,您应该找到图像中的所有单元格。然后,您需要从数据结构中找到每个单词或数字,并将其裁剪为符号集。

  3. 完成后,您必须通过文本图像分类器对每个符号进行分类。在这一步中,您可以使用多层感知器或贝叶斯朴素分类器,以及通常用于图像识别的另一种分类器。

在实践中,您可以尝试使用OpenCV库,它已经包含了您需要的几乎所有算法。

为了更好地理解第 3 步,您可以观看的基于 OpenCV 人工神经网络功能使用的验证码识别项目。

于 2019-12-04T06:37:19.717 回答