machine-learning - 如何训练和阅读 Image/PDF 中的特定文本？

翻译自：https://stackoverflow.com/questions/59169755 2019-12-04T05:58:04.100

78 次

0

图像或 PDF 可能包含

**

印刷文字，
手写文字，
段落，
键值对，
复杂表。

**

在训练时，我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。

1 回答 1

1

你需要做3个步骤：

首先，您应该为图像编写基本的对象识别算法。该算法必须将您的图像裁剪为 ROI（感兴趣区域），然后它应该按内容类型列表中的元素对每个 ROI 进行分类。对于这一部分，您可以使用一些启发式规则（例如，表格，有时有一个矩形边界）来获取 ROI 特征。然后你可以使用像决策树这样的轻量级分类器。
接下来，您应该提供用于读取由 ROI 类型定义的数据结构的算法。例如，对于表格，您应该找到图像中的所有单元格。然后，您需要从数据结构中找到每个单词或数字，并将其裁剪为符号集。
完成后，您必须通过文本图像分类器对每个符号进行分类。在这一步中，您可以使用多层感知器或贝叶斯朴素分类器，以及通常用于图像识别的另一种分类器。

在实践中，您可以尝试使用OpenCV库，它已经包含了您需要的几乎所有算法。

为了更好地理解第 3 步，您可以观看我的基于 OpenCV 人工神经网络功能使用的验证码识别项目。

于 2019-12-04T06:37:19.717 回答