图像或 PDF 可能包含
**
- 印刷文字,
- 手写文字,
- 段落,
- 键值对,
- 复杂表。
**
在训练时,我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。
图像或 PDF 可能包含
**
**
在训练时,我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。
你需要做3个步骤:
首先,您应该为图像编写基本的对象识别算法。该算法必须将您的图像裁剪为 ROI(感兴趣区域),然后它应该按内容类型列表中的元素对每个 ROI 进行分类。对于这一部分,您可以使用一些启发式规则(例如,表格,有时有一个矩形边界)来获取 ROI 特征。然后你可以使用像决策树这样的轻量级分类器。
接下来,您应该提供用于读取由 ROI 类型定义的数据结构的算法。例如,对于表格,您应该找到图像中的所有单元格。然后,您需要从数据结构中找到每个单词或数字,并将其裁剪为符号集。
完成后,您必须通过文本图像分类器对每个符号进行分类。在这一步中,您可以使用多层感知器或贝叶斯朴素分类器,以及通常用于图像识别的另一种分类器。
在实践中,您可以尝试使用OpenCV库,它已经包含了您需要的几乎所有算法。
为了更好地理解第 3 步,您可以观看我的基于 OpenCV 人工神经网络功能使用的验证码识别项目。