0

我在最左边有一列数字作为我的键,其中每个条目都有 5 个我试图与之配对的设计值。为了训练模型,我使用了 15 个完整的 pdf 文件,其中大部分不是扫描的。我还编辑了其中的 3 个,删除了值但保留了键,并将它们保存为与原始文件名相同的文件名,后缀为“Empty”。从模型返回的结果可以毫无问题地找到任何数字或其位置,但它们不在任何类型的键值对中。我得到这个键值“对”排除了获取列标题和行的任何可能性,但只有行和相对于其他行的位置会让事情变得足够简单。只是希望对如何训练它以重用与在行中看起来相同的键有所了解。

我将数据导出为 Word 格式并用浅色边框将值制成表格。我没有机器学习的经验。对于空表单,将 DocVariable 字段添加到 5 个值列中的每一列是否有任何好处,变量名称是行键名称和列键名称的组合?

4

1 回答 1

0

实际上,有必要从您的样本数据中删除这些键来训练表单识别器的模型,即使这样做是不正确的。表单识别器需要了解您的示例数据中的键是什么。

因此,您只需要按照官方教程Build a training data set for a custom model,使用更多具有不同键和不同值的相似表单布局的样本来训练模型。然后,您可以按照我对 SO 线程的回答如何提高表单识别器的准确性?绘制键和值,并通过它们的值从 json 结果中提取所需的boundingBox值。

是的,我所说的意思是您需要设计一种算法,通过对它们的几何值进行分类来对这些键和值进行分类boundingBox

例如,您可以尝试绘制几条水平或垂直线来连接这些键和值的左上点,并找出几何点模式以对这些表单单元格进行分类。

于 2019-09-10T18:49:13.407 回答