microsoft-cognitive - 如果我想要每个键右侧的列中的 5 个值，那么训练表单识别器的理想方法是什么？

Question

我在最左边有一列数字作为我的键，其中每个条目都有 5 个我试图与之配对的设计值。为了训练模型，我使用了 15 个完整的 pdf 文件，其中大部分不是扫描的。我还编辑了其中的 3 个，删除了值但保留了键，并将它们保存为与原始文件名相同的文件名，后缀为“Empty”。从模型返回的结果可以毫无问题地找到任何数字或其位置，但它们不在任何类型的键值对中。我得到这个键值“对”排除了获取列标题和行的任何可能性，但只有行和相对于其他行的位置会让事情变得足够简单。只是希望对如何训练它以重用与在行中看起来相同的键有所了解。

我将数据导出为 Word 格式并用浅色边框将值制成表格。我没有机器学习的经验。对于空表单，将 DocVariable 字段添加到 5 个值列中的每一列是否有任何好处，变量名称是行键名称和列键名称的组合？

score 0 · Accepted Answer

实际上，有必要从您的样本数据中删除这些键来训练表单识别器的模型，即使这样做是不正确的。表单识别器需要了解您的示例数据中的键是什么。

因此，您只需要按照官方教程Build a training data set for a custom model，使用更多具有不同键和不同值的相似表单布局的样本来训练模型。然后，您可以按照我对 SO 线程的回答如何提高表单识别器的准确性？绘制键和值，并通过它们的值从 json 结果中提取所需的boundingBox值。

是的，我所说的意思是您需要设计一种算法，通过对它们的几何值进行分类来对这些键和值进行分类boundingBox。

例如，您可以尝试绘制几条水平或垂直线来连接这些键和值的左上点，并找出几何点模式以对这些表单单元格进行分类。

microsoft-cognitive - 如果我想要每个键右侧的列中的 5 个值，那么训练表单识别器的理想方法是什么？

1 回答 1

Related

Reference