1

我正在尝试使用 Microsoft 的 Form Recognizer API 分析表单,但没有看到我希望的结果。在我的表单上训练模型之后,它生成的键很少是我想要的。有谁知道是否有一种方法可以提高关键识别的准确性?我在想,在作为监督学习的一种形式进行训练时,可能有一些方法可以给出键/值对列表。

是我要解析的表单示例。

我期望“年份”、“制造”、“型号”和“VIN”的键。但是,该模型返回的是“Vehicle”键,其值为“Year”、“Make”、“Model”和“VIN”以及它们的后续值。

我知道我特别询问了监督学习,但对于如何提高表单识别器模型的准确性的任何技术或技巧,我将不胜感激。

4

2 回答 2

1

Azure 表单识别器现在提供了一个监督学习工具,可以针对使用默认无监督学习模式难以训练的表单调整模型。

以下是使用该工具的方法: https ://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/label-tool

于 2020-01-29T22:33:21.023 回答
0

你用 5 个样本表格训练了一个模型吗?您可以尝试在训练数据中添加一个没有值的空表单,看看是否有帮助?表格扫描质量好还是倾斜?

以下是有关如何提高准确性的一些提示:

如何为定制模型构建训练数据集 当您使用表单识别器定制模型时,您可以提供自己的训练数据,以便模型可以训练到您的行业特定表单。您可以使用五个填写好的表格或一个空表格(在文件名中包含“empty”一词)加上两个填写好的表格来训练模型。即使您有足够的填写表格进行训练,向您的训练数据集中添加一个空表格也可以提高模型的准确性。

使用针对训练进行了优化的数据集非常重要。使用以下提示可确保您从训练模型操作中获得最佳结果:

• 如果可能,请使用基于文本的 PDF 文档而不是基于图像的文档。扫描的 PDF 作为图像处理。• 如果您有可用的表格,请使用一张空白表格和两张填写好的表格。• 对于已填写的表单,请使用已填写所有字段的示例。 • 使用每个字段中具有不同值的表单。• 如果您的表单图像质量较低,请使用更大的数据集(例如,10-15 个图像)。

于 2019-06-27T15:39:57.360 回答