form-recognizer - 使用表单识别器进行监督学习

Question

我正在尝试使用 Microsoft 的 Form Recognizer API 分析表单，但没有看到我希望的结果。在我的表单上训练模型之后，它生成的键很少是我想要的。有谁知道是否有一种方法可以提高关键识别的准确性？我在想，在作为监督学习的一种形式进行训练时，可能有一些方法可以给出键/值对列表。

这是我要解析的表单示例。

我期望“年份”、“制造”、“型号”和“VIN”的键。但是，该模型返回的是“Vehicle”键，其值为“Year”、“Make”、“Model”和“VIN”以及它们的后续值。

我知道我特别询问了监督学习，但对于如何提高表单识别器模型的准确性的任何技术或技巧，我将不胜感激。

score 1 · Accepted Answer

Azure 表单识别器现在提供了一个监督学习工具，可以针对使用默认无监督学习模式难以训练的表单调整模型。

以下是使用该工具的方法： https ://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/label-tool

score 0 · Accepted Answer

你用 5 个样本表格训练了一个模型吗？您可以尝试在训练数据中添加一个没有值的空表单，看看是否有帮助？表格扫描质量好还是倾斜？

以下是有关如何提高准确性的一些提示：

如何为定制模型构建训练数据集 当您使用表单识别器定制模型时，您可以提供自己的训练数据，以便模型可以训练到您的行业特定表单。您可以使用五个填写好的表格或一个空表格（在文件名中包含“empty”一词）加上两个填写好的表格来训练模型。即使您有足够的填写表格进行训练，向您的训练数据集中添加一个空表格也可以提高模型的准确性。

使用针对训练进行了优化的数据集非常重要。使用以下提示可确保您从训练模型操作中获得最佳结果：

• 如果可能，请使用基于文本的 PDF 文档而不是基于图像的文档。扫描的 PDF 作为图像处理。• 如果您有可用的表格，请使用一张空白表格和两张填写好的表格。• 对于已填写的表单，请使用已填写所有字段的示例。 • 使用每个字段中具有不同值的表单。• 如果您的表单图像质量较低，请使用更大的数据集（例如，10-15 个图像）。

form-recognizer - 使用表单识别器进行监督学习

2 回答 2

Related

Reference