python - 使用 Azure 表单识别器提取 PDF 表数据

Question

我正在使用 Azure From Recognizer 处理发票处理项目。所有发票均为 PDF 格式。我正在使用带有标签的自定义表单识别器。我可以从 PDF 中提取一些数据，例如发票编号、发票日期、金额等，但我想使用 Azure 表单识别器从 pdf 中提取表格数据，但它没有正确读取表格。

我已经标记了我需要的单元格，当表中的行数增加时，它会正确读取该列，但它无法将每行的值彼此分开并将整列作为单个值返回。

我试图提供更多示例，但仍然无法检测到正确的表。 有没有办法使用 Azure 表单识别器从 PDF 中正确提取表数据？

扫描表格是我们的应用程序的基本要求，它将决定我们是否使用 Azure 表单识别器来构建我们的应用程序。

请参阅下面的 PDF 表格图像，并希望从所有列中提取所有行数据。

如果您可以通过一些文档为我们指明正确的方向，那将是有益的。

谢谢

score 0 · Accepted Answer

请尝试以下方法 -

在没有标签的情况下进行训练，看看它是否检测到并提取了您需要的表格。请参阅此处的快速入门 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0
如果没有标签的火车没有检测到他的表格，并且如果您使用带标签的火车并且没有自动检测到表格，那么我们还不支持原生的表格标签。您可以尝试将表标记为键值对作为提取值的解决方法。当将表标记为键值对时，将每个单元格标记为一个值，因此对于上表，每列应该有 5 个值 - Desc1、Desc2、Desc3...Desc5、Hours1、Hours2、Hours3、...Hours5。在这种情况下，您将需要使用具有最大行数的表进行训练。

内塔 - MSFT

1 回答 1