0

我正在使用 Azure From Recognizer 处理发票处理项目。所有发票均为 PDF 格式。我正在使用带有标签的自定义表单识别器。我可以从 PDF 中提取一些数据,例如发票编号、发票日期、金额等,但我想使用 Azure 表单识别器从 pdf 中提取表格数据,但它没有正确读取表格。

我已经标记了我需要的单元格,当表中的行数增加时,它会正确读取该列,但它无法将每行的值彼此分开并将整列作为单个值返回。

我试图提供更多示例,但仍然无法检测到正确的表。 有没有办法使用 Azure 表单识别器从 PDF 中正确提取表数据?

扫描表格是我们的应用程序的基本要求,它将决定我们是否使用 Azure 表单识别器来构建我们的应用程序。

请参阅下面的 PDF 表格图像,并希望从所有列中提取所有行数据。 在此处输入图像描述

如果您可以通过一些文档为我们指明正确的方向,那将是有益的。

谢谢

4

1 回答 1

0

请尝试以下方法 -

  1. 在没有标签的情况下进行训练,看看它是否检测到并提取了您需要的表格。请参阅此处的快速入门 - https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/python-train-extract?tabs=v2-0

  2. 如果没有标签的火车没有检测到他的表格,并且如果您使用带标签的火车并且没有自动检测到表格,那么我们还不支持原生的表格标签。您可以尝试将表标记为键值对作为提取值的解决方法。当将表标记为键值对时,将每个单元格标记为一个值,因此对于上表,每列应该有 5 个值 - Desc1、Desc2、Desc3...Desc5、Hours1、Hours2、Hours3、...Hours5。在这种情况下,您将需要使用具有最大行数的表进行训练。

内塔 - MSFT

于 2020-09-16T03:59:53.000 回答