azure-cognitive-services - 提高表格识别

Question

我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。不幸的是，这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格，在某些情况下，没有任何东西被标记为表格。

获取表格数据的最佳方法是什么？

文档说： “应该自动检测表格数据，并将在最终输出的 JSON 文件中可用。但是，如果模型无法检测到所有表格数据，您也可以手动标记这些字段。标记中的每个单元格具有不同标签的表格。如果您的表格中的表格具有不同的行数，请确保您至少为一个表格标记了尽可能大的表格。”

这是不切实际的，并且会在几百个字段之上破坏字段计数器。有没有办法改善表格识别，也许通过修改 labels.json 和定义区域？

score 0 · Accepted Answer

如果样本发票和表格由于扫描质量和复杂表格而变得复杂，并且这些表格当前不会被我们的表格提取器自动检测到。我们正在努力改进我们的表格技术，并希望能够在不久的将来提取复杂的表格。

作为一种解决方法，在此之前，您可以尝试使用带有标签功能的表单识别器序列，并将这些表标记为键值对，将表的每个单元格标记为一个值。请注意，您需要使用表中最大行数的 5 个样本进行标记和训练。

1 回答 1