1

我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。不幸的是,这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格,在某些情况下,没有任何东西被标记为表格。

获取表格数据的最佳方法是什么?

文档说: “应该自动检测表格数据,并将在最终输出的 JSON 文件中可用。但是,如果模型无法检测到所有表格数据,您也可以手动标记这些字段。标记中的每个单元格具有不同标签的表格。如果您的表格中的表格具有不同的行数,请确保您至少为一个表格标记了尽可能大的表格。”

这是不切实际的,并且会在几百个字段之上破坏字段计数器。有没有办法改善表格识别,也许通过修改 labels.json 和定义区域

4

1 回答 1

0

如果样本发票和表格由于扫描质量和复杂表格而变得复杂,并且这些表格当前不会被我们的表格提取器自动检测到。我们正在努力改进我们的表格技术,并希望能够在不久的将来提取复杂的表格。

作为一种解决方法,在此之前,您可以尝试使用带有标签功能的表单识别器序列,并将这些表标记为键值对,将表的每个单元格标记为一个值。请注意,您需要使用表中最大行数的 5 个样本进行标记和训练。

于 2020-07-28T06:03:39.817 回答