我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。不幸的是,这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格,在某些情况下,没有任何东西被标记为表格。
获取表格数据的最佳方法是什么?
文档说: “应该自动检测表格数据,并将在最终输出的 JSON 文件中可用。但是,如果模型无法检测到所有表格数据,您也可以手动标记这些字段。标记中的每个单元格具有不同标签的表格。如果您的表格中的表格具有不同的行数,请确保您至少为一个表格标记了尽可能大的表格。”
这是不切实际的,并且会在几百个字段之上破坏字段计数器。有没有办法改善表格识别,也许通过修改 labels.json 和定义区域?