使用 Azure 表单识别器提取值时,许多值显示为重复。
我已经训练了一个自定义模型来标记适当的键值。我发现 OCR 复制了这些框,因此当我使用示例标记工具进行标记时,我经常将一个框放在另一个框内。我需要选择一个并取消选择另一个,以避免显示重复的值。
当我运行模型来预测许多键的新 PDF 时,我也会得到重复的值。
此外,在检查 Result JSON 时,我可以看到许多 Lines 的Bounded Boxes 嵌套或重叠。也就是说,通常您将拥有一个具有有界框和关联文本的线条,而这些文本又具有在线条的有界框内具有有界框的“单词”。
只是为了澄清一下,在 JSON 中,我看到的线条具有重叠或嵌套的有界框,因此是文本。
关于为什么会这样的任何线索?