0

我有一个用例,我需要解析图像或 PDF 以读取调查表,其中包含名称、年龄、地址等所有值作为键值对,并将数据加载到每个列的表中。

现在我们正在使用 AWS Textract 并且我们正在按预期获取所有信息,但是复选框和单选按钮的键、值对没有正确获取。

例如,问题是您来自印度吗?和两个单选按钮是,否。

如果选中是,则预期的输出是 {'Are you from India?': 'Yes'}。但我得到的输出是 {'YES': 'SELECTED', 'NO': 'NOT_SELECTED'}。

有什么方法可以训练 Textract 以获取此信息或我可以尝试实现的任何其他方法。

有人可以帮我解决这个问题。我是这个领域的新手,所以我完全不知道在哪里寻找这个。

提前致谢。

4

1 回答 1

0

要回答您的问题,不,您不能像理解或重新认识那样训练文本。您需要做的是弄清楚如何映射 textract 返回的 json。这将根据您正在分析的文档而有所不同。Textract 返回它检测到实体的 x 和 y 坐标,也许您可​​以使用它来缩小它所属的类别。

于 2022-02-21T15:32:59.317 回答