我想知道在处理 Azure 表单识别器自定义模型(带有标签)中相同标签字段的多个实例时是否缺少一些东西?让我们使用以下(非常简化的)文档,例如:
现在,如果我训练一个模型来检测“姓名”、“出生日期”和“公司”,我最终会得到如下结果:
{
"fields": {
"Name": {
"value_type": "string",
"label_data": null,
"value_data": {
"page_number": 1,
"text": "John R. Smith Ronald Johnson., Esquire",
"bounding_box": [
[
0.57,
4.435
],
[
1.8,
4.435
],
[
1.8,
6.005
],
[
0.57,
6.005
]
],
"field_elements": null
},
"name": "Name",
"value": "John R. Smith Ronald Johnson., Esquire",
"confidence": 1
},
...
如您所见,Name
Azure 表单识别器结果 JSON 中字段的每个“实例”之间没有分隔符。我应该如何以允许我从文档中提取给定字段的每个实例的方式训练和/或处理字段结果?
我尝试的第一件事是从文档中标记标签名称和字段的值并进行培训。例如,Name: John R. Smith
我Name: Ronald Johnson., Esquire
在 FOTT 中标记Name
为该训练示例的字段。然后,我会将结果拆分为Name:
. 这在理论上似乎很好,但在实践中,与仅选择字段值并对其进行培训相比,我的准确度非常低。