azure - 表单识别器：一次扫描中的多个文档不适用于带标签的模型

Question

我构建了一个带有标签的自定义模型来读取表单。如果扫描只包含表单的一个实例，则此方法效果很好。但是一旦扫描包含相同类型的几种形式，就会创建一个混搭。（带有示例标签工具的 Azure Form Recognizer v2.1-preview3）

我本来希望在这种情况下，在分析结果/文档结果下的结果 JSON 中会返回几个数组元素（每个检测到的模型实例一个元素）。但情况似乎并非如此。相反，字段部分从第一个实例读取，部分从第二个实例读取。结果是完全错误的。

问题：我是否必须在预处理步骤中将扫描分成单独的文档？这对表单识别器来说不是注定的任务，因为它知道模型。

实际结果：

{
    "status": "succeeded",
    "createdDateTime": "2021-04-07T09:41:33Z",
    "lastUpdatedDateTime": "2021-04-07T09:41:46Z",
    "analyzeResult": {
        "version": "2.1.0",
        "readResults": []
        "pageResults": []
        "documentResults": [
            {
                "docType": "xxxxxxx",
                "modelId": "xxxxxxx",
                "pageRange": [
                    1,
                    6
                ],
                "fields": {...}
                "docTypeConfidence": 0.778
            }
        ],
        "errors": []
    }

预期结果：

{
    "status": "succeeded",
    "createdDateTime": "2021-04-07T09:41:33Z",
    "lastUpdatedDateTime": "2021-04-07T09:41:46Z",
    "analyzeResult": {
        "version": "2.1.0",
        "readResults": []
        "pageResults": []
        "documentResults": [
            {
                "docType": "xxxxxxxx",
                "modelId": "xxxxxxxx",
                "pageRange": [
                    1,
                    3
                ],
                "fields": {...}
                "docTypeConfidence": 0.778
            },
            {
                "docType": "xxxxxxxx",
                "modelId": "xxxxxxxx",
                "pageRange": [
                    4,
                    6
                ],
                "fields": {...}
                "docTypeConfidence": 0.778
            }
        ],
        "errors": []
    }
}

score 0 · Accepted Answer

表单识别器需要每个文件的文档类型，如果您在一个文件中有多个不同的文档或表单，请将文件拆分为页面或单个文档，然后再将其发送到表单识别器。您可以为此或任何其他简单代码使用逻辑应用程序或流连接器将文档拆分为页面。

azure - 表单识别器：一次扫描中的多个文档不适用于带标签的模型

1 回答 1

Related

Reference