0

我想为使用 Amazon Textract 进行 OCR 和使用 Amazon Comprehend 进行实体提取的图像创建人工审核循环。

我的流程是:

  1. 将图像发送到 Textract 以提取文本
  2. 向 Comprehend 发送文本以提取实体
  3. 在 Textract 的 Comprehend 提取的实体的输出中找到块 ID
  4. 根据文档将新的类型块添加KEY_VALUE_SET到 textract 的 JSON 输出
  5. 使用模板中的元素创建一个人工任务crowd-textract-analyze-document并将修改后的文本输出提供给它

在此过程中失败的是第 5 步。我的自定义实体未正确呈现。“无法工作”是指当我在侧边栏上单击实体时,实体没有在图像上突出显示。浏览器的控制台没有错误。

有没有人尝试过这样的事情?

很抱歉没有包括示例。我将从我的文件中删除机密/PII 并将它们附加到问题中

4

1 回答 1

1

我使用a2i-crowd-texttract-detection 人工任务元素的 AWS 文档来生成initialValue属性的值。该属性的文档似乎不正确。虽然文档显示该值应与 Textract 的输出格式相同,即:

[
        {
            "BlockType": "KEY_VALUE_SET",
            "Confidence": 38.43309020996094,
            "Geometry": { ... }
            "Id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "Relationships": [
                { "Type": "CHILD", "Ids": [...]},
                { "Type": "VALUE", "Ids": [...]}
            ],
            "EntityTypes": ["KEY"],
            "Text": "Foo bar"
        },
]

a2i-crowd-textract-detection期望输入具有 lowerCamelCase 属性名称(而不是 UpperCamelCase)。例如:

[
        {
            "blockType": "KEY_VALUE_SET",
            "confidence": 38.43309020996094,
            "geometry": { ... }
            "id": "8c97b240-0969-4678-834a-646c95da9cf4",
            "relationships": [
                { "Type": "CHILD", "ids": [...]},
                { "Type": "VALUE", "ids": [...]}
            ],
            "entityTypes": ["KEY"],
            "text": "Foo bar"
        },
]

我向 AWS 提交了有关此文档错误的支持案例。

于 2020-10-18T09:15:33.233 回答