0

我们正在尝试使用表单识别器、OCR 和 labeltool 的容器预览,并且有以下问题:

  1. 有什么软件可以帮助我们对类似类型的文件进行分类。这将帮助我们对文档进行分类并创建训练数据集
  2. 有没有办法给模型用户定义的名称。以下是模型查询 API 的输出。很难将其与不同类型的模型联系起来:
{
    "modelId": "f136f65b-bb94-493b-a798-a3e8023ea1b5",
    "status": "ready",
    "createdDateTime": "2020-05-06T21:35:58+00:00",
    "lastUpdatedDateTime": "2020-05-06T21:36:06+00:00"
}
  1. 我可以看到存储在 \output\subscriptions\global\models 中的模型文件,其中 /output 目录在 docker compose 文件中共享容器。是否可以将此模型导入新容器。

    • 模型具有与模型 id 相同的 json 和 gz 文件
    • 我还附上 docker compose 文件供您参考
  2. 有没有办法用模型训练数据微调或更新相同的自定义模型(相同的模型 id)
  3. 我们也在尝试使用 labeltool,但它只需要 Azure blob 作为输入。是否可以像我们为表单识别器的训练一样提供输入。我们正在努力获得此设置,如果无法解决,我们可能会开始寻找替代方案。
4

1 回答 1

1

以下是您的问题的答案:

  1. 要对文档进行分类,您可以使用自定义视觉来构建文档分类器或使用文本分类和 OCR。此外,您可以使用不带标签的表单识别器训练在训练数据上运行它,并使用模型中的集群选项对训练数据集中的相似文档和页面进行分类。
  2. 友好模型名称在表单识别器中尚不可用,它是我们路线图中的未来功能,但尚不可用。
  3. 模型不能在容器之间复制,您可以使用相同的数据集在不同的容器中训练模型。使用表单识别器云服务时,可以在订阅、资源和区域之间复制模型。
  4. 每列火车都会创建一个新的模型 ID,以免覆盖您无法更新现有模型的先前模型。
  5. Form Recognizer v2.0 版本在容器中尚不可用,目前只有 Form Recognizer v1.0 版本在容器中可用。Form Recognizer v2.0 也将很快在容器中提供。当使用容器版本时,所有数据都保留在本地,并且一旦可用于 v2.0 容器版本的标记工具也将作为输入本地或已安装的磁盘而不是 blob。

谢谢 !内塔 - MSFT

于 2020-05-17T20:36:48.570 回答