1

我已经训练了一个 Azure LUIS 服务模型,该模型将句子作为输入,提取关键信息,并返回 JSON 响应。

它适用于短句,现在我希望它获取一个文档(PDF、DOCX)并分析所有页面,然后提取所需的信息(如 StartingDate、EndingDate、CompanyName 等)。是否可以通过任何添加来做到这一点?

或者关于如何分析整个文档并提取关键信息的任何指导。

任何类型的信息将不胜感激!谢谢

4

1 回答 1

1

@Farhan Mubasher LUIS 如果您传递的句子或话语能够提取日期和名称等信息作为实体,则效果很好。其中大多数实际上可作为预构建的实体来训练模型并从话语中提取它们。

如果您打算像使用多页 PDF 文档一样使用整个文档,则使用表单识别器等服务或使用 Azure 计算机视觉的READ API来提取文本会更容易。使用一些预处理技术,您可以将句子传递给经过 LUIS 训练的模型并处理响应。

如果您的最终目标是从某种格式的文档中提取日期和公司信息等信息,那么表单识别器效果很好。您只需要使用一些类似格式的文档来训练模型,然后使用分析 API将这些信息提取为 JSON 响应中可用的标签。请查看表单识别器标签工具,该工具的设置和使用非常简单。

于 2020-10-08T07:32:03.840 回答