1

我对 AWS Comprehend 还很陌生。我知道 AWS Comprehend 可以自定义分类文档(文本文件)。AWS Comprehend 是否也对图像文件进行分类?此外,在训练模型时,是否有必要在 CSV 中提供整个文档文本,还是只使用关键字?

原因是,我想构建一个自定义分类器,可以对发票、付款存根和其他一些图像格式的此类文档类型进行分类。领悟能做到吗?如果有怎么办?

谷歌搜索了很多,但找不到任何相关的东西。非常感谢您对此的帮助。

谢谢!

4

3 回答 3

3

Comprehend 本身并不这样做,因此您必须构建一个解决方案。您可以尝试结合Amazon Textract(用于从文档中提取详细信息)然后 Comprehend 对它们进行分类。

在常见问题解答中,Textract 将此称为常见用例。我找不到有人这样做的确切例子,但它直接在文档中被调用。

于 2020-04-06T19:20:54.977 回答
0

Amazon Comprehend 仅适用于文本。

Amazon Rekognition 适用于图像。

于 2020-04-07T04:56:22.910 回答
0

AWS 拥有完成此任务的所有构建块,但您必须自己配置/构建它。您可以使用 AWS Textract 从文档中提取所有文本,然后将文本传递到 AWS Comprehend 服务以对文档类型进行分类。

在执行此操作之前,您需要训练 Comprehend 的机器学习部分以正确识别文档类型。您需要在 AWS Comprehend 中配置和训练自定义分类器,在该分类器中提供一个 CSV 文件,其中包含分类列表,例如“文档类型”,然后是文档类型中的文本。如果只是表单,那么您可以使用 Textract Form 功能仅获取键值对,然后使用键(表单中的标签)作为自定义分类器的文本。

于 2021-07-19T14:46:25.040 回答