我正在尝试使用 Go 将 S3 存储桶中的对象发送到 Textract 并收集响应。
我正在使用 aws go sdk 包并能够连接到我的 S3 存储桶并列出其中包含的所有对象。到目前为止,一切都很好。我现在需要能够将其中一个对象(.pdf 文件)发送到 Textract 并收集响应。
用于与 Textract 交互的 AWS Go SDK 内容似乎相当广泛,但我找不到一个很好的例子来说明如何做到这一点。
我将非常感谢您提供有关如何执行此操作的示例或建议。
我正在尝试使用 Go 将 S3 存储桶中的对象发送到 Textract 并收集响应。
我正在使用 aws go sdk 包并能够连接到我的 S3 存储桶并列出其中包含的所有对象。到目前为止,一切都很好。我现在需要能够将其中一个对象(.pdf 文件)发送到 Textract 并收集响应。
用于与 Textract 交互的 AWS Go SDK 内容似乎相当广泛,但我找不到一个很好的例子来说明如何做到这一点。
我将非常感谢您提供有关如何执行此操作的示例或建议。
如果其他人访问此站点以寻找答案:
我理解文档就好像我可以通过 textract SDK 调用 StartDocumentAnalysis 函数,但实际上缺少的是您需要先创建一个新 Session 并根据会话进行调用:
https://docs.aws.amazon.com/sdk-for-go/api/service/textract/#New
要启动作业,您调用StartDocumentTextDetection
,使用 aDocumentLocation
指定文件,并指定一个 SNS 主题,当 Textract 完成处理您的作业时将在该主题中发布通知。
您现在有两种可能性:
第二个选项是 IMO 更好,因为它使用更少的计算时间(直到作业尚未完成才运行)。
要检索作业,请使用GetDocumentTextDetection