问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 如何从 Amazon Textract 获取字符级别数据?
我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我试图找到一种从每个单词中获取字符坐标的方法。
有什么办法可以找到字符级坐标/字符数据?
amazon-web-services - Amazon Textract 在进行分析时会跳过一些表单字段
我正在调用 Amazon Textract api 来分析 pdf 扫描图像,它跳过了一些字段作为键值对。有什么方法可以训练或专门指向正确映射键值对吗?
amazon-web-services - AWS 托管服务的访问控制
我们的组织正计划使用 Rekognition、Textract 等 AWS 托管服务。因为这些服务使用 S3 存储桶进行人脸比较和分析文档。问题是最终用户不应该能够访问我们组织之外的存储桶,有什么方法可以限制我组织中仅对 S3 存储桶的访问?存储桶可以由用户动态创建,因此访问控制应覆盖账户中的所有存储桶。我们还将 VPC 端点用于这些服务。
amazon-web-services - 未从 Textract 接收到 Amazon SNS 的消息
我正在使用Amazon Textract的StartDocumentAnalysis函数从 S3 存储桶中异步扫描 .pdf 文件。正如文档所说,我应该收到有关所提供 SNS 主题的作业状态的通知。
StartDocumentAnalysis
JobId
返回用于获取操作结果的作业标识符 ( )。文本分析完成后,Amazon Textract 将完成状态发布到您在 中指定的 Amazon Simple Notification Service (Amazon SNS) 主题NotificationChannel
。
我用来开始分析的代码如下所示:
我在 AWS 控制台中创建了 SNS。
snsTopicArn = arn:aws:sns:us-east-1:093475263507:textract-result.fifo
snsRoleArn = arn:aws:iam::093475263507:role/SNSSuccessFeedback
我可以从控制台手动向该 SNS 发布一条消息,但来自 Textract 的任何消息都不会进入 SNS 主题。我已经等了几个小时了——我怀疑现在我已经收到了消息。
我不确定这snsRoleArn
是否正确。我只是使用了一些我在 AWS 中已经拥有的随机的。这会是个问题吗?我应该使用哪个snsRoleArn
?如果不是这样,为什么我没有收到消息?
我会在访问策略中遗漏一些东西吗?
amazon-web-services - Amazon Textract 开始文档分析 - 来自 SQS 的消息都是空的,
您好我正在开发一个使用 AWS Textract 解析文档的 Java 应用程序。对于多页解析,我使用 textract 客户端上可用的 startDocumentAnalysis 方法。然后,该客户端以一个 jobId 进行响应,并且 jobId 连同它的完成状态一起被放置在 sqs 队列中。我以前有一个个人帐户并设法让所有这些都正常工作,因此一个进程从队列中读取消息,然后使用以下方法获取解析结果:
现在我必须在我公司的 AWS 帐户上执行此操作,并且我已经追溯了我的步骤并且一切正常,除了现在当我从队列中提取消息时,所有消息都以 [] 即空数组返回。我使用这段代码:
所以我知道错误不能出现在java代码中,因为以前它有效。我也知道我可以上传到新存储桶并进行单页解析,所以我知道我的凭据是正确的。我在 sns 上创建了一个主题并将我的 sqs 注册到它,但是这里的某个地方必须存在权限或其他配置错误。也许 SNS 和 SQS 没有互相交谈?
想知道是否有人有任何可以帮助我的见解。谢谢
amazon-textract - AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果
我编写了代码来使用 Amazon Textract 从 pdf 中提取表和名称值对。我遵循了这个示例: https ://docs.aws.amazon.com/textract/latest/dg/async-analyzing-with-sqs.html ,它位于 Java 版本 1.1 的 sdk 中。我已经为第 2 版重构了它。
这是一个仅适用于多页文档的异步过程。当我取回结果时,第一页非常准确。但是连续的页面大多是空行。我解析的文档是扫描的,所以质量不是很好。但是,如果我获取单个页面的 jpg 并使用单页操作,即 AnalyzeDocumentRequest,则每个页面都很好。此外,Amazon Textract tryit 服务可以正确呈现页面。
所以错误必须在我的代码中,但看不到在哪里。如您所见,这一切都发生在这里:
我真的不能做任何干预。
我最有可能犯错的地方是在收集页面和表格块的 util 文件中,即这里:
但这对于第一页非常有效,我还可以在上面的响应对象中看到,返回的块数要少得多。
这是完整的代码:
有没有其他人遇到过这个问题?
非常感谢
amazon-web-services - 使用 aws textract 从 Invoice 中提取业务相关数据
实际上,我们需要从文档中提取详细信息,例如 Invoice/delivery Challan 等。所以我正在浏览 aws Textract 演示版,我们可以简单地上传 PDF 文档并查看它提取的所有详细信息作为键值对、表等。
在进行上述活动时,我发现很少有特定的键,如发票号码、PAN 等对我们非常重要,有时会被提取,但有时不会,尽管我使用的文档质量很高。
所以我的问题是 - 有什么方法可以明确指定我们需要从文档中提取哪些所有键?
如果它们在文档中可用,aws 应该提取它们,它应该在响应中保持这些字段为空。
谢谢,卡维塔
amazon-web-services - AWS:使用 Texraxt 的 S3 存储桶策略
我想授予 AWS Textract 访问权限以使用我的特定 S3 存储桶,但很难找到理想的存储桶策略。
在做了一些研究后发现aws:CalledVia函数可能是合适的,但不知道如何制定策略。
希望对政策的外观有任何帮助。谢谢!