“amazon-textract”的相关标签问题

0 投票

1 回答

534 浏览

amazon-web-services - 如何从 Amazon Textract 获取字符级别数据？

我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我试图找到一种从每个单词中获取字符坐标的方法。

有什么办法可以找到字符级坐标/字符数据？

2021-01-19T14:51:20.863

0 投票

1 回答

30 浏览

amazon-web-services - Amazon Textract 在进行分析时会跳过一些表单字段

我正在调用 Amazon Textract api 来分析 pdf 扫描图像，它跳过了一些字段作为键值对。有什么方法可以训练或专门指向正确映射键值对吗？

amazon-web-services amazon-textract

2021-02-02T21:41:50.450

0 投票

1 回答

64 浏览

amazon-web-services - AWS 托管服务的访问控制

我们的组织正计划使用 Rekognition、Textract 等 AWS 托管服务。因为这些服务使用 S3 存储桶进行人脸比较和分析文档。问题是最终用户不应该能够访问我们组织之外的存储桶，有什么方法可以限制我组织中仅对 S3 存储桶的访问？存储桶可以由用户动态创建，因此访问控制应覆盖账户中的所有存储桶。我们还将 VPC 端点用于这些服务。

amazon-web-services amazon-s3 amazon-iam amazon-rekognition amazon-textract

2021-02-08T08:29:46.610

0 投票

1 回答

165 浏览

amazon-web-services - Amazon Textract JSON 缺少一些页面

我正在使用 amazon textract 使用 amazon textract 的异步 API 分析 pdf 文档。在我执行这些操作后，在某些情况下，输出的 Textract JSON 缺少几页。缺少几个文件的原因是什么？

例如：在这个文件中，它有 4 页。

但提取信息仅适用于 2 页。

这是文档信息

amazon-web-services amazon-textract

2021-02-08T19:36:33.973

0 投票

2 回答

569 浏览

amazon-web-services - 未从 Textract 接收到 Amazon SNS 的消息

我正在使用Amazon Textract的StartDocumentAnalysis函数从 S3 存储桶中异步扫描 .pdf 文件。正如文档所说，我应该收到有关所提供 SNS 主题的作业状态的通知。

StartDocumentAnalysisJobId返回用于获取操作结果的作业标识符 ( )。文本分析完成后，Amazon Textract 将完成状态发布到您在中指定的 Amazon Simple Notification Service (Amazon SNS) 主题NotificationChannel。

我用来开始分析的代码如下所示：

我在 AWS 控制台中创建了 SNS。

snsTopicArn = arn:aws:sns:us-east-1:093475263507:textract-result.fifo
snsRoleArn = arn:aws:iam::093475263507:role/SNSSuccessFeedback

我可以从控制台手动向该 SNS 发布一条消息，但来自 Textract 的任何消息都不会进入 SNS 主题。我已经等了几个小时了——我怀疑现在我已经收到了消息。

我不确定这snsRoleArn是否正确。我只是使用了一些我在 AWS 中已经拥有的随机的。这会是个问题吗？我应该使用哪个snsRoleArn？如果不是这样，为什么我没有收到消息？

我会在访问策略中遗漏一些东西吗？

amazon-web-services amazon-sqs amazon-sns amazon-textract

2021-02-08T21:29:22.433

0 投票

1 回答

362 浏览

amazon-web-services - Amazon Textract 开始文档分析 - 来自 SQS 的消息都是空的，

您好我正在开发一个使用 AWS Textract 解析文档的 Java 应用程序。对于多页解析，我使用 textract 客户端上可用的 startDocumentAnalysis 方法。然后，该客户端以一个 jobId 进行响应，并且 jobId 连同它的完成状态一起被放置在 sqs 队列中。我以前有一个个人帐户并设法让所有这些都正常工作，因此一个进程从队列中读取消息，然后使用以下方法获取解析结果：

现在我必须在我公司的 AWS 帐户上执行此操作，并且我已经追溯了我的步骤并且一切正常，除了现在当我从队列中提取消息时，所有消息都以 [] 即空数组返回。我使用这段代码：

所以我知道错误不能出现在java代码中，因为以前它有效。我也知道我可以上传到新存储桶并进行单页解析，所以我知道我的凭据是正确的。我在 sns 上创建了一个主题并将我的 sqs 注册到它，但是这里的某个地方必须存在权限或其他配置错误。也许 SNS 和 SQS 没有互相交谈？

想知道是否有人有任何可以帮助我的见解。谢谢

amazon-web-services amazon-textract

2021-02-09T15:34:08.817

0 投票

0 回答

335 浏览

amazon-textract - AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果

我编写了代码来使用 Amazon Textract 从 pdf 中提取表和名称值对。我遵循了这个示例： https ://docs.aws.amazon.com/textract/latest/dg/async-analyzing-with-sqs.html ，它位于 Java 版本 1.1 的 sdk 中。我已经为第 2 版重构了它。

这是一个仅适用于多页文档的异步过程。当我取回结果时，第一页非常准确。但是连续的页面大多是空行。我解析的文档是扫描的，所以质量不是很好。但是，如果我获取单个页面的 jpg 并使用单页操作，即 AnalyzeDocumentRequest，则每个页面都很好。此外，Amazon Textract tryit 服务可以正确呈现页面。

所以错误必须在我的代码中，但看不到在哪里。如您所见，这一切都发生在这里：

我真的不能做任何干预。

我最有可能犯错的地方是在收集页面和表格块的 util 文件中，即这里：

但这对于第一页非常有效，我还可以在上面的响应对象中看到，返回的块数要少得多。

这是完整的代码：

有没有其他人遇到过这个问题？

非常感谢

amazon-textract

2021-02-11T17:42:54.257

0 投票

0 回答

228 浏览

amazon-web-services - 使用 aws textract 从 Invoice 中提取业务相关数据

实际上，我们需要从文档中提取详细信息，例如 Invoice/delivery Challan 等。所以我正在浏览 aws Textract 演示版，我们可以简单地上传 PDF 文档并查看它提取的所有详细信息作为键值对、表等。

在进行上述活动时，我发现很少有特定的键，如发票号码、PAN 等对我们非常重要，有时会被提取，但有时不会，尽管我使用的文档质量很高。

所以我的问题是 - 有什么方法可以明确指定我们需要从文档中提取哪些所有键？

如果它们在文档中可用，aws 应该提取它们，它应该在响应中保持这些字段为空。

谢谢，卡维塔

amazon-web-services ocr amazon-textract

2021-02-15T07:00:06.483

0 投票

0 回答

401 浏览

python-3.x - AWS Textract 创建可搜索的 PDF - 寻找 python 代码

我想从扫描的图像中提取手写文本 - 使用 Amazon AWS Textract。然后希望能够使用输出创建可搜索的 PDF - 因此将图像转换为带有文本层的 pdf。

亚马逊提供了一篇博文和 java 代码，展示了它是如何完成的。

博客文章 -链接
Java 代码 -链接

希望能够在Python中做到这一点。显示 AWS Textract 用法的 Python 代码示例都在这里 -链接。

但是，这些示例并未展示如何使用来自 AWS Textract 的响应并创建可搜索的 PDF。有没有人为最后一步编写代码 - 使用 Textract 响应创建可搜索的 PDF？

谢谢你。

python-3.x amazon-web-services amazon-textract

2021-02-17T02:52:38.987

0 投票

1 回答

265 浏览

amazon-web-services - AWS：使用 Texraxt 的 S3 存储桶策略

我想授予 AWS Textract 访问权限以使用我的特定 S3 存储桶，但很难找到理想的存储桶策略。

在做了一些研究后发现aws:CalledVia函数可能是合适的，但不知道如何制定策略。

希望对政策的外观有任何帮助。谢谢！

amazon-web-services amazon-s3 amazon-textract

2021-02-23T01:07:07.600

问题标签 [amazon-textract]

Reference