“amazon-textract”的相关标签问题

0 投票

1 回答

194 浏览

amazon-web-services - 如何使用 a2i 的 crowd-texttract-analyze-document 突出显示自定义提取？

我想为使用 Amazon Textract 进行 OCR 和使用 Amazon Comprehend 进行实体提取的图像创建人工审核循环。

我的流程是：

将图像发送到 Textract 以提取文本
向 Comprehend 发送文本以提取实体
在 Textract 的 Comprehend 提取的实体的输出中找到块 ID
根据文档将新的类型块添加KEY_VALUE_SET到 textract 的 JSON 输出
使用模板中的元素创建一个人工任务crowd-textract-analyze-document并将修改后的文本输出提供给它

在此过程中失败的是第 5 步。我的自定义实体未正确呈现。“无法工作”是指当我在侧边栏上单击实体时，实体没有在图像上突出显示。浏览器的控制台没有错误。

有没有人尝试过这样的事情？

很抱歉没有包括示例。我将从我的文件中删除机密/PII 并将它们附加到问题中

2020-10-11T10:29:04.293

0 投票

0 回答

1040 浏览

python - 使用 Textract，如何从 pdf 文件中提取表格并通过 .py 脚本将其输出到 csv 文件中？

我想使用 textract（通过 aws cli）从 pdf 文件（位于 s3 位置）中提取表并将其导出到 csv 文件中。我曾尝试编写一个 .py 脚本，但很难从文件中读取。欢迎任何有关编写 .py 脚本的建议。

这是我当前的脚本。我遇到了错误：文件“extract-table.py”，第 63 行，在 get_table_csv_results bash：文件：找不到命令 blocks=response['Blocks'] KeyError:'Blocks'

python amazon-web-services text-extraction amazon-textract

2020-10-13T17:18:36.947

0 投票

1 回答

138 浏览

android - AWS Textract 检测行而不是块

我目前正在使用Amplify FrameworkAndroid 及其预测插件，基本上AWS Textract是将图像转换为文本。

以前，我使用Firebase文本识别功能，将文本分成块，并在每个块中分成行和单词。
另一方面，Textract 只将文本分成几行。

我使用的图像通常是屏幕截图，它们通常包含不止一列文本。因为现在我只得到行，所以我不知道如何将文本分成块。

有没有办法配置Textract首先将文本分成块？或者有没有办法手动准确划分？

android amazon-web-services ocr amazon-textract

2020-10-23T18:53:00.507

0 投票

1 回答

417 浏览

python - Lambda 和 Textract：start_document_text_detection 未知参数“OutputConfig”

我正在尝试使用 Lambda 函数和 Textract 从 PDF 中提取文本。

我的问题是： 如何调用“start_document_text_detection”以便 Textract 自动将其响应发送到 S3？

我收到一条错误消息：

[错误] ParamValidationError：参数验证失败：输入中的未知参数：“OutputConfig”，必须是以下之一：DocumentLocation、ClientRequestToken、JobTag、NotificationChannel

我的代码：

Boto3 文档显示我可以传递一个名为“OutputConfig”的参数： https ://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/textract.html#Textract.Client.start_document_text_detection

AWS Textract 的官方文档也说它是一个有效参数：

另一个可用的可选参数是OutputConfig，它允许您调整输出的放置位置。默认情况下，Amazon Textract 将在内部存储结果，并且只能通过 Get API 操作访问。启用 OutputConfig 后，您可以设置将输出发送到的存储桶的名称及其文件前缀，您可以在其中以 JSON 格式下载结果。这允许使用用户创建的存储桶来存储结果。

https://docs.aws.amazon.com/textract/latest/dg/api-async.html

python python-3.x amazon-web-services aws-lambda amazon-textract

2020-10-27T18:25:31.813

0 投票

1 回答

401 浏览

amazon-web-services - 如何允许 AWS Textract 访问受保护的 S3 存储桶

我有只允许从 VPC 访问的存储桶策略：

我也想允许来自 AWS Textract 的流量到这个存储桶。我尝试了各种方法，但由于“明确拒绝”（我需要）的绝对优先级，我无法使其工作。

是否有不同的策略制定或完全不同的方法来限制对这个 S3 存储桶的访问仅限于来自 VPC 和来自 Textract 服务的流量？

amazon-web-services amazon-s3 amazon-textract

2020-11-10T16:02:57.667

0 投票

1 回答

150 浏览

coordinates - Amazon Textract 边界框坐标为特定块更改

我正在使用 Amazon Textract 进行文本检测或原始文本、表单和表格。

我正在为此上传 PDF。

我正在使用坐标从原始文本中获取值。我成功地获得了价值。但是几天后，该特定块的边界框坐标发生了变化。然后，我的逻辑不起作用。

你们知道为什么这些坐标会改变吗？

这就是我在确定坐标后应用我的逻辑的方式。

coordinates amazon-textract

2020-11-11T14:03:31.070

0 投票

1 回答

227 浏览

amazon-web-services - AWS Textract 如何测量页数？

在亚马逊的定价页面上，它指出对于俄亥俄州的 US-east-1，定价为每页 5 美分的文档分析和表格。（https://aws.amazon.com/textract/pricing/）

我想知道如何测量页面 - 例如，如果表单的图像被裁剪并一起放入一个 PDF 中，这仍然构成一页吗？

另外，我知道 Textract 也会对图像进行处理。Textract 中的图像页面是如何构成的？

一种节省成本的机制是将分析所需的尽可能多的文本嵌入到一个 PDF 页面中，即使这可能会稍微降低准确性？

我们公司需要处理超过数百万张纸质表格，这实际上是每月 5,000 美元的账单与亚马逊每月 200,000 美元的账单之间的差异。因此，我们现在被迫以每页 0.1 美分的价格使用 DocumentDetection，但我们希望使用目前每页 6 美分的表单/表格数据分析。

amazon-web-services text-extraction amazon-textract

2020-12-15T12:45:13.590

0 投票

1 回答

361 浏览

amazon-web-services - AWS Textract 是否支持 png 文件中的印地语文本？

我需要对包含印地语、马拉地语、马拉雅拉姆语等语言文本的图像进行 OCR。我在 python 脚本中使用 AWS Textract API，但扫描的印地语文本文档上的 OCR 给出了不正确的英语类单词的响应。

AWS Textract 是否支持印地语？

请指导我。

先感谢您。

amazon-web-services ocr amazon-textract

2020-12-18T08:24:37.740

0 投票

0 回答

357 浏览

python-3.x - AWS Textract 无法识别 PDF 文档第二页的表格

我需要使用 AWS Textract 从账单副本中提取表格信息。它每次都给我几乎完美的结果，但对于某些 PDF 文档，它没有给我第二页的表格结果。

使用的代码示例：第一页的AWS 官方文档图像（JPEG）是

第二页的图像（JPEG）是

因此，AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页，CSV 的结果是：

最重要的是，我在类似类型的 PDF 中发现了相同的结果，它有 21 个条目，一个条目存在于 PDF 的第二页。我已经使用 PyPDF2 将 pdf 页面合并为一页，但没有解决我的问题。我需要使用任何 OpenCV 工具吗？请就这些类型的问题向我提出任何可能的建议。

python-3.x amazon-web-services data-extraction amazon-textract

2021-01-07T10:53:29.793

0 投票

1 回答

100 浏览

amazon-web-services - Amazon Textract、Elastic Beanstalk -assumed-role/aws-elasticbeanstalk-ec2-role/... 无权执行 textract:AnalyzeDocument

嗨，我在 Spring Boot 中构建了一个应用程序，该应用程序使用 amazon textract 从 pdf 文件中获取表数据。此应用程序安装在我的本地主机上时可以正常工作。现在我在 AWS 环境中创建了一个新的 Elastic Beanstalk 应用程序，并在那里上传了我的 spring jar。当我调用应用程序的 url 时，我可以验证应用程序是否存在，但是当我调用任何反过来调用 textract 服务的端点时，我会收到权限错误。

谁能给我关于如何/在哪里设置它的建议？

谢谢

amazon-web-services amazon-elastic-beanstalk amazon-textract

2021-01-11T15:52:42.910

问题标签 [amazon-textract]

Reference