问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 如何使用 a2i 的 crowd-texttract-analyze-document 突出显示自定义提取?
我想为使用 Amazon Textract 进行 OCR 和使用 Amazon Comprehend 进行实体提取的图像创建人工审核循环。
我的流程是:
- 将图像发送到 Textract 以提取文本
- 向 Comprehend 发送文本以提取实体
- 在 Textract 的 Comprehend 提取的实体的输出中找到块 ID
- 根据文档将新的类型块添加
KEY_VALUE_SET
到 textract 的 JSON 输出 - 使用模板中的元素创建一个人工任务
crowd-textract-analyze-document
并将修改后的文本输出提供给它
在此过程中失败的是第 5 步。我的自定义实体未正确呈现。“无法工作”是指当我在侧边栏上单击实体时,实体没有在图像上突出显示。浏览器的控制台没有错误。
有没有人尝试过这样的事情?
很抱歉没有包括示例。我将从我的文件中删除机密/PII 并将它们附加到问题中
python - 使用 Textract,如何从 pdf 文件中提取表格并通过 .py 脚本将其输出到 csv 文件中?
我想使用 textract(通过 aws cli)从 pdf 文件(位于 s3 位置)中提取表并将其导出到 csv 文件中。我曾尝试编写一个 .py 脚本,但很难从文件中读取。欢迎任何有关编写 .py 脚本的建议。
这是我当前的脚本。我遇到了错误:文件“extract-table.py”,第 63 行,在 get_table_csv_results bash:文件:找不到命令 blocks=response['Blocks'] KeyError:'Blocks'
python - Lambda 和 Textract:start_document_text_detection 未知参数“OutputConfig”
我正在尝试使用 Lambda 函数和 Textract 从 PDF 中提取文本。
我的问题是: 如何调用“start_document_text_detection”以便 Textract 自动将其响应发送到 S3?
我收到一条错误消息:
[错误] ParamValidationError:参数验证失败:输入中的未知参数:“OutputConfig”,必须是以下之一:DocumentLocation、ClientRequestToken、JobTag、NotificationChannel
我的代码:
Boto3 文档显示我可以传递一个名为“OutputConfig”的参数: https ://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/textract.html#Textract.Client.start_document_text_detection
AWS Textract 的官方文档也说它是一个有效参数:
另一个可用的可选参数是OutputConfig,它允许您调整输出的放置位置。默认情况下,Amazon Textract 将在内部存储结果,并且只能通过 Get API 操作访问。启用 OutputConfig 后,您可以设置将输出发送到的存储桶的名称及其文件前缀,您可以在其中以 JSON 格式下载结果。这允许使用用户创建的存储桶来存储结果。
https://docs.aws.amazon.com/textract/latest/dg/api-async.html
amazon-web-services - 如何允许 AWS Textract 访问受保护的 S3 存储桶
我有只允许从 VPC 访问的存储桶策略:
我也想允许来自 AWS Textract 的流量到这个存储桶。我尝试了各种方法,但由于“明确拒绝”(我需要)的绝对优先级,我无法使其工作。
是否有不同的策略制定或完全不同的方法来限制对这个 S3 存储桶的访问仅限于来自 VPC 和来自 Textract 服务的流量?
coordinates - Amazon Textract 边界框坐标为特定块更改
我正在使用 Amazon Textract 进行文本检测或原始文本、表单和表格。
我正在为此上传 PDF。
我正在使用坐标从原始文本中获取值。我成功地获得了价值。但是几天后,该特定块的边界框坐标发生了变化。然后,我的逻辑不起作用。
你们知道为什么这些坐标会改变吗?
这就是我在确定坐标后应用我的逻辑的方式。
amazon-web-services - AWS Textract 如何测量页数?
在亚马逊的定价页面上,它指出对于俄亥俄州的 US-east-1,定价为每页 5 美分的文档分析和表格。(https://aws.amazon.com/textract/pricing/)
我想知道如何测量页面 - 例如,如果表单的图像被裁剪并一起放入一个 PDF 中,这仍然构成一页吗?
另外,我知道 Textract 也会对图像进行处理。Textract 中的图像页面是如何构成的?
一种节省成本的机制是将分析所需的尽可能多的文本嵌入到一个 PDF 页面中,即使这可能会稍微降低准确性?
我们公司需要处理超过数百万张纸质表格,这实际上是每月 5,000 美元的账单与亚马逊每月 200,000 美元的账单之间的差异。因此,我们现在被迫以每页 0.1 美分的价格使用 DocumentDetection,但我们希望使用目前每页 6 美分的表单/表格数据分析。
amazon-web-services - AWS Textract 是否支持 png 文件中的印地语文本?
我需要对包含印地语、马拉地语、马拉雅拉姆语等语言文本的图像进行 OCR。我在 python 脚本中使用 AWS Textract API,但扫描的印地语文本文档上的 OCR 给出了不正确的英语类单词的响应。
AWS Textract 是否支持印地语?
请指导我。
先感谢您。
python-3.x - AWS Textract 无法识别 PDF 文档第二页的表格
我需要使用 AWS Textract 从账单副本中提取表格信息。它每次都给我几乎完美的结果,但对于某些 PDF 文档,它没有给我第二页的表格结果。
使用的代码示例:第一页的AWS 官方文档 图像(JPEG)是
因此,AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页,CSV 的结果是:
最重要的是,我在类似类型的 PDF 中发现了相同的结果,它有 21 个条目,一个条目存在于 PDF 的第二页。我已经使用 PyPDF2 将 pdf 页面合并为一页,但没有解决我的问题。我需要使用任何 OpenCV 工具吗?请就这些类型的问题向我提出任何可能的建议。
amazon-web-services - Amazon Textract、Elastic Beanstalk -assumed-role/aws-elasticbeanstalk-ec2-role/... 无权执行 textract:AnalyzeDocument
嗨,我在 Spring Boot 中构建了一个应用程序,该应用程序使用 amazon textract 从 pdf 文件中获取表数据。此应用程序安装在我的本地主机上时可以正常工作。现在我在 AWS 环境中创建了一个新的 Elastic Beanstalk 应用程序,并在那里上传了我的 spring jar。当我调用应用程序的 url 时,我可以验证应用程序是否存在,但是当我调用任何反过来调用 textract 服务的端点时,我会收到权限错误。
谁能给我关于如何/在哪里设置它的建议?
谢谢