问题标签 [amazon-textract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1079 浏览

amazon-web-services - AWS 文本 - UnsupportedDocumentException

在使用 boto3 for python 实现 aws 文本时。

代码:

下面是 aws 的凭证和配置文件

我得到了这个例外:

我对 AWS textract 有点陌生,任何帮助将不胜感激。

0 投票
2 回答
622 浏览

amazon-web-services - aws textract - 按段落分组输出行

我已经开始试验aws-textract,特别是detect-document-text(文档:https ://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html )。例如,图像内容是:

detect-document-text输出,正在返回 a JSON,其中每个BlockType节点是WORDLINEPAGE(附加了一些其他元素,例如,Relationships在哪里定义type和列表IdGeometry信息(坐标)Confidence,等)。在这种情况下,每行的输出将包含一个BlockType( LINE)(如预期的那样),如下所示:

我的问题是下一个,是否有一个可以被覆盖的参数(例如行或单元格的跨度值以通过“句子”保持单个节点)或一种按段落分组行的选项(基于计算的坐标)意图有完整的句子?或者这是来自客户端的强制性后处理?想知道,似乎是一个常见的场景,所以尝试使用output查找它是否已经由textract或其他一些服务提供。awstextractJSON

0 投票
0 回答
264 浏览

python-3.x - 使用 Python 和 AWS 解析医学测试并提取表和键值?

我想将医学测试加载到 S3,使用 AWS Textract 对其进行分析,提取表格并发送到 AWS Comprehend Medical。出于某种原因,运行大约需要 6-8 秒。

这是我到目前为止所做的,将感谢您的建议,或者也许有一个带有工作解决方案的回购。

示例图片: 在此处输入图像描述

0 投票
2 回答
109 浏览

python-3.x - 从混乱的 .csv 文件中解析/提取表?

我正在使用 Amazon Textract 解析图像 (png) 并提取表格。open(file_name, "r")当我打开它并阅读它的行时,这是一个这样的 csv 示例:

我可以阅读它,pandas read_csv但我遇到了错误(它总是以不同的格式出现——或多或少的空格,标题前的第一行不同)。请告知如何从此类 csv 中提取表格?

0 投票
1 回答
87 浏览

python-3.x - Extract medical marker name, values and units from analysed image?

I am using Amazon Textract to analyse anonymous blood tests. It consists of markers, their values, units, ref interval.

I want to extract them into a dictionary like this:

Here is an example of such OCR produced text:

Please advise what is the best way to extract this information, I have tried Amazon Comprehend medical - it does the job but not for all images. Tried SpaCy: https://github.com/NLPatVCU/medaCy, https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da

0 投票
2 回答
669 浏览

amazon-web-services - AWS 文本解析器

AWS Textract 的 cli 下载结果按钮是否可用?还是 AWS 使用的解析器可以在线获得?已经尝试搜索它,但没有运气。

0 投票
2 回答
799 浏览

python - boto3 textract start_document_text_detection 不接受用于 s3 上的输入文件的文件夹

我编写了一个 lambda 来从存储在 s3 中的图像文件中提取文本。lambda 由新对象触发。图像存储在文件夹中。当我测试存储在 S3 存储桶根目录上的文件时,一切正常。当我使用文件夹时,事情就会中断。

当 documentLocation 看起来像这样时:

一切正常。

当它看起来像这样时:

我得到InvalidParameterException

重现步骤

这是我的 lambda 函数(Python3.8,region:us-east-2):

我使用 S3 触发器测试对此进行了测试,将文件名放在对象/键中。当我使用根文件进行测试时,一切正常,当我使用文件夹中的文件进行测试时,事情就中断了。休息时间如下:

调试日志

任何帮助将不胜感激,感谢您的时间。

0 投票
1 回答
263 浏览

python - 有什么方法可以使用 AWS textract API 而无需访问代码中的密钥?

我正在开发一个必须使用提取 API 的项目,与其他 API 相比,它提供了最好的结果。

要使用 API,我使用我的帐户 API 凭据。, 例如,我在我的桌面应用程序中实现了一个图像文本识别功能。它使用python作为后端(用于请求和处理)和PYQT5作为前端(从用户那里获取所需的文件)所以使用“AWS Textract”我将我的“访问密钥”“秘密访问密钥”设置为环境变量如果我想将该项目导出到另一个系统,则为方便起见。

我必须提供我的访问密钥和秘密访问密钥才能正常工作。我不想分享的。我如何设法在桌面应用程序中使用 AWS Textract 而不在我的应用程序源代码中向用户提供敏感信息(这对我非常有害,因为 AWS 为试用用户提供了有限数量的 Textract 运行)

如果用户获得了访问密钥和秘密访问密钥,他们可能会使用它来创建批量请求。这不是应用程序使用它的目标。

这个想法也接受需要的帮助和修改。

0 投票
1 回答
2173 浏览

python - 如何使用 Amazon Textract 以同步方式分析 PDF 文档?

我想从我拥有的一堆 PDF 中提取表格。为此,我使用 AWS Textract Python 管道。

请告知我如何在没有 SNS 和 SQS 的情况下做到这一点?我希望它是同步的:为我的管道提供一个 PDF 文件,调用 AWS Textract 并获取结果。

这是我同时使用的,请告知我应该更改什么:

0 投票
1 回答
449 浏览

c# - Aws Textract 复选框检查了 c# 中 pdf 文档中的值

我正在使用 Amazon Textract 从 pdf 文档中提取文本(请参阅链接),它工作正常。我需要从同一个 pdf 文档中获取复选框的选中项。如何从 pdf 文档中获取复选框选择。请通过一些光线