问题标签 [amazon-textract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

163 问题

0 投票

2 回答

1079 浏览

amazon-web-services - AWS 文本 - UnsupportedDocumentException

在使用 boto3 for python 实现 aws 文本时。

代码：

下面是 aws 的凭证和配置文件

我得到了这个例外：

我对 AWS textract 有点陌生，任何帮助将不胜感激。

amazon-web-services amazon-textract

2020-04-20T10:21:19.030

0 投票

2 回答

622 浏览

amazon-web-services - aws textract - 按段落分组输出行

我已经开始试验aws-textract，特别是detect-document-text（文档：https ://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html ）。例如，图像内容是：

detect-document-text输出，正在返回 a JSON，其中每个BlockType节点是WORD，LINE或PAGE（附加了一些其他元素，例如，Relationships在哪里定义type和列表Id，Geometry信息（坐标）Confidence，等）。在这种情况下，每行的输出将包含一个BlockType( LINE)（如预期的那样），如下所示：

我的问题是下一个，是否有一个可以被覆盖的参数（例如行或单元格的跨度值以通过“句子”保持单个节点）或一种按段落分组行的选项（基于计算的坐标）意图有完整的句子？或者这是来自客户端的强制性后处理？想知道，似乎是一个常见的场景，所以尝试使用output查找它是否已经由textract或其他一些服务提供。awstextractJSON

2020-04-25T18:32:09.217

0 投票

0 回答

264 浏览

python-3.x - 使用 Python 和 AWS 解析医学测试并提取表和键值？

我想将医学测试加载到 S3，使用 AWS Textract 对其进行分析，提取表格并发送到 AWS Comprehend Medical。出于某种原因，运行大约需要 6-8 秒。

这是我到目前为止所做的，将感谢您的建议，或者也许有一个带有工作解决方案的回购。

示例图片：

python-3.x amazon-web-services amazon-textract amazon-comprehend

2020-05-06T11:13:46.287

0 投票

2 回答

109 浏览

python-3.x - 从混乱的 .csv 文件中解析/提取表？

我正在使用 Amazon Textract 解析图像 (png) 并提取表格。open(file_name, "r")当我打开它并阅读它的行时，这是一个这样的 csv 示例：

我可以阅读它，pandas read_csv但我遇到了错误（它总是以不同的格式出现——或多或少的空格，标题前的第一行不同）。请告知如何从此类 csv 中提取表格？

python-3.x pandas amazon-textract

2020-05-07T16:55:20.793

0 投票

1 回答

87 浏览

python-3.x - Extract medical marker name, values and units from analysed image?

I am using Amazon Textract to analyse anonymous blood tests. It consists of markers, their values, units, ref interval.

I want to extract them into a dictionary like this:

Here is an example of such OCR produced text:

Please advise what is the best way to extract this information, I have tried Amazon Comprehend medical - it does the job but not for all images. Tried SpaCy: https://github.com/NLPatVCU/medaCy, https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da

python-3.x text-extraction named-entity-recognition amazon-textract amazon-comprehend

2020-05-13T16:55:07.723

0 投票

2 回答

669 浏览

amazon-web-services - AWS 文本解析器

AWS Textract 的 cli 下载结果按钮是否可用？还是 AWS 使用的解析器可以在线获得？已经尝试搜索它，但没有运气。

amazon-web-services amazon-s3 amazon-textract

2020-05-16T13:18:23.110

0 投票

2 回答

799 浏览

python - boto3 textract start_document_text_detection 不接受用于 s3 上的输入文件的文件夹

我编写了一个 lambda 来从存储在 s3 中的图像文件中提取文本。lambda 由新对象触发。图像存储在文件夹中。当我测试存储在 S3 存储桶根目录上的文件时，一切正常。当我使用文件夹时，事情就会中断。

当 documentLocation 看起来像这样时：

一切正常。

当它看起来像这样时：

我得到InvalidParameterException

重现步骤

这是我的 lambda 函数（Python3.8，region:us-east-2）：

我使用 S3 触发器测试对此进行了测试，将文件名放在对象/键中。当我使用根文件进行测试时，一切正常，当我使用文件夹中的文件进行测试时，事情就中断了。休息时间如下：

调试日志

任何帮助将不胜感激，感谢您的时间。

python amazon-web-services aws-lambda boto3 amazon-textract

2020-05-18T03:45:06.963

0 投票

1 回答

263 浏览

python - 有什么方法可以使用 AWS textract API 而无需访问代码中的密钥？

我正在开发一个必须使用提取 API 的项目，与其他 API 相比，它提供了最好的结果。

要使用 API，我使用我的帐户 API 凭据。, 例如,我在我的桌面应用程序中实现了一个图像文本识别功能。它使用python作为后端（用于请求和处理）和PYQT5作为前端（从用户那里获取所需的文件）所以使用“AWS Textract”我将我的“访问密钥”和“秘密访问密钥”设置为环境变量如果我想将该项目导出到另一个系统，则为方便起见。

我必须提供我的访问密钥和秘密访问密钥才能正常工作。我不想分享的。我如何设法在桌面应用程序中使用 AWS Textract 而不在我的应用程序源代码中向用户提供敏感信息（这对我非常有害，因为 AWS 为试用用户提供了有限数量的 Textract 运行）

如果用户获得了访问密钥和秘密访问密钥，他们可能会使用它来创建批量请求。这不是应用程序使用它的目标。

这个想法也接受需要的帮助和修改。

python amazon-web-services amazon-s3 amazon-textract

2020-05-22T04:49:55.687

0 投票

1 回答

2173 浏览

python - 如何使用 Amazon Textract 以同步方式分析 PDF 文档？

我想从我拥有的一堆 PDF 中提取表格。为此，我使用 AWS Textract Python 管道。

请告知我如何在没有 SNS 和 SQS 的情况下做到这一点？我希望它是同步的：为我的管道提供一个 PDF 文件，调用 AWS Textract 并获取结果。

这是我同时使用的，请告知我应该更改什么：

python python-3.x amazon-web-services amazon-textract

2020-06-03T10:15:13.947

0 投票

1 回答

449 浏览

c# - Aws Textract 复选框检查了 c# 中 pdf 文档中的值

我正在使用 Amazon Textract 从 pdf 文档中提取文本（请参阅链接），它工作正常。我需要从同一个 pdf 文档中获取复选框的选中项。如何从 pdf 文档中获取复选框选择。请通过一些光线

c#amazon-web-services pdf checkbox amazon-textract

2020-06-03T10:37:49.950

1 2 3 4 5 6 7 8 9 10

问题标签 [amazon-textract]

Reference