问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS 文本 - UnsupportedDocumentException
在使用 boto3 for python 实现 aws 文本时。
代码:
下面是 aws 的凭证和配置文件
我得到了这个例外:
我对 AWS textract 有点陌生,任何帮助将不胜感激。
amazon-web-services - aws textract - 按段落分组输出行
我已经开始试验aws-textract
,特别是detect-document-text
(文档:https ://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html )。例如,图像内容是:
detect-document-text
输出,正在返回 a JSON
,其中每个BlockType
节点是WORD
,LINE
或PAGE
(附加了一些其他元素,例如,Relationships
在哪里定义type
和列表Id
,Geometry
信息(坐标)Confidence
,等)。在这种情况下,每行的输出将包含一个BlockType
( LINE
)(如预期的那样),如下所示:
我的问题是下一个,是否有一个可以被覆盖的参数(例如行或单元格的跨度值以通过“句子”保持单个节点)或一种按段落分组行的选项(基于计算的坐标)意图有完整的句子?或者这是来自客户端的强制性后处理?想知道,似乎是一个常见的场景,所以尝试使用output查找它是否已经由textract
或其他一些服务提供。aws
textract
JSON
python-3.x - 从混乱的 .csv 文件中解析/提取表?
我正在使用 Amazon Textract 解析图像 (png) 并提取表格。open(file_name, "r")
当我打开它并阅读它的行时,这是一个这样的 csv 示例:
我可以阅读它,pandas
read_csv
但我遇到了错误(它总是以不同的格式出现——或多或少的空格,标题前的第一行不同)。请告知如何从此类 csv 中提取表格?
python-3.x - Extract medical marker name, values and units from analysed image?
I am using Amazon Textract to analyse anonymous blood tests. It consists of markers, their values, units, ref interval.
I want to extract them into a dictionary like this:
Here is an example of such OCR produced text:
Please advise what is the best way to extract this information, I have tried Amazon Comprehend medical - it does the job but not for all images. Tried SpaCy: https://github.com/NLPatVCU/medaCy, https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da
amazon-web-services - AWS 文本解析器
AWS Textract 的 cli 下载结果按钮是否可用?还是 AWS 使用的解析器可以在线获得?已经尝试搜索它,但没有运气。
python - boto3 textract start_document_text_detection 不接受用于 s3 上的输入文件的文件夹
我编写了一个 lambda 来从存储在 s3 中的图像文件中提取文本。lambda 由新对象触发。图像存储在文件夹中。当我测试存储在 S3 存储桶根目录上的文件时,一切正常。当我使用文件夹时,事情就会中断。
当 documentLocation 看起来像这样时:
一切正常。
当它看起来像这样时:
我得到InvalidParameterException
重现步骤
这是我的 lambda 函数(Python3.8,region:us-east-2):
我使用 S3 触发器测试对此进行了测试,将文件名放在对象/键中。当我使用根文件进行测试时,一切正常,当我使用文件夹中的文件进行测试时,事情就中断了。休息时间如下:
调试日志
任何帮助将不胜感激,感谢您的时间。
python - 有什么方法可以使用 AWS textract API 而无需访问代码中的密钥?
我正在开发一个必须使用提取 API 的项目,与其他 API 相比,它提供了最好的结果。
要使用 API,我使用我的帐户 API 凭据。, 例如,我在我的桌面应用程序中实现了一个图像文本识别功能。它使用python作为后端(用于请求和处理)和PYQT5作为前端(从用户那里获取所需的文件)所以使用“AWS Textract”我将我的“访问密钥”和“秘密访问密钥”设置为环境变量如果我想将该项目导出到另一个系统,则为方便起见。
我必须提供我的访问密钥和秘密访问密钥才能正常工作。我不想分享的。我如何设法在桌面应用程序中使用 AWS Textract 而不在我的应用程序源代码中向用户提供敏感信息(这对我非常有害,因为 AWS 为试用用户提供了有限数量的 Textract 运行)
如果用户获得了访问密钥和秘密访问密钥,他们可能会使用它来创建批量请求。这不是应用程序使用它的目标。
这个想法也接受需要的帮助和修改。
python - 如何使用 Amazon Textract 以同步方式分析 PDF 文档?
我想从我拥有的一堆 PDF 中提取表格。为此,我使用 AWS Textract Python 管道。
请告知我如何在没有 SNS 和 SQS 的情况下做到这一点?我希望它是同步的:为我的管道提供一个 PDF 文件,调用 AWS Textract 并获取结果。
这是我同时使用的,请告知我应该更改什么:
c# - Aws Textract 复选框检查了 c# 中 pdf 文档中的值
我正在使用 Amazon Textract 从 pdf 文档中提取文本(请参阅链接),它工作正常。我需要从同一个 pdf 文档中获取复选框的选中项。如何从 pdf 文档中获取复选框选择。请通过一些光线