问题标签 [amazon-comprehend]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
271 浏览

amazon-web-services - 卓:如何知道异步理解作业何时完成?

有没有办法知道理解异步作业何时完成?

例如:

我需要在完成后读取情绪分析作业的输出,而不是通过阻止程序并等待。我认为应该有一种方法来触发 lambda 函数或类似的东西。

请注意,当作业完成时,它会将结果写入名为 output.tar.gz 的文件中的 s3_bucket

谢谢。

0 投票
1 回答
136 浏览

amazon-web-services - 如何知道 AWS Comprehend 的工作已经完成?

我的理解有问题:我需要知道工作什么时候完成。领悟有 10 个工作的限制。为了运行新工作,我必须知道完成旧工作。我该怎么做?在 s3 输出存储桶中检查文件的创建是不合适的,因为当文件已经创建时,作业的 IN_PROGRESS 状态仍然大约 2 分钟。因此我无法运行新工作。

0 投票
1 回答
67 浏览

nlp - 从文本中提取结构化数据

是否有任何可用的工具/库(最好是已建立/可靠的商业产品或开源)可以从纯文本中提取结构化数据?通常纯文本包含布尔或数学操作数,如(AND、OR、BETWEEN 等)。

我喜欢 AWS Comprehend,但我不确定它是否可以轻松用于此任务。

0 投票
3 回答
168 浏览

amazon-web-services - AWS Comprehend 是否对图像进行分类?

我对 AWS Comprehend 还很陌生。我知道 AWS Comprehend 可以自定义分类文档(文本文件)。AWS Comprehend 是否也对图像文件进行分类?此外,在训练模型时,是否有必要在 CSV 中提供整个文档文本,还是只使用关键字?

原因是,我想构建一个自定义分类器,可以对发票、付款存根和其他一些图像格式的此类文档类型进行分类。领悟能做到吗?如果有怎么办?

谷歌搜索了很多,但找不到任何相关的东西。非常感谢您对此的帮助。

谢谢!

0 投票
1 回答
237 浏览

python-3.x - 计算 AWS Comprehend Sentiment 成本

我想以编程方式估算调用 AWS Comprehend Sentiment API 的成本。我搜索了 SO 和AWS 计算器,但找不到方法。此外,我确信我将发送大量文本的成本会很小,但我真的很想知道。

根据此处的定价信息,我编写了以下代码。这是对的吗?

0 投票
1 回答
60 浏览

amazon-cloudtrail - AWS Comprehend 同步调用(例如 BatchDetectSentiment)是否记录在 Cloudtrail 中?

AWS 文档明确列出了此处记录的 API 调用:Logging Amazon Comprehend API Calls with AWS CloudTrail,它们似乎不包括在内,但同时这里有一个示例:Logging Amazon Comprehend Medical API Calls by Using AWS CloudTrail显示 DetectEntities。

0 投票
0 回答
264 浏览

python-3.x - 使用 Python 和 AWS 解析医学测试并提取表和键值?

我想将医学测试加载到 S3,使用 AWS Textract 对其进行分析,提取表格并发送到 AWS Comprehend Medical。出于某种原因,运行大约需要 6-8 秒。

这是我到目前为止所做的,将感谢您的建议,或者也许有一个带有工作解决方案的回购。

示例图片: 在此处输入图像描述

0 投票
1 回答
87 浏览

python-3.x - Extract medical marker name, values and units from analysed image?

I am using Amazon Textract to analyse anonymous blood tests. It consists of markers, their values, units, ref interval.

I want to extract them into a dictionary like this:

Here is an example of such OCR produced text:

Please advise what is the best way to extract this information, I have tried Amazon Comprehend medical - it does the job but not for all images. Tried SpaCy: https://github.com/NLPatVCU/medaCy, https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da

0 投票
2 回答
566 浏览

amazon-web-services - AWS Comprehend + Pyspark UDF = 错误:无法腌制 SSLContext 对象

应用调用 AWS API 的 Pyspark UDF 时,出现错误

代码是

其中df.Conversa包含简短的简单字符串。请问,我该如何解决这个问题?或者有什么替代方法?

0 投票
1 回答
171 浏览

python - 如何合并 AWS Comprehend batch_detect_key_phrases() ResultList 和 ErrorList

我有一个带有推文的数据框。每行对应 1 条推文。我可以使用 AWS Comprehend batch_detect_key_phrases() 获取关键短语。batch_detect_key_phrases() 在负载中返回一个 ResultList 和 ErrorList。为了将关键短语结果合并回数据框中,它们需要与原始推文对齐,因此我需要保持 ResultList 和 ErrorList 对齐。

第267 行的代码分别处理 ErrorList 和 ResultList。

根据 Python Boto 文档,“ErrorList (list) - 一个列表,其中包含每个包含错误的文档的一个对象。结果按索引字段按升序排序,并与输入列表中文档的顺序相匹配。 ..”

我在下面编写的代码使用 ResultList 和 ErrorList 索引号来确保它们被正确地合并到一个 keyPhrases 列表中,然后该列表将被合并回原始数据框。本质上,keyPhrases[0] 是与数据帧第 0 行关联的关键短语。如果在处理推文时出现错误,则会将占位符错误消息添加到数据帧中的该行。

我认为我可以保持 ResultList 和 ErrorList 对齐的唯一另一种方法是将 2 个列表合并到一个更大的列表中,该列表按它们各自的索引升序排列。接下来,我将处理该 1 个更大的列表。

是否有更简单的方法来处理 ResultList 和 ErrorList 以使它们保持对齐?