问题标签 [amazon-textract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
271 浏览

amazon-web-services - TextRact 响应状态码不表示成功:400(错误请求)+ IAM Ke​​ys not found

我已经在登台服务器上推送了我的文本代码,现在我收到一个错误。

它正在开发一个开发系统。我不明白为什么会这样。

我正在使用 dotnet core 3.0

我正在关注此处提供的代码示例。[https://github.com/aws-samples/amazon-textract-code-samples/tree/master/src-csharp]

我对 IAM 凭证有疑问。为此,我在登台服务器上安装了适用于 Windows 和 AWS CLI 的 AWS 开发工具包工具,然后运行命令(此处提到 [https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure .html#cli-quick-configuration] ) 使用命令提示符进行配置。我认为它(IAM)可能会被保存到环境中。但没有成功。

在 S3 存储桶上上传文件的代码正在上传它,但是在向 Textract 服务发出请求时,它正在崩溃。

System.Net.Http.HttpRequestException:响应状态码不表示成功:400(错误请求)

我不明白是什么问题。在开发方面,它正在发挥作用。有什么帮助吗?

0 投票
2 回答
2422 浏览

python - AWS Textract - UnsupportedDocumentException - PDF

我正在使用 boto3(用于 python 的 aws sdk)来分析文档(pdf)以获取表单键:值对。

我使用分析文档遵循了 AWS 的文档,当我运行我的函数时,我得到了错误。

我错过了什么吗?

0 投票
1 回答
385 浏览

python - AWS Textract 表提取将其中包含逗号的整数的行分解为另一列

我想使用 AWS Textract 将我的图像转换为 python 中的表格并将其下载为 CSV。

因此,我在这里遵循了 AWS 的文档和示例代码: https ://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

显然,上面链接中的代码会将整数中的逗号分隔到另一列中。我将用图像和步骤来解释重现以下错误:

所以这是我的表格的图像形式的例子。 在此处输入图像描述

如果您想重现错误,请克隆 github 存储库中的代码并在您的 cmd/终端中键入以下代码

错误如下:

在此处输入图像描述

正如您在 ["Amount (USD)"] 列中看到的,其中带有逗号的值将进入 ["Transaction Date"] 列。即使我在熊猫中阅读了 csv 文件也没有工作。

我想知道 GitHub 存储库中的哪一行代码将逗号分隔到另一列中

0 投票
1 回答
508 浏览

amazon-web-services - AWS Textract - 有没有办法区分哪些单词是粗体的?

我正在将 AWS 的文本用于文档,但它似乎没有检测到文本是否为粗体。有什么我遗漏的东西还是不是一个功能?

在此处输入图像描述

0 投票
1 回答
27 浏览

fonts - 微软计算机视觉可以提取字体信息吗

我正在使用 Microsoft 计算机视觉提取文本,它返回给我一个 JSON 响应。Microsoft 计算机视觉是否能够连同 JSON 响应一起提取字体信息。或者就此而言,目前是否有任何 OCR 技术返回字体信息?

0 投票
1 回答
209 浏览

amazon-web-services - 在 AWS 中存储和执行大文本搜索

我需要从 S3 中的 PDF 和图像文件中获取 OCR(光学字符识别)数据,以便用户可以对该 OCR 数据执行搜索。我正在使用 AWS Textract 进行文本提取以获取 OCR 数据。

我打算将 OCR 数据存储在 Dynamo DB 中并在其中执行搜索查询。

我面临的问题是由于 dynamo db 项目的大小限制为 400KB。

我遇到用户在 S3 中上传 100+ MB PDF 文件的情况,其中提取的文本内容将超过此限制。那么在这种情况下最好的方法是什么。

请帮助提前谢谢!

0 投票
2 回答
961 浏览

amazon-web-services - 使用 SNS 通知通道启动 Textract 作业时出现 InvalidParameterException

当我启动一个文本 StartDocumentTextDetection 并尝试设置 NotificationChannel 如下

我收到一个 InvalidParameterException

调用 StartDocumentTextDetection 操作时发生错误(InvalidParameterException):请求具有无效参数

python 3.7 boto3 1.12.35

0 投票
0 回答
127 浏览

amazon-web-services - AWS Textract 没有选择单选按钮

根据AWS Textract 的文档,它能够选择复选框和单选按钮。但是,我正在上传我能想到的最简单的例子,干净的床单,清晰的空间单选按钮选项:

在此处输入图像描述

我尝试了另一个版本,单选按钮旁边有文字: 在此处输入图像描述

当我通过 Textract 控制台运行任一版本并下载apiResponse.json(我已在此处上传了一个要点)时,我发现它只选择了两个单选按钮(即,如果您搜索SELECTION_ELEMENT您只会找到两个实例,当明显有 5 个单选按钮时。

我不知道如何使单选按钮更加明显。这与复选框类似。

有什么关于我缺少的单选按钮的吗?我觉得我一定是忽略了一些简单的事情——在拾取单选按钮方面,Textract 的性能肯定不会这么低吗?

0 投票
2 回答
1503 浏览

java - 如何在java中使用AWS Textract检索pdf中存在的表

我在下面找到了用 python 做的文章。

https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html

我也使用下面的文章来提取文本。

https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html

但是上面的文章只帮助获取了文本,我还使用了 Block 的函数“block.getBlockType()”,但没有一个块将其类型返回为“CELL”,即使图像/pdf 中有表格。

帮我找到类似于“boto3”的java库来提取所有表。

0 投票
1 回答
199 浏览

android - 来自游戏记分牌的 OCR

我想从战场和火箭联盟等不同游戏的图像中获取记分牌/排行榜数据。

为此,我使用 amazon textract API 从图像中获取记分牌数据。

但亚马逊 textract API 有时会给我一个错误的结果,比如 7 而不是 0,有时它无法从记分板上识别字符,结果只有 90% 不是 100%,我们需要 100% 准确的数据。

如果有任何其他 API 或任何其他相关解决方案可用于获取 100% 数据,请告知我们。欣赏