问题标签 [amazon-textract]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

163 问题

0 投票

1 回答

271 浏览

amazon-web-services - TextRact 响应状态码不表示成功：400（错误请求）+ IAM Keys not found

我已经在登台服务器上推送了我的文本代码，现在我收到一个错误。

它正在开发一个开发系统。我不明白为什么会这样。

我正在使用 dotnet core 3.0

我正在关注此处提供的代码示例。[https://github.com/aws-samples/amazon-textract-code-samples/tree/master/src-csharp]

我对 IAM 凭证有疑问。为此，我在登台服务器上安装了适用于 Windows 和 AWS CLI 的 AWS 开发工具包工具，然后运行命令（此处提到 [https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure .html#cli-quick-configuration] ) 使用命令提示符进行配置。我认为它（IAM）可能会被保存到环境中。但没有成功。

在 S3 存储桶上上传文件的代码正在上传它，但是在向 Textract 服务发出请求时，它正在崩溃。

System.Net.Http.HttpRequestException：响应状态码不表示成功：400（错误请求）

我不明白是什么问题。在开发方面，它正在发挥作用。有什么帮助吗？

amazon-web-services .net-core amazon-textract

2020-02-25T15:58:47.753

0 投票

2 回答

2422 浏览

python - AWS Textract - UnsupportedDocumentException - PDF

我正在使用 boto3（用于 python 的 aws sdk）来分析文档（pdf）以获取表单键：值对。

我使用分析文档遵循了 AWS 的文档，当我运行我的函数时，我得到了错误。

我错过了什么吗？

python amazon-web-services boto3 amazon-textract

2020-03-03T06:34:37.263

0 投票

1 回答

385 浏览

python - AWS Textract 表提取将其中包含逗号的整数的行分解为另一列

我想使用 AWS Textract 将我的图像转换为 python 中的表格并将其下载为 CSV。

因此，我在这里遵循了 AWS 的文档和示例代码： https ://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

显然，上面链接中的代码会将整数中的逗号分隔到另一列中。我将用图像和步骤来解释重现以下错误：

所以这是我的表格的图像形式的例子。

如果您想重现错误，请克隆 github 存储库中的代码并在您的 cmd/终端中键入以下代码

错误如下：

正如您在 ["Amount (USD)"] 列中看到的，其中带有逗号的值将进入 ["Transaction Date"] 列。即使我在熊猫中阅读了 csv 文件也没有工作。

我想知道 GitHub 存储库中的哪一行代码将逗号分隔到另一列中

python amazon-web-services csv amazon-textract

2020-03-04T10:18:49.240

0 投票

1 回答

508 浏览

amazon-web-services - AWS Textract - 有没有办法区分哪些单词是粗体的？

我正在将 AWS 的文本用于文档，但它似乎没有检测到文本是否为粗体。有什么我遗漏的东西还是不是一个功能？

amazon-web-services amazon-textract

2020-03-05T17:19:00.173

0 投票

1 回答

27 浏览

fonts - 微软计算机视觉可以提取字体信息吗

我正在使用 Microsoft 计算机视觉提取文本，它返回给我一个 JSON 响应。Microsoft 计算机视觉是否能够连同 JSON 响应一起提取字体信息。或者就此而言，目前是否有任何 OCR 技术返回字体信息？

fonts computer-vision ocr tesseract amazon-textract

2020-03-29T13:57:09.120

0 投票

1 回答

209 浏览

amazon-web-services - 在 AWS 中存储和执行大文本搜索

我需要从 S3 中的 PDF 和图像文件中获取 OCR（光学字符识别）数据，以便用户可以对该 OCR 数据执行搜索。我正在使用 AWS Textract 进行文本提取以获取 OCR 数据。

我打算将 OCR 数据存储在 Dynamo DB 中并在其中执行搜索查询。

我面临的问题是由于 dynamo db 项目的大小限制为 400KB。

我遇到用户在 S3 中上传 100+ MB PDF 文件的情况，其中提取的文本内容将超过此限制。那么在这种情况下最好的方法是什么。

请帮助提前谢谢！

amazon-web-services amazon-s3 amazon-dynamodb amazon-textract

2020-04-06T20:50:33.290

0 投票

2 回答

961 浏览

amazon-web-services - 使用 SNS 通知通道启动 Textract 作业时出现 InvalidParameterException

当我启动一个文本 StartDocumentTextDetection 并尝试设置 NotificationChannel 如下

我收到一个 InvalidParameterException

调用 StartDocumentTextDetection 操作时发生错误（InvalidParameterException）：请求具有无效参数

python 3.7 boto3 1.12.35

amazon-web-services amazon-textract

2020-04-06T21:52:10.473

0 投票

0 回答

127 浏览

amazon-web-services - AWS Textract 没有选择单选按钮

根据AWS Textract 的文档，它能够选择复选框和单选按钮。但是，我正在上传我能想到的最简单的例子，干净的床单，清晰的空间单选按钮选项：

我尝试了另一个版本，单选按钮旁边有文字：

当我通过 Textract 控制台运行任一版本并下载apiResponse.json（我已在此处上传了一个要点）时，我发现它只选择了两个单选按钮（即，如果您搜索SELECTION_ELEMENT，您只会找到两个实例，当明显有 5 个单选按钮时。

我不知道如何使单选按钮更加明显。这与复选框类似。

有什么关于我缺少的单选按钮的吗？我觉得我一定是忽略了一些简单的事情——在拾取单选按钮方面，Textract 的性能肯定不会这么低吗？

amazon-web-services computer-vision ocr amazon-textract

2020-04-07T01:56:52.890

0 投票

2 回答

1503 浏览

java - 如何在java中使用AWS Textract检索pdf中存在的表

我在下面找到了用 python 做的文章。

https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html

我也使用下面的文章来提取文本。

https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html

但是上面的文章只帮助获取了文本，我还使用了 Block 的函数“block.getBlockType()”，但没有一个块将其类型返回为“CELL”，即使图像/pdf 中有表格。

帮我找到类似于“boto3”的java库来提取所有表。

java amazon-web-services spring-boot amazon-textract

2020-04-07T18:30:51.100

0 投票

1 回答

199 浏览

android - 来自游戏记分牌的 OCR

我想从战场和火箭联盟等不同游戏的图像中获取记分牌/排行榜数据。

为此，我使用 amazon textract API 从图像中获取记分牌数据。

但亚马逊 textract API 有时会给我一个错误的结果，比如 7 而不是 0，有时它无法从记分板上识别字符，结果只有 90% 不是 100%，我们需要 100% 准确的数据。

如果有任何其他 API 或任何其他相关解决方案可用于获取 100% 数据，请告知我们。欣赏

android laravel amazon-web-services ocr amazon-textract

2020-04-14T13:16:22.890

1 2 3 4 5 6 7 8 9 10