问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - TextRact 响应状态码不表示成功:400(错误请求)+ IAM Keys not found
我已经在登台服务器上推送了我的文本代码,现在我收到一个错误。
它正在开发一个开发系统。我不明白为什么会这样。
我正在使用 dotnet core 3.0
我正在关注此处提供的代码示例。[https://github.com/aws-samples/amazon-textract-code-samples/tree/master/src-csharp]
我对 IAM 凭证有疑问。为此,我在登台服务器上安装了适用于 Windows 和 AWS CLI 的 AWS 开发工具包工具,然后运行命令(此处提到 [https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure .html#cli-quick-configuration] ) 使用命令提示符进行配置。我认为它(IAM)可能会被保存到环境中。但没有成功。
在 S3 存储桶上上传文件的代码正在上传它,但是在向 Textract 服务发出请求时,它正在崩溃。
System.Net.Http.HttpRequestException:响应状态码不表示成功:400(错误请求)
我不明白是什么问题。在开发方面,它正在发挥作用。有什么帮助吗?
python - AWS Textract - UnsupportedDocumentException - PDF
我正在使用 boto3(用于 python 的 aws sdk)来分析文档(pdf)以获取表单键:值对。
我使用分析文档遵循了 AWS 的文档,当我运行我的函数时,我得到了错误。
我错过了什么吗?
python - AWS Textract 表提取将其中包含逗号的整数的行分解为另一列
我想使用 AWS Textract 将我的图像转换为 python 中的表格并将其下载为 CSV。
因此,我在这里遵循了 AWS 的文档和示例代码: https ://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py
显然,上面链接中的代码会将整数中的逗号分隔到另一列中。我将用图像和步骤来解释重现以下错误:
如果您想重现错误,请克隆 github 存储库中的代码并在您的 cmd/终端中键入以下代码
错误如下:
正如您在 ["Amount (USD)"] 列中看到的,其中带有逗号的值将进入 ["Transaction Date"] 列。即使我在熊猫中阅读了 csv 文件也没有工作。
我想知道 GitHub 存储库中的哪一行代码将逗号分隔到另一列中
fonts - 微软计算机视觉可以提取字体信息吗
我正在使用 Microsoft 计算机视觉提取文本,它返回给我一个 JSON 响应。Microsoft 计算机视觉是否能够连同 JSON 响应一起提取字体信息。或者就此而言,目前是否有任何 OCR 技术返回字体信息?
amazon-web-services - 在 AWS 中存储和执行大文本搜索
我需要从 S3 中的 PDF 和图像文件中获取 OCR(光学字符识别)数据,以便用户可以对该 OCR 数据执行搜索。我正在使用 AWS Textract 进行文本提取以获取 OCR 数据。
我打算将 OCR 数据存储在 Dynamo DB 中并在其中执行搜索查询。
我面临的问题是由于 dynamo db 项目的大小限制为 400KB。
我遇到用户在 S3 中上传 100+ MB PDF 文件的情况,其中提取的文本内容将超过此限制。那么在这种情况下最好的方法是什么。
请帮助提前谢谢!
amazon-web-services - 使用 SNS 通知通道启动 Textract 作业时出现 InvalidParameterException
当我启动一个文本 StartDocumentTextDetection 并尝试设置 NotificationChannel 如下
我收到一个 InvalidParameterException
调用 StartDocumentTextDetection 操作时发生错误(InvalidParameterException):请求具有无效参数
python 3.7 boto3 1.12.35
amazon-web-services - AWS Textract 没有选择单选按钮
根据AWS Textract 的文档,它能够选择复选框和单选按钮。但是,我正在上传我能想到的最简单的例子,干净的床单,清晰的空间单选按钮选项:
当我通过 Textract 控制台运行任一版本并下载apiResponse.json
(我已在此处上传了一个要点)时,我发现它只选择了两个单选按钮(即,如果您搜索SELECTION_ELEMENT
,您只会找到两个实例,当明显有 5 个单选按钮时。
我不知道如何使单选按钮更加明显。这与复选框类似。
有什么关于我缺少的单选按钮的吗?我觉得我一定是忽略了一些简单的事情——在拾取单选按钮方面,Textract 的性能肯定不会这么低吗?
java - 如何在java中使用AWS Textract检索pdf中存在的表
我在下面找到了用 python 做的文章。
https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html
我也使用下面的文章来提取文本。
https://docs.aws.amazon.com/textract/latest/dg/detecting-document-text.html
但是上面的文章只帮助获取了文本,我还使用了 Block 的函数“block.getBlockType()”,但没有一个块将其类型返回为“CELL”,即使图像/pdf 中有表格。
帮我找到类似于“boto3”的java库来提取所有表。
android - 来自游戏记分牌的 OCR
我想从战场和火箭联盟等不同游戏的图像中获取记分牌/排行榜数据。
为此,我使用 amazon textract API 从图像中获取记分牌数据。
但亚马逊 textract API 有时会给我一个错误的结果,比如 7 而不是 0,有时它无法从记分板上识别字符,结果只有 90% 不是 100%,我们需要 100% 准确的数据。
如果有任何其他 API 或任何其他相关解决方案可用于获取 100% 数据,请告知我们。欣赏