问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 是否提供任何用户界面来与源文档并排查看 AWS Textract OCR 输出?
AWS 文本在向其传递文档后输出 JSON 结果。我有兴趣使用此输出以某种方式并排查看源文档(例如 pdf)和输出。现在有任何工具支持吗?
例如,API 开发者客户究竟如何以 UI 类型的方式使用输出,以查看结果与源代码的比较情况?非常感谢任何见解。
这可能是一个示例,但不适用于 AWS 输出模式
node.js - 使用nodejs服务器和reactjs网页从pdf中提取文本的问题
以下是我的 textractUtils.js 代码 -
它适用于图像,但不适用于 pdf(单页和多页)。以下是我通过导入pdf运行它时的错误-
我尝试过的东西是包含图像的非文本、包含图像的文本、包含图像的表格、单页 pdf 和多页 pdf。我也有一个概念上的疑问,如果我已经导入了 aws-sdk,为什么要为 pdf 编码,因为 textract 的 aws-sdk 会处理 pdf、png、jpeg 和 jpg 格式的图像?我必须对 textractUtils.js 进行哪些更改才能处理 epdf 文件?
javascript - 如果我有来自 AWS textract 方法(StartDocumentAnalysis)的 JobId,如何找到提取的文本?
我这里有这段代码-
现在我得到了 JobId。这是一个异步操作。如何在不使用 AWS SNS 的情况下将此 JobId 传递给 getDocumentAnalysis 方法?(作为试验,我还可以将所需输出的代码延迟为提取单词的 json 格式列表。但我该如何处理呢?)
javascript - 过滤掉 AWS Textract 函数返回的数据
我提取了 Textract AWS 函数返回的数据。此 Textract 函数的返回数据类型为以下类型:
我通过以下代码从这些数据中提取了块:
它以 JSON 对象数组的形式提供输出。下面给出了提取文本的示例:
我只想提取文本字段并将其视为唯一的输出。我该如何开始呢?
java - AWS-Textract-Key-Value-Pair Java - 线程“主”java.lang.NullPointerException
我在 Java Spring 启动项目中使用 AWS Textract。我已经设置了 AWS CLI 并将开发工具包作为 maven 依赖项。
我编写了从 C# 转换的 Java 代码以提取键和值对,并且在成功提取一些单词后收到以下错误
“ AGENCYCUSTOMERID:FEIN(如果适用)MARITALSTATUS/CIVILUNION(如果适用)保险地点代码BUSPRIMARYE-MAILADDRESS:FEIN(如果适用)LINEOFBUSINESSCELLMARITALSTATUScivilUNION(如果适用)CELLCELLHOME ”:
通过调试,我发现导致错误的行是:
似乎在找到 SELECTION ELEMENT / CHECKBOX 后它失败了?
我的代码:
}
我不确定是什么问题?
node.js - Textract 异步读取 PDF
从文本文档:Documents for synchronous operations can be in PNG or JPEG format. Documents for asynchronous operations can also be in PDF format.
我有一个 Node.js 应用程序,我在其中使用异步 Textract 读取 PDF 文件。我的代码如下所示:
此处的文件已从操作系统中读取,为 Buffer 格式。由于前 4 个字节,我可以确认它是 PDF 文件(Detecting file type from buffer in node js?):
我收到的错误是UnsupportedDocumentException
.
python - 使用 Amazon Textract 从多页文档 PDF 中同步检测和分析文本
回答https://stackoverflow.com/a/62174368/8117673
进一步的问题是 - 它会影响Amazon Textract文本检测的准确性吗?
我是否需要对图像进行预处理才能从 Amazon Textract 获得更好的结果?
python - 提取不支持的文档异常
我正在尝试使用 boto3 来运行 textract detect_document_text 请求。
我正在使用以下代码:
其中 image_b64['document_b64'] 是我转换的 base64 图像代码,例如https://base64.guru/converter/encode/image网站。
但我收到以下错误:
我做错了什么?
python - AWS Python CORS 标头
我正在尝试使用 Amazon Textract,但在我的 API 调用中,它说allow-access-origin-header not present
并且使 API 无法正常工作。我已采取措施查看 API 本身确实有效,但我无法使用它来部署给想要使用 OCR 的客户。有没有一个 python 包或者可能有办法让它工作?
- 我已经使用禁用 CORS chrome 插件进行了测试
- 我在 chrome 上禁用了 CORS 来测试它
- 我已重新配置 API 网关
- 我已将标头添加到 AWS Lambda 上的 json 响应中
这基本上是一个浏览器问题,所以我该如何添加这个标题。