问题标签 [amazon-textract]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
618 浏览

amazon-web-services - 是否提供任何用户界面来与源文档并排查看 AWS Textract OCR 输出?

AWS 文本在向其传递文档后输出 JSON 结果。我有兴趣使用此输出以某种方式并排查看源文档(例如 pdf)和输出。现在有任何工具支持吗?

例如,API 开发者客户究竟如何以 UI 类型的方式使用输出,以查看结果与源代码的比较情况?非常感谢任何见解。

这可能是一个示例,但不适用于 AWS 输出模式

https://github.com/kba/hocrjs

0 投票
1 回答
627 浏览

node.js - 使用nodejs服务器和reactjs网页从pdf中提取文本的问题

以下是我的 textractUtils.js 代码 -

它适用于图像,但不适用于 pdf(单页和多页)。以下是我通过导入pdf运行它时的错误-

我尝试过的东西是包含图像的非文本、包含图像的文本、包含图像的表格、单页 pdf 和多页 pdf。我也有一个概念上的疑问,如果我已经导入了 aws-sdk,为什么要为 pdf 编码,因为 textract 的 aws-sdk 会处理 pdf、png、jpeg 和 jpg 格式的图像?我必须对 textractUtils.js 进行哪些更改才能处理 epdf 文件?

0 投票
1 回答
367 浏览

javascript - 如果我有来自 AWS textract 方法(StartDocumentAnalysis)的 JobId,如何找到提取的文本?

我这里有这段代码-

现在我得到了 JobId。这是一个异步操作。如何在不使用 AWS SNS 的情况下将此 JobId 传递给 getDocumentAnalysis 方法?(作为试验,我还可以将所需输出的代码延迟为提取单词的 json 格式列表。但我该如何处理呢?)

0 投票
1 回答
347 浏览

javascript - 过滤掉 AWS Textract 函数返回的数据

我提取了 Textract AWS 函数返回的数据。此 Textract 函数的返回数据类型为以下类型:

我通过以下代码从这些数据中提取了块:

它以 JSON 对象数组的形式提供输出。下面给出了提取文本的示例:

我只想提取文本字段并将其视为唯一的输出。我该如何开始呢?

0 投票
1 回答
602 浏览

java - AWS-Textract-Key-Value-Pair Java - 线程“主”java.lang.NullPointerException

我在 Java Spring 启动项目中使用 AWS Textract。我已经设置了 AWS CLI 并将开发工具包作为 maven 依赖项。

我编写了从 C# 转换的 Java 代码以提取键和值对,并且在成功提取一些单词后收到以下错误

AGENCYCUSTOMERID:FEIN(如果适用)MARITALSTATUS/CIVILUNION(如果适用)保险地点代码BUSPRIMARYE-MAILADDRESS:FEIN(如果适用)LINEOFBUSINESSCELLMARITALSTATUScivilUNION(如果适用)CELLCELLHOME ”:

通过调试,我发现导致错误的行是:

似乎在找到 SELECTION ELEMENT / CHECKBOX 后它失败了?

我的代码:

}

我不确定是什么问题?

0 投票
2 回答
902 浏览

node.js - Textract 异步读取 PDF

从文本文档Documents for synchronous operations can be in PNG or JPEG format. Documents for asynchronous operations can also be in PDF format.

我有一个 Node.js 应用程序,我在其中使用异步 Textract 读取 PDF 文件。我的代码如下所示:

此处的文件已从操作系统中读取,为 Buffer 格式。由于前 4 个字节,我可以确认它是 PDF 文件(Detecting file type from buffer in node js?):

我收到的错误是UnsupportedDocumentException.

0 投票
1 回答
22 浏览

amazon-web-services - AWS Texttract API 是否可配置?

我想使用AWS Textract从 PDF 合同中提取结构化文本。

服务是否可配置?例如,我可以设置系统用于分割段落的最小垂直空格吗?

谢谢!

0 投票
1 回答
362 浏览

python - 使用 Amazon Textract 从多页文档 PDF 中同步检测和分析文本

回答https://stackoverflow.com/a/62174368/8117673

进一步的问题是 - 它会影响Amazon Textract文本检测的准确性吗?

我是否需要对图像进行预处理才能从 Amazon Textract 获得更好的结果?

0 投票
3 回答
645 浏览

python - 提取不支持的文档异常

我正在尝试使用 boto3 来运行 textract detect_document_text 请求。

我正在使用以下代码:

其中 image_b64['document_b64'] 是我转换的 base64 图像代码,例如https://base64.guru/converter/encode/image网站。

但我收到以下错误:

我做错了什么?

0 投票
1 回答
146 浏览

python - AWS Python CORS 标头

我正在尝试使用 Amazon Textract,但在我的 API 调用中,它说allow-access-origin-header not present并且使 API 无法正常工作。我已采取措施查看 API 本身确实有效,但我无法使用它来部署给想要使用 OCR 的客户。有没有一个 python 包或者可能有办法让它工作?

  • 我已经使用禁用 CORS chrome 插件进行了测试
  • 我在 chrome 上禁用了 CORS 来测试它
  • 我已重新配置 API 网关
  • 我已将标头添加到 AWS Lambda 上的 json 响应中

这基本上是一个浏览器问题,所以我该如何添加这个标题。