问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 适用于 iOS 的 AWSTexttract 文本 API
我想使用AWSTextract
扫描给定文档中的文本并获取扫描的文本。所以我开始研究AWSTextract
文档。但是在文档中,我没有找到任何用于 iOS 的 API 或 pod 来扫描给定的文档并获取扫描的数据?我怎样才能在 iOS 中实现这一点。提前致谢。
python - 使用 Amazon Textract 时不受支持的文档格式,
当我尝试解析通过 amazon s3 访问的 pdf 文件时,它给了我一个错误,请求的文档格式不受支持。
我正在使用带有 boto3 的亚马逊文本。当我尝试解析通过 amazon s3 访问的 pdf 文件时,它给了我一个错误,Request has unsupported do cument format。我对此相当陌生,在 textract 的文档中提到确实支持 pdf 文件。
这是我正在使用的代码。
这给了我错误,请求的文档格式不受支持。
ocr - 基于规则/选择器从 OCR JSON 结果中提取/验证数据的简单方法
我的目标是从几种不同类型的发票中提取信息,并将输入转换为标准输出。目前,所有发票都是 PDF 格式(原始数字 pdf,未打印!),所以我认为我不需要 OCR,但也许在未来,我们也可以支持打印的(所以需要 OCR)。C# 是后端技术。
我一直在研究如何从 PDF 中提取内容的几种方法。到目前为止,我测试过的最好的库是:
- pdf2data (IText) (付费)
- pdfsharp(免费)
- 铁pdf(付费)
云服务:
云/图书馆服务:
它们彼此非常不同。
例如,来自亚马逊、谷歌、Azure 的云服务支持以 JSON 格式提供 OCR 结果的 API,其他类似但例如来自 IText 的pdf2data允许您创建模板,具有几个选择器规则来提取结果的特定信息. 这大大方便了您解释结果的方式,并且还有一些可视化工具来提供提取信息的方式/位置。这有助于大量提取工作,因为我不知道如何对 Cloud OCR JSON 结果制定简单的提取规则。
我的问题是是否有任何库(如果可能的话是 C#)抽象提取概念并提供以下功能:
- 边界搜索
- 字体类型
- 字体大小
- 段落
- 线
- 前缀-后缀模式
- 表(列/行)
- 键值(表单)
- ETC,
从 JSON 结果?这样我就可以使用云服务,例如 Azure,与 IText 具有“相同的提取功能”。否则,从大量类型的发票中提取信息将过于复杂。
amazon-web-services - 我如何使用 AWS texttract API 获取 OCR PDF 布局..?
我们计划使用 AWS Textract 服务进行文档分析。目前结果以边界框格式出现。有人知道如何使用此服务获得精确的 pdf 布局吗?
OCR Pdf文档文本提取用于文档分析
java - 发送 Amazon Textract 请求时导致错误的通知处理程序
我试图让我们 amazon textract 解析 PDF,这需要是他们API中概述的异步操作。
我使用的代码遵循我在github上找到的代码
我已将错误本地化以了解错误是由于作为请求的一部分提交的通知处理程序引起的 - 但是稍后在获取结果时需要这样做。
我应该注意,我已经尝试了aws docs显示的手动配置并直接使用了 ARN,但我遇到了同样的问题。
我的 s3 存储桶位于 VPC 中,但是我确信我的 IAM 设置正确,因为我已设法从 png 文件中提取文本(该文件使用不同的非异步方法)。这些是添加的策略。
- AmazonSQSFullAccess
- AmazonS3FullAccess
- AmazonTexttractFullAccess
- AmazonTexttractServiceRole
- AmazonSNSRole
- AmazonSNSFullAccess
这是使用的两种方法,创建主题和队列,然后是 StartDocumentTextDetection。
这是我的错误堆栈跟踪:
php - 使用 AWS for PHP 为 Amazon Comprehend 创建客户端
我最近从 AWS SDK for PHP 版本 1 更新到 AWS SDK 版本 3,以便我可以开始使用 Comprehend 和 Textract 应用程序测试脚本。我能够通过版本 3 连接并使用“new S3Client()”命令使用 S3。有大量关于 Comprehend 和 Textract 函数的文档,但我无法弄清楚每个服务的类似新客户端字符串是什么。我试过了:
$cc = new comprehendClient();
$cc = new AWSComprehend();
$cc = new createComprehend();
而且这些都没有奏效。如果有人可以推荐一个非常有用的修复程序。同样,如果有一个在线代码存储库,我应该看看这会有所帮助。我看到很多 S3 的代码示例,但没有看到其他应用程序的代码示例(至少对于 PHP 的 SDK)。谢谢!
.net - 如何使用 aws textract 服务和 .net 从文档中导出 CSV 表(PDF/图像)
我试图从使用 C#/.NET 的 AWS textract 服务中使用 DetectDocument(异步)从 PDF 文件中提取表和数据。
我在数据提取方面取得了成功,但无法弄清楚如何使用 AnalyzeDocument 提取 PDF 中的表格并导出为 CSV 文件。
阅读 AWS 文档,发现 CSV 提取是在 Python 中而不是在 .NET 中。参考链接:- https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html
尝试查看 Python 代码并为 .NET 复制,但没有成功。
amazon-web-services - 从另一个区域调用 AWS Textract
我目前正在将 AWS Textract 用于某些 OCR 服务,该服务在某些地区可用。 https://aws.amazon.com/about-aws/whats-new/2019/05/amazon-textract-now-generally-available/
然而,我的 EC2 服务器在新加坡。只是想问一下,是否可以从基于新加坡区域的 EC2 服务器调用 AWS Textract?(亚太地区)新加坡。我会遇到任何问题吗?
谢谢!
python-3.x - 如何使用 python 和 amazon-textract 在 PDF 中检索表单数据(键值对)?
我曾尝试使用分析文档来检索数据,但此功能只允许图像文件。那么如何在 PDF 文件中获取表单数据(键值对)?