问题标签 [amazon-textract]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 OCR/计算机视觉从图像中读取多张发票
我希望从包含 2 张发票的以下图像中提取键值对。
图片示例
我正在使用 AWS Textract 来实现这一点,但是我希望能够将键值对映射回发票。例如,“ Cornbread SVC ”应映射到帐单#1,“ 1 #1 CHKN PLATE ”应映射到帐单#2。
我认为的一种方法是对图像进行一些预处理,如果我们能找出答案。票据及其坐标然后根据尺寸裁剪图像。所以基本上图像上的“5”张钞票会产生“5”张钞票的坐标,然后根据不同的钞票尺寸拍摄原始图像并裁剪 5 次。然后将每个账单作为单独的图像发送到 AWS Textract。
但是,我一直无法找出一种方法来检测否。图像中的钞票及其边界坐标。
任何帮助,将不胜感激。我愿意使用任何其他 API 或方法来实现这一点。
amazon-textract - Amazon Textract - 如何提取键值对
我正在使用 AmazonTextract .NET SDK 从图像中提取文本。它作为响应的一部分返回块列表。我需要从提取的文本中提取键值对。我想我们需要遍历块列表,检查KEY_VALUE_SET
我的理解对吗?有人可以给我一段代码,它会在文本提取后给我键值对。
我的示例代码:
java - OCR AWS Textract 服务无法区分上标/指数
我正在使用 Textract AWS 服务。
- 像 10 10这样的值被读取为 1010。这会导致读取错误的数据。
- 此外,单元格内的数据边界有时会与包含单元格的边界重叠。
如何解决这些问题?
java - AWS texttract 提取元数据和置信度分数
大家好,我已经使用 java SDK 从 AWS texttract 异步调用中提取了文档元数据,但是元数据被分成多个块,而且非常庞大。
如何使用 java 代码分别提取置信度得分、值及其字段名称我想提取如下结果:
谁能建议如何从 aws texttract文档元数据中提取字段、值及其置信度分数?
有人对此有任何想法吗?
amazon-web-services - 通过 VPC 中的 Lambda 从 S3 对象中通过 Textract 提取文本
我知道这是一个满口的标题,但我被撞到了墙上,我想我会伸出手看看是否有什么我遗漏的东西。
我的目标:一个 lambda,它将访问 S3 存储桶内的文件,通过 textract 运行它,然后将结果写入 RDS 数据库。(此时要访问 RDS,我必须在 VPC 中运行我的 lambda)
所以,我的 lambda 函数在 VPC 中运行。我已经设置了必要的权限、策略、端点等,以便 lambda 可以使用以下代码访问 s3 文档:
现在......这是问题所在。我用下面的代码替换上面的代码并在 VPC 中运行——我得到了可怕的超时。
当 lambda 在 VPC 之外运行时,即在 lambda 的 Network 标题下选择“No VPC”,第二个代码块运行没有问题。
有谁知道可能导致此失败的原因是什么?我在文档中没有发现任何说明这种情况被阻止的内容,但我担心我可能无法从 VPC 内部访问 Textract?
python - 使用 FileMaker Pro(不在服务器上)解决方案中的 Google Vision Python 客户端,用于历史研究?
我就是Digital Orientalist的Cornelis van Lit所说的“半人马”,或者是一位致力于开发人文研究问题的软件解决方案的学者。我遇到了一个无法通过搜索 stackoverflow 或其他在线资源来解决的问题。
我开发了一个 FileMaker 解决方案来管理 150,000 个原始来源的数字代理,类似于几年前 Reddit 用户限制数据建议的方式。
我想使用 Google 的 Vision API 扩展我的解决方案。特别是,我想在这些数字代理上使用 Vision 执行 OCR。我看到了一个Youtube 视频,它完全符合我的要求,但使用了亚马逊的 Textract API。我已经在我的数字代理上尝试了 Textract,但结果并不令人满意。我的代理人是西班牙语,其中很大一部分是手写的。就我而言,Google 的 Vision API 产生了更好的结果。此外,Vision 有一个我非常熟悉的 Python 客户端库。
所以我的问题和问题涉及 Python 与 Filemaker Pro Advanced 的集成(未托管在 FILEMAKER SERVER 上)
有没有办法将 PDF 从容器字段传递到 Python?在 Python 完成它的工作(拆分 PDF、处理单个图像、将所述图像发送到 Vision、解析结果并重新组合它们)之后,将输出字符串发送回 FileMaker 的新字段?
触发器来自 FileMaker 端,因此使用可用的 python 库或将解决方案设为 ODBC 源将没有用处。我认为有一些 FileMaker 插件可以运行 Python 脚本,就像 Python 从 FileMaker 运行子进程的方式一样,但是对于如何做到这一点没有明确的方向。我是一名研究生,所以支付咨询费用是不可能的。有没有人可以提供帮助?
c# - 使用 C#.net 提取 APi 调用
我正在寻找将 Textract 集成到 .Net 应用程序中的示例 C#.net 代码。我尝试了一个示例,但所有可用的都是 Java 和 python。
node.js - 节点 js 中的 AWS texttract 方法没有被调用
我想使用节点 js 从图像中提取文本,因此在 aws 中创建了一个 lambda。请找到以下代码片段。问题是没有调用 texttract 方法 detectDocumentText。
就许可而言,我已授予 s3 对 lambda 的完全访问权限和 textract 完全访问权限。我错过了什么吗?
而且我在 cloudwatch 日志中看不到任何错误日志。
amazon-textract - Amazon Textract - 如何定义我的键值对
我尝试过 textract ,我可以看到它提取了一些有趣的键值对。
我有一个图像数据集,每个数据集都用一组特定于域的键值对进行注释,这些键值对与 textract 找到的不同。
反正有没有让 textract 寻找我的键值对?是迁移学习的种类,还是工具的具体配置?
amazon-web-services - 提取多页pdf文档
我正在使用亚马逊的 Textract服务从 pdf 文档中提取表格和表格。此处Github 提供的示例仅适用于单页文档。但根据 AWS 提供的演示,他们也能够提取多页 pdf 文档。
根据文档,我们也必须为多页调用相同的服务。但这对我不起作用。
他们提供的所有示例都在 python 或 java 中。
我在 dotnet core 中做这件事。
有什么帮助吗?
这是我的代码。