python-3.x - AWS Textract 无法识别 PDF 文档第二页的表格

翻译自：https://stackoverflow.com/questions/65611004 2021-01-07T10:53:29.793

357 次

1

我需要使用 AWS Textract 从账单副本中提取表格信息。它每次都给我几乎完美的结果，但对于某些 PDF 文档，它没有给我第二页的表格结果。

使用的代码示例：第一页的AWS 官方文档图像（JPEG）是

第二页的图像（JPEG）是

因此，AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页，CSV 的结果是：

最重要的是，我在类似类型的 PDF 中发现了相同的结果，它有 21 个条目，一个条目存在于 PDF 的第二页。我已经使用 PyPDF2 将 pdf 页面合并为一页，但没有解决我的问题。我需要使用任何 OpenCV 工具吗？请就这些类型的问题向我提出任何可能的建议。

0 回答 0