1

我需要使用 AWS Textract 从账单副本中提取表格信息。它每次都给我几乎完美的结果,但对于某些 PDF 文档,它没有给我第二页的表格结果。

使用的代码示例:第一页的AWS 官方文档 图像(JPEG)是第一的

第二页的图像(JPEG)是第二

因此,AWS 将前 20 个条目输出为 CSV。但是对于图像的第二页,CSV 的结果是:第二页的csv输出

最重要的是,我在类似类型的 PDF 中发现了相同的结果,它有 21 个条目,一个条目存在于 PDF 的第二页。我已经使用 PyPDF2 将 pdf 页面合并为一页,但没有解决我的问题。我需要使用任何 OpenCV 工具吗?请就这些类型的问题向我提出任何可能的建议。

4

0 回答 0