1

我正在寻找一种从 PDF 文件中提取文本和表格的解决方案。虽然有些包很适合提取文本,但它们不足以提取表格。

在此处输入图像描述

  • 其次,如果页面中存在表格,我如何提取表格?pdfplumber 可以使用 extract_text() 和 extract_table() 注释提取文本和表格。它无法为某些文档保留单词之间的空格。当我们有经验的双列 pdf 文件时,它也会失败。

  • Tabula 是另一种选择,但我从他们的网站https://github.com/tabulapdf/tabula看到的表格很好。我的最终问题是从给定单列或双列页面的 pdf 文件中提取内容、文本和表格的最佳实践是什么。

4

1 回答 1

1

答案取决于问题是通用的还是特定于单个表单的。您的方法对于一般情况是合理的,但会有变化。如果您有一个 pdf 表单,它是在每次迭代中使用不同数据创建的单个表单或报告,请考虑将表单从 pdf 转换为 postscript,然后查看是否可以解析 postscript。

有两个实用程序可以做到这一点:pdf2ps 和 pdftops 分别尝试。如果您知道一些后记,这种方法可能会受益。运气好的话,所需的字段可能是简单的文本字符串。值得一试。

于 2021-09-21T02:17:09.307 回答