python - 在 Python 中提取 PDF 文件的文本和表格

问问题 2021-09-21T01:40:16.047

1943 次

1

我正在寻找一种从 PDF 文件中提取文本和表格的解决方案。虽然有些包很适合提取文本，但它们不足以提取表格。

一种解决方案是使用 Azure 表单识别器布局模型，但是当我们混合使用文本和表格时它会失败，特别是当表格是一种文本格式并且它们将表格和文本的内容混合在一起时（请参阅 Azure 表单识别器代码https ://github.com/Azure-Samples/cognitive-services-quickstart-code/blob/master/python/FormRecognizer/rest/python-train-extract.md）。

我也试过 pypdf2 和 pdfplumber；这是pypdf2的代码：

import PyPDF2
data_path = "directory/to/pdf/files"
texts = []

for fp in os.listdir(data_path):    
  pdfFileObj = open(os.path.join(data_path, fp), 'rb')
  print(pdfFileObj)
  #
  pdfreader=PyPDF2.PdfFileReader(pdfFileObj)      
  #
  count=pdfreader.numPages
  #
  text = " "
  for i in range(count):
      page = pdfreader.getPage(i)
      text += page.extractText()

  texts.extend([text])

首先， pypdf2 对某些 pdf 文件效果不错，但它失败并且不会保留某些 pdf 的单词之间的空格，例如（来自https://www.researchgate.net/publication/342920307_Using_Topic_Modeling_Methods_for_Short-Text_Data_A_Comparative_Analysis的 pdf 文件）：

其次，如果页面中存在表格，我如何提取表格？pdfplumber 可以使用 extract_text() 和 extract_table() 注释提取文本和表格。它无法为某些文档保留单词之间的空格。当我们有经验的双列 pdf 文件时，它也会失败。
Tabula 是另一种选择，但我从他们的网站https://github.com/tabulapdf/tabula看到的表格很好。我的最终问题是从给定单列或双列页面的 pdf 文件中提取内容、文本和表格的最佳实践是什么。

1 回答 1

1

答案取决于问题是通用的还是特定于单个表单的。您的方法对于一般情况是合理的，但会有变化。如果您有一个 pdf 表单，它是在每次迭代中使用不同数据创建的单个表单或报告，请考虑将表单从 pdf 转换为 postscript，然后查看是否可以解析 postscript。

有两个实用程序可以做到这一点：pdf2ps 和 pdftops 分别尝试。如果您知道一些后记，这种方法可能会受益。运气好的话，所需的字段可能是简单的文本字符串。值得一试。

于 2021-09-21T02:17:09.307 回答