0

我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。

我的目标是提取每页上每个部分标题(白色字体突出显示为蓝色)下的 2 个表中的每一个。有关 PDF 的结构,请参见下面的屏幕截图。黄色高光是我的目标提取物。

挑战:如何设置代码,以便清楚哪个extract_tables()输出与每个文本节标题相关联。 如您所见,部分标题和表格描述未内置在表格中,而是页面的文本元素。

  • 某些页面有 1、2 或 3 个节标题,它们可能包含也可能不包含所需的表格。
    • 如果表不存在于某个部分下,我打算忽略该部分或填充一个空表。
  • 有时节标题从页面底部开始,表格直到下一页才开始。
  • 没有任何情况下表格“溢出”到下一页。所以这可能会减轻复杂性。
  • 我可以循环浏览所有页面并将此指定结构的所有表拉并附加在一起,但是没有文本节标题和后续描述行,我不知道每个表代表什么。

不成功的替代方法:

  • 我尝试了一种纯文本提取方法(根本不依赖于 extract_table),但表中的空字段(深灰色)没有注册为空单元格,因此,下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗?

PDF截图:

在此处输入图像描述

最终目标: 在此处输入图像描述

4

0 回答 0