我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。
我的目标是提取每页上每个部分标题(白色字体突出显示为蓝色)下的 2 个表中的每一个。有关 PDF 的结构,请参见下面的屏幕截图。黄色高光是我的目标提取物。
挑战:如何设置代码,以便清楚哪个extract_tables()
输出与每个文本节标题相关联。
如您所见,部分标题和表格描述未内置在表格中,而是页面的文本元素。
- 某些页面有 1、2 或 3 个节标题,它们可能包含也可能不包含所需的表格。
- 如果表不存在于某个部分下,我打算忽略该部分或填充一个空表。
- 有时节标题从页面底部开始,表格直到下一页才开始。
- 没有任何情况下表格“溢出”到下一页。所以这可能会减轻复杂性。
- 我可以循环浏览所有页面并将此指定结构的所有表拉并附加在一起,但是没有文本节标题和后续描述行,我不知道每个表代表什么。
不成功的替代方法:
- 我尝试了一种纯文本提取方法(根本不依赖于 extract_table),但表中的空字段(深灰色)没有注册为空单元格,因此,下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗?
PDF截图: