python - 如何在提取非表格文本部分标识符的同时从 PDF 中提取表格

Question

我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。

我的目标是提取每页上每个部分标题（白色字体突出显示为蓝色）下的 2 个表中的每一个。有关 PDF 的结构，请参见下面的屏幕截图。黄色高光是我的目标提取物。

挑战：如何设置代码，以便清楚哪个extract_tables()输出与每个文本节标题相关联。 如您所见，部分标题和表格描述未内置在表格中，而是页面的文本元素。

不成功的替代方法：

我尝试了一种纯文本提取方法（根本不依赖于 extract_table），但表中的空字段（深灰色）没有注册为空单元格，因此，下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗？

PDF截图：

最终目标：

0 回答 0