问题标签 [pdfplumber]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 问题

0 投票

0 回答

37 浏览

python - 如何在提取非表格文本部分标识符的同时从 PDF 中提取表格

我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。

我的目标是提取每页上每个部分标题（白色字体突出显示为蓝色）下的 2 个表中的每一个。有关 PDF 的结构，请参见下面的屏幕截图。黄色高光是我的目标提取物。

挑战：如何设置代码，以便清楚哪个extract_tables()输出与每个文本节标题相关联。 如您所见，部分标题和表格描述未内置在表格中，而是页面的文本元素。

某些页面有 1、2 或 3 个节标题，它们可能包含也可能不包含所需的表格。
- 如果表不存在于某个部分下，我打算忽略该部分或填充一个空表。
有时节标题从页面底部开始，表格直到下一页才开始。
没有任何情况下表格“溢出”到下一页。所以这可能会减轻复杂性。
我可以循环浏览所有页面并将此指定结构的所有表拉并附加在一起，但是没有文本节标题和后续描述行，我不知道每个表代表什么。

不成功的替代方法：

我尝试了一种纯文本提取方法（根本不依赖于 extract_table），但表中的空字段（深灰色）没有注册为空单元格，因此，下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗？

PDF截图：

最终目标：

2022-01-28T22:05:34.940

0 投票

0 回答

41 浏览

python - 使用 pdfplumber 提取段落

我正在使用 pdfplumber 从 pdf 中提取文本。我能够提取文本行，但无法提取段落。这是我拥有的当前代码。

我要提取的文本示例：

段落标题

Lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。

我怎样才能改变它来提取段落呢？现在这会给我这个。基本上它是将每一行添加到一个数组中。['段落标题'，'lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et'，'dolore magna aliqua。enim facilisis gravida neque convallis a cras semper auctor neque.]

我要它给我这个。它会将段落标题和段落添加到数组中。['段落标题'，'Lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。']