问题标签 [pdfplumber]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
37 浏览

python - 如何在提取非表格文本部分标识符的同时从 PDF 中提取表格

我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。

我的目标是提取每页上每个部分标题(白色字体突出显示为蓝色)下的 2 个表中的每一个。有关 PDF 的结构,请参见下面的屏幕截图。黄色高光是我的目标提取物。

挑战:如何设置代码,以便清楚哪个extract_tables()输出与每个文本节标题相关联。 如您所见,部分标题和表格描述未内置在表格中,而是页面的文本元素。

  • 某些页面有 1、2 或 3 个节标题,它们可能包含也可能不包含所需的表格。
    • 如果表不存在于某个部分下,我打算忽略该部分或填充一个空表。
  • 有时节标题从页面底部开始,表格直到下一页才开始。
  • 没有任何情况下表格“溢出”到下一页。所以这可能会减轻复杂性。
  • 我可以循环浏览所有页面并将此指定结构的所有表拉并附加在一起,但是没有文本节标题和后续描述行,我不知道每个表代表什么。

不成功的替代方法:

  • 我尝试了一种纯文本提取方法(根本不依赖于 extract_table),但表中的空字段(深灰色)没有注册为空单元格,因此,下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗?

PDF截图:

在此处输入图像描述

最终目标: 在此处输入图像描述

0 投票
0 回答
41 浏览

python - 使用 pdfplumber 提取段落

我正在使用 pdfplumber 从 pdf 中提取文本。我能够提取文本行,但无法提取段落。这是我拥有的当前代码。

我要提取的文本示例:

段落标题

Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。

我怎样才能改变它来提取段落呢?现在这会给我这个。基本上它是将每一行添加到一个数组中。['段落标题','lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et','dolore magna aliqua。enim facilisis gravida neque convallis a cras semper auctor neque.]

我要它给我这个。它会将段落标题和段落添加到数组中。['段落标题','Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。']

0 投票
0 回答
29 浏览

python - pdfplumber可以从没有嵌入字体的pdf中提取文本吗?

我有一个 pdf 列表,我需要从中提取某些文本。我编写脚本就是为了做到这一点,它对大多数 PDF 文件都很有效,但对于其中一些文件,当我使用 extract_text() 时,我一直得到“无”的值。在做了一些挖掘之后,我发现那些不起作用的文件是其中没有任何嵌入字体的文件。

我一直在网上搜索如何解决这个问题,但找不到任何东西。有没有办法使用 pdfplumber 从没有嵌入字体的 PDF 中提取文本?如果没有,您是否知道我可以在不使用 OCR 的情况下提取此文本?

谢谢大家!

0 投票
1 回答
14 浏览

python-3.x - Pdfplumber - 以 pdf 格式提取表格,没有任何边框

我正在尝试将如图所示的表格提取到数据框中。我尝试使用 tabula-py 提取代码,但 read_pdf 返回了我 []。不确定 tabula-py 是否是正确的模块。任何人都可以帮忙吗?