问题标签 [pdfplumber]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在提取非表格文本部分标识符的同时从 PDF 中提取表格
我正在使用 Python 中的 pdfplumber 从页面之间结构基本一致的 PDF 中提取表格。
我的目标是提取每页上每个部分标题(白色字体突出显示为蓝色)下的 2 个表中的每一个。有关 PDF 的结构,请参见下面的屏幕截图。黄色高光是我的目标提取物。
挑战:如何设置代码,以便清楚哪个extract_tables()
输出与每个文本节标题相关联。
如您所见,部分标题和表格描述未内置在表格中,而是页面的文本元素。
- 某些页面有 1、2 或 3 个节标题,它们可能包含也可能不包含所需的表格。
- 如果表不存在于某个部分下,我打算忽略该部分或填充一个空表。
- 有时节标题从页面底部开始,表格直到下一页才开始。
- 没有任何情况下表格“溢出”到下一页。所以这可能会减轻复杂性。
- 我可以循环浏览所有页面并将此指定结构的所有表拉并附加在一起,但是没有文本节标题和后续描述行,我不知道每个表代表什么。
不成功的替代方法:
- 我尝试了一种纯文本提取方法(根本不依赖于 extract_table),但表中的空字段(深灰色)没有注册为空单元格,因此,下面屏幕截图中的表 1 错误地假设了 1000 美元和 20 美元在设施 1 下。可以改进这种文本提取方法以将那些空列识别为空白吗?
PDF截图:
python - 使用 pdfplumber 提取段落
我正在使用 pdfplumber 从 pdf 中提取文本。我能够提取文本行,但无法提取段落。这是我拥有的当前代码。
我要提取的文本示例:
段落标题
Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。
我怎样才能改变它来提取段落呢?现在这会给我这个。基本上它是将每一行添加到一个数组中。['段落标题','lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et','dolore magna aliqua。enim facilisis gravida neque convallis a cras semper auctor neque.]
我要它给我这个。它会将段落标题和段落添加到数组中。['段落标题','Lorem ipsum dolor sit amet,consectetur adipiscing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。']
python - pdfplumber可以从没有嵌入字体的pdf中提取文本吗?
我有一个 pdf 列表,我需要从中提取某些文本。我编写脚本就是为了做到这一点,它对大多数 PDF 文件都很有效,但对于其中一些文件,当我使用 extract_text() 时,我一直得到“无”的值。在做了一些挖掘之后,我发现那些不起作用的文件是其中没有任何嵌入字体的文件。
我一直在网上搜索如何解决这个问题,但找不到任何东西。有没有办法使用 pdfplumber 从没有嵌入字体的 PDF 中提取文本?如果没有,您是否知道我可以在不使用 OCR 的情况下提取此文本?
谢谢大家!