问题标签 [pdfplumber]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1065 浏览

python - Conda 不会安装 pdfplumber

我正在尝试使用 miniconda3 安装 pdfplumber。我不断收到此错误消息,但我不知道如何解释它。

还:

使用 pip 不是一个选项,因为它绝对不能在我的公司代理后面工作,而 miniconda3 可以。

0 投票
0 回答
40 浏览

python - 在保存为图像的 pdf 中抓取文章

我有一个这样的文件我想在第 4 页获取名为“公共公告”的文章的内容。我需要图像或文本格式的内容。也只是其中一篇,可能还有多篇类似的文章。就像在左侧一样,您有两篇与背靠背招标相关的文章。

我尝试过使用 pytesseract,但它会逐行读取整个图像并将多个内容混合在一起,例如第 4 页上的“运输公司 Hyaat Regency”将两篇文章混合在一起。

这是我使用的代码:

我也使用过image_to_string功能,但这没有帮助。关于如何从上述示例 pdf 中找到框并从这些框中提取图像或文本的任何建议?如果有帮助,我可以提供某些关键字来找出我需要的相关框。或者有没有更好的方法从样本 pdf 中提取文章?

我也尝试过 pdfplumber,它没有帮助,因为它需要我无法提供的盒子开始和结束位置。有没有办法以某种方式为我的文章获取这些坐标?

同样,菲茨也没有帮助,因为它似乎将整个页面视为一个图像而不是将其分解。

0 投票
2 回答
986 浏览

python - 如何使用pdfplumber将表格详细信息提取到行和列中

我正在使用 pdfplumber 从 pdf 中提取表格。但是使用的表格没有可见的垂直线分隔内容,因此提取的数据分为 3 行和 1 个巨大的列。

pdf 表格的示例屏幕截图 - 灰色框是刚刚隐藏的文本

我希望上表有 13 行。

从文档中我无法理解是否有可以应用的特定表格设置。我尝试了一些,但没有帮助。

0 投票
0 回答
40 浏览

python - 通过使用python在pdf中传递表头来获取表

我有一个包含多个表格的pdf。我需要传递表头并获得受人尊敬的表

例如:

在此处输入图像描述

我将表格名称传递为“每日历史股票价格和交易量”,然后它必须给出上面的表格。

0 投票
1 回答
300 浏览

python - 如何使用 PDFPlumber 从两列 PDF 中提取文本

我正在使用 python 进行主题建模任务,我想从年度/可持续发展报告中提取文本。但是我的问题是,当我尝试提取报告时,提取的行在页面中的两个不同列之间断开,即,它将相邻段落中的两个不同行连接成一个句子。如何完全按照报告中的方式提取线条。我附上了报告的版本和函数提取的行。

以下是我使用的功能:

#function 从 url 获取 pdf

该图像是我正在提取的报告中的一个片段,报告中的文本分为两列,extract_content 函数将这两列混合起来得到一行,即将两列中的行连接起来并呈现为一行。

这是报告的第一行(第一列和第二列的开头由函数合并在一起):

\n我在 2019 年的首要职责之一是接受采访。当我们开始新的战略期时,在 2016 年的“早安挪威”节目之外,我表示希望 AF 能感受到\nAF 的目标是增加一倍的百分比就像我们希望超越\nwomen时一样紧密

如果我能以报告中给出的确切方式提取句子,那将会很有帮助。

0 投票
1 回答
38 浏览

pdf-generation - 如何使用python将pdf的每一页转换为pdf对象

我想将 pdf 文件的每一页创建为一个新的 pdf 对象。我正在关注提到的代码片段https://stackoverflow.com/a/490203/13291630但这里显示为创建一个新文件,但我只想创建一个 pdf 对象而不创建一个新文件并使用像所有其他 pdf 一样创建 pdf 对象。我希望这些信息有帮助,任何人都可以在这里帮助我。

0 投票
0 回答
52 浏览

python - Pdfplumber cannot recognize table

image.reset().debug_tablefinder()

result

how to convert it into tables that can be recognized by pdfplumber?

0 投票
0 回答
212 浏览

python - 用于 PDF 到 Excel 的 Python 和 PDFPlumber

我正在使用 PDFPlumber 将 PDF 提取到 Excel。我将文本分成几行,用空格分隔并识别以特定文本开头的行。问题是,这些行包含“最后一个,第一个 M”格式的名称,我无法弄清楚如何将这些名称保持在一起。我想抓住####,日期和日期(代码)左侧的文本块,然后将剩余的文本分配为代表名称的一列,但我真的不知道该怎么做它或者如果这是有道理的。

下面是我的代码以及数据如何在 PDF 上显示的示例:

PDF:*注意,SSN 字面上显示为 4 个#。此外,代码列只能是:S、E/D、E/S、F

到目前为止我的代码:(错误,因为名称中的空格会创建额外的列)

0 投票
1 回答
1943 浏览

python - 在 Python 中提取 PDF 文件的文本和表格

我正在寻找一种从 PDF 文件中提取文本和表格的解决方案。虽然有些包很适合提取文本,但它们不足以提取表格。

在此处输入图像描述

  • 其次,如果页面中存在表格,我如何提取表格?pdfplumber 可以使用 extract_text() 和 extract_table() 注释提取文本和表格。它无法为某些文档保留单词之间的空格。当我们有经验的双列 pdf 文件时,它也会失败。

  • Tabula 是另一种选择,但我从他们的网站https://github.com/tabulapdf/tabula看到的表格很好。我的最终问题是从给定单列或双列页面的 pdf 文件中提取内容、文本和表格的最佳实践是什么。

0 投票
1 回答
129 浏览

python - 如何用pdfplumber完成for循环?

问题

我正在关注本教程https://www.youtube.com/watch?v=eTz3VZmNPSE&list=PLxEus0qxF0wciRWRHIRck51EJRiQyiwZT&index=16

当代码返回我的这个错误时。

目标

我需要抓取一个看起来像这样的pdf(我想附上pdf,但我不知道如何):

方法

我正在按照前面提到的 pdfplumber 教程进行操作。

我将我想要作为最终产品的数据框列命名。

问题

与有 2 个的教程示例相比,我有 5 个不同的行。

问题

当我在代码中引入第三行时,出现了一个我不知道的错误。我已按照 2e0byo 的建议修改了代码,但仍然出现错误。

这是新代码:

这是新的错误:

df = pd.DataFrame(line_items)