问题标签 [pdfplumber]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
305 浏览

python - 试图从 PDF 中提取文本给了我这个错误:“TypeError: can only concatenate str (not "NoneType") to str"

我目前正在尝试从整个PDF中提取文本。我尝试从 PDF 的单页中提取文本并且它可以正常工作,但是当我尝试提取整个 PDF 时,它给了我这个错误:

作为参考,这是我从单页提取时使用的代码:

这是我用来提取整个 PDF 的代码:

我注意到这个问题被问了很多,但它们似乎不适用于我的问题。其中一个问题有类似的错误,但情况与我的不同。

0 投票
2 回答
43 浏览

python - 如何使用正则表达式隔离美元金额?

我使用 PDFPlumber 库来提取我的 PDF 中的所有行,示例行提取如下所示:

总回程运输 $16.01

目标是将所有这些放入数据框中。如何使用正则表达式对这条线进行分组,以便我可以隔离收费类型和美元金额?

目前,我有:

第 1 组返回“总计”,第 2 组返回“返回”,第 3 组返回“运输”,但我无法创建一个检索美元金额的组。有什么建议么?

注意:超过 1000 美元的金额包含一个“,”,这可能需要包含在正则表达式语法中

0 投票
0 回答
226 浏览

python - 无法关闭使用 pdfplumber open() 打开的 pdf 文件

我在关闭用pdfplumber.open()函数打开的文件时遇到问题。每当我调用extract_text()文件对象时,即使在使用范围之后,文件似乎也是打开的,例如pdfplumber.open(),我可以这样print(pdf.pages[1].extract_text())做。调用close()PDF 对象也无济于事。

我的代码:

如果我不在page.extract_text()for 循环中调用 PDF 对象,例如:

它正常关闭并print(pdf.pages[1].extract_text())抛出ValueError: seek of closed file
我错过了什么,或者page.extract_text()以某种方式缓存页面,我不应该打扰?任何意见,将不胜感激!

0 投票
1 回答
1281 浏览

python - 使用 pdfplumber 从 pdf 文件中提取文本

我想从 pdf 文件中提取文本,尝试过:

它打印:

看到文件的名称为20170213091544343,我补充说:

读取文件以防文件名没有.pdf并且它捕获错误:

0 投票
1 回答
112 浏览

python - 使用 PDF Plumber 时列出超出范围的索引

您好,我正在使用 pdf 管道工从 PDF 中提取文本并将其写入文本文件,但出现索引超出范围错误。

0 投票
0 回答
412 浏览

python - 使用 pdfplumber 从 pdf 文件中提取文本期间的编码问题

我想提取以下 pdf 文件的内容,但它返回一个毫无意义的结果。我假设它可能与文件的编码方面有关,但相同的提取代码适用于同一基础设施上的许多其他文件。这不是由以下脚本处理的单个文件,还有其他一些情况。但是,我在这里仅举了一个例子。我意识到如果我将此文件的文本内容复制/粘贴到我的记事本,它也没有正确粘贴。粘贴的文本不是那么糟糕,我将它放在底部,但它也是不可接受的。我应该如何解决这个问题?有什么建议么 ?

它返回:

ŞİİİİıııİİİİıŞİ

ıööçııııçııöİııçıüüışüüüğöüüışı

依依依依

ö ıüö ıöğğ ı ç şüıııııııı ş

...

0 投票
1 回答
167 浏览

python - 我找不到提取下划线文本的方法,不能用 pdfminer.six 完成吗?

我正在尝试提取pdf中的文本,该文本使用python加下划线但无法找到正确的解决方案,任何人都可以帮助解决这个问题,请

0 投票
1 回答
179 浏览

python - 如何使用 pdfplumber 提取的文本在 Python 中打印下一行

如何从使用 pdfPlumber extract.text 函数从 PDF 中提取的文本中打印下一行?

我试过 line.next() 但它不起作用。

实际的工作名称在“工作名称”之后的那一行。按照下面的例子。

职位名称

奥尔巴尼购物中心开发

我的代码如下。

0 投票
0 回答
178 浏览

python - 为什么 pdfplumber 不产生任何数据?

我通常使用pdfplumber从 pdf中抓取数据和文本,并且 99.99% 的时间,一切都很好。

虽然今天,我遇到了一种情况,我可以打开pdf 文件(使用 pdfplumber.open),但不能提取任何文本/单词/表格。我知道打开是成功的,因为它可以识别 pdf 包含的正确页数,但是使用任何方法获取数据都会导致得到一个空列表。pdf文件没有任何保护

.pdf 文件不是扫描文件。看起来它们是使用XML 源文件生成的,但我不知道它是否会产生任何影响,因为它也会生成.pdf文件。
我还尝试了其他几个导致相同结果的 pdf 刮刀。

一个有趣的事实是,在使用在线工具进行修复后(老实说,我真的不知道它对文件做了什么),我设法打开并从中提取了我想要的所有文本。当我将 .pdf 转换为.pdf/a文件时,也发生了同样的事情。

有谁知道解决这个问题的方法,甚至是什么原因造成的?

请注意,我不能分享 pdf 文件,因为它们是机密文件,也不能复制我不知道它是如何发生的情况。

谢谢你的帮助 !

0 投票
0 回答
37 浏览

python - 有没有办法使用 python 绕过加密自动打印到 PDF?

我正在从事一个涉及自动化 PDF 数据提取的项目。为了使用 pdfplumber 从表格中获取信息,我需要展平我正在使用的 PDF 表单。这些表格已加密,我无法接收密码。我可以通过使用 Microsoft Print to PDF 功能保存文档来手动绕过加密(这也为我平展了文档)。有没有办法使用 os.startfile 函数或 selenium 包来自动化打印保存 PDF 文件的过程?

或者,有没有办法从可填写的 PDF 中挖掘信息而不将其展平?