问题标签 [pdfplumber]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2701 浏览

python - ModuleNotFoundError:没有名为“pdfplumber”的模块

我想导入pdfplumber并尝试

并发现错误:

尝试使用安装pip3 install pdfplumber并返回:

但是命令提示符显示我已经安装了模块?

import pdfplumber返回同样的错误。如何导入pdfplumber

0 投票
1 回答
743 浏览

python - 如何在 PDF 文件中查找表格网格线?

为了更准确地提取嵌入在表格单元格中的类似表格的数据,我希望能够识别 PDF 中的表格单元格边界,如下所示:

pdf表格示例

我曾尝试使用 Camelot、pdfplumber 和 PyMuPDF 提取此类表,并取得了不同程度的成功。但由于我们收到的 PDF 不一致,即使指定表格边界,我也无法可靠地获得准确的结果。

我发现如果我通过明确指定单元格边界来单独提取每个表格单元格,结果会更好。我已经通过手动输入边界进行了测试,这是我使用 Camelot 的可视化调试工具获得的。

我的挑战是如何以编程方式识别表格单元格边界,因为表格可能从页面上的任何位置开始,并且单元格的垂直高度可变。

在我看来,可以通过查找行分隔线的坐标来做到这一点,这对人类来说在视觉上是如此明显。但我还没有弄清楚如何使用 python 工具找到这些行。这是可能的,还是有其他/更好的方法来解决这个问题?

0 投票
2 回答
145 浏览

python - 从pdfplumber中提取后如何删除英文单词之间的空格

我已将文本从 pdf(使用 pdfplumber)提取到 txt,但在 PDF 文件中没有的单词之间有一些空格。 在此处输入图像描述

我尝试使用“Previous_word”+“current_word”组合来查找单词,并检查它们是否存在于 NLTK.words 中以找出单词之间有多余空格的位置,但效果不佳。

我正在寻找一些建议,谢谢

0 投票
1 回答
859 浏览

python - 如何阻止 pdfplumber 读取每页的标题?

我希望 pdfplumber 从用户提供的随机 pdf 中提取文本。问题是 pdfplumber 还从每个页面中提取标题文本或标题。如何对 pdfplumber 进行编程以不读取页眉(标题)和页码(或页脚,如果可能)?

这是代码:

filePDF文件在哪里...

0 投票
0 回答
36 浏览

python - 我在 python 中从 pdf 中提取印地语文本时遇到问题

我在 python 中使用 pdfplumber。它不能很好地提取印地语文本。它显示错误的结果。输入:माँ, मैं रात का खाना ले आऊँगा। 输出: म ,ाँ म ैं र त क ख न ले आऊाँग । 我想要确切的输出..任何解决方案?

0 投票
2 回答
461 浏览

python - 在 Django 中使用 Python 库

![发票][1]

![python 脚本][2]

[1]:[2]:https ://i.stack.imgur.com/Y6Ebm.png

你好!如果有人能帮助我解决在 Django 中使用 Python 库的疑问,我将不胜感激。我会尽量说清楚,所以这里是:

在我的工作中,我使用的发票都保存在特定目录(PDF 文件)中,并且它们都具有相同的结构。在我的工作中,我只对一行中的一个特定值感兴趣,即数字。我的工作是从所有发票中提取该值并将它们全部汇总。因此,我制作了一个 python 脚本,在其中使用了 Pandas、os 和 PDFplumber 库,它运行良好。在 code.png 中,您可以看到我使用 PDFplumber 提取我想要的行和值的循环,然后对所有这些值求和。在 invoice.png 中,您可以看到 PDFplumber 如何将发票分成行和列。

所以,事情是这样的:我想部署一个 Django 应用程序,以便企业中的其他人可以使用我使用的 python 脚本(他们对 Python 编程一无所知)。所以,我想部署一个 Django 应用程序,他们可以在其中上传包含所有 PDF 文件的目录,然后使用我在 code.png 中显示的 python 脚本。但我对它背后的逻辑有疑问。我的问题是:

  1. 我们可以在 Django 中使用任何 python 库(例如 PDFplumber、pandas 等)吗?
  2. 我会把我的python脚本放在views.py中吗?(像这样的东西)

应用程序/views.py

预先感谢您!

0 投票
1 回答
189 浏览

python-3.x - PDFPlumber 返回符号和不准确的文本

我正在尝试使用 PDFplumber 从 pdf 文件中提取文本

但是,我得到的输出如下。它没有拾取确切的文本并返回符号-

0 投票
1 回答
485 浏览

python - 从pdf中提取文本时如何忽略表格及其内容

到目前为止,我已成功从 pdf 文件中提取文本内容。我被困在必须提取表格之外的文本内容(忽略表格及其内容)并需要帮助的地步

Pdf 可以从这里下载

0 投票
1 回答
155 浏览

python - 将 pytesseract.Output.DATAFRAME 转换为字节或 ocr'ed pdf

pytesseract.image_to_data()是否可以使用输出追溯写入 pdf 文件?

对于我的 OCR 管道,我需要对我的 pdf 的 ocr'ed 数据进行精细访问。我要求使用这种方法:

现在,我想使用 pdfplumber 从 pdf 中提取一些表格数据。但是,必须使用以下三个输入之一来馈送 pdfplumber:

  • PDF 文件的路径
  • 文件对象,作为字节加载
  • 类文件对象,作为字节加载

我知道我可以使用 pytesseract 使用以下方法将我的原始 pdf 转换为可搜索的(以字节表示):

但是,我想避免 ocr'ing 我的 pdf 两次。是否可以将输出pytesseract.image_to_data()与原始图像结合起来并创建某种字节表示?

任何帮助将非常感激!

0 投票
1 回答
85 浏览

python - 如何优化(也是 RAM 明智的)将单词从 PDF 保存到 Python 对象并稍后保存到数据库的代码?

我正在寻找将 PDF 文件中的文本保存到我的数据库中的最有效方法。目前我正在使用带有标准代码的pdfplumber,如下所示:

但是当前的代码是文学性的扼杀我的机器(对于 600 页的 PDF,它需要大约 3 到 6 GB 的 RAM),我的目标是实际将它托管在手机上。

我做了一些测试,似乎阅读 PDF 不是问题,但是保存或存储这些单词是有问题的。我试图创建 dict ,其中每个页面字符串都是一个键/值,但并没有好多少。

也许我应该尝试将每个页面生成 txt 文件,然后从这个 txt 文件中读取字符串?

我将不胜感激任何提示,谢谢!

编辑:

我将代码更改为那个,它稍微好一点,(现在它需要大约 2.9 GB 的 RAM)但它仍然很多。我能做更多的事情吗?