“pdfplumber”的相关标签问题

0 投票

1 回答

2701 浏览

python - ModuleNotFoundError：没有名为“pdfplumber”的模块

我想导入pdfplumber并尝试

并发现错误：

尝试使用安装pip3 install pdfplumber并返回：

但是命令提示符显示我已经安装了模块？

但import pdfplumber返回同样的错误。如何导入pdfplumber？

2021-02-25T02:50:31.603

0 投票

1 回答

743 浏览

python - 如何在 PDF 文件中查找表格网格线？

为了更准确地提取嵌入在表格单元格中的类似表格的数据，我希望能够识别 PDF 中的表格单元格边界，如下所示：

我曾尝试使用 Camelot、pdfplumber 和 PyMuPDF 提取此类表，并取得了不同程度的成功。但由于我们收到的 PDF 不一致，即使指定表格边界，我也无法可靠地获得准确的结果。

我发现如果我通过明确指定单元格边界来单独提取每个表格单元格，结果会更好。我已经通过手动输入边界进行了测试，这是我使用 Camelot 的可视化调试工具获得的。

我的挑战是如何以编程方式识别表格单元格边界，因为表格可能从页面上的任何位置开始，并且单元格的垂直高度可变。

在我看来，可以通过查找行分隔线的坐标来做到这一点，这对人类来说在视觉上是如此明显。但我还没有弄清楚如何使用 python 工具找到这些行。这是可能的，还是有其他/更好的方法来解决这个问题？

python pdf-extraction python-camelot pymupdf pdfplumber

2021-03-03T19:26:29.787

0 投票

2 回答

145 浏览

python - 从pdfplumber中提取后如何删除英文单词之间的空格

我已将文本从 pdf（使用 pdfplumber）提取到 txt，但在 PDF 文件中没有的单词之间有一些空格。

我尝试使用“Previous_word”+“current_word”组合来查找单词，并检查它们是否存在于 NLTK.words 中以找出单词之间有多余空格的位置，但效果不佳。

我正在寻找一些建议，谢谢

python pdf pdfplumber

2021-03-15T13:04:48.040

0 投票

1 回答

859 浏览

python - 如何阻止 pdfplumber 读取每页的标题？

我希望 pdfplumber 从用户提供的随机 pdf 中提取文本。问题是 pdfplumber 还从每个页面中提取标题文本或标题。如何对 pdfplumber 进行编程以不读取页眉（标题）和页码（或页脚，如果可能）？

这是代码：

filePDF文件在哪里...

python python-3.x pdfplumber

2021-04-01T07:58:30.167

0 投票

0 回答

36 浏览

python - 我在 python 中从 pdf 中提取印地语文本时遇到问题

我在 python 中使用 pdfplumber。它不能很好地提取印地语文本。它显示错误的结果。输入：माँ, मैं रात का खाना ले आऊँगा। 输出： म ,ाँ म ैं र त क ख न ले आऊाँग । 我想要确切的输出..任何解决方案？

python pdfplumber

2021-04-01T15:31:55.403

0 投票

2 回答

461 浏览

python - 在 Django 中使用 Python 库

![发票][1]

![python 脚本][2]

[1]：[2]：https ://i.stack.imgur.com/Y6Ebm.png

你好！如果有人能帮助我解决在 Django 中使用 Python 库的疑问，我将不胜感激。我会尽量说清楚，所以这里是：

在我的工作中，我使用的发票都保存在特定目录（PDF 文件）中，并且它们都具有相同的结构。在我的工作中，我只对一行中的一个特定值感兴趣，即数字。我的工作是从所有发票中提取该值并将它们全部汇总。因此，我制作了一个 python 脚本，在其中使用了 Pandas、os 和 PDFplumber 库，它运行良好。在 code.png 中，您可以看到我使用 PDFplumber 提取我想要的行和值的循环，然后对所有这些值求和。在 invoice.png 中，您可以看到 PDFplumber 如何将发票分成行和列。

所以，事情是这样的：我想部署一个 Django 应用程序，以便企业中的其他人可以使用我使用的 python 脚本（他们对 Python 编程一无所知）。所以，我想部署一个 Django 应用程序，他们可以在其中上传包含所有 PDF 文件的目录，然后使用我在 code.png 中显示的 python 脚本。但我对它背后的逻辑有疑问。我的问题是：

我们可以在 Django 中使用任何 python 库（例如 PDFplumber、pandas 等）吗？
我会把我的python脚本放在views.py中吗？（像这样的东西）

应用程序/views.py

预先感谢您！

python django pdfplumber

2021-04-22T17:49:17.460

0 投票

1 回答

189 浏览

python-3.x - PDFPlumber 返回符号和不准确的文本

我正在尝试使用 PDFplumber 从 pdf 文件中提取文本

但是，我得到的输出如下。它没有拾取确切的文本并返回符号-

python-3.x pdf pdfplumber

2021-05-02T05:09:14.980

0 投票

1 回答

485 浏览

python - 从pdf中提取文本时如何忽略表格及其内容

到目前为止，我已成功从 pdf 文件中提取文本内容。我被困在必须提取表格之外的文本内容（忽略表格及其内容）并需要帮助的地步

Pdf 可以从这里下载

python pdf pdfplumber

2021-05-04T07:29:28.313

0 投票

1 回答

155 浏览

python - 将 pytesseract.Output.DATAFRAME 转换为字节或 ocr'ed pdf

pytesseract.image_to_data()是否可以使用输出追溯写入 pdf 文件？

对于我的 OCR 管道，我需要对我的 pdf 的 ocr'ed 数据进行精细访问。我要求使用这种方法：

现在，我想使用 pdfplumber 从 pdf 中提取一些表格数据。但是，必须使用以下三个输入之一来馈送 pdfplumber：

PDF 文件的路径
文件对象，作为字节加载
类文件对象，作为字节加载

我知道我可以使用 pytesseract 使用以下方法将我的原始 pdf 转换为可搜索的（以字节表示）：

但是，我想避免 ocr'ing 我的 pdf 两次。是否可以将输出pytesseract.image_to_data()与原始图像结合起来并创建某种字节表示？

任何帮助将非常感激！

python pdf python-tesseract pdfplumber

2021-05-04T13:58:37.977

0 投票

1 回答

85 浏览

python - 如何优化（也是 RAM 明智的）将单词从 PDF 保存到 Python 对象并稍后保存到数据库的代码？

我正在寻找将 PDF 文件中的文本保存到我的数据库中的最有效方法。目前我正在使用带有标准代码的pdfplumber，如下所示：

但是当前的代码是文学性的扼杀我的机器（对于 600 页的 PDF，它需要大约 3 到 6 GB 的 RAM），我的目标是实际将它托管在手机上。

我做了一些测试，似乎阅读 PDF 不是问题，但是保存或存储这些单词是有问题的。我试图创建 dict ，其中每个页面字符串都是一个键/值，但并没有好多少。

也许我应该尝试将每个页面生成 txt 文件，然后从这个 txt 文件中读取字符串？

我将不胜感激任何提示，谢谢！

编辑：

我将代码更改为那个，它稍微好一点，（现在它需要大约 2.9 GB 的 RAM）但它仍然很多。我能做更多的事情吗？

python pdfminer pdfplumber

2021-05-06T16:28:44.697

问题标签 [pdfplumber]

应用程序/views.py

Reference