“pdfminer”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

9106 浏览

python - 使用 pdfminer 从 pdf 中提取文本会提供多个副本

我正在尝试使用 PDFMiner 从 PDF 文件中提取文本（在使用 Python 中的 PDFMiner 从 PDF 文件中提取文本中找到的代码？）。除了path/to/pdf，我没有更改代码。令人惊讶的是，该代码返回了同一文档的多个副本。我对其他 pdf 文件得到了相同的结果。我需要传递其他参数还是我遗漏了什么？非常感谢任何帮助。以防万一，我提供代码：

2014-11-05T02:31:58.797

0 投票

3 回答

5442 浏览

python - 如何在 Anaconda 中安装 binstar 包？

我无法安装 - pdfminer - 使用源代码分发，所以我试图使用binstar来安装。因为我使用的是 Python 的 Ananconda 发行版，所以我输入：

但是，得到以下错误：

你能建议一个解决方案吗？

谢谢你。

PS：binstar search -t conda pdfminer返回以下内容：

python anaconda pdfminer binstar

2014-11-20T02:24:44.663

0 投票

1 回答

264 浏览

python - PDFQuery + 服务器上的文件

我正在尝试在位于“ https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf ”的文档中搜索文本字符串，例如“可以”

为此，我正在使用 PDFQuery。最初我在我的机器上下载了pdf并做了我的代码。它工作完美。但是当我尝试在文件位置输入服务器 url 时，它显示错误。我知道 PDFQuery 库是为在本地机器上工作而开发的。

有什么方法可以让我弄清楚一些事情并解决我的问题。这是我的课程项目的一部分，我应该开发的 pdf 搜索模块将部署在 IBM Bluemix 上并从那里运行它。只有这部分在我的项目中待定。任何帮助表示赞赏。

先感谢您。

python pdf pypdf pdfminer

2014-11-29T11:31:21.360

0 投票

1 回答

381 浏览

python - 如何在 python 中使用 pdfMiner 来预测读取值

我一直在使用 pdfMiner 从图表中读取值，到目前为止它运行良好！

然而，有一个区域可以正确读取正确的数据，但以不可预测的方式，这意味着它将正确读取所有图形值，其顺序与它们出现的顺序完全不同。

这并不完全是一个问题，因为只要我知道，说最后一张图总是首先被读取，我可以围绕它构建我的程序。除了似乎 pdfMiner 在读取这些数据的方式上几乎完全不可预测之外，我找不到可辨别的模式。

这很可能是因为我对 pdfMiner 很不熟悉，所以我不完全确定它是如何工作的。所以是的，如果有人能指出我正确的方向，那将非常有帮助。

这是我的数据

这是我正在使用的转换代码：

python pdfminer pdf-manipulation

2014-12-03T06:58:05.047

0 投票

1 回答

2001 浏览

pdfminer - 安装 PDFMiner for Python2.7 时观察到的错误

我按照这里的说明进行操作：file:///home/bioinfo/Descargas/pdfminer3k-1.3.0/docs/index.html

下载pdfminer3k-1.3.0后我做了：

python setup.py 安装

但是当我这样做时

pdf2txt.py 样本/simple1.pdf

而且它不读取pdf，路径还可以。它给了我错误：

>

有什么解决办法吗？

pdfminer

2014-12-09T23:44:25.500

0 投票

1 回答

1259 浏览

python - 如何将提取的图像写入文件对象而不是文件系统？

我正在使用 Python pdfminer 库从 PDF 中提取文本和图像。由于TextConverter 类默认写入sys.stdout，因此我曾经StringIO将文本作为变量捕获，如下所示（请参阅粘贴：

这适用于提取的文本。此功能还可以提取 PDF 中的图像并将它们写入'extractedImageFolder/'. 这也很好，但我现在希望将图像“写入”文件对象而不是文件系统，以便我可以对它们进行一些后期处理。

ImageWriter 类定义了一个文件 ( fp = file(path, 'wb'))，然后写入该文件。我想要的是我的extractTextAndImagesFromPDF()函数还可以返回文件对象列表，而不是直接将它们写入文件。我想我也需要使用StringIO它，但我不知道如何。部分还因为写入文件是在 pdfminer 中发生的。

有谁知道我如何返回文件对象列表而不是将图像写入文件系统？欢迎所有提示！

python pdf io stream pdfminer

2014-12-15T09:38:24.483

0 投票

1 回答

276 浏览

python - 从文件读取和 MongoDB GridFS 之间的区别？

我正在开发一个使用 Python Flask 框架来处理 PDF 的网站。我将 PDF 文件存储在 MongoDB 中，当我需要将它们提供给访问用户时，它可以正常工作。我现在需要使用pdfminer 库进行一些文本和图像提取。当我使用pdf2txt.py并从文件系统提供文件时，这一行（这里的上下文）几乎可以立即工作：

但是当我编辑代码以便从我的 MongoDB 提供GridFS对象时，第二行（因此在检索完成后）需要大约 8 秒才能成功（结果与上面的代码相同）：

这让我感到惊讶，因为我假设从我的 MongoDB 中获取文件或从文件系统中获取文件会返回相同的结果（它在浏览器中呈现相同的结果），但显然它不一样。

有谁知道这两者之间的区别是什么导致这个电话需要这么长时间，更重要的是我该如何解决它？欢迎所有提示！

python mongodb pdf gridfs pdfminer

2014-12-23T08:43:28.477

0 投票

6 回答

13157 浏览

python - 在 Python 中从 PDF 中提取超链接

我有一个包含几个超链接的 PDF 文档，我需要从 pdf 中提取所有文本。我使用了 PDFMiner 库和来自 http://www.endliescurious.com/2012/06/13/scraping-pdf-with-python/的代码来提取文本。但是，它不会提取超链接。

例如，我的文本显示Check this link out，并附有一个链接。我能够提取单词Check this link out，但我真正需要的是超链接本身，而不是单词。

我该怎么做呢？理想情况下，我更喜欢用 Python 来做，但我也愿意用任何其他语言来做。

我看过itextsharp，但没用过。我正在运行Ubuntu，并希望得到任何帮助。

python pdf hyperlink pypdf pdfminer

2015-01-02T15:08:51.097

0 投票

2 回答

14478 浏览

python - 从pdf中提取表格

我正在尝试从此PDF中的表中获取数据。我已经尝试了 pdfminer 和 pypdf ，但我无法真正从表格中获取数据。

这是其中一张表的样子：在此处输入图像描述

如您所见，某些列标有“x”。我正在尝试将此表转换为对象列表。

这是到目前为止的代码，我现在正在使用 pdfminer。

这会产生一个文本文件并获取所有文本，但是 x 没有保留间距。输出如下所示：在此处输入图像描述

x 在文本文档中只是单行距

现在，我只是在生成文本输出，但我的目标是使用表格中的数据生成一个 html 文档。我一直在寻找 OCR 示例，其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。

编辑：将有多个像这样的 pdf，我需要从中获取表数据。所有 pdf 的标题都是相同的（据我所知）。

python python-2.7 ocr pdfminer pdf-parsing

2015-01-13T17:22:39.307

0 投票

1 回答

56 浏览

python-2.7 - 如何访问部分包含无效语法的现有（！）矩阵？

我使用 pdfminer 将 pdf-text 转换为 txt。pdfminer 遍历 pdf 文件并逐行读取。每行都分配给一个矩阵变量。问题是，由于某种原因，在极少数情况下，矩阵例如x =

显然 Г 不带引号是矩阵（或列表）的无效语法。但是， x存在但无法删除 Г，可以理解del x[0][0]不起作用。

现在我正在询问如何访问x并删除第一个元素的想法。提前谢谢了！

python-2.7 matrix pdfminer

2015-01-19T13:07:52.230

问题标签 [pdfminer]

Reference