问题标签 [pdfminer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

435 问题

0 投票

3 回答

6735 浏览

python - 如何在 Python 中检测 PDF 文档中的旋转页面？

给定具有多页的 PDF 文档，如何检查给定页面是否旋转（-90、90 或 180º）？最好使用 Python (pdfminer, pyPDF) ...

更新：页面被扫描，大部分页面由文本组成。

2015-12-29T17:11:18.963

0 投票

3 回答

9996 浏览

python - 逐页阅读pdf

我搜索了我的问题，但在两个可用问题中没有得到我的答案

基本上我想遍历每个页面，因为我只想选择具有特定文本的页面。

我用过pyPdf。它适用于几乎我可以说 90% 的内容，pdfs但有时它不会从页面中提取信息。

我使用了以下代码：

上面的代码有效，但有时某些页面没有被提取。

我也尝试过使用pdfminer，但我找不到如何逐页迭代其中的 pdf。pdfminer返回 pdf 的整个文本。

我使用了以下代码：

在上面的代码中，来自 pdf 的文本来自for循环

在这种情况下，我如何一次迭代一页。

上的文档pdfminer是无法理解的。同样的还有很多版本。

那么是否有任何其他软件包可用于我的问题或可以pdfminer用于它？

python python-2.7 pdf pypdf pdfminer

2016-01-04T13:00:03.943

0 投票

7 回答

21016 浏览

python - PDFminer：提取文本及其字体信息

我找到了这个问题，但它使用命令行，我不想在命令行中使用子进程调用 Python 脚本并解析 HTML 文件以获取字体信息。

我想使用 PDFminer 作为库，我发现了这个问题，但它们只是提取纯文本，没有其他信息，如字体名称、字体大小等。

python text-extraction pdfminer

2016-01-05T07:33:04.340

0 投票

1 回答

622 浏览

python - 在pdfminer中输入坐标并得到结果

我正在尝试通过输入坐标来提取 pdf miner 中的文本，我已经搜索了互联网，但找不到与此相关的任何文档或代码。到目前为止，我找到了一个提取文本并输出其坐标的代码。

这是我获得的输出坐标和文本之一。我也试过pdfquery但我有很多错误。

有人可以帮我吗？

python pdfminer

2016-02-23T09:35:05.960

0 投票

1 回答

1935 浏览

python - 使用 PDFMiner 处理单页

我有一些 PDF 文档无法使用 PyPDF 提取文本，只能使用 PDFMiner。以下代码可以很好地从 PDF 中提取所有文本，它遍历整个文档，然后返回所有文本。有没有办法只处理 PDF 的某些页面？我拥有的 PDF 都是 2000-3000 长，我只需要处理每一页。

python pdf extraction text-extraction pdfminer

2016-03-08T13:45:33.297

0 投票

4 回答

36044 浏览

python - pdfminer - ImportError：没有名为 pdfminer.pdfdocument 的模块

我正在尝试安装 pdfMiner 以使用 CollectiveAccess。我的主机 (pair.com) 为我提供了以下信息以帮助完成此任务：

编译时，可能需要指示
安装使用上面的帐户空间，而不是尝试安装
到操作系统目录中。通常，
在安装命令末尾使用“--home=/usr/home/username/pdfminer”应该允许这样做。

我在尝试安装时遵循了此说明。结果是：

我看不出有什么问题（我对 python 很陌生），但是当我尝试运行示例命令时，$ pdf2txt.py samples/simple1.pdf我得到了这个错误：

我正在运行 python 2.7.3。我无法从根安装（共享主机）。pdfminer 的最新版本，即 2014/03/28。我看过一些关于类似问题的帖子（“没有命名模块......”但没有完全相同。建议的解决方案要么没有帮助（例如使用 sudo 安装 - 不是一个选项；指定 python 的路径（其中似乎不是问题）等）。

或者这是我的主人的问题？（即，他们的设置有问题或不同）

python pdfminer

2016-03-09T23:29:25.970

0 投票

1 回答

4639 浏览