问题标签 [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
6735 浏览

python - 如何在 Python 中检测 PDF 文档中的旋转页面?

给定具有多页的 PDF 文档,如何检查给定页面是否旋转(-90、90 或 180º)?最好使用 Python (pdfminer, pyPDF) ...

更新:页面被扫描,大部分页面由文本组成。

0 投票
3 回答
9996 浏览

python - 逐页阅读pdf

我搜索了我的问题,但在两个可用问题中没有得到我的答案

  1. 使用 Python pdfMiner 提取每页文本?

  2. PDFMiner - 遍历页面并将其转换为文本

基本上我想遍历每个页面,因为我只想选择具有特定文本的页面。

我用过pyPdf。它适用于几乎我可以说 90% 的内容,pdfs但有时它不会从页面中提取信息。

我使用了以下代码:

上面的代码有效,但有时某些页面没有被提取。

我也尝试过使用pdfminer,但我找不到如何逐页迭代其中的 pdf。pdfminer返回 pdf 的整个文本。

我使用了以下代码:

在上面的代码中,来自 pdf 的文本来自for循环

在这种情况下,我如何一次迭代一页。

上的文档pdfminer是无法理解的。同样的还有很多版本。

那么是否有任何其他软件包可用于我的问题或可以pdfminer用于它?

0 投票
7 回答
21016 浏览

python - PDFminer:提取文本及其字体信息

我找到了这个问题,但它使用命令行,我不想在命令行中使用子进程调用 Python 脚本并解析 HTML 文件以获取字体信息。

我想使用 PDFminer 作为库,我发现了这个问题,但它们只是提取纯文本,没有其他信息,如字体名称、字体大小等。

0 投票
1 回答
622 浏览

python - 在pdfminer中输入坐标并得到结果

我正在尝试通过输入坐标来提取 pdf miner 中的文本,我已经搜索了互联网,但找不到与此相关的任何文档或代码。到目前为止,我找到了一个提取文本并输出其坐标的代码。

这是我获得的输出坐标和文本之一。我也试过pdfquery但我有很多错误。

有人可以帮我吗?

0 投票
1 回答
1935 浏览

python - 使用 PDFMiner 处理单页

我有一些 PDF 文档无法使用 PyPDF 提取文本,只能使用 PDFMiner。以下代码可以很好地从 PDF 中提取所有文本,它遍历整个文档,然后返回所有文本。有没有办法只处理 PDF 的某些页面?我拥有的 PDF 都是 2000-3000 长,我只需要处理每一页。

0 投票
4 回答
36044 浏览

python - pdfminer - ImportError:没有名为 pdfminer.pdfdocument 的模块

我正在尝试安装 pdfMiner 以使用 CollectiveAccess。我的主机 (pair.com) 为我提供了以下信息以帮助完成此任务:

编译时,可能需要指示
安装使用上面的帐户空间,而不是尝试安装
到操作系统目录中。通常,
在安装命令末尾使用“--home=/usr/home/username/pdfminer”应该允许这样做。

我在尝试安装时遵循了此说明。结果是:

我看不出有什么问题(我对 python 很陌生),但是当我尝试运行示例命令时,$ pdf2txt.py samples/simple1.pdf我得到了这个错误:

我正在运行 python 2.7.3。我无法从根安装(共享主机)。pdfminer 的最新版本,即 2014/03/28。我看过一些关于类似问题的帖子(“没有命名模块......”但没有完全相同。建议的解决方案要么没有帮助(例如使用 sudo 安装 - 不是一个选项;指定 python 的路径(其中似乎不是问题)等)。

或者这是我的主人的问题?(即,他们的设置有问题或不同)

0 投票
1 回答
4639 浏览

python - 从python中的pdf中提取用印地语编写的文本

我想从 pdf 文档中提取以印地语输入的文本。我附上了 我正在处理的示例页面的图像。

我尝试使用 pdfminer 从中获取文本,但文本是乱码(可能是由于印地语字体)

现在我正在考虑将页面分成三部分,然后将每个部分分成两部分(分隔英文和印地文文本),然后在每一半上运行 ocr 以获取文本,但唯一的问题是我不知道印地文使用的字体所以我可能会再次收到乱码。

我的问题是,有没有更好的方法来处理印地语字体?如何找到字体名称?

0 投票
1 回答
1615 浏览

python - 我想用 python 抓取一个印地语(印度语言)pdf文件

我已经编写了从 PDF 文件中抓取所有数据的 python 代码。这里的问题是,一旦被刮掉,单词就会失去语法。如何解决这些问题?我附上代码。

这是PDF的屏幕截图。 PDF 屏幕截图

0 投票
1 回答
36 浏览

python-2.7 - 使用 Python 自动进行桌面筛选

我正在尝试制作一个程序,可以自动扫描用户桌面上的图像或文本,然后将其转换为.txt文件以进行文本分析。

到目前为止,我已经找到了可以转换PDF为. 但是我想让我的程序以特定的时间间隔自动扫描桌面屏幕,而不是手动输入源,例如:HTML.txt

我不知道从哪里开始,所以任何建议都会受到赞赏。

0 投票
0 回答
2760 浏览

python - pdfminer - 导入错误