问题标签 [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6471 浏览

python - 在python中从pdf中提取流

如何从包含它的 pdf 文件中提取该流的一部分(名为 BLABLABLA 的流)?

或者,在其他世界中,我如何从 pdf 流中提取子键?

我想使用一些 python 的库(如 pyPdf 或 ReportLab),但即使是一些 C/C++ 库也应该适合我。

谁能帮我?

0 投票
3 回答
22034 浏览

python - 用于 IndirectObject 提取的 pyPdf

按照这个例子,我可以将所有元素列出到一个 pdf 文件中

现在,我需要从 pdf 文件中提取一个非标准对象。

我的对象是名为 MYOBJECT 的对象,它是一个字符串。

与我有关的python脚本打印的部分是:

pdf文件是这样的:

我如何按照584值来引用我的字符串(当然是在 pyPdf 下)?

0 投票
7 回答
38394 浏览

python - 裁剪 .pdf 文件的页面

我想知道是否有人有任何以编程方式处理 .pdf 文件的经验。我有一个 .pdf 文件,我需要将每一页裁剪到一定大小。

在快速谷歌搜索后,我找到了 python 的 pyPdf 库,但我的实验失败了。当我更改页面对象上的cropBox 和trimBox 属性时,结果不是我所期望的,而且看起来很随机。

有没有人有这方面的经验?代码示例将不胜感激,最好是在 python 中。

0 投票
1 回答
2694 浏览

python - 通过 pypdf 在 pdf 文件上读取/写入 xmp 元数据

我可以使用以下代码通过 pyPdf 读取 xmp 元数据:

但是:这是最好的方法吗?

如果我不使用 pdf_keywords 属性?

有没有办法用 pyPdf 设置这些元数据?

0 投票
4 回答
2763 浏览

python - 快速 PDF 拆分器库

pyPdf 是一个很好的拆分、合并 PDF 文件的库。我正在使用它将 pdf 文档拆分为 1 页文档。pyPdf 是纯python,在保存提取的页面时,在 PdfFileWriter 对象的 _sweepIndirectReferences() 方法中花费了相当多的时间。我需要性能更好的东西。我尝试过使用多线程,但由于大部分时间都花在 python 代码中,因此 GIL 并没有提高速度(它实际上运行速度较慢)。

是否有任何用 c 编写的提供相同功能的库?或者是否有人对如何提高性能有一个好主意(除了为我要拆分的每个 pdf 文件生成一个新进程)

先感谢您。

跟进。几个命令行解决方案的链接,有时可以证明比 pyPDF 更快:

我修改了 pyPDF PdfWriter 类以跟踪在 _sweepIndirectReferences() 方法上花费了多少时间。如果它太长(现在我使用 3 秒的神奇值),那么我通过从 python 调用它来恢复使用 ghostscript。

感谢您的所有回答。(codelogic 的 xpdf 参考是让我寻找不同方法的参考)

0 投票
1 回答
5107 浏览

python - python和pyPdf - 如何从页面中提取文本以便行之间有空格

目前,如果我使用 pyPdf 和 extractText() 创建 pdf 页面的页面对象,会发生什么是行连接在一起。例如,如果页面的第 1 行显示“hello”并且第 2 行显示“world”,则 extractText() 返回的结果文本是“helloworld”而不是“hello world”。有谁知道如何解决这个问题,或者有解决方法的建议?我真的需要文本在行之间有空格,因为我正在对这个 pdf 文本进行文本挖掘,而行之间没有空格会杀死它....

0 投票
4 回答
4978 浏览

python - 根据大纲拆分pdf

我想使用 pyPdf 根据大纲拆分 pdf 文件,其中大纲中的每个目标都指的是 pdf 中的不同页面。

示例大纲:

在 pyPdf 中很容易遍历文档的每一页或文档大纲中的每个目标;但是,我不知道如何获取目标指向的页码。

有人知道如何在大纲中找到每个目的地的参考页码吗?

0 投票
2 回答
370 浏览

python - 什么程序可以从 Python 在 Linux 上编写 pdf 包括其他 pdf?

在 Ubuntu 服务器上,我想创建包含其他静态 pdf 的 pdf。我曾尝试将 ReportLab 与 pyPdf 一起使用。理想情况下,我会使用 ReportLab 来完成所有工作,但为了导入 pdf,需要他们的 PageCatcher,而这需要大量的经常性费用。

所以我使用 pyPdf 来合并使用 ReportLab 和我的其他 pdf 创建的页面。问题是,尽管这在 Acrobat 和 Foxit 中看起来不错,但在 Xerox 7400 彩色打印机上打印的部分页面出现了乱码。我无法弄清楚这个问题,但如果它存在并且价格合理,我愿意购买更集成的解决方案。我认为 PDF Creator Pilot 就是它,直到我看到它只是 Windows。

那么是否有价格合理(1000 美元或更少)的解决方案或不同的建议?

0 投票
3 回答
6407 浏览

python - 在 Python 中生成和合并 PDF 文件

我想用 Python 自动生成预订确认 PDF 文件。大多数内容将是静态的(即徽标、预订条款、电话号码),还有一些动态位(日期、费用等)。

从用户方面来说,最简单的方法是从包含静态内容的 PDF 文件开始,然后使用 python 添加动态部分。这是一个简单的过程吗?

通过一些搜索,我似乎可以使用 reportlab 来创建内容和 pyPdf 来将 PDF 合并在一起。这是最好的方法吗?还是有一种我还没有遇到过的非常时髦的方法?

谢谢!

0 投票
1 回答
811 浏览

pdf - 使用 Cairo 和 pyPDF 对齐两个 PDF 以进行合并

我需要以编程方式将其他图形元素添加到现有的静态 PDF 书籍封面上。现在我使用 pycairo 在透明的 PDFSurface 上绘图,然后使用 pyPdf 将其合并到现有的静态 PDF 中。通过这种方式,PDFSurface 可以作为叠加层。

但是,透明 PDF 与静态 PDF 的 TrimBox 大小完全相同,因此比静态 PDF 小。如何将内容定位在透明 PDF 上,以便在合并后完全覆盖静态 PDF 的 TrimBox?