问题标签 [pypdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 问题

0 投票

1 回答

6471 浏览

python - 在python中从pdf中提取流

如何从包含它的 pdf 文件中提取该流的一部分（名为 BLABLABLA 的流）？

或者，在其他世界中，我如何从 pdf 流中提取子键？

我想使用一些 python 的库（如 pyPdf 或 ReportLab），但即使是一些 C/C++ 库也应该适合我。

谁能帮我？

GIANCARLO

2009-01-09T19:47:57.960

0 投票

3 回答

22034 浏览

python - 用于 IndirectObject 提取的 pyPdf

按照这个例子，我可以将所有元素列出到一个 pdf 文件中

现在，我需要从 pdf 文件中提取一个非标准对象。

我的对象是名为 MYOBJECT 的对象，它是一个字符串。

与我有关的python脚本打印的部分是：

pdf文件是这样的：

我如何按照584值来引用我的字符串（当然是在 pyPdf 下）？

python pdf stream pypdf

GIANCARLO

2009-01-12T18:31:52.917

0 投票

7 回答

38394 浏览

python - 裁剪 .pdf 文件的页面

我想知道是否有人有任何以编程方式处理 .pdf 文件的经验。我有一个 .pdf 文件，我需要将每一页裁剪到一定大小。

在快速谷歌搜索后，我找到了 python 的 pyPdf 库，但我的实验失败了。当我更改页面对象上的cropBox 和trimBox 属性时，结果不是我所期望的，而且看起来很随机。

有没有人有这方面的经验？代码示例将不胜感激，最好是在 python 中。

python pdf pypdf

2009-01-19T10:43:23.267

0 投票

1 回答

2694 浏览

python - 通过 pypdf 在 pdf 文件上读取/写入 xmp 元数据

我可以使用以下代码通过 pyPdf 读取 xmp 元数据：

但是：这是最好的方法吗？

如果我不使用 pdf_keywords 属性？

有没有办法用 pyPdf 设置这些元数据？

python pdf metadata xmp pypdf

GIANCARLO

2009-01-21T19:43:46.857

0 投票

4 回答

2763 浏览

python - 快速 PDF 拆分器库

pyPdf 是一个很好的拆分、合并 PDF 文件的库。我正在使用它将 pdf 文档拆分为 1 页文档。pyPdf 是纯python，在保存提取的页面时，在 PdfFileWriter 对象的 _sweepIndirectReferences() 方法中花费了相当多的时间。我需要性能更好的东西。我尝试过使用多线程，但由于大部分时间都花在 python 代码中，因此 GIL 并没有提高速度（它实际上运行速度较慢）。

是否有任何用 c 编写的提供相同功能的库？或者是否有人对如何提高性能有一个好主意（除了为我要拆分的每个 pdf 文件生成一个新进程）

先感谢您。

跟进。几个命令行解决方案的链接，有时可以证明比 pyPDF 更快：

我修改了 pyPDF PdfWriter 类以跟踪在 _sweepIndirectReferences() 方法上花费了多少时间。如果它太长（现在我使用 3 秒的神奇值），那么我通过从 python 调用它来恢复使用 ghostscript。

感谢您的所有回答。（codelogic 的 xpdf 参考是让我寻找不同方法的参考）

python c pdf pypdf

2009-02-03T17:42:37.033

0 投票

1 回答

5107 浏览

python - python和pyPdf - 如何从页面中提取文本以便行之间有空格

目前，如果我使用 pyPdf 和 extractText() 创建 pdf 页面的页面对象，会发生什么是行连接在一起。例如，如果页面的第 1 行显示“hello”并且第 2 行显示“world”，则 extractText() 返回的结果文本是“helloworld”而不是“hello world”。有谁知道如何解决这个问题，或者有解决方法的建议？我真的需要文本在行之间有空格，因为我正在对这个 pdf 文本进行文本挖掘，而行之间没有空格会杀死它....

python text formatting pypdf

2009-11-04T08:53:31.520

0 投票

4 回答

4978 浏览

python - 根据大纲拆分pdf

我想使用 pyPdf 根据大纲拆分 pdf 文件，其中大纲中的每个目标都指的是 pdf 中的不同页面。

示例大纲：

在 pyPdf 中很容易遍历文档的每一页或文档大纲中的每个目标；但是，我不知道如何获取目标指向的页码。

有人知道如何在大纲中找到每个目的地的参考页码吗？

python pdf pypdf

2009-12-16T23:00:08.263

0 投票

2 回答

370 浏览

python - 什么程序可以从 Python 在 Linux 上编写 pdf 包括其他 pdf？

在 Ubuntu 服务器上，我想创建包含其他静态 pdf 的 pdf。我曾尝试将 ReportLab 与 pyPdf 一起使用。理想情况下，我会使用 ReportLab 来完成所有工作，但为了导入 pdf，需要他们的 PageCatcher，而这需要大量的经常性费用。

所以我使用 pyPdf 来合并使用 ReportLab 和我的其他 pdf 创建的页面。问题是，尽管这在 Acrobat 和 Foxit 中看起来不错，但在 Xerox 7400 彩色打印机上打印的部分页面出现了乱码。我无法弄清楚这个问题，但如果它存在并且价格合理，我愿意购买更集成的解决方案。我认为 PDF Creator Pilot 就是它，直到我看到它只是 Windows。

那么是否有价格合理（1000 美元或更少）的解决方案或不同的建议？

python pdf pdf-generation reportlab pypdf

2010-01-15T13:19:47.723

0 投票

3 回答

6407 浏览

python - 在 Python 中生成和合并 PDF 文件

我想用 Python 自动生成预订确认 PDF 文件。大多数内容将是静态的（即徽标、预订条款、电话号码），还有一些动态位（日期、费用等）。

从用户方面来说，最简单的方法是从包含静态内容的 PDF 文件开始，然后使用 python 添加动态部分。这是一个简单的过程吗？

通过一些搜索，我似乎可以使用 reportlab 来创建内容和 pyPdf 来将 PDF 合并在一起。这是最好的方法吗？还是有一种我还没有遇到过的非常时髦的方法？

谢谢！

python pdf merge reportlab pypdf

2010-02-14T23:19:38.080

0 投票

1 回答

811 浏览

pdf - 使用 Cairo 和 pyPDF 对齐两个 PDF 以进行合并

我需要以编程方式将其他图形元素添加到现有的静态 PDF 书籍封面上。现在我使用 pycairo 在透明的 PDFSurface 上绘图，然后使用 pyPdf 将其合并到现有的静态 PDF 中。通过这种方式，PDFSurface 可以作为叠加层。

但是，透明 PDF 与静态 PDF 的 TrimBox 大小完全相同，因此比静态 PDF 小。如何将内容定位在透明 PDF 上，以便在合并后完全覆盖静态 PDF 的 TrimBox？

pdf pdf-generation cairo pypdf

2010-02-18T10:41:11.513

1 2 3 4 5 6 7 8 9 10