问题标签 [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5160 浏览

pdf - PDF框坐标是相对的还是绝对的?

我想使用 pyPDF 以编程方式编辑 PDF。目前,我正在努力解释各种 PDF 框(TrimBox、MediaBox 等)的尺寸。每个盒子有四个维度存储为一个四元组,例如:

根据 PDF 规范,这些应该描述一个矩形,当然 (56.69, 56.69) 确定这个矩形的左上角。但是, (1040.31, 751.18) 是解释为这个矩形的右下角,还是相对于左上角的向量?

显然,这个答案在排字机中非常有名,以至于到目前为止我在任何地方都找不到明确的拼写。

0 投票
3 回答
82299 浏览

python - 如何使用 PyPdf 在 pdf 文件中逐行读取?

我有一些代码可以从 pdf 文件中读取。有没有办法在 Windows 上使用 Pypdf、Python 2.6 从 pdf 文件(不是页面)中逐行读取?

这是阅读pdf页面的代码:

更新:

调用代码是这样的:

0 投票
1 回答
9274 浏览

pdf - 使用 pypdf 更改 pdf 文件的元数据

我想使用 pypdf 创建/修改 pdf 文档的标题。似乎标题是只读的。有没有办法访问这个元数据 r/w?

如果回答是肯定的,将不胜感激一段代码。

谢谢

0 投票
21 回答
145207 浏览

python - 在python中从PDF中提取图像而不重新采样?

如何以原始分辨率和格式从 pdf 文档中提取所有图像?(意味着将 tiff 提取为 tiff,将 jpeg 提取为 jpeg 等,并且无需重新采样)。布局并不重要,我不在乎源图像是否位于页面上。

我正在使用 python 2.7,但如果需要可以使用 3.x。

0 投票
1 回答
3989 浏览

pdf - 动态生成的 PDF 文件可在除 Adob​​e Reader 之外的大多数阅读器中使用

我正在尝试从用户输入动态生成 PDF,我基本上打印用户输入并将其覆盖在我没有创建的现有 PDF 上。

它有效,但有一个主要例外。Adobe Reader 在 Windows 或 Linux 上无法正确阅读。我手机上的 QuickOffice 也不读取它。所以我想我会追踪我创建文件的路径 -

1 - 使用 LZW 编码的 Adob​​e Distiller 制作的背景 PDF 1.2的原始 PDF 。
我没有做这个。

2 - 使用 Ghostscript 制作的背景PDF 1.4 的 PDF。
我在上面使用了 pdf2ps 然后 ps2pdf 来剥离 LZW,以便 reportlab 和 pyPDF 库能够识别它。请注意,此文件在 Adob​​e Reader 中看起来“模糊”,就像扫描错误,但在其他阅读器中看起来不错。

3 -用户输入文本的 PDF 格式,可与
用户输入的 Reportlab 制作的背景 PDF 1.3 相结合。在我尝试过的每个阅读器中都可以正常打开并且看起来不错。

4 - 使用 PyPDF在 2 和 3 上的功能完成的 PDF PDF 1.3。
mergePage()

无法打开:
Adob​​e Reader for Windows
Adob​​e Reader for Linux
QuickOffice for Android

在以下位置完美打开:
Google Docs' PDF 查看器 on the web
evince for linux
ghostscript viewer for linux Foxit reader for Windows
Preview for Mac

是否有我应该知道的已知问题?我不确切知道“flate”是什么,但从互联网上我了解到它是 LZW 的某种开源替代品,用于 PDF 压缩?这会导致我的问题吗?如果是这样,是否有任何库可以用来修复代码中的原因?

0 投票
13 回答
206905 浏览

python - 合并 PDF 文件

是否可以使用 Python 合并单独的 PDF 文件?

假设是这样,我需要进一步扩展它。我希望遍历目录中的文件夹并重复此过程。

而且我可能会碰运气,但是是否可以排除每个 PDF 中包含的页面(我的报告生成总是会创建一个额外的空白页面)。

0 投票
4 回答
11120 浏览

django - 如何在浏览器中打开生成的 PDF 文件?

我写了一个 Pdf 合并,它将原始文件与水印合并。

我现在要做的是通过 Django 视图在浏览器中打开“document-output.pdf”文件。我已经查看了Django的相关文章,但是由于我的方法相对不同,我没有直接创建PDF对象,使用响应对象作为它的“文件”,所以我有点迷茫。

那么,在 Django 视图中我该怎么做呢?

0 投票
2 回答
2769 浏览

python - pypdf python工具

使用pypdf python模块如何阅读以下pdf文件http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf

以上仅打印二进制

以及如何从下面的代码中打印内容

0 投票
3 回答
6001 浏览

python - what causes "insufficient data for image" in a pdf

I have a program in Python (using pyPDF) that merges a bunch of different PDF documents. Sometimes, the resulting pdf is fine, except for some blank pages in the middle. When I view these documents with Acrobat Reader, I get an error message saying "insufficient data for image". When I view the documents with FoxIT Reader, I get some blank pages and a munged image.

The only odd thing about the PDF that creates the blank pages is that it seems to be PDF Version 1.4, and PyPdf seems to create files with PDF Version 1.3.

1) Does the version thing sound like the root cause of my problem?

2) Is there a way to get PyPdf to handle this correctly?

0 投票
2 回答
1703 浏览

python - 在 Python 中隐藏 PDF 文件中的信息

在 Python 中,我有 ReportLab 生成的文件。现在,我需要从该 PDF 中提取一些页面并隐藏机密信息。

我可以创建一个带有黑点的 PDF 文件并使用 pyPdf 来合并页面,但人们仍然可以选择并复制粘贴黑点下的信息。

有没有办法让这些地点完全保密?

例如,我需要在页面上隐藏地址,我该怎么做?

谢谢,