问题标签 [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
206905 浏览

python - 合并 PDF 文件

是否可以使用 Python 合并单独的 PDF 文件?

假设是这样,我需要进一步扩展它。我希望遍历目录中的文件夹并重复此过程。

而且我可能会碰运气,但是是否可以排除每个 PDF 中包含的页面(我的报告生成总是会创建一个额外的空白页面)。

0 投票
4 回答
7680 浏览

python - 如何获取书签的页码

pyPdf.pdf.Destination有很多属性,但我找不到该书签的任何引用页码。如何获取书签的页码?


例如outlines[1].page.idnum,返回的数字大约是 PDF 文档中引用的页码的 3 倍,我假设它引用了一些小于页面的对象,因为.page.idnum在整个 PDF 文档大纲上运行返回的数字数组甚至与“真实”没有线性相关PDF 文档中的页码目标,大约是 3 倍


更新:这个问题与此相同:尽管我不明白作者在那里的自我回答中做了什么,但根据大纲拆分了一个 pdf 。对我来说似乎太复杂而无法使用

0 投票
3 回答
13136 浏览

python - PyPDF2 压缩

我正在努力使用 PyPDF2 模块压缩我合并的 pdf。这是我基于http://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/的尝试

我收到的错误是

我也尝试在合并完成后压缩 pdf。我将失败的压缩基于使用 PDFSAM 进行压缩后得到的文件大小。有什么想法吗?谢谢。

0 投票
0 回答
85 浏览

python - 如何在 PyPDF2.PdfFileWriter 的 addBookmark 函数中传递最高值

我正在将书签添加到新创建的 PDF 中,但单击书签会转到页面顶部,而不是原始 PDF 的当前行。

我收到以下书签的详细信息:

我正在从此链接获取书签。

我想传递/FitHTop重视

我参考以下链接,但我可以使用这些值:

  1. 链接1

  2. 链接2

0 投票
3 回答
862 浏览

python - Collapse Bookmarks using PYPDF2

When I use PYPDF2 to merge two PDF documents, I set the Page Mode to /UseOutlines so that the PDF will display the bookmark pane when the document is opened.

However, whenever the PDF document is opened the bookmarks are always expanded. Is there a property that I can modify to force the bookmarks to be collapsed when the document is opened?

0 投票
1 回答
3526 浏览

python - 绘制到reportlab pdf的图像大于pdf纸张大小

我正在编写一个程序,它获取给定文件夹中的所有图片并将它们聚合成 pdf。我遇到的问题是,当绘制图像时,它们的尺寸更大并且奇怪地向左旋转。我到处搜索,甚至在reportlab文档中也没有找到任何东西。

这是代码:

im_width我还尝试使用变量缩放和指定纵横比,它给出了相同的输出。

0 投票
2 回答
1237 浏览

python - PyPDF2 append a PDF from the 2nd page

I'm learning how to program using the "automate the boring stuff"-book, I have, however stumbled upon a roadblock in chapter 13. "Merge multiple PDF's, but omit the title page from all but the first page"

In the book, they do it by looping over the PDF, however, while looking into PyPDF2 module, I found the 'pages'-option a cleaner solution. I, however, have difficulties to get this to work.

Don't look yet if it is pythonic or something. I still haven't learned classes ;-) After the book, I plan on starting with classes, objects, decorators, *args and **kwargs ;-)

I need help in the last line of code of my snippet.

My code:

When looking at the module, I find this: src: https://pythonhosted.org/PyPDF2/PdfFileMerger.html

merge(position, fileobj, bookmark=None, pages=None, import_bookmarks=True)

pages – can be a Page Range or a (start, stop[, step]) tuple to merge only the specified range of pages from the source document into the output document.

I also found this about page_ranges, but whatever I try, I can't get it to work: src: https://github.com/mstamy2/PyPDF2/blob/master/PyPDF2/pagerange.py

The error is receive is the following: TypeError: "pages" must be a tuple of (start, stop[, step])

What I can find about this is:

src: https://github.com/mstamy2/PyPDF2/blob/master/PyPDF2/merger.py#L137

Thanks in advance for all the help!

0 投票
1 回答
8474 浏览

python - PyPDF2 坚持删除所有空格

我已经阅读了许多其他 stackoverflow 答案,但还没有找到令人满意的答案,但之前有人问过。当我尝试使用 PyPDF2 阅读 pdf 文档时,它会将句子中的所有单词合并为一个连续的字符串。有没有人在弄清楚如何避免这种情况方面取得任何进展。下面是代码

下面是输出示例

0 投票
1 回答
793 浏览

python - python-pypdf基于页面范围列表拆分pdf

我正在尝试根据名称列表和页面列表拆分一个大的 pdf。例如名字有三页,第二个有一页,第三个有五页,依此类推。我创建了以下脚本,但它无法正常工作。例如,当pdf拆分第一个是正确的三页,第二个有四页它应该只有一页,第三个有九页它应该有五页等等最后一个pdf有所有页面它应该有一个页。我错过了什么?

0 投票
1 回答
103 浏览

python - 使用 python 3 在一个 txt 文件中写入 3000 多个 pdf 文件时出错

我正在尝试从一个 txt 文件中的 3000 多个 PDF 中提取文本(而我必须从每一页中删除标题):

但是,我收到以下错误: