问题标签 [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
159 浏览

python - 将一页pdf附加到目录中所有pdf的末尾 - python

我正在尝试将 1 页 pdf(最后一页)添加到目录中所有发票 pdf 的末尾,然后根据文件开始('ICO_'+ HH 名称)将 pdf 重命名为新名称。

问题 1.) 我的代码是在 1 页顶部汇总以前的发票(1 = 1 + 最后一个,2 = 1 + 2 + 最后一个,等等......)。我尝试在 rowcount = rowcount + 1 之前清除文件名 (filename = "") 但这也没有帮助。

问题 2。)当 filestart 遇到相似的姓氏(smitht 和 smithr)时,当我知道这是一张不同的发票时,我会收到一个错误,指出该文件已经存在。有没有办法解决这个问题?

0 投票
0 回答
273 浏览

python - 如何使用 PyPDF2 识别 PDF 页面是否包含文本?

最初的任务是将 PDF 裁剪为几个单独的部分。我已经调整了一些参数来完成任务,但有时,我的裁剪方法会导致一个“空白页”,看起来就像它有一个文本(使用 extractText 方法)。所以我想知道如何过滤上面提到的“空白页”。

以下是我的裁剪方法的一部分:

这是裁剪的 PDF:https ://drive.google.com/open?id=0BxL6yv_HDnNYMEt0OF9RU1BaYWM

0 投票
1 回答
303 浏览

python - 将 UDF 应用于 for 循环 - Python

PDF 示例: “Smith#00$Consolidated_Performance.pdf”

目标是根据文件名将书签添加到每个 PDF 的第 1 页。

(示例中的书签名称为“Consolidated Performance”)

UDF 在应用于单个 PDF 时工作正常,但在放入代码底部的循环时不会添加书签。关于如何使 UDF 循环遍历 pdfcdir 中的所有 PDF 的任何想法?

0 投票
1 回答
1670 浏览

python - 用 Django 打开 pdf 文件

我正在尝试将 Django 中的两个 pdf 文件与 PyPDF2 和 ReportLab 合并。我的看法如下:

项目树如下:

在此处输入图像描述

因此,我创建新文件,然后打开现有文件file.pdf,然后合并这两个文件。最后,我为 output 创建了一个文件new_file.pdf

这工作正常,但问题在于返回的文件。如果我运行export_to_pdf函数,我应该得到new_file.pdf. 我得到了那个文件,但那个文件的内容只是我创建的

没有合并文件的内容file.pdf

但是,如果我new_file.pdf通过单击直接打开它,我会得到应有的一切。

任何建议我做错了什么?

0 投票
0 回答
229 浏览

python - PyPDF2 - 手动将新页面添加到合并的 PDF 偏移原始书签目的地

下面的代码非常适合我最初尝试完成的工作。但是,如果我尝试手动向该 PDF 添加新的第一页和书签,则现有的书签目标会向后移动一页,并且不会链接到它们最初合并的位置。

有什么建议么?有没有办法在合并期间锁定书签目的地?

0 投票
1 回答
2688 浏览

python - 如何使用 PyPDF2 更新字段

我正在尝试制作一个 pdf 生成器,我快到了,但无法弄清楚更新表单字段的最后一步。

我在 Python 3.6 的 Windows 环境中使用 PyPDF2

第一步是下载 pdf(其中有很多,尽管它们都非常相似并且都具有相同的表单字段)。然后,以下代码将打开 pdf 并编写一个新的。我的信念是,如果我更新表单字段字典并将该字典写入新文件,那么它将进行我想要的更改。问题是我无法弄清楚如何使更新的字典生效。

我可以在 PyPDF2 的文档中看到有 updatePageFormFieldValues(page, fields) 但是 getFormTextFields 函数返回的字典没有给出它适用的页面(这些字段总是分布在 pdf 中的 4 页上),所以我不太确定如何应用它。

我已经查看了许多其他问题和解决方案,例如this,但觉得它们不符合我的需求。

提前致谢。

0 投票
2 回答
1403 浏览

python - 使用 PyPDF2 合并两个 pdf 文件时出错

我对这个问题进行了很多搜索,但没有找到任何确切的解决方案,这就是我问这个问题的原因......

这是我使用 PyPDF2 在 python 中合并两个 pdf 文件的代码:

我在解释此代码时遇到的错误是:

0 投票
1 回答
520 浏览

python-3.x - 使用 PyPDF2 合并多个 pdf 文档中的页面

我一直在尝试使用以下循环将多个文档中的多个页面使用相同的前景与 PyPDF2 合并。

结果是一系列 pdf 文件的大小越来越大,即第一个文件约为 6MB,在第 16 次循环之后,生成的文件约为 70MB。似乎正在发生的事情是前景图像被带入下一个循环。我尝试使用重新初始化 PageObject (input_file)

无济于事。如果有人有建议,将不胜感激。

0 投票
1 回答
1587 浏览

python - 使用python从新生成的pdf文件中删除空白页

使用下面的代码,我试图将图片从目录粘贴到 PDF 文件中。代码已经可以正常工作并几乎按照我的意愿生成我的 PDF。

发生的唯一问题是它不断在图片之间添加空白页,我只是不知道为什么。如果我执行代码,PDF 以空白页开始,然后是图片 1、空白页、图片 2,依此类推。所以我最终得到了一个包含 25 张图片的 50 页 PDF 文件。

不过,图片已正确插入,周围没有任何白色边框。它们非常适合页面大小。

如何避免添加空白页的问题?

或者,有没有办法在我新生成的 PDF 文件中搜索空白页并将其删除?

0 投票
3 回答
1684 浏览

python - 使用python中的pyPDF2模块递归合并子文件夹中的pdf

我是一名学习 python 的新手开发人员,我试图递归地解析包含多个 pdf 的文件夹和子文件夹,并根据子文件夹名称将它们合并到一个 pdf 中。我有以下文件夹和子文件夹结构

合并前的文件夹

id 喜欢看到的理想结果是

之前使用 pandas 为 csv 文件回答了问题字符串。但我使用 PyPDf 合并 pdf'f 这是我迄今为止尝试过的代码。它似乎可以工作,但我可能已经搞砸了 for 循环,所以递归地在子文件夹中附加和合并 pdf

任何建议将不胜感激提前谢谢