问题标签 [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2278 浏览

python - 在 pypdf2 中使用 PdfFileMerger() 后的页数

我正在尝试在 PyPDF2 中使用 PdfFileMerger() 来合并 pdf 文件(参见代码)。

但是,我的合并命令受某些条件的限制,结果可能不会生成合并的 pdf 文件。我想知道如何在使用 PdfFileMerger() 执行合并后确定页数。如果不出意外,我想知道页数是否非零。维护一个计数器来做这件事会很麻烦,因为我正在跨多个函数执行合并,并且更喜欢更优雅的解决方案。

0 投票
1 回答
1108 浏览

python - python pdf (PyPDF2 模块) - 如何拆分/合并这个?

我试图拆分和合并 pdf 文件,以便我可以删除每个 pdf 文件的第一页。这是代码。

然后我收到以下错误...

:PdfReadWarning:外部参照表不是零索引的。对象的 ID 号将被更正。[pdf.py:1736]

我搜索了那个错误,发现它表明 PDF 本身的创建可能存在问题。

虽然我得到了我想要的 merge.pdf 文件,但我想知道这到底意味着什么以及如何避免得到它们。

0 投票
4 回答
55519 浏览

python - How can I remove a URL channel from Anaconda?

Recently I needed to install PyPdf2 to one of my programs using Anaconda. Unfortunately, I failed, but the URLs that was added to Anaconda environment prohibit the updates of all the Conda libraries. Every time I tried to update anaconda it gives the following

I typed the command conda info to see what causes the error, I found lots of URLs that points to PyPdf2!

Simply, I want to remove all these URLS from anaconda's channel URLs, How can I do it? No matter manually or automatic.

Note: I have uninstalled Anaconda, and reinstall, but no luck!

0 投票
0 回答
768 浏览

python - 如何使用 PyPDF2 将内容附加到 PDF 并保留过去的版本

PDF 支持文档版本。这意味着当前文档可以保持原样,我们只需添加信息即可更改文档的内容和呈现方式。该功能对于验证过去数字签名中文档的外观和完整性特别有用。

为了更好地理解我的意思,请查看此文档PDF 中的数字签名 - Adob​​e,在图 #5 中。

我已经看到了很多来自 PyPDF2 和其他 python 库的文档和示例,这些库将内容添加到 PDF 文件中。但是,只要我看过所有使用 pyPDF2 的示例,就可以从一个文件中获取内容并将内容重新构建到另一个文件中。我们可以在不丢失或破坏最新版本的数字签名的情况下做到这一点吗?

您是否知道原始复制过去版本并仅构建新文档版本重用过去对象的方法?

还是有办法直接修改文档?我的意思是,加载一个文档进行读写。

可以找到其他 PyPDF2 示例:

正如您将看到的,它们都重建了从PdfFileReader读取的 PDF并使用PdfFileWriter写入。我的意思是他们需要类似PdfStamper java class的东西,带有一个可选的布尔附加参数,该参数将尊重以前的内容并逐步更新现有的 PDF。

0 投票
0 回答
873 浏览

pdf - 以 50 页为间隔拆分 PDF 文件

我有一个 Ghostscript 以 50 页为间隔拆分 PDF 书籍。问题是 GS 正在消除注释的透明度(我认为这在技术术语中称为 alpha 通道:http ://www.peteryu.ca/tutorials/publishing/pdf_manipulation_tips )。看一本书的以下段落。在拆分之前,亮点是完全可读的。

现在,它被拉黑了

因此,我正在寻找一种方法来使用其他工具(如 PDFtk)或任何其他不会使我的注释变平的工具进行拆分。

最终,我想在 Mac 中使用 Hazel 在文件文件夹上运行脚本。

如果有帮助,这里是 Ghostscript:(我认为 $1 是 Hazel 导入文件的方式)。

你们能帮我解决这个问题吗?

谢谢

0 投票
2 回答
7926 浏览

python - Python - 按页面拆分 pdf

PyPdf2用来拆分大PDF页面。问题是这个过程非常缓慢。

这是我使用的代码:

使用此代码拆分 177 页 pdf 大约需要 35 到 55 秒。有没有办法改进这段代码?还有其他更适合这个工作的图书馆吗?

0 投票
1 回答
6497 浏览

python - PyPDF2 PdfFileWriter 没有属性流

我正在尝试将 pdf 拆分为其页面并将每个页面保存为新的 pdf。我已经从上一个问题中尝试过这种方法,但没有成功,而这里的 pypdf2 split 示例也没有成功。编辑:我可以在我的文件中看到它确实成功写入了第一页,然后创建了第二页 pdf 但为空。

这是我试图运行的代码:

这是完整的错误消息:

我也试过这个并确认我确实可以提取一个页面。

0 投票
0 回答
518 浏览

python - 使用 PyPDF2 解密二进制 pdf

嗨,我正在编写一个脚本,通过使用字典(在 python 上)为学校解密 pdf。我正在使用 PyPDF2 库,但我在解密 PDF 文件时遇到问题,因为它是在 latin-1 上编码的,而 PyPDF2 似乎无法使用该编码文件。我已经在其他 PDF 文件(非 latin-1 编码)上检查了我的脚本并且它可以工作,所以我需要让那个 PDF 文件在 UTF-8 上编码或让 PyPDF2 在 latin-1 上工作。

这是我的脚本:

所以我试图通过使用“/diccionarios/ingles/”目录中的字典来解密文件“apuntes.pdf”,错误只是在命令上:pdf = PyPDF2.PdfFileReader(open('apuntes.pdf ', 'rb')) 和 if pdf.decrypt(i.lower()): 当我尝试用任何单词解密时,它返回以下消息:**

-- Probando las combinaciones de: 0_diccionarioIngles1.txt

错误:aahed 信息:“latin-1”编解码器无法在位置 0 编码字符“\u015e”:序数不在范围内(256)

那么我该怎么做才能让我的脚本在那个 PDF 上工作呢?

谢谢

0 投票
1 回答
3201 浏览

python-3.x - 使用带有空格的pdfminer提取pdf

我正在尝试从 pdf 中提取文本,这在 SO 中已多次讨论,但我仍然无法提取 pdf,保留单词之间的空格。

这是屈服:

'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)空间群吸引了大量\n\注意归因于各种卓越的功能特性su

但是,如果我pdf2txt.py直接在终端中使用,我会得到:

我得到输出:

文章

pubs.acs.org/accounts

走向新型非中心对称材料的合理设计:影响框架结构的因素

康敏好*

韩国首尔市铜雀区黑石路 84 号中央大学化学系 06974

CONSPECTUS:具有扩展结构的固态材料揭示了许多有趣的与结构相关的特性。其中,在非中心对称 (NCS) 空间群中结晶的材料由于具有多种卓越的功能特性而引起了广泛关注。

这是所需的输出。

我没有在我的 python 脚本中发现我做错了什么。请帮忙。

0 投票
0 回答
1300 浏览

python - UnicodeEncodeError:“latin-1”编解码器无法编码字符 PyPDF2

一个简单的初学者挑战;PDF 文档的密码破解器。

不知道为什么会这样。我会继续在网上自己寻找解决方案,但我相信这很可能是我可以花一天时间解决但仍然无法解决的问题。不过,我会将编码、unicode 等添加到我的列表中。

脚本: