问题标签 [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
237 浏览

python - PyPDF2 仅从页面中读取换行符

我正在从 pdf 文件中读取文本,如下所示:

然而,输出是一个长的 unicode 对象,只包含\n字符。该文件未加密。

无法从该文件中读取文本的任何解释?

0 投票
2 回答
4219 浏览

python - 使用 PyPDF2 为 PDF 添加书签

我正在尝试使用 PyPDF2 向 PDF 添加书签。我运行以下没有问题。但是永远不会创建书签。关于我做错了什么的任何想法。PDF 有 2 页长。

0 投票
3 回答
4130 浏览

python - PyPDF2:流已意外结束

我有一个 Python 脚本,它使用 PyPDF2 来反转 PDF 页面的顺序。

在尝试写入输出流之前按预期运行,它会返回此错误:

该代码确实创建了一个 PDF 文件,但它的大小为 0KB,因此不可读。我已经测试了一个示例脚本来合并在这里找到的三个 PDF,这会产生另一个空文件并导致此错误:

使用此脚本将 PDF 拆分为其组成页面时,也会输出上一个错误:

上面的代码生成 (n-1) 个可读的 PDF,但第 n 个 PDF 是一个空文件。知道如何解决这个问题吗?

0 投票
2 回答
4991 浏览

python - 如何在 pyPDF2 中旋转页面?

我正在使用 pyPDF2 编辑 PDF 文件。我设法生成了我想要的 PDF,但我还没有旋转一些页面。

我查看了文档并找到了两种方法:rotateClockwiseand rotateCounterClockwise,虽然他们说参数是int,但我无法使其工作。蟒蛇说:

要产生此错误:

我找不到解释程序的人。然而,stackoverflow 中有一个问题,但答案很模糊。

提前致谢。对不起,如果我错过了什么。

0 投票
1 回答
15752 浏览

python - 使用 pyPDF2 和 BytesIO 将 PDF 页面转换为图像

我有一个函数可以从 PDF 文件中获取页面,并且应该使用(PIL Fork)pyPdf2将第一页转换为 png(或 jpg )Pillow

这会导致错误:

OSError:无法识别图像文件 <_io.BytesIO 对象位于 0x0000023440F3A8E0>

我发现了一些具有类似问题的线程(PIL open() 方法不适用于 BytesIO),但我看不出我在哪里错了,因为我pdf_bytes.seek(0)已经添加了。

任何提示表示赞赏

0 投票
1 回答
1105 浏览

python-3.x - 使用 PyPDF2 检查页面是否垂直?

有没有办法使用 PyPDF2 检查 PDF 页面是否垂直?

理想情况下,会有pdfReader.getPage(0).isVertical()返回trueor的方法,但我在PageObject 文档false中找不到任何内容

我正在尝试在 PDF 的第一页顶部合并水印,但只有当 PDF 处于垂直方向时它才看起来正确。

希望做到以下几点。

0 投票
1 回答
1509 浏览

python - PyPdf2同名嵌套书签不起作用

当您尝试嵌套多个具有相同名称的书签时,PyPdf2 不会考虑它。下面是自包含的python代码来测试我的意思(你需要在工作文件夹中有3个名为a、b和c的pdf文件来测试它)

我希望生成的 pdf 具有三层嵌套书签

但相反我得到

有什么方法可以确保不会发生这种情况?

编辑:我已经删除了pagenum变量,因为我希望这 3 个书签指向同一页面。

0 投票
0 回答
1043 浏览

python - 使用 PyPDF 2 解析 pdf 文件

异步我的意思是,正如您在第二个屏幕截图中看到的那样,地址和电话详细信息变得混杂在一起我的任务是使用具有某些特定属性的 python 脚本来解析 pdf 文件。我必须获取first name,last name和. 我已经完成了以下操作。addressemail

但是因为文本是异步的并且难以处理而出现问题。

给定pdf的屏幕截图。 在此处输入图像描述 在此处输入图像描述

先感谢您。

0 投票
3 回答
7670 浏览

python - 在 Python 中从 PDF 中提取文本

我有一个充满报价的 PDF:

https://www.pdf-archive.com/2017/03/22/test/

我可以使用以下代码在 python 中提取文本:

这会将所有引号作为一个段落返回。是否可以通过水平分隔符“拆分”pdf并将其拆分为引号?

0 投票
0 回答
757 浏览

python - 在 Python 中从 PDF 中提取水平线和文本

PDF是https://www.pdf-archive.com/2017/03/22/pdf/

我正在寻找一个 JSON 文件,其中包含:参考、日期、申请人、位置和提案。我的第一个目标是弄清楚如何通过水平线“拆分”pdf以提取每个单独的应用程序。

我正在使用 PyPDF2

但是我无法让这种拆分发挥作用。我一直试图让 PyPDF2 打印出它从 PDF 中“看到”的所有内容,但也不能这样做。