问题标签 [pypdf2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyPDF2 仅从页面中读取换行符
我正在从 pdf 文件中读取文本,如下所示:
然而,输出是一个长的 unicode 对象,只包含\n
字符。该文件未加密。
无法从该文件中读取文本的任何解释?
python - 使用 PyPDF2 为 PDF 添加书签
我正在尝试使用 PyPDF2 向 PDF 添加书签。我运行以下没有问题。但是永远不会创建书签。关于我做错了什么的任何想法。PDF 有 2 页长。
python - PyPDF2:流已意外结束
我有一个 Python 脚本,它使用 PyPDF2 来反转 PDF 页面的顺序。
在尝试写入输出流之前按预期运行,它会返回此错误:
该代码确实创建了一个 PDF 文件,但它的大小为 0KB,因此不可读。我已经测试了一个示例脚本来合并在这里找到的三个 PDF,这会产生另一个空文件并导致此错误:
使用此脚本将 PDF 拆分为其组成页面时,也会输出上一个错误:
上面的代码生成 (n-1) 个可读的 PDF,但第 n 个 PDF 是一个空文件。知道如何解决这个问题吗?
python - 使用 pyPDF2 和 BytesIO 将 PDF 页面转换为图像
我有一个函数可以从 PDF 文件中获取页面,并且应该使用(PIL Fork)pyPdf2
将第一页转换为 png(或 jpg )Pillow
这会导致错误:
OSError:无法识别图像文件 <_io.BytesIO 对象位于 0x0000023440F3A8E0>
我发现了一些具有类似问题的线程(PIL open() 方法不适用于 BytesIO),但我看不出我在哪里错了,因为我pdf_bytes.seek(0)
已经添加了。
任何提示表示赞赏
python-3.x - 使用 PyPDF2 检查页面是否垂直?
有没有办法使用 PyPDF2 检查 PDF 页面是否垂直?
理想情况下,会有pdfReader.getPage(0).isVertical()
返回true
or的方法,但我在PageObject 文档false
中找不到任何内容
我正在尝试在 PDF 的第一页顶部合并水印,但只有当 PDF 处于垂直方向时它才看起来正确。
希望做到以下几点。
python - PyPdf2同名嵌套书签不起作用
当您尝试嵌套多个具有相同名称的书签时,PyPdf2 不会考虑它。下面是自包含的python代码来测试我的意思(你需要在工作文件夹中有3个名为a、b和c的pdf文件来测试它)
我希望生成的 pdf 具有三层嵌套书签
但相反我得到
有什么方法可以确保不会发生这种情况?
编辑:我已经删除了pagenum
变量,因为我希望这 3 个书签指向同一页面。
python - 使用 PyPDF 2 解析 pdf 文件
异步我的意思是,正如您在第二个屏幕截图中看到的那样,地址和电话详细信息变得混杂在一起我的任务是使用具有某些特定属性的 python 脚本来解析 pdf 文件。我必须获取first name
,last name
和. 我已经完成了以下操作。address
email
但是因为文本是异步的并且难以处理而出现问题。
给定pdf的屏幕截图。
先感谢您。
python - 在 Python 中从 PDF 中提取文本
我有一个充满报价的 PDF:
https://www.pdf-archive.com/2017/03/22/test/
我可以使用以下代码在 python 中提取文本:
这会将所有引号作为一个段落返回。是否可以通过水平分隔符“拆分”pdf并将其拆分为引号?
python - 在 Python 中从 PDF 中提取水平线和文本
PDF是https://www.pdf-archive.com/2017/03/22/pdf/
我正在寻找一个 JSON 文件,其中包含:参考、日期、申请人、位置和提案。我的第一个目标是弄清楚如何通过水平线“拆分”pdf以提取每个单独的应用程序。
我正在使用 PyPDF2
但是我无法让这种拆分发挥作用。我一直试图让 PyPDF2 打印出它从 PDF 中“看到”的所有内容,但也不能这样做。