问题标签 [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyPdf合并错误
当我使用 PyPdf 将几个 Pdf 页面合并为一个页面mergeTranslatedPage
时,我得到了一些未知字符,这些未知方块是最后一个合并页面中未包含的字符,经过一些研究,我认为该方法_merge_ressources
效果不佳,因为后者页面可能会覆盖旧页面的资源,我page1.compressContentStreams()
在每次合并后都尝试过,但没有结果。
在此链接中,您将看到已合并的 PDF 示例和 PDF 结果。
请提供任何帮助
python - 如何遍历 PDF 页面中的所有对象并检查哪些是文本对象?
我想使用 pypdf 遍历 pdf 页面中的所有对象。
我还想检查对象的类型是什么,是文本还是图形。
代码片段将是一个很大的帮助。
非常感谢
python - PDFFileReader 在使用后没有关闭 pdf
我在 Win 64bit 上运行 Python 2.7。我正在尝试将pdf下载到文件,打开pdf,提取文本,然后最后删除pdf,但是当我尝试删除python时出现错误(使用python代码并手动尝试删除pdf - windows 说该文件正在被 pythonw 使用)。我的简化代码:
返回错误:
有什么建议么?
python - PDF出血检测
我目前正在编写一个小工具(Python + pyPdf)来测试 PDF 的打印机一致性。
唉,我已经对第一个任务感到困惑:检测 PDF 是否有至少 3 毫米的“出血”(没有打印任何内容的页面周围的边框)。我已经知道我无法检测到完整文档的出血,因为似乎没有全球性的。但是,在页面上,我总共可以检测到五个不同的框:
mediaBox
bleedBox
trimBox
cropBox
artBox
我阅读了有关这些框的pyPdf 文档,但我理解的唯一一个mediaBox
似乎代表了整个页面大小(即纸张)。
bleedBox
很明显应该定义出血,但情况似乎并不总是如此。
我注意到的另一件事是,例如在PDF中,所有这些框在每一页上都有完全相同的大小(意味着根本没有出血),但是当我打开它时会出现大量出血;这使我认为各个文本元素都有自己的偏移量。
因此,显然,仅计算出血mediaBox
量bleedBox
并不是一个可行的选择。
如果有人能阐明这些盒子实际上是什么以及我可以从中得出什么结论(例如,一个盒子总是比另一个小),我会非常高兴。
额外的问题:有人可以告诉我文档中提到的“默认用户空间单元”到底是什么吗?我很确定这是指在我的机器上,但我想在任何地方强制执行。mm
mm
python - 从 PdfFileWriter 创建 blobstore 文件
我正在尝试使用 python 和谷歌应用引擎将两个 pdf 与 pyPdf 库合并。我从 blobstore 读取文件,并使用我需要的信息创建 PdfFileWriter 对象,但是在将这个 PdfFileWriter 转换为 blobstore 文件时遇到了麻烦。有什么办法解决吗?谢谢 :)
这是我的代码:
python - 在 tkinter 上显示带有 GUI 的 pdf 页面
我正在使用 pyPdf 裁剪 pdf 页面。我唯一想念的是这个脚本的 GUI。我拿起 tkinter 模块来做 GUI,但我找不到是否可以使用 tkinter 创建的 GUI 显示 pdf 页面。
有什么想法吗 ?
谢谢你。
python - 如何在不实际创建文件的情况下从变量或 http URL 获取文件对象?
我想使用 PyPDF 操作下载的 PDF,为此,我需要一个文件对象。
我使用 GAE 来托管我的 Python 应用程序,因此我实际上无法将文件写入磁盘。
有没有办法从 URL 或包含文件内容的变量中获取文件对象?
TIA。
python - How can I add transparent watermark to PDF printout using reportlab python library
I have to draw a watermark in my dynamically generated PDF Print.
I did it using the pyPdf library(By merging the Original PDF and the PDF with watermark). http://wa5pb.freeshell.org/motd/?p=769
My problem is, I have to make the watermark image transparent, without using the mask parameter of drawImage feature in reportlab library, Since it is manual. Any suggestions?
Thanks!.
python - 如何使用 Python 在 PDF 中插入“缺失”页面作为空白页面?
假设您必须加入一些编号为 2、4 和 5 的页面……(文件名为 test_002.pdf、test_004.pdf 和 test_005.pdf),那么我们可以说缺少第 3 页。
我尝试做的是从这些命令中得到结果:
这将把偶数页和奇数页连接到一个唯一的页面中,并用空白页 (3) 代替丢失的页面。
我想它应该:
- 从头到尾检查传入的文件以查找缺少的页面(在这种情况下,从 2 到 5 缺少 #3)
- 即时生成空白的 '23.5cm,30cm' pdf 页面(可能使用 pyPdf)
- 将它们分类为“偶数”和“奇数”,以便能够加入每个偶数页面(使用 pdfjam)......
我对吗?
这可能与某些 Python 行有关吗?或者有没有更简单的方法?
因为这就是我开始做的事情,让它像一个热文件夹一样工作,但我真的完全迷失在偶数和奇数管理中,并且缺少“文件/页面”:
提前致谢!
python - 将 %%EOF 附加到 python 中的 PDF 文件
我正在尝试使用 pyPdf 打开 PDF。我收到以下错误:
我认为我应该自己添加EOF。但是,我不想写字节。它不是特定于操作系统的吗?我想调用类似 os.eof() 的东西。我写什么?这个线程没有帮助。