问题标签 [pdfrw]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - 如何用python在PDF文件中写入表结构数据?
我想使用 python 库以上述格式将上表写入 PDF 文件。感谢立即响应。
python - ghostscript 或 python:如何将不同页面大小的 pdf 组合成相同页面大小的 pdf?
我在stackoverflow上搜索了这个问题。最近的链接是:
如何使用 Ghostscript 设置自定义页面大小
如何将多个不同大小的 PostScript 文件转换为单个 PDF?
但这不能解决我的问题。
这个问题很简单。
我们如何将多个 pdf(具有不同页面大小)组合成一个具有相同大小的所有页面的组合 pdf。
示例:
两个输入 pdf 为:
hw1.pdf,单页大小为 5.43x3.26 英寸(从 adobe reader 中找到)
hw6.pdf,单页大小为 5.43x6.51 英寸
可以在此处找到 pdf:
https ://github.com/bhishanpdl/Questions
代码是:
问题:第一页是纵向的,第二页是横向的。
问题:我们如何使两个页面都纵向?
注意:
-r720 是像素/英寸。
使用 python 脚本找到大小 -g2347x3909:
另一个尝试
这首先给出了两个页面的纵向,但它们的大小不同。
当我在 adobe reader 中打开输出时,第一页较小,第二页已满。
一般来说,我们怎样才能使所有页面的大小相同?
python - 在 PDFrw for Python 中使用流?
我正在尝试使用 PDFrw 阅读示例 PDF。PDFHello Matthew
在坐标的左下角包含短语(100, 100)
。当我尝试输出文本时(如果可以的话?)我得到一个数据流。我似乎无法弄清楚如何将其作为文本获取。
reportlab - ReportLab Add Multi-page PDF to Canvas
Using PdfReader along with ReportLab, I am attempting to pull in a PDF page, save it (both successful), then pull in a multi-page PDF and do the same. I know how how to pull in a PDF one page at a time, but I'm struggling to pull in more than one page.
Here's where I'm lost. I know this works for just pulling in the first page....
But if I want to pull in all pages of the PDF, I'm not sure what to do. I tried this:
but it resulted in an Assertion Error (see below).
reportlab - ReportLab 和 pdfrw:导入扫描的 PDF
使用下面的代码,我正在尝试将 pdf 页面导入现有的画布对象并保存为 PDF。这通常工作得很好,但我注意到当我尝试使用从扫描文档生成的 PDF 时,它会导致空白页。有接盘侠吗?
提前致谢!
python - 将 PDF 数据抓取到 Excel *绝对初学者*
对我来说,这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码,但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会碰壁。
基本信息
- 视窗 7 64 位
- 蟒蛇3.6.0
- 蜘蛛3
- 我有很多 pdf 相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw 等)
目标
在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(理想情况下)或文本文件(我将使用 VBA 来转换)。
问题
每次我从网上找到的指南中尝试一些示例代码时,我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?
- 如何在数千个 PDF 文件中抓取表格?
- 由于最后一行的“for”,我得到了一个无效的语法错误
- PDFMiner 指南(链接)
python - 使用python查找和识别PDF中的流
我已经尝试了大约一周的时间来自动从 pdf 中提取图像。不幸的是,我在这里找到的答案没有帮助。我已经看到使用 pypdf2 对同一代码进行多种变体,所有变体都包含['/XObject']
在其中,这导致KeyError
.
我正在寻找的似乎隐藏在流中,我在 's 的字典中找不到pypdf2
(即使在递归探索整个结构后,调用.getObject()
我能找到的每个间接对象)。
使用pypdf2
我已经从 pdf 中写出一页并使用 , 打开它Notepad++
,以找到一些带有/FlateDecode
过滤器的流。
pdfrw
稍微有帮助,让我可以PdfReader(path).pages[page].Contents.stream
用来获取A流(不知道如何获取其他流)。
使用zlib
,我将其解压缩,并得到以下内容:
(它还包含很多浮点数,正负都有)
据我BDC
所知,与ghostscript有关。
此时我放弃了,决定寻求帮助。
是否有python工具至少可以提取所有流(并识别FlateDecode
标签?)
有没有办法让我识别其中隐藏的内容?我期望某些图像格式的开始标签,这显然不是。如何进一步解析此结果以找到可能隐藏在其中的任何图像?
我正在寻找可以应用于任何正确显示的 PDF 的东西。一些工具可以进一步解析,或者至少可以帮助我理解流,甚至是可以帮助我理解正在发生的事情的参考。
编辑:正如帕特里克所说,我似乎在叫错树。xObjects
我去了流,因为在打开 PDFNotepad++
或运行用于解析 PDF 的各种 python 脚本时找不到任何内容。我设法找到了我怀疑的图像,没有xObject
标签,但看起来像一个流标签 - 尽管信息没有被压缩。
python-3.x - 使用 pdfrw/ReportLab 将 PDF 图像未缩放为 PDF 文档
这个问题与使用 ReportLab (Python) 的 PDF 文档中的 PDF 图像非常相似,但我似乎无法适应我的需要:
我想将矢量化图像(以 SVG 或 PDF 格式提供)添加到 A4 PDF 输出。图像不得缩放!它们应该简单地从上到下放置,并带有一些垂直间距和自动分页符。
不需要文字或其他内容。基本上,我正在寻找一个 pdfnup 解决方案。过去,我使用 pdflatex 和一个简单的输入文件来完成任务,但这不是目标系统的选项。
python - 使用 pdfrw 从 pdf 模板填充字段后,在 python 生成的 pdf 中 TextColor 设置为不可见
遵循这些说明后,我最终得到了一个可以根据需要生成 pdf 的工作脚本。不幸的是,文本仅在单击填充字段时可见!(这仅在使用 adobe reader 时发生,而不是在通过 web 浏览器查看页面时发生)
看到模块的用户没有遇到这个问题,我相当肯定它与示例脚本有关。
如果我在生成的 pdf 中重新分配黑色文本颜色,则文本会按我的意愿显示。所以我假设这个问题与填充字段的 textColor 有关。
任何想法如何解决这个问题?(我可以通过 pdfrw 分配字段文本颜色作为解决方法吗?)