问题标签 [pdfrw]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
18278 浏览

python-2.7 - 如何用python在PDF文件中写入表结构数据?

我想使用 python 库以上述格式将上表写入 PDF 文件。感谢立即响应。

0 投票
2 回答
1789 浏览

python - ghostscript 或 python:如何将不同页面大小的 pdf 组合成相同页面大小的 pdf?

我在stackoverflow上搜索了这个问题。最近的链接是:
如何使用 Ghostscript 设置自定义页面大小
如何将多个不同大小的 PostScript 文件转换为单个 PDF?

但这不能解决我的问题。

这个问题很简单。
我们如何将多个 pdf(具有不同页面大小)组合成一个具有相同大小的所有页面的组合 pdf。

示例:
两个输入 pdf 为:
hw1.pdf,单页大小为 5.43x3.26 英寸(从 adobe reader 中找到)
hw6.pdf,单页大小为 5.43x6.51 英寸

可以在此处找到 pdf:
https ://github.com/bhishanpdl/Questions

代码是:

问题:第一页是纵向的,第二页是横向的。
问题:我们如何使两个页面都纵向?

注意
-r720 是像素/英寸。
使用 python 脚本找到大小 -g2347x3909:

另一个尝试

这首先给出了两个页面的纵向,但它们的大小不同。
当我在 adobe reader 中打开输出时,第一页较小,第二页已满。
一般来说,我们怎样才能使所有页面的大小相同?

0 投票
2 回答
2956 浏览

python - 在 PDFrw for Python 中使用流?

我正在尝试使用 PDFrw 阅读示例 PDF。PDFHello Matthew在坐标的左下角包含短语(100, 100)。当我尝试输出文本时(如果可以的话?)我得到一个数据流。我似乎无法弄清楚如何将其作为文本获取。

0 投票
2 回答
3158 浏览

reportlab - ReportLab Add Multi-page PDF to Canvas

Using PdfReader along with ReportLab, I am attempting to pull in a PDF page, save it (both successful), then pull in a multi-page PDF and do the same. I know how how to pull in a PDF one page at a time, but I'm struggling to pull in more than one page.

Here's where I'm lost. I know this works for just pulling in the first page....

But if I want to pull in all pages of the PDF, I'm not sure what to do. I tried this:

but it resulted in an Assertion Error (see below).

0 投票
1 回答
2219 浏览

reportlab - ReportLab 和 pdfrw:导入扫描的 PDF

使用下面的代码,我正在尝试将 pdf 页面导入现有的画布对象并保存为 PDF。这通常工作得很好,但我注意到当我尝试使用从扫描文档生成的 PDF 时,它会导致空白页。有接盘侠吗?

提前致谢!

0 投票
3 回答
5613 浏览

python - 将 PDF 数据抓取到 Excel *绝对初学者*

对我来说,这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码,但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会碰壁。

基本信息

  • 视窗 7 64 位
  • 蟒蛇3.6.0
  • 蜘蛛3
  • 我有很多 pdf 相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw 等)

目标

在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(理想情况下)或文本文件(我将使用 VBA 来转换)。

问题

每次我从网上找到的指南中尝试一些示例代码时,我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?

0 投票
1 回答
1170 浏览

python - 使用python查找和识别PDF中的流

我已经尝试了大约一周的时间来自动从 pdf 中提取图像。不幸的是,我在这里找到的答案没有帮助。我已经看到使用 pypdf2 对同一代码进行多种变体,所有变体都包含['/XObject']在其中,这导致KeyError.

我正在寻找的似乎隐藏在流中,我在 's 的字典中找不到pypdf2(即使在递归探索整个结构后,调用.getObject()我能找到的每个间接对象)。

使用pypdf2我已经从 pdf 中写出一页并使用 , 打开它Notepad++,以找到一些带有/FlateDecode过滤器的流。

pdfrw稍微有帮助,让我可以PdfReader(path).pages[page].Contents.stream用来获取A流(不知道如何获取其他流)。

使用zlib,我将其解压缩,并得到以下内容:

(它还包含很多浮点数,正负都有)

据我BDC所知,与ghostscript有关。

此时我放弃了,决定寻求帮助。

是否有python工具至少可以提取所有流(并识别FlateDecode标签?)

有没有办法让我识别其中隐藏的内容?我期望某些图像格式的开始标签,这显然不是。如何进一步解析此结果以找到可能隐藏在其中的任何图像?

我正在寻找可以应用于任何正确显示的 PDF 的东西。一些工具可以进一步解析,或者至少可以帮助我理解流,甚至是可以帮助我理解正在发生的事情的参考。

编辑:正如帕特里克所说,我似乎在叫错树。xObjects我去了流,因为在打开 PDFNotepad++或运行用于解析 PDF 的各种 python 脚本时找不到任何内容。我设法找到了我怀疑的图像,没有xObject标签,但看起来像一个流标签 - 尽管信息没有被压缩。

0 投票
0 回答
180 浏览

python-3.x - 使用 pdfrw/ReportLab 将 PDF 图像未缩放为 PDF 文档

这个问题与使用 ReportLab (Python) 的 PDF 文档中的 PDF 图像非常相似,但我似乎无法适应我的需要:

我想将矢量化图像(以 SVG 或 PDF 格式提供)添加到 A4 PDF 输出。图像不得缩放!它们应该简单地从上到下放置,并带有一些垂直间距和自动分页符。

不需要文字或其他内容。基本上,我正在寻找一个 pdfnup 解决方案。过去,我使用 pdflatex 和一个简单的输入文件来完成任务,但这不是目标系统的选项。

0 投票
0 回答
580 浏览

python - 使用 Python 以给定的 DPI 以黑白格式保存 PDF

我有一个 Python 程序对 PDF 文件名进行一些操作。

我的同事问我是否可以:

  1. 打开每个 PDF 并使用新文件名保存,然后
  2. 将 PDF 更改为黑白(删除任何颜色),以及
  3. 以 300 的固定 DPI 保存。

我隐约知道reportlabpdfrw,但不知道它们或其他库是否可以执行这些操作。

任何示例代码将不胜感激。

0 投票
0 回答
201 浏览

python - 使用 pdfrw 从 pdf 模板填充字段后,在 python 生成的 pdf 中 TextColor 设置为不可见

遵循这些说明后,我最终得到了一个可以根据需要生成 pdf 的工作脚本。不幸的是,文本仅在单击填充字段时可见!(这仅在使用 adobe reader 时发生,而不是在通过 web 浏览器查看页面时发生)

看到模块的用户没有遇到这个问题,我相当肯定它与示例脚本有关。

如果我在生成的 pdf 中重新分配黑色文本颜色,则文本会按我的意愿显示。所以我假设这个问题与填充字段的 textColor 有关。

任何想法如何解决这个问题?(我可以通过 pdfrw 分配字段文本颜色作为解决方法吗?)