问题标签 [pdfrw]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1780 浏览

python - 如何在 python 中将 pdf 文件作为图形插入另一个 pdf 中?

我正在尝试在 Python 中自动生成一些 pdf 格式的报告。我在报告中有我想要的数字,但这些数字目前保存为 pdf。将数字另存为其他选项是一种选择,但对于我正在尝试做的事情并不理想。我找到了使用 pdfrw 和 reportlab 将页面从一个 pdf 转换为新 pdf 页面的示例(http://code.google.com/p/pdfrw/wiki/ExampleTools),但我不希望它们成为我的新pdf的整个页面,只是一个占据页面一部分的数字。我之前没有使用过pdfrw,所以对Canvas方法及其完全能够做什么我不是很了解。

0 投票
1 回答
4831 浏览

python - bbox 在这个脚本中指的是什么?

我是 Python 新手,正在尝试掌握现有脚本。此示例来自 pdfrw,如下所示:http ://code.google.com/p/pdfrw/wiki/ExampleTools

“带有精美打印机和/或 Acrobat 完整副本的打印机可以轻松地将您的小型 PDF 转换为小册子(例如,在单个 11" x 17" 上打印 4 个字母大小的页面)。

但这假设有几件事,包括人员知道如何操作硬件和软件。booklet.py 可让您将 PDF 转换为预先格式化的小册子,以减少他们搞砸的机会:"

尽我所能告诉的步骤是:

  • 该函数开始循环浏览页面
  • 声明了一个变量“shift_right” ??? (我认为它是用于元数据的?)
  • 声明了一个仅对元数据有用的变量“stuff”(我认为)
  • x 增加 BBox 列表的第三个索引(这个列表是什么,它是什么时候建立的?)
  • y 分配给 y 和 Bbox 列表的第三个索引之间的较大值(同样,这个列表指的是什么?)

我认为我的核心困惑是关于这两条线与 BBox,以及它们如何交互以创建 11x17 小册子 PDF。感谢任何可以解决此问题的人。

0 投票
3 回答
836 浏览

python - 使用`pdfrw`添加元数据时如何正确解码/编码文件名?

我正在编写一个脚本,它将 PDF 元数据添加到 PDF 列表中。

我的问题是处理名称中包含某些字符的 PDF——在我尝试的示例中,名称中有一个“短划线”,但我确定将来(我不控制这些文件名) 还会有其他类似的问题。

我正在使用pdfrwPython 2.7。目前我有:

这适用于没有“破折号”的文件。带有“破折号”的文件显示它在我运行它时已被修改,但是当我在 Adob​​e Acrobat 中检查元数据时,那里什么也没有。

我很确定这是某种编码问题。由于它将“破折号”显示为x\96,因此它必须使用 cp1252。我正在使用 Spyder 2.3.1,并且在我的脚本顶部有 # - - coding: utf-8 - -。

我通读了The Absolute Minimum Every Softward Developer Absolutely, Positively Must Know About Unicode and Character Sets and Pragmatic Unicode,我知道,一般来说,我想解码输入,运行其余代码(上面没有打印,但我使用从数据库中提取信息的文件名,然后格式化该信息并希望将结果字符串放入元数据中),然后再次对其进行编码。但我一直无法弄清楚任何有效的方法。

我认为解决方案将是以下之一:

  1. [最佳] 正确处理编码问题。

  2. 在子文件夹上运行某种批处理文件,将文件重命名为脚本可以处理的名称,然后在最后反转名称(它们需要以原始文件名结尾)。

我很感激任何帮助!我一直找不到任何有效的方法。

0 投票
1 回答
3536 浏览

python - 如何使用 PDFrw 在 Python 中从 PDF 中提取数据

我正在尝试使用PDFrw从某个 PDF 中获取数据(假设页面右上角的那个)。我正在使用 PDFrw 来执行此操作。我查看了他们提供的文档(我找不到太多)并查看了他们在 git 上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情。我将如何制作一个简单的程序来使用 PDFrw 进入 PDF(或者如果有更好的程序)并提取一段文本。我正在考虑将其转换为 html ......这会更容易吗?以我上面提供的 PDF 为例,我想获得(比方说)电压,在 PDF 中为 600 w...我将如何以最简单的方式执行此操作?我找不到任何其他关于此的堆栈溢出问题,所以希望有人可以帮助以前使用过它的人!

谢谢!

0 投票
2 回答
1567 浏览

pdf - 裁剪 PDF 内容

我有一个我想强加的pdf。它有 8.5x11" 页面、媒体框和裁剪框。我希望 pdf 通过合并相邻页面来具有 17x11" 页面。不幸的是,大多数页面的内容要么完全在裁剪框之外,要么跨越裁剪框。因为每个页面只能有一个流和裁剪框,所以在施加时,重叠的内容变得可见。这是不好的。

我不想光栅化我的 pdf,因为这会提前修复 DPI。所以我不会考虑将页面导出为图像,附加图像(imagemagick),然后将这些配对图像嵌入到新的 pdf 中。

我在 postscript 中也遇到了问题——在 pdf->ps->pdf 转换过程中,透明度、字体光栅化和其他视觉故障的问题。

答案应该是可编写脚本的。

到目前为止,我已经尝试过:

  • podofo 拼版脚本 (lua)
  • PyPDF2(蟒蛇)
  • 鬼脚本
  • 乳胶

Ghostscript 删除裁剪框外的内容? ”这个问题表明,ghostscript 的 pdfwrite 模块在生成输出 pdf 文件时,会根据裁剪框对内容进行光栅化和裁剪。所以我只需要通过 ghostscript 的 pdfwrite 模块来传输我的 pdf 文件。不幸的是,这不起作用。

当我尝试通过evince将pdf打印到另一个pdf时,我正要放弃。它工作得很好——裁剪框内的文本和矢量元素没有被光栅化,裁剪框外的元素被删除(我还没有测试过跨元素)。质量是高分辨率(页面大小)和外观是相同的。事实上,除了元数据之外,一切似乎都是一样的。

所以:

  • 这个问题是可能的
  • 答案已经存在

我怎样才能访问它?

我认为这个功能可能是由 cup 的pdftopdf二进制文件提供的。我调用外部二进制文件没有任何问题......但不知道如何使用pdftopdf.

编辑: 链接到测试 pdf。它包含光栅、矢量和文本项目——一些被部分透明的项目部分遮挡——它们跨越并邻接相邻的页面。再一次,通过杯子打印此 PDF 似乎会裁剪裁剪框外的所有内容。但是,在 inkscape 中打开过滤后的 pdf 会显示页外项目被单独屏蔽,而不是裁剪 - 除了被修剪的文本。

0 投票
1 回答
2336 浏览

python - 如何使用 PDFrw 从 PDF 中提取图像

我正在使用PDFrw其中一个示例来提取 PFD 文件中的唯一图像并将该图像保存到 PNG 或 JPEG 文件中。

代码对我来说太难理解了,我应该传递什么参数find_objects

0 投票
1 回答
963 浏览

python - reportlab,查找页面中最后一段的位置/坐标

我需要在最后一页的最后一段之后插入一些文本,不确定是否可以找到最后一段的坐标。

据我所知,reportlab 是处理 pdf 的最强大的库,但是如果可以通过另一个库实现就可以了。

还要问是否可以复制(找到最后一段的名称和大小等字体属性)?

我有的

0 投票
1 回答
357 浏览

pdf - pdfrw - 如何修剪页面周围的空白

如何使用 pdfrw 找到未使用(白色)的 PDF 页面周围的空间以便能够修剪它?也许如果我可以遍历所有对象并找到最接近页面边框的坐标...

0 投票
1 回答
1552 浏览

python-3.x - 使用 pdfrw 和 ReportLab 将文本添加到现有 PDF 并插入

我想使用 pdfrw 和 ReportLab 来:

  1. 打开现有的 PDf 并根据 x 和 y 坐标向其中添加一行文本(通过 ReportLab - drawCentredString(x,y,string)

  2. 将生成的 pdf 插入我的报告中。

到目前为止,这是我从这里尝试的代码的修改版本:

这只是打开pdf并将其另存为新的(小步骤)。问题是,我收到此错误:

提前感谢您的任何见解。

PS我知道这里有一个类似的问题,但它很旧,我无法让解决方案发挥作用。

0 投票
3 回答
8904 浏览

python-3.5 - 如何使用 pdfrw 提取 PDF 的文本

pdfrw可以从文档中提取文本吗?

我在想一些事情