“pdfrw”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1780 浏览

python - 如何在 python 中将 pdf 文件作为图形插入另一个 pdf 中？

我正在尝试在 Python 中自动生成一些 pdf 格式的报告。我在报告中有我想要的数字，但这些数字目前保存为 pdf。将数字另存为其他选项是一种选择，但对于我正在尝试做的事情并不理想。我找到了使用 pdfrw 和 reportlab 将页面从一个 pdf 转换为新 pdf 页面的示例（http://code.google.com/p/pdfrw/wiki/ExampleTools），但我不希望它们成为我的新pdf的整个页面，只是一个占据页面一部分的数字。我之前没有使用过pdfrw，所以对Canvas方法及其完全能够做什么我不是很了解。

2013-02-17T21:50:49.370

0 投票

1 回答

4831 浏览

python - bbox 在这个脚本中指的是什么？

我是 Python 新手，正在尝试掌握现有脚本。此示例来自 pdfrw，如下所示：http ://code.google.com/p/pdfrw/wiki/ExampleTools

“带有精美打印机和/或 Acrobat 完整副本的打印机可以轻松地将您的小型 PDF 转换为小册子（例如，在单个 11" x 17" 上打印 4 个字母大小的页面）。

但这假设有几件事，包括人员知道如何操作硬件和软件。booklet.py 可让您将 PDF 转换为预先格式化的小册子，以减少他们搞砸的机会："

尽我所能告诉的步骤是：

该函数开始循环浏览页面
声明了一个变量“shift_right” ??? （我认为它是用于元数据的？）
声明了一个仅对元数据有用的变量“stuff”（我认为）
x 增加 BBox 列表的第三个索引（这个列表是什么，它是什么时候建立的？）
y 分配给 y 和 Bbox 列表的第三个索引之间的较大值（同样，这个列表指的是什么？）

我认为我的核心困惑是关于这两条线与 BBox，以及它们如何交互以创建 11x17 小册子 PDF。感谢任何可以解决此问题的人。

python pdf pdfrw

2013-03-28T14:52:30.620

0 投票

3 回答

836 浏览

python - 使用`pdfrw`添加元数据时如何正确解码/编码文件名？

我正在编写一个脚本，它将 PDF 元数据添加到 PDF 列表中。

我的问题是处理名称中包含某些字符的 PDF——在我尝试的示例中，名称中有一个“短划线”，但我确定将来（我不控制这些文件名) 还会有其他类似的问题。

我正在使用pdfrwPython 2.7。目前我有：

这适用于没有“破折号”的文件。带有“破折号”的文件显示它在我运行它时已被修改，但是当我在 Adobe Acrobat 中检查元数据时，那里什么也没有。

我很确定这是某种编码问题。由于它将“破折号”显示为x\96，因此它必须使用 cp1252。我正在使用 Spyder 2.3.1，并且在我的脚本顶部有 # - - coding: utf-8 - -。

我通读了The Absolute Minimum Every Softward Developer Absolutely, Positively Must Know About Unicode and Character Sets and Pragmatic Unicode，我知道，一般来说，我想解码输入，运行其余代码（上面没有打印，但我使用从数据库中提取信息的文件名，然后格式化该信息并希望将结果字符串放入元数据中），然后再次对其进行编码。但我一直无法弄清楚任何有效的方法。

我认为解决方案将是以下之一：

[最佳] 正确处理编码问题。
在子文件夹上运行某种批处理文件，将文件重命名为脚本可以处理的名称，然后在最后反转名称（它们需要以原始文件名结尾）。

我很感激任何帮助！我一直找不到任何有效的方法。

python pdf unicode character-encoding pdfrw

2015-07-07T17:07:50.960

0 投票

1 回答

3536 浏览

python - 如何使用 PDFrw 在 Python 中从 PDF 中提取数据

我正在尝试使用PDFrw从某个 PDF 中获取数据（假设页面右上角的那个）。我正在使用 PDFrw 来执行此操作。我查看了他们提供的文档（我找不到太多）并查看了他们在 git 上发布的示例代码，但我似乎无法获得足够的信息来做我想做的事情。我将如何制作一个简单的程序来使用 PDFrw 进入 PDF（或者如果有更好的程序）并提取一段文本。我正在考虑将其转换为 html ......这会更容易吗？以我上面提供的 PDF 为例，我想获得（比方说）电压，在 PDF 中为 600 w...我将如何以最简单的方式执行此操作？我找不到任何其他关于此的堆栈溢出问题，所以希望有人可以帮助以前使用过它的人！

谢谢！

python pdf pdf-reader pdfrw

2015-07-14T18:10:08.657

0 投票

2 回答

1567 浏览

pdf - 裁剪 PDF 内容

我有一个我想强加的pdf。它有 8.5x11" 页面、媒体框和裁剪框。我希望 pdf 通过合并相邻页面来具有 17x11" 页面。不幸的是，大多数页面的内容要么完全在裁剪框之外，要么跨越裁剪框。因为每个页面只能有一个流和裁剪框，所以在施加时，重叠的内容变得可见。这是不好的。

我不想光栅化我的 pdf，因为这会提前修复 DPI。所以我不会考虑将页面导出为图像，附加图像（imagemagick），然后将这些配对图像嵌入到新的 pdf 中。

我在 postscript 中也遇到了问题——在 pdf->ps->pdf 转换过程中，透明度、字体光栅化和其他视觉故障的问题。

答案应该是可编写脚本的。

到目前为止，我已经尝试过：

podofo 拼版脚本 (lua)
PyPDF2（蟒蛇）
鬼脚本
乳胶

“ Ghostscript 删除裁剪框外的内容？ ”这个问题表明，ghostscript 的 pdfwrite 模块在生成输出 pdf 文件时，会根据裁剪框对内容进行光栅化和裁剪。所以我只需要通过 ghostscript 的 pdfwrite 模块来传输我的 pdf 文件。不幸的是，这不起作用。

当我尝试通过evince将pdf打印到另一个pdf时，我正要放弃。它工作得很好——裁剪框内的文本和矢量元素没有被光栅化，裁剪框外的元素被删除（我还没有测试过跨元素）。质量是高分辨率（页面大小）和外观是相同的。事实上，除了元数据之外，一切似乎都是一样的。

所以：

这个问题是可能的
答案已经存在

我怎样才能访问它？

我认为这个功能可能是由 cup 的pdftopdf二进制文件提供的。我调用外部二进制文件没有任何问题......但不知道如何使用pdftopdf.

编辑： 链接到测试 pdf。它包含光栅、矢量和文本项目——一些被部分透明的项目部分遮挡——它们跨越并邻接相邻的页面。再一次，通过杯子打印此 PDF 似乎会裁剪裁剪框外的所有内容。但是，在 inkscape 中打开过滤后的 pdf 会显示页外项目被单独屏蔽，而不是裁剪 - 除了被修剪的文本。

pdf latex pdf-generation ghostscript pdfrw

2016-04-06T07:05:54.217

0 投票

1 回答

2336 浏览

python - 如何使用 PDFrw 从 PDF 中提取图像

我正在使用PDFrw其中一个示例来提取 PFD 文件中的唯一图像并将该图像保存到 PNG 或 JPEG 文件中。

代码对我来说太难理解了，我应该传递什么参数find_objects？

python pdf pdfrw

2016-08-11T23:22:04.043

0 投票

1 回答

963 浏览

python - reportlab，查找页面中最后一段的位置/坐标

我需要在最后一页的最后一段之后插入一些文本，不确定是否可以找到最后一段的坐标。

据我所知，reportlab 是处理 pdf 的最强大的库，但是如果可以通过另一个库实现就可以了。

还要问是否可以复制（找到最后一段的名称和大小等字体属性）？

我有的

python reportlab pdfrw

2016-08-18T07:08:57.177

0 投票

1 回答

357 浏览

pdf - pdfrw - 如何修剪页面周围的空白

如何使用 pdfrw 找到未使用（白色）的 PDF 页面周围的空间以便能够修剪它？也许如果我可以遍历所有对象并找到最接近页面边框的坐标...

pdf crop margins removing-whitespace pdfrw

2016-09-28T22:55:59.280

0 投票

1 回答

1552 浏览

python-3.x - 使用 pdfrw 和 ReportLab 将文本添加到现有 PDF 并插入

我想使用 pdfrw 和 ReportLab 来：

打开现有的 PDf 并根据 x 和 y 坐标向其中添加一行文本（通过 ReportLab - drawCentredString(x,y,string)
将生成的 pdf 插入我的报告中。

到目前为止，这是我从这里尝试的代码的修改版本：

这只是打开pdf并将其另存为新的（小步骤）。问题是，我收到此错误：

提前感谢您的任何见解。

PS我知道这里有一个类似的问题，但它很旧，我无法让解决方案发挥作用。

python-3.x reportlab pdfrw

2016-10-24T03:49:54.507

0 投票

3 回答

8904 浏览

python-3.5 - 如何使用 pdfrw 提取 PDF 的文本

pdfrw可以从文档中提取文本吗？

我在想一些事情

python-3.5 pdfrw

2017-02-07T11:07:52.060

问题标签 [pdfrw]

Reference