问题标签 [pdfrw]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 python 中将 pdf 文件作为图形插入另一个 pdf 中?
我正在尝试在 Python 中自动生成一些 pdf 格式的报告。我在报告中有我想要的数字,但这些数字目前保存为 pdf。将数字另存为其他选项是一种选择,但对于我正在尝试做的事情并不理想。我找到了使用 pdfrw 和 reportlab 将页面从一个 pdf 转换为新 pdf 页面的示例(http://code.google.com/p/pdfrw/wiki/ExampleTools),但我不希望它们成为我的新pdf的整个页面,只是一个占据页面一部分的数字。我之前没有使用过pdfrw,所以对Canvas方法及其完全能够做什么我不是很了解。
python - bbox 在这个脚本中指的是什么?
我是 Python 新手,正在尝试掌握现有脚本。此示例来自 pdfrw,如下所示:http ://code.google.com/p/pdfrw/wiki/ExampleTools
“带有精美打印机和/或 Acrobat 完整副本的打印机可以轻松地将您的小型 PDF 转换为小册子(例如,在单个 11" x 17" 上打印 4 个字母大小的页面)。
但这假设有几件事,包括人员知道如何操作硬件和软件。booklet.py 可让您将 PDF 转换为预先格式化的小册子,以减少他们搞砸的机会:"
尽我所能告诉的步骤是:
- 该函数开始循环浏览页面
- 声明了一个变量“shift_right” ??? (我认为它是用于元数据的?)
- 声明了一个仅对元数据有用的变量“stuff”(我认为)
- x 增加 BBox 列表的第三个索引(这个列表是什么,它是什么时候建立的?)
- y 分配给 y 和 Bbox 列表的第三个索引之间的较大值(同样,这个列表指的是什么?)
我认为我的核心困惑是关于这两条线与 BBox,以及它们如何交互以创建 11x17 小册子 PDF。感谢任何可以解决此问题的人。
python - 使用`pdfrw`添加元数据时如何正确解码/编码文件名?
我正在编写一个脚本,它将 PDF 元数据添加到 PDF 列表中。
我的问题是处理名称中包含某些字符的 PDF——在我尝试的示例中,名称中有一个“短划线”,但我确定将来(我不控制这些文件名) 还会有其他类似的问题。
我正在使用pdfrw
Python 2.7。目前我有:
这适用于没有“破折号”的文件。带有“破折号”的文件显示它在我运行它时已被修改,但是当我在 Adobe Acrobat 中检查元数据时,那里什么也没有。
我很确定这是某种编码问题。由于它将“破折号”显示为x\96
,因此它必须使用 cp1252。我正在使用 Spyder 2.3.1,并且在我的脚本顶部有 # - - coding: utf-8 - -。
我通读了The Absolute Minimum Every Softward Developer Absolutely, Positively Must Know About Unicode and Character Sets and Pragmatic Unicode,我知道,一般来说,我想解码输入,运行其余代码(上面没有打印,但我使用从数据库中提取信息的文件名,然后格式化该信息并希望将结果字符串放入元数据中),然后再次对其进行编码。但我一直无法弄清楚任何有效的方法。
我认为解决方案将是以下之一:
[最佳] 正确处理编码问题。
在子文件夹上运行某种批处理文件,将文件重命名为脚本可以处理的名称,然后在最后反转名称(它们需要以原始文件名结尾)。
我很感激任何帮助!我一直找不到任何有效的方法。
python - 如何使用 PDFrw 在 Python 中从 PDF 中提取数据
我正在尝试使用PDFrw从某个 PDF 中获取数据(假设页面右上角的那个)。我正在使用 PDFrw 来执行此操作。我查看了他们提供的文档(我找不到太多)并查看了他们在 git 上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情。我将如何制作一个简单的程序来使用 PDFrw 进入 PDF(或者如果有更好的程序)并提取一段文本。我正在考虑将其转换为 html ......这会更容易吗?以我上面提供的 PDF 为例,我想获得(比方说)电压,在 PDF 中为 600 w...我将如何以最简单的方式执行此操作?我找不到任何其他关于此的堆栈溢出问题,所以希望有人可以帮助以前使用过它的人!
谢谢!
pdf - 裁剪 PDF 内容
我有一个我想强加的pdf。它有 8.5x11" 页面、媒体框和裁剪框。我希望 pdf 通过合并相邻页面来具有 17x11" 页面。不幸的是,大多数页面的内容要么完全在裁剪框之外,要么跨越裁剪框。因为每个页面只能有一个流和裁剪框,所以在施加时,重叠的内容变得可见。这是不好的。
我不想光栅化我的 pdf,因为这会提前修复 DPI。所以我不会考虑将页面导出为图像,附加图像(imagemagick),然后将这些配对图像嵌入到新的 pdf 中。
我在 postscript 中也遇到了问题——在 pdf->ps->pdf 转换过程中,透明度、字体光栅化和其他视觉故障的问题。
答案应该是可编写脚本的。
到目前为止,我已经尝试过:
- podofo 拼版脚本 (lua)
- PyPDF2(蟒蛇)
- 鬼脚本
- 乳胶
“ Ghostscript 删除裁剪框外的内容? ”这个问题表明,ghostscript 的 pdfwrite 模块在生成输出 pdf 文件时,会根据裁剪框对内容进行光栅化和裁剪。所以我只需要通过 ghostscript 的 pdfwrite 模块来传输我的 pdf 文件。不幸的是,这不起作用。
当我尝试通过evince将pdf打印到另一个pdf时,我正要放弃。它工作得很好——裁剪框内的文本和矢量元素没有被光栅化,裁剪框外的元素被删除(我还没有测试过跨元素)。质量是高分辨率(页面大小)和外观是相同的。事实上,除了元数据之外,一切似乎都是一样的。
所以:
- 这个问题是可能的
- 答案已经存在
我怎样才能访问它?
我认为这个功能可能是由 cup 的pdftopdf
二进制文件提供的。我调用外部二进制文件没有任何问题......但不知道如何使用pdftopdf
.
编辑: 链接到测试 pdf。它包含光栅、矢量和文本项目——一些被部分透明的项目部分遮挡——它们跨越并邻接相邻的页面。再一次,通过杯子打印此 PDF 似乎会裁剪裁剪框外的所有内容。但是,在 inkscape 中打开过滤后的 pdf 会显示页外项目被单独屏蔽,而不是裁剪 - 除了被修剪的文本。
python - 如何使用 PDFrw 从 PDF 中提取图像
我正在使用PDFrw
其中一个示例来提取 PFD 文件中的唯一图像并将该图像保存到 PNG 或 JPEG 文件中。
代码对我来说太难理解了,我应该传递什么参数find_objects
?
python - reportlab,查找页面中最后一段的位置/坐标
我需要在最后一页的最后一段之后插入一些文本,不确定是否可以找到最后一段的坐标。
据我所知,reportlab 是处理 pdf 的最强大的库,但是如果可以通过另一个库实现就可以了。
还要问是否可以复制(找到最后一段的名称和大小等字体属性)?
我有的
pdf - pdfrw - 如何修剪页面周围的空白
如何使用 pdfrw 找到未使用(白色)的 PDF 页面周围的空间以便能够修剪它?也许如果我可以遍历所有对象并找到最接近页面边框的坐标...
python-3.5 - 如何使用 pdfrw 提取 PDF 的文本
pdfrw可以从文档中提取文本吗?
我在想一些事情