“pypdf”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

1254 浏览

python - 使用 Python 一对一组合两个 PDF 列表

我在 ESRI ArcMap 10 中使用数据驱动页面创建了一系列 PDF 文档（地图）。从单独的 *.mxd 生成的每个地图都有一个页面 1 和页面 2。因此，我有一份包含每张地图第 1 页的 PDF 文档列表和一份包含每张地图第 2 页的 PDF 文档列表。例如：Map1_001.pdf、map1_002.pdf、map1_003.pdf...map2_001.pdf、map2_002.pdf、map2_003.pdf...等等。

我想将这些地图（第 1 页和第 2 页）附加在一起，以便将第 1 页和第 2 页放在每个地图的一个 PDF 中。例如：mapboth_001.pdf、mapboth_002.pdf、mapboth_003.pdf...（它们不必进入新的 pdf 文件（mapboth），可以将它们附加到 map1）

对于每个 map1_ *.pdf 遍历目录并在文件名中的数字（* 所在的位置）匹配的地方附加 map2_ *.pdf

必须有一种方法可以使用 python 来做到这一点。也许结合了 arcpy、os.walk 或 os.listdir，以及 pyPdf 和 for 循环？

对于 os.walk(datadirectory) 中的 pdf：

有任何想法吗？感谢您的帮助。

2012-06-05T23:15:02.567

0 投票

3 回答

8359 浏览

python - pyPdf 忽略 PDF 文件中的换行符

我正在尝试将 PDF 的每一页提取为字符串：

但是这个脚本忽略了换行符，给我留下了乱七八糟的字符串，比如information concerning an individual which, because of name, identifyingnumber, mark or description（即，这应该identifying number是，而不是identifyingumber）。

这是我尝试解析的 PDF 类型的示例。

python string pdf unicode pypdf

2012-06-13T14:43:24.257

0 投票

7 回答

19398 浏览

python - PDF提取中的空白和奇怪的单词解释

使用下面的代码片段，我尝试从这个PDF 文件中提取文本数据。

但是，我获得的输出在大多数单词之间没有空格。这使得对文本进行自然语言处理变得困难（我的最终目标，在这里）。

此外，“手指”一词中的“fi”一直被解释为其他东西。这是相当有问题的，因为这篇论文是关于自发的手指运动......

有谁知道为什么会发生这种情况？我什至不知道从哪里开始！

python pdf unicode pypdf

2012-06-18T17:16:54.157

0 投票

1 回答

1593 浏览

python - 在 Python Web2py webapp 中使用 web2py-appreport (xhtmltopdf) 生成 pdf

我来自非编码背景，所以 python、web2py 对我来说非常新。

我的应用程序需要将 textarea 内容（使用 RTE 编辑器）导出为 pdf。我从 textarea (redactor) 获取 html 内容，请您告诉我如何使用 pyfpdf 在按钮单击时生成 pdf 文件。

我不知道如何在单击按钮时获取 html 内容（图像和文本）以使用 appreport 生成 pdf。

如果html文件有css，我可以使用app-report从现有的html文件（没有css）生成pdf（使用PISA，PYPDF不起作用）它会引发错误，

这可能是由于控制器代码中的错误：

我尝试的另一件事是使用 ajax post（在 Javascript 中）将 html 从我的视图传递到控制器。Redactor 是我正在使用的 textarea RTE，并且 alert 为我提供了所需的 html 结果。

看法：

控制器：

由于我对编码的了解较少，我无法找出并纠正我的错误。如果有人可以帮助我解决这个问题，我将不胜感激。

问候，阿卡什

python pdf-generation web2py pypdf pisa

2012-07-04T08:02:09.660

0 投票

5 回答

15659 浏览

python - 使用 PDFMiner 解析没有 /Root 对象的 PDF

我正在尝试使用 PDFMiner python 绑定从大量 PDF 中提取文本。我编写的模块适用于许多 PDF，但是对于 PDF 的子集，我得到了这个有点神秘的错误：

ipython 堆栈跟踪：

当然，我立即检查了这些 PDF 是否已损坏，但它们可以正常阅读。

尽管没有根对象，有没有办法阅读这些 PDF？我不太确定从这里去哪里。

非常感谢！

编辑：

我尝试使用 PyPDF 来获得一些差异诊断。堆栈跟踪如下：

Quonux 建议 PDFMiner 在到达第一个 EOF 字符后停止解析。这似乎暗示了其他情况，但我非常无能为力。有什么想法吗？

python pypdf pdf-parsing pdf-manipulation

2012-07-08T16:06:40.060

0 投票

0 回答

1682 浏览

python - pyPDF在startxref处有错误的外部参照字符

我正在使用 pyPDF 进行 pdf 页面提取和合并。我的问题并不完全依赖于 pyPDF，因为我过去在同一个 pdf 文件上遇到过与 pdfSharp 相同类型的错误。

问题是我在尝试阅读我们从供应商处收到的一些 pdf 文档时遇到错误。我不能告诉他们修复它们，所以我必须在我们这边处理它。现在我在java中使用iText来处理pdf合并并且这些文件没有任何问题，但是iText比pyPDF慢而且更难维护。pyPDF 在外部参照表中有一个供阅读的部分。在该部分中，有几个选项，行以“xref”开头，行以数字开头，或者行以“xref”开头，但在 x 之前有一个额外的字符。

在我的情况下，该行以“196 0 obj”开头，但下一行是“<< /Length 197 0 R”。pyPDF 和 pdfSharp 不承认这一点，他们试图将其读取为交叉引用并抛出异常。关于我可以做些什么来避免这种情况或修补 pyPDF 的任何建议？它可能格式不正确，但我需要像 Acrobat 和 iText 一样解决它。

这是 pyPDF 库中 pdf.py 的部分。这是很多代码，但重要的是系列中以if x == "x" 开头的 if 语句：

注意：我的示例是在最后三行中抛出断言 False

python pdf pypdf

2012-08-13T15:25:33.180

0 投票

6 回答

52713 浏览

python - 使用 pyPDF 从文档中检索页码

目前，我正在考虑将一些 PDF 与 pyPdf 合并，但有时输入的顺序不正确，因此我正在考虑抓取每个页面的页码以确定它应该进入的顺序（例如，如果有人将一本书分成 20 个 10 页的 PDF，我想将它们重新组合在一起）。

我有两个问题 - 1.) 我知道有时页码存储在文档数据中的某处，因为我看到在 Adobe 上呈现的 PDF 类似于 [1243]（150 中的 10），但我读过此类文档转换为 pyPDF，但我找不到任何指示页码的信息 - 它存储在哪里？

2.) 如果第 1 大道不可用，我想我可以遍历给定页面上的对象以尝试找到页码 - 可能它是它自己的对象，其中有一个数字。但是，我似乎找不到任何明确的方法来确定对象的内容。如果我运行：

这通常会返回：

或者它返回 IndirectObject(num, num) 个对象的列表。我真的不知道如何处理其中任何一个，据我所知，也没有关于它的真正文档。有没有人熟悉这种可以为我指明正确方向的事情？

python pypdf

2012-09-10T23:59:52.157

0 投票

5 回答

14726 浏览

python - 使用python查找搜索字符串位于pdf文档中的哪个页面

我可以使用哪些 python 包来找出特定“搜索字符串”位于哪个页面上？

我查看了几个 python pdf 包，但不知道应该使用哪一个。 PyPDF似乎没有这个功能，而PDFMiner似乎对于这样简单的任务来说是一种过度杀伤力。有什么建议吗？

更准确地说：我有几个 PDF 文档，我想提取字符串 “Begin” 和字符串 “End” 之间的页面。

python pdf pypdf

2012-09-24T19:50:36.787

0 投票

1 回答

756 浏览

python - pyPdf：加快写入/组合操作？

我有一个 pyPdf 应用程序，将一堆 PDF 组合成一个 PDF，并使用外部元数据正确构建目录。它对某些 PDF 非常有效，但对于其他 PDF，它似乎挂起并且从未真正编写过 PDF。我将写操作复制到测试库中，以查看它挂在哪里，它似乎挂在方法“_sweepIndirectReferences”（此处为第 311 行）中。我可以设置它运行，15-20 分钟后返回并设置断点以发现它仍在解析第一页上的间接引用，堆栈深度为 25-30。如果我使用 Acrobat 合并文件，它会在一分钟内完成所有 200 多页。

我不需要我的写操作那么快，但是我可以做些什么来加快这个过程吗？似乎 Adobe 可以在一分钟内完成的事情，我应该能够在不到 4 小时内完成！我应该注意，它只发生在某些文件上，而不发生在其他文件上。我的猜测是，取决于 PDF 对间接引用的依赖程度会有所不同。

作为参考，我正在生成这样的pdf：

这忽略了关于书签的部分，但我认为这可能很好。有问题的没有更多的书签或任何东西。

python pypdf

2012-10-04T20:57:14.957

0 投票

3 回答

24689 浏览

python - 无法安装 PyPdf 2 模块

尝试安装PyPdf2模块，我下载了 zip 并解压缩，我执行了python setup.py build和python setup.py install，但它似乎尚未安装，当我尝试从 python 脚本导入它时，它返回ImportError：

请提供任何帮助。

我在 windows XP 下使用 python 2.7。

python module importerror pypdf

2012-10-08T11:19:28.900

问题标签 [pypdf]

Reference