问题标签 [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1254 浏览

python - 使用 Python 一对一组合两个 PDF 列表

我在 ESRI ArcMap 10 中使用数据驱动页面创建了一系列 PDF 文档(地图)。从单独的 *.mxd 生成的每个地图都有一个页面 1 和页面 2。因此,我有一份包含每张地图第 1 页的 PDF 文档列表和一份包含每张地图第 2 页的 PDF 文档列表。例如:Map1_001.pdf、map1_002.pdf、map1_003.pdf...map2_001.pdf、map2_002.pdf、map2_003.pdf...等等。

我想将这些地图(第 1 页和第 2 页)附加在一起,以便将第 1 页和第 2 页放在每个地图的一个 PDF 中。例如:mapboth_001.pdf、mapboth_002.pdf、mapboth_003.pdf...(它们不必进入新的 pdf 文件(mapboth),可以将它们附加到 map1)

对于每个 map1_ *.pdf 遍历目录并在文件名中的数字(* 所在的位置)匹配的地方附加 map2_ *.pdf

必须有一种方法可以使用 python 来做到这一点。也许结合了 arcpy、os.walk 或 os.listdir,以及 pyPdf 和 for 循环?

对于 os.walk(datadirectory) 中的 pdf:

有任何想法吗?感谢您的帮助。

0 投票
3 回答
8359 浏览

python - pyPdf 忽略 PDF 文件中的换行符

我正在尝试将 PDF 的每一页提取为字符串:

但是这个脚本忽略了换行符,给我留下了乱七八糟的字符串,比如information concerning an individual which, because of name, identifyingnumber, mark or description(即,这应该identifying number是 ,而不是identifyingumber)。

这是我尝试解析的 PDF 类型的示例。

0 投票
7 回答
19398 浏览

python - PDF提取中的空白和奇怪的单词解释

使用下面的代码片段,我尝试从这个PDF 文件中提取文本数据。

但是,我获得的输出在大多数单词之间没有空格。这使得对文本进行自然语言处理变得困难(我的最终目标,在这里)。

此外,“手指”一词中的“fi”一直被解释为其他东西。这是相当有问题的,因为这篇论文是关于自发的手指运动......

有谁知道为什么会发生这种情况?我什至不知道从哪里开始!

0 投票
1 回答
1593 浏览

python - 在 Python Web2py webapp 中使用 web2py-appreport (xhtmltopdf) 生成 pdf

我来自非编码背景,所以 python、web2py 对我来说非常新。

我的应用程序需要将 textarea 内容(使用 RTE 编辑器)导出为 pdf。我从 textarea (redactor) 获取 html 内容,请您告诉我如何使用 pyfpdf 在按钮单击时生成 pdf 文件。

我不知道如何在单击按钮时获取 html 内容(图像和文本)以使用 appreport 生成 pdf。

如果html文件有css,我可以使用app-report从现有的html文件(没有css)生成pdf(使用PISA,PYPDF不起作用)它会引发错误,

这可能是由于控制器代码中的错误:


我尝试的另一件事是使用 ajax post(在 Javascript 中)将 html 从我的视图传递到控制器。Redactor 是我正在使用的 textarea RTE,并且 alert 为我提供了所需的 html 结果。

看法:

控制器:

由于我对编码的了解较少,我无法找出并纠正我的错误。如果有人可以帮助我解决这个问题,我将不胜感激。

问候, 阿卡什

0 投票
5 回答
15659 浏览

python - 使用 PDFMiner 解析没有 /Root 对象的 PDF

我正在尝试使用 PDFMiner python 绑定从大量 PDF 中提取文本。我编写的模块适用于许多 PDF,但是对于 PDF 的子集,我得到了这个有点神秘的错误:

ipython 堆栈跟踪:

当然,我立即检查了这些 PDF 是否已损坏,但它们可以正常阅读。

尽管没有根对象,有没有办法阅读这些 PDF?我不太确定从这里去哪里。

非常感谢!

编辑:

我尝试使用 PyPDF 来获得一些差异诊断。堆栈跟踪如下:

Quonux 建议 PDFMiner 在到达第一个 EOF 字符后停止解析。这似乎暗示了其他情况,但我非常无能为力。有什么想法吗?

0 投票
0 回答
1682 浏览

python - pyPDF在startxref处有错误的外部参照字符

我正在使用 pyPDF 进行 pdf 页面提取和合并。我的问题并不完全依赖于 pyPDF,因为我过去在同一个 pdf 文件上遇到过与 pdfSharp 相同类型的错误。

问题是我在尝试阅读我们从供应商处收到的一些 pdf 文档时遇到错误。我不能告诉他们修复它们,所以我必须在我们这边处理它。现在我在java中使用iText来处理pdf合并并且这些文件没有任何问题,但是iText比pyPDF慢而且更难维护。pyPDF 在外部参照表中有一个供阅读的部分。在该部分中,有几个选项,行以“xref”开头,行以数字开头,或者行以“xref”开头,但在 x 之前有一个额外的字符。

在我的情况下,该行以“196 0 obj”开头,但下一行是“<< /Length 197 0 R”。pyPDF 和 pdfSharp 不承认这一点,他们试图将其读取为交叉引用并抛出异常。关于我可以做些什么来避免这种情况或修补 pyPDF 的任何建议?它可能格式不正确,但我需要像 Acrobat 和 iText 一样解决它。

这是 pyPDF 库中 pdf.py 的部分。这是很多代码,但重要的是系列中以if x == "x" 开头的 if 语句:

注意:我的示例是在最后三行中抛出断言 False

0 投票
6 回答
52713 浏览

python - 使用 pyPDF 从文档中检索页码

目前,我正在考虑将一些 PDF 与 pyPdf 合并,但有时输入的顺序不正确,因此我正在考虑抓取每个页面的页码以确定它应该进入的顺序(例如,如果有人将一本书分成 20 个 10 页的 PDF,我想将它们重新组合在一起)。

我有两个问题 - 1.) 我知道有时页码存储在文档数据中的某处,因为我看到在 Adob​​e 上呈现的 PDF 类似于 [1243](150 中的 10),但我读过此类文档转换为 pyPDF,但我找不到任何指示页码的信息 - 它存储在哪里?

2.) 如果第 1 大道不可用,我想我可以遍历给定页面上的对象以尝试找到页码 - 可能它是它自己的对象,其中有一个数字。但是,我似乎找不到任何明确的方法来确定对象的内容。如果我运行:

这通常会返回:

或者它返回 IndirectObject(num, num) 个对象的列表。我真的不知道如何处理其中任何一个,据我所知,也没有关于它的真正文档。有没有人熟悉这种可以为我指明正确方向的事情?

0 投票
5 回答
14726 浏览

python - 使用python查找搜索字符串位于pdf文档中的哪个页面

我可以使用哪些 python 包来找出特定“搜索字符串”位于哪个页面上?

我查看了几个 python pdf 包,但不知道应该使用哪一个。 PyPDF似乎没有这个功能,而PDFMiner似乎对于这样简单的任务来说是一种过度杀伤力。有什么建议吗?

更准确地说:我有几个 PDF 文档,我想提取字符串 “Begin” 和字符串 “End” 之间的页面。

0 投票
1 回答
756 浏览

python - pyPdf:加快写入/组合操作?

我有一个 pyPdf 应用程序,将一堆 PDF 组合成一个 PDF,并使用外部元数据正确构建目录。它对某些 PDF 非常有效,但对于其他 PDF,它似乎挂起并且从未真正编写过 PDF。我将写操作复制到测试库中,以查看它挂在哪里,它似乎挂在方法“_sweepIndirectReferences”(此处为第 311 行)中。我可以设置它运行,15-20 分钟后返回并设置断点以发现它仍在解析第一页上的间接引用,堆栈深度为 25-30。如果我使用 Acrobat 合并文件,它会在一分钟内完成所有 200 多页。

我不需要我的写操作那么快,但是我可以做些什么来加快这个过程吗?似乎 Adob​​e 可以在一分钟内完成的事情,我应该能够在不到 4 小时内完成!我应该注意,它只发生在某些文件上,而不发生在其他文件上。我的猜测是,取决于 PDF 对间接引用的依赖程度会有所不同。

作为参考,我正在生成这样的pdf:

这忽略了关于书签的部分,但我认为这可能很好。有问题的没有更多的书签或任何东西。

0 投票
3 回答
24689 浏览

python - 无法安装 PyPdf 2 模块

尝试安装PyPdf2模块,我下载了 zip 并解压缩,我执行了python setup.py buildpython setup.py install,但它似乎尚未安装,当我尝试从 python 脚本导入它时,它返回ImportError

请提供任何帮助。

我在 windows XP 下使用 python 2.7。