问题标签 [pypdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 问题

0 投票

1 回答

1720 浏览

python - pyPdf：非法的 UTF-16 代理

我有一个破坏 pyPdf 的 pdf 文件：http: //tovotu.de/tests/test.pdf

这是示例脚本：

错误输出在这里： http: //pastebin.com/0m38zhjQ

使用来自 GitHub 的 PyPDF2 时，错误是相同的。pdftk 可以像处理任何其他 pdf 一样处理此 pdf。请注意，写作失败，但阅读似乎工作得很好！

您至少可以指出导致该错误的 pdf 的确切部分吗？解决方法会更好:)

python pdf decode utf-16 pypdf

2013-03-28T02:41:16.777

0 投票

3 回答

20728 浏览

python - 使用 PdfMiner 和 PyPDF2 合并列提取文本

我正在尝试使用 pdfMiner 解析 pdf 文件文本，但提取的文本被合并。我正在使用以下链接中的 pdf 文件。

我擅长任何类型的输出（文件/字符串）。这是将提取的文本作为字符串返回的代码，但由于某种原因，列被合并了。

我也尝试过 PyPdf2，但遇到了同样的问题。这是 PyPDF2 的示例代码

我也尝试过pdf2txt.py但无法获得格式化的输出。

python pypdf pdftotext

2013-04-01T04:54:37.370

0 投票

4 回答

15293 浏览

python - 如何在 CentOS 上为 python 2.6 安装模块？

在 CentOS 上安装 python 2.6 之后：

然后我安装pyPdf：

但是，pyPdf仅适用于旧的 python 2.4：

它不适用于新安装的 python 2.6：

如何pyPdf为 python 2.6 安装？

python centos yum pypdf

2013-04-02T06:35:12.473

0 投票

1 回答

770 浏览

python-2.7 - Python 2.7 的 pyPdf 不适用于 py2exe 和 cx_freeze？

每个人，

我使用 pyPdf 为 Python 2.7 编写了一个小程序。它已经在 Python 中进行了测试。现在我希望将它转换为 exe 文件以在 Windows 中运行它。py2exe 或 cx_freeze 都不起作用。exe 文件不运行。

看起来它在输出文件夹中不包含 pyPdf 模块。

文件夹结构是这样的：

Filing.exe 是程序。

我尝试在命令窗口下运行exe，错误信息是这样的：

请帮忙。

谢谢你们！

当我冻结它时，输出显示如下：

好的。我检查了 pyPdf 的位置，它在这里：

那么如何将 pyPdf 带到 exe 程序中呢？

python-2.7 py2exe cx-freeze pypdf

2013-04-02T23:32:56.900

0 投票

1 回答

2312 浏览

python - Python 3 中的 PDF 合并

是否有适用于 Python 3 的 PDF 操作模块？我已经尝试过 Pypdf，但是当我尝试使用 PIP 安装时它会出现故障。我想合并 PDF 文件。如果我使用 Pypdf2，我会使用此代码收到以下消息：

merge.py 的第 97 行是：

使用代码时，我自己的代码中出现了类似的错误，例如

input1 = PdfFileReader(file("document1.pdf", "rb"))- 这是来自http://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/的复制和粘贴

python pdf python-3.x pypdf

2013-04-11T18:20:18.677

0 投票

1 回答

10180 浏览

python - 未找到 EOF 标记 - 如何在 PyPDF 和 PyPDF2 中修复？

我正在尝试使用 Python 将几个 PDF 文件组合成一个 PDF 文件。我已经尝试过 PyPDF 和 PyPDF2 - 在某些文件上，它们都抛出了同样的错误：

PdfReadError：未找到 EOF 标记

这是我的代码 (page_files) 是要组合的 PDF 文件路径列表：

我已经阅读了一些关于该主题的 StackOverflow 线程，但没有一个包含有效的解决方案。如果您已使用 Python 成功合并 PDF 文件，我很想听听如何。谢谢！

python pdf pypdf

2013-04-23T06:30:14.920

0 投票

1 回答

922 浏览

python - 土耳其语字符的python编码

我必须阅读土耳其故事的pdf书籍。我找到了一个名为 pyPdf 的库。我的下面的测试函数编码不正确。我想，我需要有土耳其编解码器数据包。我错了吗？如果我错了，我该如何解决这个问题，或者如何找到这个土耳其编解码器数据包？

python python-2.7 pypdf

2013-05-22T16:22:36.967

0 投票

2 回答

5451 浏览

python - pyPDF2 中的 extractText() 函数抛出错误

我正在尝试从 PDF 中提取文本以便进行分析，但是当我尝试从页面中提取文本时，我收到以下错误。

相关代码部分如下：

在 extractText() 行抛出错误。

python pdf python-3.x pypdf

2013-06-01T21:35:05.183

0 投票

1 回答

2633 浏览

pdf - 检测pdf中水印的位置

我在ubuntu上。

我有一个 pdf 文件，页面分为网格。网格的每个块都包含候选人的姓名/年龄/出生日期/照片。有些记录有水印“不合格”

我需要刮掉他的 pdf，将不合格的候选人列在一个单独的列表中。使用 pyPdf 我能够获得个人记录，但它也包括带水印的候选者。

如何检测水印？如果我可以得到水印的坐标，我如何将它与候选人匹配？

我对 python pyPdf 以外的解决方案持开放态度

pdf watermark pypdf

2013-06-09T19:25:54.877

0 投票

5 回答

49327 浏览

python - pypdf 将多个pdf文件合并为一个pdf

如果我有 1000 多个 pdf 文件需要合并为一个 pdf，

执行上述代码，当input = PdfFileReader(file(filename500+, "rb")),

一条错误信息： IOError: [Errno 24] Too many open files:

我认为这是一个错误，如果不是，我该怎么办？</p>

python pypdf

2013-06-14T09:07:06.197

1 2 3 4 5 6 7 8 9 10