问题标签 [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1720 浏览

python - pyPdf:非法的 UTF-16 代理

我有一个破坏 pyPdf 的 pdf 文件:http: //tovotu.de/tests/test.pdf

这是示例脚本:

错误输出在这里: http: //pastebin.com/0m38zhjQ

使用来自 GitHub 的 PyPDF2 时,错误是相同的。pdftk 可以像处理任何其他 pdf 一样处理此 pdf。请注意,写作失败,但阅读似乎工作得很好!

您至少可以指出导致该错误的 pdf 的确切部分吗?解决方法会更好:)

0 投票
3 回答
20728 浏览

python - 使用 PdfMiner 和 PyPDF2 合并列提取文本

我正在尝试使用 pdfMiner 解析 pdf 文件文本,但提取的文本被合并。我正在使用以下链接中的 pdf 文件。

PDF文件

我擅长任何类型的输出(文件/字符串)。这是将提取的文本作为字符串返回的代码,但由于某种原因,列被合并了。

我也尝试过 PyPdf2,但遇到了同样的问题。这是 PyPDF2 的示例代码

我也尝试过pdf2txt.py但无法获得格式化的输出。

0 投票
4 回答
15293 浏览

python - 如何在 CentOS 上为 python 2.6 安装模块?

在 CentOS 上安装 python 2.6 之后:

然后我安装pyPdf

但是,pyPdf仅适用于旧的 python 2.4:

它不适用于新安装的 python 2.6:

如何pyPdf为 python 2.6 安装?

0 投票
1 回答
770 浏览

python-2.7 - Python 2.7 的 pyPdf 不适用于 py2exe 和 cx_freeze?

每个人,

我使用 pyPdf 为 Python 2.7 编写了一个小程序。它已经在 Python 中进行了测试。现在我希望将它转换为 exe 文件以在 Windows 中运行它。py2exe 或 cx_freeze 都不起作用。exe 文件不运行。

看起来它在输出文件夹中不包含 pyPdf 模块。

文件夹结构是这样的:

Filing.exe 是程序。

我尝试在命令窗口下运行exe,错误信息是这样的:

请帮忙。

谢谢你们!

当我冻结它时,输出显示如下:

好的。我检查了 pyPdf 的位置,它在这里:

那么如何将 pyPdf 带到 exe 程序中呢?

0 投票
1 回答
2312 浏览

python - Python 3 中的 PDF 合并

是否有适用于 Python 3 的 PDF 操作模块?我已经尝试过 Pypdf,但是当我尝试使用 PIP 安装时它会出现故障。我想合并 PDF 文件。如果我使用 Pypdf2,我会使用此代码收到以下消息:

merge.py 的第 97 行是:

使用代码时,我自己的代码中出现了类似的错误,例如

input1 = PdfFileReader(file("document1.pdf", "rb"))- 这是来自http://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/的复制和粘贴

0 投票
1 回答
10180 浏览

python - 未找到 EOF 标记 - 如何在 PyPDF 和 PyPDF2 中修复?

我正在尝试使用 Python 将几个 PDF 文件组合成一个 PDF 文件。我已经尝试过 PyPDF 和 PyPDF2 - 在某些文件上,它们都抛出了同样的错误:

PdfReadError:未找到 EOF 标记

这是我的代码 (page_files) 是要组合的 PDF 文件路径列表:

我已经阅读了一些关于该主题的 StackOverflow 线程,但没有一个包含有效的解决方案。如果您已使用 Python 成功合并 PDF 文件,我很想听听如何。谢谢!

0 投票
1 回答
922 浏览

python - 土耳其语字符的python编码

我必须阅读土耳其故事的pdf书籍。我找到了一个名为 pyPdf 的库。我的下面的测试函数编码不正确。我想,我需要有土耳其编解码器数据包。我错了吗 ?如果我错了,我该如何解决这个问题,或者如何找到这个土耳其编解码器数据包?

0 投票
2 回答
5451 浏览

python - pyPDF2 中的 extractText() 函数抛出错误

我正在尝试从 PDF 中提取文本以便进行分析,但是当我尝试从页面中提取文本时,我收到以下错误。

相关代码部分如下:

在 extractText() 行抛出错误。

0 投票
1 回答
2633 浏览

pdf - 检测pdf中水印的位置

我在ubuntu上。

我有一个 pdf 文件,页面分为网格。网格的每个块都包含候选人的姓名/年龄/出生日期/照片。有些记录有水印“不合格”

我需要刮掉他的 pdf,将不合格的候选人列在一个单独的列表中。使用 pyPdf 我能够获得个人记录,但它也包括带水印的候选者。

如何检测水印?如果我可以得到水印的坐标,我如何将它与候选人匹配?

我对 python pyPdf 以外的解决方案持开放态度

0 投票
5 回答
49327 浏览

python - pypdf 将多个pdf文件合并为一个pdf

如果我有 1000 多个 pdf 文件需要合并为一个 pdf,

执行上述代码,当input = PdfFileReader(file(filename500+, "rb")),

一条错误信息: IOError: [Errno 24] Too many open files:

我认为这是一个错误,如果不是,我该怎么办?</p>