问题标签 [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyPdf:非法的 UTF-16 代理
我有一个破坏 pyPdf 的 pdf 文件:http: //tovotu.de/tests/test.pdf
这是示例脚本:
错误输出在这里: http: //pastebin.com/0m38zhjQ
使用来自 GitHub 的 PyPDF2 时,错误是相同的。pdftk 可以像处理任何其他 pdf 一样处理此 pdf。请注意,写作失败,但阅读似乎工作得很好!
您至少可以指出导致该错误的 pdf 的确切部分吗?解决方法会更好:)
python - 使用 PdfMiner 和 PyPDF2 合并列提取文本
我正在尝试使用 pdfMiner 解析 pdf 文件文本,但提取的文本被合并。我正在使用以下链接中的 pdf 文件。
我擅长任何类型的输出(文件/字符串)。这是将提取的文本作为字符串返回的代码,但由于某种原因,列被合并了。
我也尝试过 PyPdf2,但遇到了同样的问题。这是 PyPDF2 的示例代码
我也尝试过pdf2txt.py但无法获得格式化的输出。
python - 如何在 CentOS 上为 python 2.6 安装模块?
在 CentOS 上安装 python 2.6 之后:
然后我安装pyPdf
:
但是,pyPdf
仅适用于旧的 python 2.4:
它不适用于新安装的 python 2.6:
如何pyPdf
为 python 2.6 安装?
python-2.7 - Python 2.7 的 pyPdf 不适用于 py2exe 和 cx_freeze?
每个人,
我使用 pyPdf 为 Python 2.7 编写了一个小程序。它已经在 Python 中进行了测试。现在我希望将它转换为 exe 文件以在 Windows 中运行它。py2exe 或 cx_freeze 都不起作用。exe 文件不运行。
看起来它在输出文件夹中不包含 pyPdf 模块。
文件夹结构是这样的:
Filing.exe 是程序。
我尝试在命令窗口下运行exe,错误信息是这样的:
请帮忙。
谢谢你们!
当我冻结它时,输出显示如下:
好的。我检查了 pyPdf 的位置,它在这里:
那么如何将 pyPdf 带到 exe 程序中呢?
python - Python 3 中的 PDF 合并
是否有适用于 Python 3 的 PDF 操作模块?我已经尝试过 Pypdf,但是当我尝试使用 PIP 安装时它会出现故障。我想合并 PDF 文件。如果我使用 Pypdf2,我会使用此代码收到以下消息:
merge.py 的第 97 行是:
使用代码时,我自己的代码中出现了类似的错误,例如
input1 = PdfFileReader(file("document1.pdf", "rb"))
- 这是来自http://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/的复制和粘贴
python - 未找到 EOF 标记 - 如何在 PyPDF 和 PyPDF2 中修复?
我正在尝试使用 Python 将几个 PDF 文件组合成一个 PDF 文件。我已经尝试过 PyPDF 和 PyPDF2 - 在某些文件上,它们都抛出了同样的错误:
PdfReadError:未找到 EOF 标记
这是我的代码 (page_files) 是要组合的 PDF 文件路径列表:
我已经阅读了一些关于该主题的 StackOverflow 线程,但没有一个包含有效的解决方案。如果您已使用 Python 成功合并 PDF 文件,我很想听听如何。谢谢!
python - 土耳其语字符的python编码
我必须阅读土耳其故事的pdf书籍。我找到了一个名为 pyPdf 的库。我的下面的测试函数编码不正确。我想,我需要有土耳其编解码器数据包。我错了吗 ?如果我错了,我该如何解决这个问题,或者如何找到这个土耳其编解码器数据包?
python - pyPDF2 中的 extractText() 函数抛出错误
我正在尝试从 PDF 中提取文本以便进行分析,但是当我尝试从页面中提取文本时,我收到以下错误。
相关代码部分如下:
在 extractText() 行抛出错误。
pdf - 检测pdf中水印的位置
我在ubuntu上。
我有一个 pdf 文件,页面分为网格。网格的每个块都包含候选人的姓名/年龄/出生日期/照片。有些记录有水印“不合格”
我需要刮掉他的 pdf,将不合格的候选人列在一个单独的列表中。使用 pyPdf 我能够获得个人记录,但它也包括带水印的候选者。
如何检测水印?如果我可以得到水印的坐标,我如何将它与候选人匹配?
我对 python pyPdf 以外的解决方案持开放态度
python - pypdf 将多个pdf文件合并为一个pdf
如果我有 1000 多个 pdf 文件需要合并为一个 pdf,
执行上述代码,当input = PdfFileReader(file(filename500+, "rb"))
,
一条错误信息:
IOError: [Errno 24] Too many open files:
我认为这是一个错误,如果不是,我该怎么办?</p>