问题标签 [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1415 浏览

python-3.x - 用 pypdf2 编写 pdf 会出错

我正在尝试编写一个简单的脚本来合并两个 PDF,但是在尝试将输出保存到磁盘时遇到了问题。我的代码是

问题是我得到一个错误

UserWarning:要写入的文件不是二进制模式。它可能没有正确写入。[pdf.py:453] Traceback(最近一次调用最后一次):文件“Combine2Pdfs.py”,第 44 行,在 output.write(output_name) 文件“/Library/Frameworks/Python.framework/Versions/3.5/lib/pytho”中​n3.5/site-packages/P‌​yPDF2/pdf.py”,第 487 行,在 write stream.write(self.header + b ("\n")) TypeError: write() argument must be str, not字节

我哪里出错了?

0 投票
0 回答
574 浏览

python-3.x - PyPDF2 使用错误的字体或编码合并 PDF

我正在使用 PyPDF2 重新格式化 pdf 文件中的页面。我的目标是从源 PDF 文件中取出两页并输出一个新的 PDF 文件,其中页面已按比例缩小以适合一个横向页面。我正在使用以下代码:

输出几乎符合我的预期,但似乎使用了不同的字体,字距不好,一些特殊字符显示不正确。我不熟悉 PDF 格式的内部结构,所以我不知道是什么原因造成的。

如何使内容以与源完全相同的方式显示(除了按比例缩小)?

0 投票
1 回答
297 浏览

regex - PyPDF2和DataFrame的字符串中带括号的正则表达式,带有正数和负数

我目前正在使用一个脚本,该脚本通过 PyPDF2 将 PDF 拉到一个字符串中,然后使用正则表达式在该 PDF 中搜索括号中的费用金额。然后在 pd.DataFrame 中汇总和处理这些费用,并将结果输出到 CSV 文件。

一切都很好,直到发出退款。基本上所有费用都包含在括号内,我会使用 re 来搜索 x 费用,例如。

然后将其添加到 totalFees 列表中

然后将该列表转换为 DataFrame 以进行操作。

最近,PDF 的格式更改为包含更多费用字符串。这有时也可能构成退款。我用 re 搜索的字符串看起来像这样

或者

我的第一个问题是括号,我尝试了以下无济于事

但它返回一个空列表[]?我已经尝试了几个re,但似乎都没有工作。

我的下一个问题是,以前这些都是所有费用(负金额),但现在包括正值和退款。这与 DataFrame 计算相混淆。我应该如何最好地解决这个问题。我可以回到括号内的先前费用,并通过以下方式将它们设为负数:

然后提取正数,这将允许正确计算 DataFrame,减少费用并增加退款。

或者跟随另一个根会更可取吗?

我知道这段代码可能是你见过的最少的 Python 代码,但它在过去一年中运行良好。

0 投票
2 回答
6072 浏览

python - PyPDF2 - 合并来自两个不同 PDF 文件的页面不起作用

我正在尝试将两个 PDF 文件中的页面合并为具有单个页面的单个 PDF。所以我尝试了下面使用 PyPDF2 的代码:

它会生成一个文件和一个页面,其中包含文件 1 中第 1 页的内容,但我没有从 file2 的第 1 页中找到任何数据。好像没有合并。

0 投票
2 回答
251 浏览

python - 在同一页上打印两次的文本

我生成的 pdf 有问题,生成的 pdf 文件有 4 页,我使用现有的 pdf 有两页。我必须使用pyPD2and写一些文本reportlab

当我使用getPage()方法时,我想在合并之前制作一个页面副本,但由于某些原因它使用相同的页面,我的文本打印了好几次。

我怎样才能避免这种情况?

我的代码

0 投票
1 回答
180 浏览

python - PDF 文件安全设置

可用于更改或设置 PDF 文件权限的 Python 模块/库有哪些?我想禁用 PDF 文件的打印、保存、另存为、复制。

0 投票
3 回答
5590 浏览

python - 阅读目录中的所有 PDF(图片)

我附上了一张图片来帮助展示我所做的事情。我正在尝试编写一个程序,该程序将为目录中具有奇数页数的所有 PDF 添加一个空白页。但是我似乎无法阅读目录中的所有 PDF。

我的脚本适用于单个 PDF,但我有 1000 个这样的工作要做。为什么我无法阅读 user_input 目录中的所有 PDF?

代码和错误的屏幕截图在这里

代码在这里

0 投票
1 回答
58 浏览

python - 我哪里错了?

目前,我的代码正在从 PDF 中提取数据并计算词频。我一直在尝试按频率顺序排列它,但一直没能做到。我查看了多个类似的答案,但找不到可以开始工作的答案。有人可以指出我需要做什么吗?

提前致谢。

0 投票
0 回答
946 浏览

python - PyPdf2在某些字母前提取带有n的文本

这可能只是由于PyPdf2's提取文本功能,但是当我运行下面的代码以重命名文件时,会出现很多最常见的词,例如“Nthe”、“Nfrom”和“Ncommunications”。我不确定我能做些什么来阻止这种情况的发生,或者如何解决它。

是什么导致了这样的问题?

N从哪里来?

其他 PDF 完全符合我的要求,所以我不知道从哪里开始。

0 投票
1 回答
18278 浏览

python-2.7 - 如何用python在PDF文件中写入表结构数据?

我想使用 python 库以上述格式将上表写入 PDF 文件。感谢立即响应。