问题标签 [pypdf2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

764 问题

0 投票

2 回答

1415 浏览

python-3.x - 用 pypdf2 编写 pdf 会出错

我正在尝试编写一个简单的脚本来合并两个 PDF，但是在尝试将输出保存到磁盘时遇到了问题。我的代码是

问题是我得到一个错误

UserWarning：要写入的文件不是二进制模式。它可能没有正确写入。[pdf.py:453] Traceback（最近一次调用最后一次）：文件“Combine2Pdfs.py”，第 44 行，在 output.write(output_name) 文件“/Library/Frameworks/Python.framework/Versions/3.5/lib/pytho”中n3.5/site-packages/P‌yPDF2/pdf.py”，第 487 行，在 write stream.write(self.header + b ("\n")) TypeError: write() argument must be str, not字节

我哪里出错了？

python-3.x pdf pypdf2

2016-12-02T09:18:32.057

0 投票

0 回答

574 浏览

python-3.x - PyPDF2 使用错误的字体或编码合并 PDF

我正在使用 PyPDF2 重新格式化 pdf 文件中的页面。我的目标是从源 PDF 文件中取出两页并输出一个新的 PDF 文件，其中页面已按比例缩小以适合一个横向页面。我正在使用以下代码：

输出几乎符合我的预期，但似乎使用了不同的字体，字距不好，一些特殊字符显示不正确。我不熟悉 PDF 格式的内部结构，所以我不知道是什么原因造成的。

如何使内容以与源完全相同的方式显示（除了按比例缩小）？

python-3.x pdf fonts python-3.5 pypdf2

2016-12-13T09:52:03.220

0 投票

1 回答

297 浏览

regex - PyPDF2和DataFrame的字符串中带括号的正则表达式，带有正数和负数

我目前正在使用一个脚本，该脚本通过 PyPDF2 将 PDF 拉到一个字符串中，然后使用正则表达式在该 PDF 中搜索括号中的费用金额。然后在 pd.DataFrame 中汇总和处理这些费用，并将结果输出到 CSV 文件。

一切都很好，直到发出退款。基本上所有费用都包含在括号内，我会使用 re 来搜索 x 费用，例如。

然后将其添加到 totalFees 列表中

然后将该列表转换为 DataFrame 以进行操作。

最近，PDF 的格式更改为包含更多费用字符串。这有时也可能构成退款。我用 re 搜索的字符串看起来像这样

或者

我的第一个问题是括号，我尝试了以下无济于事

但它返回一个空列表[]？我已经尝试了几个re，但似乎都没有工作。

我的下一个问题是，以前这些都是所有费用（负金额），但现在包括正值和退款。这与 DataFrame 计算相混淆。我应该如何最好地解决这个问题。我可以回到括号内的先前费用，并通过以下方式将它们设为负数：

然后提取正数，这将允许正确计算 DataFrame，减少费用并增加退款。

或者跟随另一个根会更可取吗？

我知道这段代码可能是你见过的最少的 Python 代码，但它在过去一年中运行良好。

regex list python-3.x pandas pypdf2

2016-12-17T09:58:21.563

0 投票

2 回答

6072 浏览

python - PyPDF2 - 合并来自两个不同 PDF 文件的页面不起作用

我正在尝试将两个 PDF 文件中的页面合并为具有单个页面的单个 PDF。所以我尝试了下面使用 PyPDF2 的代码：

它会生成一个文件和一个页面，其中包含文件 1 中第 1 页的内容，但我没有从 file2 的第 1 页中找到任何数据。好像没有合并。

python pdf pdf-generation pypdf pypdf2

2016-12-17T11:42:19.170

0 投票

2 回答

251 浏览

python - 在同一页上打印两次的文本

我生成的 pdf 有问题，生成的 pdf 文件有 4 页，我使用现有的 pdf 有两页。我必须使用pyPD2and写一些文本reportlab。

当我使用getPage()方法时，我想在合并之前制作一个页面副本，但由于某些原因它使用相同的页面，我的文本打印了好几次。

我怎样才能避免这种情况？

我的代码：

python python-2.7 reportlab pypdf2

2017-01-01T17:53:41.573

0 投票

1 回答

180 浏览

python - PDF 文件安全设置

可用于更改或设置 PDF 文件权限的 Python 模块/库有哪些？我想禁用 PDF 文件的打印、保存、另存为、复制。

python python-2.7 pdf pdf-generation pypdf2

2017-01-07T10:31:56.680

0 投票

3 回答

5590 浏览

python - 阅读目录中的所有 PDF（图片）

我附上了一张图片来帮助展示我所做的事情。我正在尝试编写一个程序，该程序将为目录中具有奇数页数的所有 PDF 添加一个空白页。但是我似乎无法阅读目录中的所有 PDF。

我的脚本适用于单个 PDF，但我有 1000 个这样的工作要做。为什么我无法阅读 user_input 目录中的所有 PDF？

代码和错误的屏幕截图在这里

代码在这里

python pdf operating-system pypdf2

2017-02-06T14:15:07.173

0 投票

1 回答

58 浏览

python - 我哪里错了？

目前，我的代码正在从 PDF 中提取数据并计算词频。我一直在尝试按频率顺序排列它，但一直没能做到。我查看了多个类似的答案，但找不到可以开始工作的答案。有人可以指出我需要做什么吗？

提前致谢。

python python-3.x pdf canopy pypdf2

2017-02-17T00:59:06.980

0 投票

0 回答

946 浏览

python - PyPdf2在某些字母前提取带有n的文本

这可能只是由于PyPdf2's提取文本功能，但是当我运行下面的代码以重命名文件时，会出现很多最常见的词，例如“Nthe”、“Nfrom”和“Ncommunications”。我不确定我能做些什么来阻止这种情况的发生，或者如何解决它。

是什么导致了这样的问题？

N从哪里来？

其他 PDF 完全符合我的要求，所以我不知道从哪里开始。

python join renaming pypdf2

2017-02-18T04:24:06.680

0 投票

1 回答

18278 浏览

python-2.7 - 如何用python在PDF文件中写入表结构数据？

我想使用 python 库以上述格式将上表写入 PDF 文件。感谢立即响应。

python-2.7 python-3.x reportlab pypdf2 pdfrw

2017-02-22T08:23:59.753

1 2 3 4 5 6 7 8 9 10