问题标签 [pypdf2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 用 pypdf2 编写 pdf 会出错
我正在尝试编写一个简单的脚本来合并两个 PDF,但是在尝试将输出保存到磁盘时遇到了问题。我的代码是
问题是我得到一个错误
UserWarning:要写入的文件不是二进制模式。它可能没有正确写入。[pdf.py:453] Traceback(最近一次调用最后一次):文件“Combine2Pdfs.py”,第 44 行,在 output.write(output_name) 文件“/Library/Frameworks/Python.framework/Versions/3.5/lib/pytho”中n3.5/site-packages/PyPDF2/pdf.py”,第 487 行,在 write stream.write(self.header + b ("\n")) TypeError: write() argument must be str, not字节
我哪里出错了?
python-3.x - PyPDF2 使用错误的字体或编码合并 PDF
我正在使用 PyPDF2 重新格式化 pdf 文件中的页面。我的目标是从源 PDF 文件中取出两页并输出一个新的 PDF 文件,其中页面已按比例缩小以适合一个横向页面。我正在使用以下代码:
输出几乎符合我的预期,但似乎使用了不同的字体,字距不好,一些特殊字符显示不正确。我不熟悉 PDF 格式的内部结构,所以我不知道是什么原因造成的。
如何使内容以与源完全相同的方式显示(除了按比例缩小)?
regex - PyPDF2和DataFrame的字符串中带括号的正则表达式,带有正数和负数
我目前正在使用一个脚本,该脚本通过 PyPDF2 将 PDF 拉到一个字符串中,然后使用正则表达式在该 PDF 中搜索括号中的费用金额。然后在 pd.DataFrame 中汇总和处理这些费用,并将结果输出到 CSV 文件。
一切都很好,直到发出退款。基本上所有费用都包含在括号内,我会使用 re 来搜索 x 费用,例如。
然后将其添加到 totalFees 列表中
然后将该列表转换为 DataFrame 以进行操作。
最近,PDF 的格式更改为包含更多费用字符串。这有时也可能构成退款。我用 re 搜索的字符串看起来像这样
或者
我的第一个问题是括号,我尝试了以下无济于事
但它返回一个空列表[]
?我已经尝试了几个re,但似乎都没有工作。
我的下一个问题是,以前这些都是所有费用(负金额),但现在包括正值和退款。这与 DataFrame 计算相混淆。我应该如何最好地解决这个问题。我可以回到括号内的先前费用,并通过以下方式将它们设为负数:
然后提取正数,这将允许正确计算 DataFrame,减少费用并增加退款。
或者跟随另一个根会更可取吗?
我知道这段代码可能是你见过的最少的 Python 代码,但它在过去一年中运行良好。
python - PyPDF2 - 合并来自两个不同 PDF 文件的页面不起作用
我正在尝试将两个 PDF 文件中的页面合并为具有单个页面的单个 PDF。所以我尝试了下面使用 PyPDF2 的代码:
它会生成一个文件和一个页面,其中包含文件 1 中第 1 页的内容,但我没有从 file2 的第 1 页中找到任何数据。好像没有合并。
python - 在同一页上打印两次的文本
我生成的 pdf 有问题,生成的 pdf 文件有 4 页,我使用现有的 pdf 有两页。我必须使用pyPD2
and写一些文本reportlab
。
当我使用getPage()
方法时,我想在合并之前制作一个页面副本,但由于某些原因它使用相同的页面,我的文本打印了好几次。
我怎样才能避免这种情况?
我的代码:
python - PDF 文件安全设置
可用于更改或设置 PDF 文件权限的 Python 模块/库有哪些?我想禁用 PDF 文件的打印、保存、另存为、复制。
python - 阅读目录中的所有 PDF(图片)
我附上了一张图片来帮助展示我所做的事情。我正在尝试编写一个程序,该程序将为目录中具有奇数页数的所有 PDF 添加一个空白页。但是我似乎无法阅读目录中的所有 PDF。
我的脚本适用于单个 PDF,但我有 1000 个这样的工作要做。为什么我无法阅读 user_input 目录中的所有 PDF?
代码在这里
python - 我哪里错了?
目前,我的代码正在从 PDF 中提取数据并计算词频。我一直在尝试按频率顺序排列它,但一直没能做到。我查看了多个类似的答案,但找不到可以开始工作的答案。有人可以指出我需要做什么吗?
提前致谢。
python - PyPdf2在某些字母前提取带有n的文本
这可能只是由于PyPdf2's
提取文本功能,但是当我运行下面的代码以重命名文件时,会出现很多最常见的词,例如“Nthe”、“Nfrom”和“Ncommunications”。我不确定我能做些什么来阻止这种情况的发生,或者如何解决它。
是什么导致了这样的问题?
N从哪里来?
其他 PDF 完全符合我的要求,所以我不知道从哪里开始。
python-2.7 - 如何用python在PDF文件中写入表结构数据?
我想使用 python 库以上述格式将上表写入 PDF 文件。感谢立即响应。