问题标签 [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
614 浏览

python - 如何拆分每张纸上包含多个逻辑页面的pdf文档?

我想将 2x2 pdf 文档拆分为其原始页面。每个页面由四个逻辑页面组成,这些逻辑页面的排列方式如例所示。

我正在尝试使用pythonpypdf

不幸的是,这个脚本没有按预期工作,因为它每四个逻辑页输出四次。由于我之前没有用python写过任何东西,我认为这是一个非常基本的问题,大概是由于复制操作。我真的很感激任何帮助。


编辑:嗯,我做了一些实验。我手动插入了页面宽度和高度,如下所示:

此代码导致与我原来的相同的错误结果,如果我现在注释掉该行(w, h) = p.mediaBox.upperRight,一切正常!我找不到任何理由。元组(w, h)甚至不再使用,那么删除它的定义如何改变任何东西呢?

0 投票
1 回答
4220 浏览

pypdf - Python PyPDF - 未找到 EOF 标记

我看过其他文章谈到做一些类似的事情:

但这对我不起作用。有人知道为什么会这样吗?我一直在这个网站和其他网站上搜索,但还没有找到答案。我在 Backtrack Linux 中使用 Python 顺便说一句。

0 投票
1 回答
618 浏览

python - PyPDF2 合并时抛出错误(Python3.3/Win7)

我正在使用 PyPDF2 进行 PDF 的简单合并。我在 XP/Python 3.2 上编写了代码,它运行良好。当我将它移至 Win7-64bit/Python 3.3 并使用最新的 PyPDF2 发行版 ( https://github.com/knowah/PyPDF2/ ) 时,将 PDF 附加到合并对象时会引发以下错误:

我尝试使用 Python 3.2 进行全新安装并得到相同的错误。

奇怪的是,merge.py 在我的 XP 安装和 Win7 之间非常不同,但我找不到对 PyPDF2 早期版本的引用,我不记得我从哪里下载了那个版本,虽然我知道它是2012 年 12 月 18 日。据我所知,从那时到现在,PyPDF2 没有任何更新。

Win7 上的安装使用标准的“python setup.py build”然后“安装”。

有任何想法吗?

0 投票
1 回答
2314 浏览

python - 使用 pyPdf 合并非标准 PDF

我想将几个 PDF 文件合并到一个 PDF 文档中。事实证明,输入文件并不完全符合标准。EOF 标记后跟一些附加信息:

显然,这导致 pyPdf给了我一个例外

现在的问题是:我该怎么办?我可能会打开每个文件,去掉最后两行并将其保存,然后再将它们放入 pyPdf。但是,我不太喜欢这个主意。也许那里有更好的选择?

0 投票
0 回答
846 浏览

python - pypdf 错误 - 模块对象没有属性号

这是我正在使用的代码

现在,当我运行此代码时,出现错误:

我截取了运行上述代码时得到的整个输出的屏幕截图,其中包含错误和所有内容。所以,请看一下,让我知道出了什么问题?

在此处输入图像描述

在我使用import decimal代码之后,我得到了一些错误。因此,我截取了整个内容的屏幕截图,并将其附在此处。 在此处输入图像描述

0 投票
1 回答
1610 浏览

python - “导入小数”引发错误

这是我正在使用的代码

现在,当我运行此代码时,出现错误:模块“对象”没有属性“数字”

我截取了运行上述代码时得到的整个输出的屏幕截图,其中包含错误和所有内容。所以,请看一下,让我知道出了什么问题?

在此处输入图像描述

0 投票
1 回答
6983 浏览

python - 如何让pypdf逐行读取页面内容?

我有一个 pdf,其中每一页都包含一个地址。地址格式如下:

例如:

每个地址都仅采用这种格式,并且每个地址都位于 pdf 的不同页面上。

我需要提取地址信息并将结果存储在 excel/csv 文件中。我需要将每个信息字段的条目分开。我的 Excel 表需要在不同的列中包含位置名称、街道地址、城市、州、邮编。我在 python 中使用 pyPdf。

我已经使用以下代码来执行此操作,但我的代码没有考虑换行符;相反,它将单个页面的整个数据作为连续字符串提供。

或者我上面的例子,它给出了“The Gift Store 620 Broadway Street Van Buren, AR 72956”。

如果我可以逐行读取输入,那么我可以轻松地从前两行获取位置名称和街道地址,然后使用子字符串从第三行获取其余部分。

我尝试使用[此处列出的解决方案(pyPdf 忽略 PDF 文件中的换行符),但它对我不起作用。我也尝试使用 pdfminer:它可以逐行提取信息,但它首先将 pdf 转换为文本文件,我不想这样做。我只想使用 pyPdf。谁能建议我错在哪里或我错过了什么?这可以使用pyPdf吗?

0 投票
0 回答
602 浏览

python - PyPDF2 无法导入 pdf 文件头

我使用 PyPDF2 将字符串中的 pdf 文件导入 python。问题是第一页的顶部不想被导入(.getPage(0).extracText() 错过了顶部)。

我想有一个标题属性,但我找不到它的名称,我在互联网上找不到任何信息。

你知道怎么做或我在哪里可以找到信息吗?

0 投票
1 回答
27556 浏览

python - 如何在 Python 中从 PDF 文件中提取文本?

如何在 Python 中从 PDF 文件中提取文本?

我尝试了以下方法:

但结果如下,而不是可读的文本:

728;ˇ^~ ˚ˇˇ!""˘ˇ^˙^˝˛˛˛˛^~^^ ^˘^˛˙^"^˘"^^^#$˙^^^ %&^ ˘˛^~'˙˙% * _ _ ˝+,-3˙^/0245)6#57+82,55)6#57+,+2,+ /!#!!&˘˘1"%˘20˛˛3^07%4!˘"6 ˛ ^ ˝^ ^˘&/&4"9^ %6ˇ%4%4&5˘2)˘˘˛%:6(

0 投票
2 回答
1228 浏览

python - 在更大的画布上合并 pyPDF 中的 PDF

我在 pyPDF 中要做的是创建一个脚本,该脚本将生成一个 17x11 PDF“画布”,将第一个 PDF 添加到左侧,将第二个 PDF 添加到右侧。

我最初的问题是:生成不共享原始 PDF 尺寸的输出 PDF 的方法是什么?IE:如何生成 17x11 PDF?

我的 PDF 指南