问题标签 [pypdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 问题

0 投票

1 回答

614 浏览

python - 如何拆分每张纸上包含多个逻辑页面的pdf文档？

我想将 2x2 pdf 文档拆分为其原始页面。每个页面由四个逻辑页面组成，这些逻辑页面的排列方式如本例所示。

我正在尝试使用python和pypdf：

不幸的是，这个脚本没有按预期工作，因为它每四个逻辑页输出四次。由于我之前没有用python写过任何东西，我认为这是一个非常基本的问题，大概是由于复制操作。我真的很感激任何帮助。

编辑：嗯，我做了一些实验。我手动插入了页面宽度和高度，如下所示：

此代码导致与我原来的相同的错误结果，但如果我现在注释掉该行(w, h) = p.mediaBox.upperRight，一切正常！我找不到任何理由。元组(w, h)甚至不再使用，那么删除它的定义如何改变任何东西呢？

2013-02-08T13:28:59.657

0 投票

1 回答

4220 浏览

pypdf - Python PyPDF - 未找到 EOF 标记

我看过其他文章谈到做一些类似的事情：

但这对我不起作用。有人知道为什么会这样吗？我一直在这个网站和其他网站上搜索，但还没有找到答案。我在 Backtrack Linux 中使用 Python 顺便说一句。

pypdf

2013-02-18T07:07:02.383

0 投票

1 回答

618 浏览

python - PyPDF2 合并时抛出错误（Python3.3/Win7）

我正在使用 PyPDF2 进行 PDF 的简单合并。我在 XP/Python 3.2 上编写了代码，它运行良好。当我将它移至 Win7-64bit/Python 3.3 并使用最新的 PyPDF2 发行版 ( https://github.com/knowah/PyPDF2/ ) 时，将 PDF 附加到合并对象时会引发以下错误：

我尝试使用 Python 3.2 进行全新安装并得到相同的错误。

奇怪的是，merge.py 在我的 XP 安装和 Win7 之间非常不同，但我找不到对 PyPDF2 早期版本的引用，我不记得我从哪里下载了那个版本，虽然我知道它是2012 年 12 月 18 日。据我所知，从那时到现在，PyPDF2 没有任何更新。

Win7 上的安装使用标准的“python setup.py build”然后“安装”。

有任何想法吗？

python pdf pypdf

2013-02-27T10:11:34.237

0 投票

1 回答

2314 浏览

python - 使用 pyPdf 合并非标准 PDF

我想将几个 PDF 文件合并到一个 PDF 文档中。事实证明，输入文件并不完全符合标准。EOF 标记后跟一些附加信息：

显然，这导致 pyPdf给了我一个例外：

现在的问题是：我该怎么办？我可能会打开每个文件，去掉最后两行并将其保存，然后再将它们放入 pyPdf。但是，我不太喜欢这个主意。也许那里有更好的选择？

python pdf python-2.6 pypdf

2013-03-02T17:54:44.930

0 投票

0 回答

846 浏览

python - pypdf 错误 - 模块对象没有属性号

这是我正在使用的代码

现在，当我运行此代码时，出现错误：

我截取了运行上述代码时得到的整个输出的屏幕截图，其中包含错误和所有内容。所以，请看一下，让我知道出了什么问题？

在此处输入图像描述

在我使用import decimal代码之后，我得到了一些错误。因此，我截取了整个内容的屏幕截图，并将其附在此处。在此处输入图像描述

python pypdf

2013-03-11T10:31:36.130

0 投票

1 回答

1610 浏览

python - “导入小数”引发错误

这是我正在使用的代码

现在，当我运行此代码时，出现错误：模块“对象”没有属性“数字”

我截取了运行上述代码时得到的整个输出的屏幕截图，其中包含错误和所有内容。所以，请看一下，让我知道出了什么问题？

在此处输入图像描述

python module decimal pypdf

2013-03-12T06:57:35.257

0 投票

1 回答

6983 浏览

python - 如何让pypdf逐行读取页面内容？

我有一个 pdf，其中每一页都包含一个地址。地址格式如下：

例如：

每个地址都仅采用这种格式，并且每个地址都位于 pdf 的不同页面上。

我需要提取地址信息并将结果存储在 excel/csv 文件中。我需要将每个信息字段的条目分开。我的 Excel 表需要在不同的列中包含位置名称、街道地址、城市、州、邮编。我在 python 中使用 pyPdf。

我已经使用以下代码来执行此操作，但我的代码没有考虑换行符；相反，它将单个页面的整个数据作为连续字符串提供。

或者我上面的例子，它给出了“The Gift Store 620 Broadway Street Van Buren, AR 72956”。

如果我可以逐行读取输入，那么我可以轻松地从前两行获取位置名称和街道地址，然后使用子字符串从第三行获取其余部分。

我尝试使用[此处列出的解决方案（pyPdf 忽略 PDF 文件中的换行符），但它对我不起作用。我也尝试使用 pdfminer：它可以逐行提取信息，但它首先将 pdf 转换为文本文件，我不想这样做。我只想使用 pyPdf。谁能建议我错在哪里或我错过了什么？这可以使用pyPdf吗？

python string pdf pypdf

2013-03-17T10:35:50.977

0 投票

0 回答

602 浏览

python - PyPDF2 无法导入 pdf 文件头

我使用 PyPDF2 将字符串中的 pdf 文件导入 python。问题是第一页的顶部不想被导入（.getPage(0).extracText() 错过了顶部）。

我想有一个标题属性，但我找不到它的名称，我在互联网上找不到任何信息。

你知道怎么做或我在哪里可以找到信息吗？

python header pypdf

2013-03-20T17:57:33.870

0 投票

1 回答

27556 浏览

python - 如何在 Python 中从 PDF 文件中提取文本？

如何在 Python 中从 PDF 文件中提取文本？

我尝试了以下方法：

但结果如下，而不是可读的文本：

728;ˇ^~ ˚ˇˇ!""˘ˇ^˙^˝˛˛˛˛^~^^ ^˘^˛˙^"^˘"^^^#$˙^^^ %&^ ˘˛^~'˙˙% * _ _ ˝+,-3˙^/0245)6#57+82,55)6#57+,+2,+ /!#!!&˘˘1"%˘20˛˛3^07%4!˘"6 ˛ ^ ˝^ ^˘&/&4"9^ %6ˇ%4%4&5˘2)˘˘˛%:6(

python pypdf

2013-03-23T04:57:35.937

0 投票

2 回答

1228 浏览

python - 在更大的画布上合并 pyPDF 中的 PDF

我在 pyPDF 中要做的是创建一个脚本，该脚本将生成一个 17x11 PDF“画布”，将第一个 PDF 添加到左侧，将第二个 PDF 添加到右侧。

我最初的问题是：生成不共享原始 PDF 尺寸的输出 PDF 的方法是什么？IE：如何生成 17x11 PDF？

我的 PDF 指南

python pypdf

2013-03-27T18:36:30.117

1 2 3 4 5 6 7 8 9 10

问题标签 [pypdf]

728;ˇ^~ ˚ˇˇ!""˘ˇ^˙^˝˛˛˛˛^~^^ ^˘^˛˙^"^˘"^^^#$˙^^^ %&^ ˘˛^~'˙˙% * _ _ ˝+,-3˙^/0245)6#57+82,55)6#57+,+2,+ /!#!!&˘˘1"%˘20˛˛3^07%4!˘"6 ˛ ^ ˝^ ^˘&/&4"9^ %6ˇ%4%4&5˘2)˘˘˛%:6(

Reference