“pypdf2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

341 浏览

python - Python：“导入为”关键字错误

我一直在使用 Python，并且正在导入 PyPDF2 模块。我实际上已经想出了如何解决我的问题，但我想知道为什么我以前的代码不起作用。

这是旧代码：

这是现在可以工作的当前代码。

第一段代码没有使控制台崩溃——事实上它确实创建了一个文件。唯一的问题是它创建的文件无法打开，只有 1 KB 大。第二段代码类似于有多少人在 StackOverflow 中使用过这个模块，并且运行良好。我的问题是：为什么第一段代码没有为我提供预期的结果，因为我在导入 PdfFileMerger 作为合并后似乎正确地使用了“合并”？

感谢您提供的任何帮助！

2017-05-05T23:56:37.913

0 投票

2 回答

1558 浏览

pdf - 如何使用 PyPDF2 每 n 页拆分一个 PDF？

我正在尝试学习如何每 n 页拆分一个 pdf。

在我的情况下，我想将 64p PDF 拆分为几个块，每个块包含四页：文件 1：p.1-4，文件 2：p.5-8 等。

我试图理解 PyPDF2，但我的菜鸟让我不知所措：

我想我需要使用和写入文件进行各种循环，addPage直到没有页面为止？

pdf pypdf2

2017-05-11T19:21:57.360

0 投票

1 回答

510 浏览

python - 在python中读取所有类型的文件

我正在尝试从 python(.pdf .doc .docx) 中不同类型的文件中提取信息并转换为 .txt，但是在处理不同的文件时，我会在不需要时获得空格和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请向我推荐一些可以从文件中提取信息的东西。

编辑

目前正在寻找可以帮助我从 .pdf 文件中提取确切文本的东西。我已经尝试过 PyPDF、PDFMiner 和 PDF Manager，但我都遇到了一些 pdf 的问题。

python pdf pypdf pdfminer pypdf2

2017-05-25T11:16:18.047

0 投票

1 回答

2958 浏览

python - IOError：[Errno 22] 无效参数

我正在尝试将所有 pdf 连接成一个 pdf 从而使用 PyPDF2 库。我正在使用python 2.7。

我的错误是：

我的代码是：

我的pdf有一些非ASCII字符，所以我使用'r'然后是'rb'

PS：我是 Python 和所有这些库的新手

python pypdf2

2017-05-31T09:14:09.750

0 投票

1 回答

71 浏览

python - 为什么需要嵌套读者和作者的 with 语句？

这在编写副本时按预期工作。

现在让我们将最后三行移出with：

这将创建一个具有正确页数的 pdf，但所有页面都是空白的，即使在写入新文件时也是如此。（请注意，移出new_pdf = ...也不会改变任何事情）

为什么？我能做些什么呢？因为我希望最终必须将这三行移出第一行with，以便提供覆盖支持。（除非我只是创建一个副本然后重命名，我有点想避免这种情况。）

python python-3.x file-io with-statement pypdf2

2017-06-02T10:06:42.693

0 投票

2 回答

4427 浏览

我正在跟随 Pythons Automate the Boring Stuff 部分。我在为 PDF 文档进行复制时遇到过问题，但到目前为止，每次我运行该程序时，我复制的 PDF 都是空白页。我新加密的 PDF 有正确数量的页面，但它们都是空白的（页面上没有内容）。我以前发生过这种情况，但无法重新创建。在关闭我的文件之前，我尝试过进入睡眠状态。我不确定在 Python 中打开和关闭文件的最佳做法是什么。作为参考，我使用的是 Python3。

python python-3.x pypdf2

2017-06-05T18:59:37.460

0 投票

1 回答

250 浏览

python - 如何检测何时使用 PyPDF2.extractText 成功提取了 pdf 文本？

我正在使用 PyPDF2 库通过它的extractText功能从 PDF 文件中提取文本，对于大多数 PDF，它工作得很好！

但是，某些 PDF 会生成如下所示的文本：

\n!"#$%&'()" +,"-." .)/"0$-1"2)+3-$.45\n""!"#$%&'() #'+),$!"#-.# $-/$0.1+" #+ 12$\n!"#"$!%"&#"%$'$()% +,-$(%.($#"$(%" %/%0!%\n$0"& $(%1(0,$2%3(%0"%0!%"&$%1(34+5"%36%1(0,$!7\n%%8%!"#$%& '($)%"\n%0!%#% +,-$(%"&#"%0!%3*9)%40'0!0-9$%-)%/%#*4 %0"!$967\n%%:%0!%"&$%3*9)%$'$ %\n1(0,$% +,-$(7\n%%;3%099+! "(#"$%6+ 4#,$ "#9%"&$3($,%36%#(0"&,$"052%<%90!"%-$93=%"&$%1 (0,$%6#5"3(0>#"03*%\n36% +,-$(!%-$"=$$ %/%# 4%:?7%@(0,$% +,

根据文档，这是可以预期的：

这适用于某些 PDF 文件，但对其他文件效果不佳，具体取决于所使用的生成器。

不幸的是，该extractText()函数在输出上述文本时不会引发任何异常。

所以，我的问题是，有没有办法以编程方式检测extractText()函数何时返回乱码？

python string pdf pypdf2

2017-06-06T23:43:01.620

0 投票

0 回答

189 浏览

python - 保存 pdf 时指定特定的配色方案和 dpi

我正在使用 2 种不同的技术\库测试 pdf 生成：

PyPDF2 (python - https://github.com/mstamy2/PyPDF2 )
pdfkit (NodeJs - https://github.com/devongovett/pdfkit )

我要做的是保存具有特定配色方案的 PDF，例如 FOGRA39 ( http://www.color.org/fogra39.xalter )。我必须这样做以确保当我们使用工业打印机打印时，颜色（CMYK）将与 pdf 完全相同。此外，我必须将 300 dpi 设置为 pdf。我没有找到有关此操作的文档。

任何人都可以帮助我吗？提前致谢

python node.js pdf pdfkit pypdf2

2017-06-08T08:22:13.923

0 投票

1 回答

408 浏览

python - 使用 urllib2 远程读取 pdf

我正在尝试从 pdf 远程提取文本。

网址是这个http://loc.gov/aba/publications/FreeLCC/A-text.pdf

我的代码如下

我收到一个403HTTP 错误。我究竟做错了什么？

python python-2.7 urllib2 http-status-code-403 pypdf2

2017-06-11T10:23:02.777

0 投票

3 回答

5613 浏览

python - 将 PDF 数据抓取到 Excel 绝对初学者

对我来说，这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码，但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么，所以每次我想测试我在网上找到的一些代码时，我都会碰壁。

基本信息

视窗 7 64 位
蟒蛇3.6.0
蜘蛛3
我有很多 pdf 相关的代码包（PyPDF2、pdfminer、pdfquery、pdfwrw 等）

目标

在 python 中创建一些东西，允许我将 PDF 从文件夹转换为 excel 文件（理想情况下）或文本文件（我将使用 VBA 来转换）。

问题

每次我从网上找到的指南中尝试一些示例代码时，我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗？

如何在数千个 PDF 文件中抓取表格？
- 由于最后一行的“for”，我得到了一个无效的语法错误
PDFMiner 指南（链接）

python pdf pdfminer pypdf2 pdfrw

2017-06-12T16:03:34.147

问题标签 [pypdf2]

python - Python：“导入为”关键字错误

pdf - 如何使用 PyPDF2 每 n 页拆分一个 PDF？

python - 在python中读取所有类型的文件

python - IOError：[Errno 22] 无效参数

python - 为什么需要嵌套读者和作者的 with 语句？

python - PyPDF2在复制后返回空白PDF

python - 如何检测何时使用 PyPDF2.extractText 成功提取了 pdf 文本？

python - 保存 pdf 时指定特定的配色方案和 dpi

python - 使用 urllib2 远程读取 pdf

python - 将 PDF 数据抓取到 Excel 绝对初学者

问题标签 [pypdf2]

Reference