问题标签 [pypdf2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python:“导入为”关键字错误
我一直在使用 Python,并且正在导入 PyPDF2 模块。我实际上已经想出了如何解决我的问题,但我想知道为什么我以前的代码不起作用。
这是旧代码:
这是现在可以工作的当前代码。
第一段代码没有使控制台崩溃——事实上它确实创建了一个文件。唯一的问题是它创建的文件无法打开,只有 1 KB 大。第二段代码类似于有多少人在 StackOverflow 中使用过这个模块,并且运行良好。我的问题是:为什么第一段代码没有为我提供预期的结果,因为我在导入 PdfFileMerger 作为合并后似乎正确地使用了“合并”?
感谢您提供的任何帮助!
pdf - 如何使用 PyPDF2 每 n 页拆分一个 PDF?
我正在尝试学习如何每 n 页拆分一个 pdf。
在我的情况下,我想将 64p PDF 拆分为几个块,每个块包含四页:文件 1:p.1-4,文件 2:p.5-8 等。
我试图理解 PyPDF2,但我的菜鸟让我不知所措:
我想我需要使用和写入文件进行各种循环,addPage
直到没有页面为止?
python - 在python中读取所有类型的文件
我正在尝试从 python(.pdf .doc .docx) 中不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我会在不需要时获得空格和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请向我推荐一些可以从文件中提取信息的东西。
编辑
目前正在寻找可以帮助我从 .pdf 文件中提取确切文本的东西。我已经尝试过 PyPDF、PDFMiner 和 PDF Manager,但我都遇到了一些 pdf 的问题。
python - IOError:[Errno 22] 无效参数
我正在尝试将所有 pdf 连接成一个 pdf 从而使用 PyPDF2 库。我正在使用python 2.7。
我的错误是:
我的代码是:
我的pdf有一些非ASCII字符,所以我使用'r'然后是'rb'
PS:我是 Python 和所有这些库的新手
python - 为什么需要嵌套读者和作者的 with 语句?
这在编写副本时按预期工作。
现在让我们将最后三行移出with
:
这将创建一个具有正确页数的 pdf,但所有页面都是空白的,即使在写入新文件时也是如此。(请注意,移出new_pdf = ...
也不会改变任何事情)
为什么?我能做些什么呢?因为我希望最终必须将这三行移出第一行with
,以便提供覆盖支持。(除非我只是创建一个副本然后重命名,我有点想避免这种情况。)
python - PyPDF2在复制后返回空白PDF
我正在跟随 Pythons Automate the Boring Stuff 部分。我在为 PDF 文档进行复制时遇到过问题,但到目前为止,每次我运行该程序时,我复制的 PDF 都是空白页。我新加密的 PDF 有正确数量的页面,但它们都是空白的(页面上没有内容)。我以前发生过这种情况,但无法重新创建。在关闭我的文件之前,我尝试过进入睡眠状态。我不确定在 Python 中打开和关闭文件的最佳做法是什么。作为参考,我使用的是 Python3。
python - 如何检测何时使用 PyPDF2.extractText 成功提取了 pdf 文本?
我正在使用 PyPDF2 库通过它的extractText
功能从 PDF 文件中提取文本,对于大多数 PDF,它工作得很好!
但是,某些 PDF 会生成如下所示的文本:
\n!"#$%&'()" +,"-." .)/"0$-1"2)+3-$.45\n""!"#$%&'() #'+),$!"#-.# $-/$0.1+" #+ 12$\n!"#"$!%"&#"%$'$()% +,-$(%.($#"$(%" %/%0!%\n$0"& $(%1(0,$2%3(%0"%0!%"&$%1(34+5"%36%1(0,$!7\n%%8%!"#$%& '($)%"\n%0!%#% +,-$(%"&#"%0!%3*9)%40'0!0-9$%-)%/%#*4 %0"!$967\n%%:%0!%"&$%3*9)%$'$ %\n1(0,$% +,-$(7\n%%;3%099+! "(#"$%6+ 4#,$ "#9%"&$3($,%36%#(0"&,$"052%<%90!"%-$93=%"&$%1 (0,$%6#5"3(0>#"03*%\n36% +,-$(!%-$"=$$ %/%# 4%:?7%@(0,$% +,
根据文档,这是可以预期的:
这适用于某些 PDF 文件,但对其他文件效果不佳,具体取决于所使用的生成器。
不幸的是,该extractText()
函数在输出上述文本时不会引发任何异常。
所以,我的问题是,有没有办法以编程方式检测extractText()
函数何时返回乱码?
python - 保存 pdf 时指定特定的配色方案和 dpi
我正在使用 2 种不同的技术\库测试 pdf 生成:
- PyPDF2 (python - https://github.com/mstamy2/PyPDF2 )
- pdfkit (NodeJs - https://github.com/devongovett/pdfkit )
我要做的是保存具有特定配色方案的 PDF,例如 FOGRA39 ( http://www.color.org/fogra39.xalter )。我必须这样做以确保当我们使用工业打印机打印时,颜色(CMYK)将与 pdf 完全相同。此外,我必须将 300 dpi 设置为 pdf。我没有找到有关此操作的文档。
任何人都可以帮助我吗?提前致谢
python - 使用 urllib2 远程读取 pdf
我正在尝试从 pdf 远程提取文本。
网址是这个http://loc.gov/aba/publications/FreeLCC/A-text.pdf
我的代码如下
我收到一个403
HTTP 错误。我究竟做错了什么?
python - 将 PDF 数据抓取到 Excel *绝对初学者*
对我来说,这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码,但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会碰壁。
基本信息
- 视窗 7 64 位
- 蟒蛇3.6.0
- 蜘蛛3
- 我有很多 pdf 相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw 等)
目标
在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(理想情况下)或文本文件(我将使用 VBA 来转换)。
问题
每次我从网上找到的指南中尝试一些示例代码时,我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?
- 如何在数千个 PDF 文件中抓取表格?
- 由于最后一行的“for”,我得到了一个无效的语法错误
- PDFMiner 指南(链接)