问题标签 [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何关闭 pyPDF“PdfFileReader”类文件句柄
这应该是一个非常简单的问题,我无法通过 Google 搜索找到答案:How to close file handle opens by pyPDF "PdfFileReader" Class
这是片段:
这会引发错误 [32]
谢谢
python - python pypdf读取pdf并获取突出显示的单词
如何使用 python pypdf 阅读 pdf 并获得突出显示的单词?我突出显示了 pdf 中的未知单词,我想将它们提取出来以供以后参考。
python - 如何使用pyPdf合并两个横向pdf页面
我无法将两个 PDF 文件与 pyPdf 合并。当我运行以下代码时,水印(page1)看起来不错,但 page2 已顺时针旋转 90 度。
有什么想法吗?
python - Python、pyPdf、Adobe PDF OCR 错误:不支持的过滤器/lzwdecode
我的东西:python 2.6 64 位(安装了 pyPdf-1.13.win32.exe)。翼IDE。视窗 7 64 位。
我收到以下错误:
NotImplementedError:不支持的过滤器/LZWDecode
当我运行以下代码时:
这里有一点背景。该路径充满了pdf。有些是使用 Adobe pdf 打印机从文本文档中保存的(至少我认为他们是这样做的)。有些被扫描为图像。我想将它们和 OCR 分开,那些是图像(非图像是完美的,不应该被弄乱)。
几天前我在这里问过如何做到这一点:
我得到的唯一回应是在 VB 中,我只说 python。所以我想我会尝试为我自己的问题写一个答案。我的策略(反映在上面的代码中)是这样的。如果它只是一个图像,那么该正则表达式将返回一个空列表。如果它有文本,则正则表达式(表示任何具有 2 个或更多字母数字字符的单词)将返回一个填充有 u'word' 之类的内容的列表(在 python 中,我认为这是一个 unicode 字符串)。
所以代码应该可以工作,我们可以迈出第一步,使用开源软件完成其他线程(将 ocrd 与图像 pdf 分开),但我不知道如何处理这个过滤器错误并且谷歌搜索不是有帮助。因此,如果有人知道,那将很有帮助。
我真的不知道如何使用这些东西。我不确定 pyPdf speak 中的 filter 是什么意思。我认为它说它不能真正阅读 pdf 或其他东西,即使它是 ocrd。有趣的是,我将非 ocrd pdf 和 ocrd pdf 之一与 python 文件放在同一个文件夹中,这仅适用于没有 for 循环的那个,所以我不知道为什么要使用创建的 for 循环过滤器错误。我将在下面发布单个代码。谢谢。
它会打印东西,所以我不知道为什么我会在一个而不是另一个上得到过滤器错误。当我对目录中的另一个文件(不是 ocrd 的文件)运行此代码时,输出是一行的空字符串和下一行的空字符串,如下所示:
[]
[]
所以我也不认为这是非 ocrd pdf 的过滤器问题。这就像我的头,我需要一些帮助。
编辑:
谷歌搜索找到了这个,但我不知道该怎么做:
python - Python,pyPdf OCR 错误:pyPdf.utils.PdfReadError:找不到 EOF 标记
pyPdf 抛出此异常:
pyPdf.utils.PdfReadError:找不到 EOF 标记
我不需要修复 pyPdf,我只需要获取 EOF 错误以导致执行“except”块并跳过文件,但它不起作用。它仍然会导致程序停止运行。
背景:
Python、pyPdf、Adobe PDF OCR 错误:不支持的过滤器/lzwdecode
……传奇还在继续。
我在一个文件夹中有 10,000 个 pdf。一些 OCRd,一些没有。无法区分它们。第 1 步是找出哪些不是 OCRd,而 OCR 只是那些(有关详细信息,请参阅其他线程)。
所以我正在使用pyPdf。当我尝试阅读文本时,我得到了一些与无法识别的字符和不受支持的过滤器相关的异常。所以我猜测如果它抛出异常,它会在其中包含一些文本,然后它不会出现在列表中。问题解决了,对吧?像这样:
但后来我得到这个错误:
pyPdf.utils.PdfReadError:找不到 EOF 标记
似乎出现了很多(来自谷歌):
http://pdfposter.origo.ethz.ch/node/31
我认为这意味着 pyPdf 打开了文件,尝试了文本处理,引发了任何异常,做了 except: 块,但现在无法进入下一步 b/c 它不知道文件已经完成.
还有其他类似的线程,他们声称这已经修复,但似乎没有。
然后有人在这里有一个函数,他们首先将EOF字符写入.pdf。
http://code.activestate.com/lists/python-list/589529/
我停留在“pdf.write(“%%EOF”)”行试图模仿这一点,但没有骰子。
那么我如何获得该错误来运行 except 块?我也在使用wing IDE,所以如果有办法使用调试器跳过这些文件,那也是可能的。谢谢。
python - python pdf到文本转换
我想将pdf转换为文本。我在 python 命令提示符下尝试了这段代码,但没有显示任何输出。也许我错了。你能告诉我我哪里错了吗?提前致谢。
python - 如何使用pypdf将字符串插入pdf?
对不起,..我是python中的菜鸟..
我需要创建一个 pdf 文件,而不使用现有的 pdf 文件..(纯粹创建一个新文件)
我有谷歌搜索,其中很多是合并 2 pdf 或从另一个文件中的特定页面创建新文件副本.. .我想要实现的是制作一个报告页面(在图表中),但对于第一步或简单的“如何将字符串插入我的pdf文件?(你好世界mybe)”..
这是我用一个空白页制作一个新的pdf文件的代码
python - 在 Python 中为现有 PDF 创建大纲/TOC
我正在使用 pyPdf 将几个 PDF 文件合并为一个。这很好用,但我还需要在生成的 PDF 文件中添加目录/大纲/书签。
pyPdf 似乎只有对大纲的读取支持。Reportlab 将允许我创建它们,但开源版本不支持加载 PDF 文件,因此无法将大纲添加到现有文件。
有什么方法可以使用 Python 或任何允许的库向现有 PDF 添加大纲?
python - 使用 pyPDF 删除空白页的 Python 脚本
我正在尝试使用 pyPDF 编写几个 python 脚本来将 PDF 页面拆分为六个单独的页面,正确排序它们(通常打印正面和背面,因此每个其他页面都需要对其子页面进行不同的排序),并删除生成的空白页面输出文档的结尾。
我编写了以下脚本来剪切 PDF 页面并重新排序。将每一页分成两列,每列分成三页。我对python不是很有经验,所以请原谅我做的不对。
然后我使用以下脚本删除空白页。
问题似乎是当页面明显被裁剪时,文本绘制命令仍然存在。这些页面都没有被扫描,所以如果它们是空白的,它们就真的是空白的。有没有人对我可以做不同的事情或可能采取完全不同的方法来删除空白页有任何想法?我真的很感激任何帮助。
python - 在 python 中拆分 PDF 文件 - ValueError: int() 以 10 为基数的无效文字:''"
我正在尝试将一个巨大的 pdf 文件拆分为几个小的 pdf,使用 pyPdf。我正在尝试使用这个过于简化的代码:
但我收到以下错误消息:
有任何想法吗???