问题标签 [pypdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 问题

0 投票

2 回答

2248 浏览

python - 是否可以在 Python 中提取带有空格的 pdf？

在创建了使用 java 和 pdfbox 提取 PDF 的工具后，我一直在尝试使用 Python 提取 pdf。

虽然 Java 实现对于同一个 pdf 是成功的，但我一直在努力在 python 中做同样的事情，因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是，pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列，然后逐行读取。

我得到的最接近的是使用堆栈溢出问题的实现，不幸的是它没有保留空格。鉴于我有两个都有数字的变量，我无法以文本形式恢复它们。

鉴于此，是否可以在 Python 中逐行提取带有空格的 pdf？

2013-06-16T04:38:39.070

0 投票

1 回答

1394 浏览

pdf - 尝试提取文本时出现pyPDF2 TypeError

我已经成功安装了pyPDF，但是extractText方法效果不好，所以我决定试试pyPDF2，问题是，提取文本的时候出现异常：

这是我的示例代码：

它正确地确定了 pdf 中的页数，但是在读取流时存在问题。

pdf python-3.x pypdf

2013-06-24T07:45:08.997

0 投票

1 回答

3225 浏览

python - pypdf没有从pdf中提取表格

我正在使用 pypdf 从 pdf 文件中提取文本。问题是 pdf 文件中的表没有被提取。我也尝试过使用 pdfminer，但我遇到了同样的问题。

python pypdf

2013-07-08T09:27:35.640

0 投票

1 回答

732 浏览

python - pypdf 用于 pdf 列表

我已经让 pypdf 对单个 pdf 文件工作得很好，但我似乎无法让它对大量文件工作，或者在多个 pdf 的 for 循环中工作，而不会因为字符串不可调用而失败。有什么想法可以用作解决方法吗？

我正在使用一个列表，但我得到了完全相同的错误，我认为这没什么大不了的，但现在它正在成为一个。我知道我能够在 arcpy 中解决类似的问题，但这还不是很接近

python pypdf pdftotext

2013-07-23T19:03:57.400

0 投票

1 回答

1344 浏览

python - 向pdf添加信息，PyPDF2合并太慢

我想在 pdf 的每一页上都有一个文本。该文本是一个 html 代码，看起来<p style="color: #ff0000">blabla</p>在最终文档上显示为红色，我将其转换为 pdf（html2pdf lib），然后将它（PyPDF2 lib）合并到我的 pdf 的每一页。...但是合并很慢！

我的问题是：有没有比 PyPDF2 的 page.mergePage 方法更快的方法来合并 pdf？（或者也许有更快的方法将我的文本添加到这个 pdf 中？）

谢谢！（在 Windows 8 上使用 python 2.7.5）

python python-2.x pypdf

2013-08-07T14:12:42.047

0 投票

0 回答

663 浏览

javascript - 在 PDF 中嵌入 Javascript 以强制链接在新窗口中打开

我们正在生成显示在我们 Web 应用程序的某些页面上的 PDF。PDF 显示在页面内的 iframe 中。如果用户在安装了 Acrobat 的 Internet Explorer 上单击其中一个 PDF 中的链接，它会将链接加载到 iframe 中，这会破坏用户体验。

我想要完成的是在 PDF 中嵌入 Javascript，以便在 PDF 中单击的任何链接都在新窗口中打开。我尝试在 PDF 中嵌入以下代码：

生成的 PDF 继续在原地打开链接。我正在使用PyPDF2中的实用程序函数将 Javascript 嵌入到 PDF 中。

我还刚刚想到，可能无法在 iframe 内的新窗口中打开 PDF 中的链接。

javascript pdf pdf-generation pypdf

2013-08-07T16:24:59.953

0 投票

1 回答

4353 浏览

python - 从 pdf 中删除一些图像和文本对象

我有一个带有图像和大量文本的 pdf 页面对象。

我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容，然后如果它们满足条件则删除其中的一些。

我怎么能用PyPDF2做到这一点（文档真的很差）？或者是否有另一个允许这样做的库？

谢谢

python pdf pypdf

2013-09-20T09:17:04.410

0 投票

5 回答

3227 浏览

python - 将 PDF 与 python pypdf 合并并删除合并的文件

我正在尝试用python编写一个程序，该程序接受一个PDF文件并首先将任何包含水果名称（芒果，橙子或苹果）的pdf附加到它，然后将带有动物名称的pdf附加到原始文件（斑马、猴子、狗），最后附加任何剩余的 PDF。这是我的代码：

当我运行这个程序时，我得到以下错误：

os.remove(originalFile) WindowsError: [Error 32] The process cannot access the file because it is being used by another process: 'C:/originalFile.pdf'

谁能解释我将文件添加到合并文件后如何关闭文件？

python pdf merge pypdf

2013-09-27T04:18:34.573

0 投票

0 回答

773 浏览

python - pdfminer 在裁剪的 pdf 中提取文本，我不想要隐藏的内容如何提取文本

从裁剪的 pdf 中提取文本。当我尝试使用 python pdfminer 提取文本时，它将出现整个页面。不在种植区。我只需要裁剪区域文本。

让我知道提示。

谢谢，乌梅什

python pypdf

2013-10-01T06:30:24.190

0 投票

1 回答

406 浏览

python - 尝试从 lib 运行示例时出现 pyPDF2 TypeError

从这里获得 pyPDF2 库： https ://github.com/mstamy2/PyPDF2/tree/Python3-3

当尝试从那里运行脚本“示例 1：”时，请查看：

怎么了？

python python-3.x pypdf

2013-10-04T10:28:54.143

1 2 3 4 5 6 7 8 9 10

问题标签 [pypdf]

Reference