问题标签 [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 是否可以在 Python 中提取带有空格的 pdf?
在创建了使用 java 和 pdfbox 提取 PDF 的工具后,我一直在尝试使用 Python 提取 pdf。
虽然 Java 实现对于同一个 pdf 是成功的,但我一直在努力在 python 中做同样的事情,因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是,pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列,然后逐行读取。
我得到的最接近的是使用堆栈溢出问题的实现,不幸的是它没有保留空格。鉴于我有两个都有数字的变量,我无法以文本形式恢复它们。
鉴于此,是否可以在 Python 中逐行提取带有空格的 pdf?
pdf - 尝试提取文本时出现pyPDF2 TypeError
我已经成功安装了pyPDF,但是extractText方法效果不好,所以我决定试试pyPDF2,问题是,提取文本的时候出现异常:
这是我的示例代码:
它正确地确定了 pdf 中的页数,但是在读取流时存在问题。
python - pypdf没有从pdf中提取表格
我正在使用 pypdf 从 pdf 文件中提取文本。问题是 pdf 文件中的表没有被提取。我也尝试过使用 pdfminer,但我遇到了同样的问题。
python - pypdf 用于 pdf 列表
我已经让 pypdf 对单个 pdf 文件工作得很好,但我似乎无法让它对大量文件工作,或者在多个 pdf 的 for 循环中工作,而不会因为字符串不可调用而失败。有什么想法可以用作解决方法吗?
我正在使用一个列表,但我得到了完全相同的错误,我认为这没什么大不了的,但现在它正在成为一个。我知道我能够在 arcpy 中解决类似的问题,但这还不是很接近
python - 向pdf添加信息,PyPDF2合并太慢
我想在 pdf 的每一页上都有一个文本。该文本是一个 html 代码,看起来<p style="color: #ff0000">blabla</p>
在最终文档上显示为红色,我将其转换为 pdf(html2pdf lib),然后将它(PyPDF2 lib)合并到我的 pdf 的每一页。...但是合并很慢!
我的问题是:有没有比 PyPDF2 的 page.mergePage 方法更快的方法来合并 pdf?(或者也许有更快的方法将我的文本添加到这个 pdf 中?)
谢谢 !(在 Windows 8 上使用 python 2.7.5)
javascript - 在 PDF 中嵌入 Javascript 以强制链接在新窗口中打开
我们正在生成显示在我们 Web 应用程序的某些页面上的 PDF。PDF 显示在页面内的 iframe 中。如果用户在安装了 Acrobat 的 Internet Explorer 上单击其中一个 PDF 中的链接,它会将链接加载到 iframe 中,这会破坏用户体验。
我想要完成的是在 PDF 中嵌入 Javascript,以便在 PDF 中单击的任何链接都在新窗口中打开。我尝试在 PDF 中嵌入以下代码:
生成的 PDF 继续在原地打开链接。我正在使用PyPDF2中的实用程序函数将 Javascript 嵌入到 PDF 中。
我还刚刚想到,可能无法在 iframe 内的新窗口中打开 PDF 中的链接。
python - 从 pdf 中删除一些图像和文本对象
我有一个带有图像和大量文本的 pdf 页面对象。
我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容,然后如果它们满足条件则删除其中的一些。
我怎么能用PyPDF2做到这一点(文档真的很差)?或者是否有另一个允许这样做的库?
谢谢
python - 将 PDF 与 python pypdf 合并并删除合并的文件
我正在尝试用python编写一个程序,该程序接受一个PDF文件并首先将任何包含水果名称(芒果,橙子或苹果)的pdf附加到它,然后将带有动物名称的pdf附加到原始文件(斑马、猴子、狗),最后附加任何剩余的 PDF。这是我的代码:
当我运行这个程序时,我得到以下错误:
os.remove(originalFile) WindowsError: [Error 32] The process cannot access the file because it is being used by another process: 'C:/originalFile.pdf'
谁能解释我将文件添加到合并文件后如何关闭文件?
python - pdfminer 在裁剪的 pdf 中提取文本,我不想要隐藏的内容如何提取文本
从裁剪的 pdf 中提取文本。当我尝试使用 python pdfminer 提取文本时,它将出现整个页面。不在种植区。我只需要裁剪区域文本。
让我知道提示。
谢谢, 乌梅什