问题标签 [poppler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4217 浏览

python - 使用 pdf2cairo 在 Python 中将 PDF 转为 PNG

我一直在寻找一个好的 PDF 2 图像转换器。我需要将 PDF 转换为图像才能使用 Qt 进行打印。我在 Python/Pyside 编程,所以如果我可以使用子进程将 PDF 转换为一系列(PNG)图像,我可以毫无问题地打印它们。

我通过从 Imagemagick 调用 convert.exe 实现了这一点。它工作得很好,但它依赖于 GhostScript,这是一个我想避免的大包,因为它的集成更复杂。

我还尝试了 GhostScript 中的 muPDF,但这似乎没有标准输入和标准输出选项。很遗憾,因为它首先保存了我的文件。用 muPDF 打开它,转换并保存它,然后在我的 Python 应用程序中重新加载它。没有所有这些步骤应该是可能的!

今天我开始尝试使用 Poppler 的 pdf2cairo。我认为它会以这种方式将我的(多页)PDF 转换为一系列图像并将其通过管道传输到标准输出。不幸的是,它没有,我遇到了两个问题:

  • 它抱怨说,当您还使用 -singlepage 参数时,它只能导出到标准输出。如何将所有页面导出到标准输出?
  • 当我导出到标准输出时,我收到错误:'Error opening output file fd://0.png\r\n

将 pdf 从标准输入转换为图像文件完全没有问题。

这是我的代码,它也会触发有关打开输出文件的错误:

我已经下载了预编译的 PDF2Cairo:http ://blog.alivate.com.au/poppler-windows/ pdf2cairo 的命令行选项的文档可以在这里找到:http: //manpages.ubuntu.com/手册页/精确/man1/pdftocairo.1.html

希望你能帮助我完成这项工作!

更新 正如您在下面的答案中看到的那样,pdftocairo 有问题,并且在您想使用标准输出时无法正常工作。pdftoppm 确实有效,它返回的是 PDF 文件的字节对象:

我唯一需要做的就是将字节对象拆分为多个文件。

0 投票
1 回答
4332 浏览

path - 将 Poppler 添加到 Debian 中的路径

我刚刚使用以下命令在我的 debian 服务器上安装了 poppler:

sudo apt-get install poppler-utils

但是,当我执行命令时:

pdftocairo--帮助

找不到该函数,所以我假设这个程序没有自动链接到我的 PATH 变量中。我的问题是我对 Linux 不是很有经验,我不知道如何找出 poppler 的安装位置,也不知道如何从现有的包含 PATH 位置创建指向 Poppler 的链接文件。

任何帮助将不胜感激,特别是如果有人可以解释我如何知道这些程序自己安装在哪里。

0 投票
15 回答
125624 浏览

windows - 如何在 Windows 上安装 Poppler?

ScraperWiki的最新版本依赖于Poppler(或者 GitHub 是这么说的)。不幸的是,它只指定了如何在 macOS 和 Linux 上获取它,而不是 Windows。

快速谷歌搜索没有什么太有希望的。有谁知道如何在 Windows 上为 ScraperWiki 获取 Poppler?

0 投票
2 回答
4386 浏览

jpeg - 为什么 pdftoppm poppler-utils 没有 jpeg 选项?

在 Ubuntu 10.04 上,我安装了 poppler-utils 包以便能够运行 pdftoppm。

我的目标是将 PDF 转换为 jpeg,但是我没有该选项/标志可用。我似乎拥有的唯一光栅化器是 PNG 支持。

有人可以告诉我如何获得 jpeg 支持吗?非常感谢。

(运行后请参阅下面的选项列表:pdftoppm --help):

0 投票
0 回答
165 浏览

html - 将pdf页面分层到多个图像

我想将单页 pdf 转换为多层图像。

例如,pdf2htmlEX 库通过制作单个背景 png 图像并在该图像上放置文本(文本为 unicode),将 pdf 转换为 html。

我想做类似的事情,将背景图像和其他部分分开,但都是图像格式。

我研究了 poppler 库和其他一些解决方案,但找不到任何有用的东西。

其他人希望完成相同操作的 url。

如何从pdf中提取文本层和背景层?

0 投票
5 回答
8237 浏览

pdf - 使用 Ghostscript 或 ImageMagick 从 PDF 中删除/删除所有图像

我想使用任何可能的命令行工具删除/删除 PDF 中的所有图像,只留下 PDF 中的文本/字体。

我尝试-dGraphicsAlphaBits=1在 Ghostscript 命令中使用,但图像存在但像一个大像素。

0 投票
1 回答
582 浏览

c - 使用 Poppler C API 提取 PDF 到文本

我需要从 PDF 文件中提取文本。在 Poppler API 的帮助下,我可以提取该页面中可用的所有文本。即使我可以获取粗体和斜体等字体信息。但我无法获取文本的大小。请让我知道获取文本大小的方法。

谢谢

0 投票
1 回答
5675 浏览

python - 从 PDF 文件中突出显示的注释中提取文本

从昨天开始,我尝试使用 python-poppler-qt4 从一个 pdf 中的一些突出显示的注释中提取文本。

根据这个文档,看起来我必须使用 Page.text() 方法获取文本,从突出显示的注释中传递一个 Rectangle 参数,我使用 Annotation.boundary() 得到。但我只得到空白文本。有人能帮我吗?我在下面复制了我的代码,并为我正在使用的 PDF 添加了一个链接。谢谢你的帮助!

测试pdf: https ://www.dropbox.com/s/10plnj67k9xd1ot/test.pdf

0 投票
0 回答
838 浏览

python - pdfminer/poppler - 如何设置编码

我有一个文件,即http://www.agfl.cs.ru.nl/papers/manual28.pdf (英文)

Pdfminer 和 poppler 在大多数解析页面中显示相同的结果,例如: ¾º¿  ÒÙ Öݸ ¾¼¼ Ⱥ ¾º ÂÙÒ ¸ ¾¼¼ ź Ë ÙØØ Ö¸ Ǻ Ë

它似乎无法读取字体自定义编码。如何指定?

这是代码示例:

0 投票
6 回答
13228 浏览

python - 如何显示已在python中下载的pdf

例如,我从网上抓取了一个 pdf

我想修改此代码以显示它

如何修改该document =行以使用包含 pdf 的变量 pdf?

(如果这样更容易,我不介意使用 popplerqt4 或其他任何东西。)