问题标签 [poppler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pdf2cairo 在 Python 中将 PDF 转为 PNG
我一直在寻找一个好的 PDF 2 图像转换器。我需要将 PDF 转换为图像才能使用 Qt 进行打印。我在 Python/Pyside 编程,所以如果我可以使用子进程将 PDF 转换为一系列(PNG)图像,我可以毫无问题地打印它们。
我通过从 Imagemagick 调用 convert.exe 实现了这一点。它工作得很好,但它依赖于 GhostScript,这是一个我想避免的大包,因为它的集成更复杂。
我还尝试了 GhostScript 中的 muPDF,但这似乎没有标准输入和标准输出选项。很遗憾,因为它首先保存了我的文件。用 muPDF 打开它,转换并保存它,然后在我的 Python 应用程序中重新加载它。没有所有这些步骤应该是可能的!
今天我开始尝试使用 Poppler 的 pdf2cairo。我认为它会以这种方式将我的(多页)PDF 转换为一系列图像并将其通过管道传输到标准输出。不幸的是,它没有,我遇到了两个问题:
- 它抱怨说,当您还使用 -singlepage 参数时,它只能导出到标准输出。如何将所有页面导出到标准输出?
- 当我导出到标准输出时,我收到错误:
'Error opening output file fd://0.png\r\n
将 pdf 从标准输入转换为图像文件完全没有问题。
这是我的代码,它也会触发有关打开输出文件的错误:
我已经下载了预编译的 PDF2Cairo:http ://blog.alivate.com.au/poppler-windows/ pdf2cairo 的命令行选项的文档可以在这里找到:http: //manpages.ubuntu.com/手册页/精确/man1/pdftocairo.1.html
希望你能帮助我完成这项工作!
更新 正如您在下面的答案中看到的那样,pdftocairo 有问题,并且在您想使用标准输出时无法正常工作。pdftoppm 确实有效,它返回的是 PDF 文件的字节对象:
我唯一需要做的就是将字节对象拆分为多个文件。
path - 将 Poppler 添加到 Debian 中的路径
我刚刚使用以下命令在我的 debian 服务器上安装了 poppler:
sudo apt-get install poppler-utils
但是,当我执行命令时:
pdftocairo--帮助
找不到该函数,所以我假设这个程序没有自动链接到我的 PATH 变量中。我的问题是我对 Linux 不是很有经验,我不知道如何找出 poppler 的安装位置,也不知道如何从现有的包含 PATH 位置创建指向 Poppler 的链接文件。
任何帮助将不胜感激,特别是如果有人可以解释我如何知道这些程序自己安装在哪里。
windows - 如何在 Windows 上安装 Poppler?
ScraperWiki的最新版本依赖于Poppler(或者 GitHub 是这么说的)。不幸的是,它只指定了如何在 macOS 和 Linux 上获取它,而不是 Windows。
快速谷歌搜索没有什么太有希望的。有谁知道如何在 Windows 上为 ScraperWiki 获取 Poppler?
jpeg - 为什么 pdftoppm poppler-utils 没有 jpeg 选项?
在 Ubuntu 10.04 上,我安装了 poppler-utils 包以便能够运行 pdftoppm。
我的目标是将 PDF 转换为 jpeg,但是我没有该选项/标志可用。我似乎拥有的唯一光栅化器是 PNG 支持。
有人可以告诉我如何获得 jpeg 支持吗?非常感谢。
(运行后请参阅下面的选项列表:pdftoppm --help):
html - 将pdf页面分层到多个图像
我想将单页 pdf 转换为多层图像。
例如,pdf2htmlEX 库通过制作单个背景 png 图像并在该图像上放置文本(文本为 unicode),将 pdf 转换为 html。
我想做类似的事情,将背景图像和其他部分分开,但都是图像格式。
我研究了 poppler 库和其他一些解决方案,但找不到任何有用的东西。
其他人希望完成相同操作的 url。
pdf - 使用 Ghostscript 或 ImageMagick 从 PDF 中删除/删除所有图像
我想使用任何可能的命令行工具删除/删除 PDF 中的所有图像,只留下 PDF 中的文本/字体。
我尝试-dGraphicsAlphaBits=1
在 Ghostscript 命令中使用,但图像存在但像一个大像素。
c - 使用 Poppler C API 提取 PDF 到文本
我需要从 PDF 文件中提取文本。在 Poppler API 的帮助下,我可以提取该页面中可用的所有文本。即使我可以获取粗体和斜体等字体信息。但我无法获取文本的大小。请让我知道获取文本大小的方法。
谢谢
python - 从 PDF 文件中突出显示的注释中提取文本
从昨天开始,我尝试使用 python-poppler-qt4 从一个 pdf 中的一些突出显示的注释中提取文本。
根据这个文档,看起来我必须使用 Page.text() 方法获取文本,从突出显示的注释中传递一个 Rectangle 参数,我使用 Annotation.boundary() 得到。但我只得到空白文本。有人能帮我吗?我在下面复制了我的代码,并为我正在使用的 PDF 添加了一个链接。谢谢你的帮助!
python - pdfminer/poppler - 如何设置编码
我有一个文件,即http://www.agfl.cs.ru.nl/papers/manual28.pdf (英文)
Pdfminer 和 poppler 在大多数解析页面中显示相同的结果,例如:
¾º¿  ÒÙ Öݸ ¾¼¼ Ⱥ ¾º ÂÙÒ ¸ ¾¼¼ ź Ë ÙØØ Ö¸ Ǻ Ë
它似乎无法读取字体自定义编码。如何指定?
这是代码示例:
python - 如何显示已在python中下载的pdf
例如,我从网上抓取了一个 pdf
我想修改此代码以显示它
如何修改该document =
行以使用包含 pdf 的变量 pdf?
(如果这样更容易,我不介意使用 popplerqt4 或其他任何东西。)