问题标签 [pdftoppm]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

15 问题

0 投票

1 回答

466 浏览

linux - PDF 到 ppm 保存渐进式 jpg

我正在尝试将 PDF 转换为 jpg 图像，但我希望将图像保存为渐进式 jpg。

我pdftoppm用来做这个。这是命令：

$imageExecCommand = 'pdftoppm -jpeg -cropbox -r 100 -f' 。$pageToCopy 。'-l'。$pageToCopy 。' ' 。$本地PDF 。' ' 。服务器根目录。'/文件/' 。$哈希;

如何使 jpeg 渐进式？

2014-01-07T15:07:37.457

0 投票

1 回答

1262 浏览

python - pdftoppm“无显示字体”错误

我正在使用 pdftoppm 从 pdf 文件中提取页面，因此以后可以使用 ImageMagick 将生成的 pbm 文件转换为多页 tiff。我已经使用以下代码使其工作：

但是，对于每个项目，即使我有 -q 标志来防止它们被写入输出，我也会不断收到这些错误：

错误：“符号”没有显示字体

错误：“Zapf Dingbats”没有显示字体

这是程序的已知错误，还是我应该采取其他措施来防止打印这些错误，因为它们会减慢我的程序速度？

python python-2.7 windows-7 xpdf pdftoppm

2014-06-09T19:53:32.630

0 投票

1 回答

1134 浏览

php - 在php中使用pdftoppm将pdf转换为图像而不在磁盘上写入文件

我需要在php中将pdf转换为png。由于质量原因，我们不想使用 Imagemagick，但更喜欢使用 pdftoppm。

为了性能，我们不喜欢使用文件系统，而是使用内存。

pdftoppm 已正确安装在 Ubuntu 上并且可以正常工作。

对于另一个项目（html -> pdf），我们使用以下代码：

这很完美！

但是如果我使用这段代码对 pdftoppm 做同样的事情，它不起作用，我做错了什么？

预先感谢您的提示和建议对不起我的英语不好..

php linux pdf pipe pdftoppm

2016-05-06T11:53:59.460

0 投票

0 回答

57 浏览

r - 在 R 中将 .pdf 文件转换为 .ppm 时出错

我正在尝试在 pdf 上应用 OCR 以提取我正在关注这篇文章的文本，为此我需要首先将 pdf 文件转换为 ppm 格式，因为我们不能直接在 pdf 文件上应用 OCR。但是第一步本身并没有发生那么我如何将 pdf 转换为 ppm 以便对 pdf 文件进行 OCR。这是我的一篇文章，我在第一步本身遇到错误。任何建议都会有所帮助。谢谢。

r pdf imagemagick ocr pdftoppm

2017-09-21T05:51:01.150

0 投票

2 回答

1179 浏览

pdf - pdftoppm 无法创建输出

我正在从命令提示符运行 pdftoppm，但它无法创建任何输出。

这是我的输入

这是我在关联的“测试”目录中拥有的文件

这是我的命令的输出

没有抛出错误消息，也没有文件写入 c:\test 文件夹。我认为 pdftoppm.exe 会写入调用它的同一个文件夹。我错了，还是没有输出被写入？如果是这种情况，我如何让它产生一些输出。

pdf ocr pdftoppm

2017-10-11T22:01:52.903

0 投票

1 回答

663 浏览

ubuntu-16.04 - pdftoppm 只转换 pdf 的第一页

我需要将 pdf 转换为 pgm，并且当我运行（示例）命令时

我将 pdf 的第一页作为输出。即使我清楚地将第一页指定为第 5 页。我没有指定 -singlefile 参数，这可能会导致这种情况。即使我指定一个页面，比如

，第一页被转换。任何指针？

ubuntu-16.04 xpdf pdftoppm

2018-03-17T05:38:43.480

0 投票

1 回答

135 浏览

bash - bash 循环中的错误文件名

意图

我正在尝试遍历一个目录并将所有 9000 个左右的 pdf 文件转换为 png

问题

该循环仅适用于大约 500 个案例。当我在一些未转换的 pdf 文件上手动调用 pdftoppm 时，它可以工作。

例如，一个在循环中不起作用的文件是w7hnp - FOO BAR 8-18-12 NOT FINAL DOC.pdf. 当我使用制表符完成手动调用pdftoppm文件名时，包括转义字符：w7hnp\ -\ FOO\ BAR\ 8-18-12\ NOT\ FINAL\ DOC.pdf并且该命令工作正常。

有没有办法确保正确逃脱空间？

我需要保留文件名以与数据库中的其他信息匹配，因此除非我可以创建具有新旧名称的字典，否则重命名将不起作用。

bash pdftoppm

2018-10-18T20:49:24.207

0 投票

1 回答

290 浏览

python - subprocess.run 简单场景失败

我正在尝试运行 python subprocess.run 函数来执行以下命令：

pdftoppm - 是 poppler 实用程序的一部分，它从 pdf 文件生成图像。

文件 data/andromeda.pdf 存在。文件夹数据与 python 脚本和/或我运行命令的位置相同。命令基本上会从给定的and-page-1.jpeg格式（所谓的ppmtroot）文件的第1页（-f 1）200px宽（-scale-to）生成一个jpeg文件。

长话短说：从命令行它按预期工作，即如果我从 zsh 或 bash shell 手动调用上述命令 - 它会按预期生成缩略图。但是，如果我从 python 子进程模块运行它 - 它会失败它返回 99 错误代码！

以下是python代码（文件名为sc_02_thumbnails.py）：

这里是包含 data/andromeda.pdf 文件的 repo 。我用 as（来自 zsh）调用我的脚本：

并且...缩略图生成失败！我已经尝试从 zsh 和 bash shell 执行 python 脚本 :( 我做错了什么？

python python-3.x subprocess pdftoppm

2018-12-05T09:10:14.397

0 投票

1 回答

753 浏览

ghostscript - 如何在没有字体丢失的情况下将 PDF 转换为图像？

我已经阅读了大量关于从 PDF 转换（使用 ghostscript）到图像时字体问题的 stackoverflow 问题。

因为您没有嵌入字体，ghostscript 试图在您的系统中找到替代品并呈现更好的可能。

但我不明白为什么我的 MacOSX Preview 可以完美地呈现 PDF 而 ghostscript 不能。

我什至告诉 gs 字体在哪里。

这是输出。

问题是：为什么 MacOSX Preview 没有这个问题？它从哪里获取字体，以完美呈现？

ghostscript imagemagick-convert pdftoppm

2019-02-25T06:56:40.000

0 投票

1 回答

608 浏览

python - 已解决：Python 多处理 imap BrokenPipeError: [Errno 32] Broken pipe pdftoppm

首先让我说这不是其他类似问题的重复，在这些问题中人们倾向于更密切地管理工人群体。

在使用 multiprocessing.Pool.imap 时，我一直在努力解决我的代码引发的以下异常：

这在执行以下主程序时出现在各个点：

仅供参考，部分函数采用非 OCR PDF 文件，将它们拆分为每个页面的图像，并使用 pytesseract 运行 OCR。

我在以下机器上运行代码：

也许我应该降低块大小？我真的不清楚。我注意到当服务器上可用的工作人员较少时，代码似乎工作得更好......

python python-multiprocessing python-tesseract pdftoppm

2019-12-05T21:07:59.333

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftoppm]

意图

问题

Reference